Press "Enter" to skip to content

Esto es lo que diferencia a Gemini de ChatGPT

Google presume de tener un modelo de lenguaje superior y capaz de razonar como un humano, pero para sus funciones ms avanzadas habr que esperar a 2024

El CEO de Alphabet, Sundar Pichai, en la presentaci
El CEO de Alphabet, Sundar Pichai, en la presentacin de Gemini.AP

Hace un ao la compaa OpenAI sorprendi al mundo entero con el lanzamiento de ChatGPT, una inteligencia artificial conversacional capaz de dar respuestas casi indistinguibles de las que dara una persona y con una sorprendente habilidad para generar textos, cdigo informtico o resumir informacin.

De la noche a la maana se convirti en una herramienta increblemente popular, con ms de 180 millones de usuarios activos y que, en cierta forma, se ha posicionado como el referente de una nueva era dentro de la industria tecnolgica, el epicentro de un terremoto que amenaza con cambiar la sociedad.

Con Gemini, Google tiene ahora la posibilidad de competir cara a cara con este tipo de servicios, aunque lo primero que hay que precisar es que no se puede establecer una comparacin directa entre Gemini y ChatGPT.

Gemini es un modelo de lenguaje y ChatGPT una aplicacin conversacional creada sobre otro modelo de lenguaje, GPT-4 o GPT-3.5 dependiendo de la versin de ChatGPT que se considere (de pago o gratuita, respectivamente). En el caso de Google, el equivalente de ChatGPT es Bard, que hasta ahora usaba el modelo de lenguaje PaLM pero que desde hoy, para consultas en ingls, ya opera con una versin adaptada de Gemini.

Hay que pensar en estos modelos de lenguaje como el «motor» de estas aplicaciones, que no son ms que una interfaz para poder conversar con ellos. Los modelos de lenguaje se pueden usar en otros tipos de aplicaciones que no tienen necesariamente por qu tener esta interfaz conversacional y tanto Google como OpenAI ofrecen estos modelos bajo suscripcin a empresas y desarrolladores.

Gemini tendr tres versiones diferentes: Ultra, Pro y Nano. La primera es la ms avanzada y multimodal (puede entender cuestiones presentadas con una mezcla de imgenes, vdeos, texto o voz) pero no estar disponible hasta 2024. Google, en cualquier caso, ha mostrado vdeos de su funcionamiento.

La segunda es ms limitada pero es la que se puede probar ya en la versin en ingls de Bard. Es equivalente a GPT-3.5 en capacidad y funciones. Nano, finalmente, es un modelo pensado para dispositivos con menor capacidad de computacin y memoria, como un telfono.

Las comparaciones que Google ha hecho en el anuncio de Gemini son fundamentalmente entre Gemini Ultra y GPT4. Dado que ambos son modelos multimodales, la forma ms directa de compararlos es usar

bateras de pruebas y exmenes con preguntas de lgica, ciencia o compresin lectora o auditiva. En 30 de las 32 realizadas, Gemini super a GPT-4.

Tal vez lo ms destacable es que en una de ellas, conocida como MMMU multimodal reasoning benchmark (un conjunto de 11.500 preguntas de nivel universitario con ms de 57 disciplinas, como fsica o matemticas) Gemini logr acertar correctamente nueve de cada 10 preguntas, un 5% ms que GPT-4 y por encima tambin de la media humana.

Pero fuera de estas bateras de pruebas es difcil hacer comparaciones directas sin poder acceder an a la versin Ultra de Gemini. Jeff Dean, cientfico jefe de Google DeepMind, una de las divisiones que ha participado en el desarrollo de Gemini, adelantaba no obstante algunos datos especficos.

Gemini puede soportar un contexto de unas 32.000 tokens en las preguntas (aunque no es una equivalencia directa, esto se puede simplificar como que puede entender preguntas con un contexto de 32.000 palabras). Es la misma cantidad de GPT-4, pero OpenAi anunci recientemente una versin de GOT4, GPT4 Turbo, que multiplica por cuatro esa capacidad.

Ambos modelos de lenguaje estn construidos sobre la misma tecnologa -que, curiosamente, est desarrollada principalmente por Google, aunque es de dominio abierto- pero los resultados dependen sobre todo del entrenamiento al que se han sometido, que es la forma en la que los modelos aprenden a razonar y articular sus respuestas y que consiste bsicamente, en un complejo anlisis estadstico de millones de textos, imgenes y vdeos.

GPT-4, por ejemplo, est entrenado con un corpus de ms de 13 billones de tokens (de nuevo, se puede hacer una equivalencia aproximada entre un token y una palabra, aunque no es una comparacin exacta). Se trata de documentos, obras, imgenes vdeos y mensajes obtenidos de varias fuentes.

Google no ha revelado el tamao del conjunto de datos utilizado para entrenar a gemini, pero asegura que ha utilizado un enfoque novedoso centrado en las capacidad multimodal de Gemini que lo hace mucho ms efectivo a la hora de considerar cuestiones que mezclen imgenes, por ejemplo, con texto, como un problema de fsica presentado junto a un diagrama. En unos meses se sabr si esta nueva estrategia realmente es una ventaja frente a su rival directo.