Press "Enter" to skip to content

Google reconoce que los vdeos de Gemini, su nueva IA, estaban editados

La versin Ultra del nuevo modelo largo de lenguaje (LLM) no responde tan rpido ni reacciona en tiempo real a la imagen de un vdeo como daba a comprender el material proporcionado por Google

El puente de la baha de la ciudad de San Francisco visto desde las oficinas de Google en la ciudad de San Francisco.Jeff ChiuAP
  • Pixel Google revoluciona la carrera empresarial por la IA y lanza Gemini, un modelo que promete superar a ChatGPT… y a los humanos
  • IA Esto es lo que diferencia a Gemini de ChatGPT

La semana pasada Google anunci Gemini, una nueva inteligencia artificial multimodal que, segn la compaa, supera a su contendiente directo (GPT-cuatro de OpenAI) en muchas labores y pruebas.

Gemini est libre en 3 versiones. Una muy bsica para dispositivos mviles, Gemini Nano; otra ms avanzada, Gemini Pro, y que será equivalente a GPT-treinta y cinco, el motor de lenguaje que usa la famosa herramienta ChatGPT en su versin gratuita; y por último Gemini Ultra, que es la versin ms compleja y avanzada y que llegar en dos mil veinticuatro.

Gemini Nano ya ha llegado a los telfonos Pixel ocho y Gemini Pro est marchando en Bard, la opción alternativa de Google a ChatGPT mas para probar las capacidades de Gemini Ultra, Google mostr múltiples vdeos resaltando sus capacidades multimodales (la capacidad de comprender una combinacin de texto, lenguaje hablado o imgenes y vdeo).

Los vdeos son sinceramente sorprendentes, probando que Gemini es capaz de comprender inconvenientes complejos que precisan de avanzadas capacidades de visin artificial para ser entendidos y habilidades de lgica para ser resueltos. No obstante, y como muchos especialistas en inteligencia artificial sospecharon de manera inmediata, han sido editados.

En uno de los vdeos, Gemini semeja reaccionar a un dibujo que se hace en tiempo real de un pato. Conforme la persona dibuja, va explicando lo que ve, lo que piensa que puede ser y, cuando est segura de que se trata de un pato, aade ms contexto e informacin a la escena.

Pero el vdeo no se grab en tiempo real y si bien Google asegura que las contestaciones son autnticas, se produjeron despus de presentar a Gemini una imagen esttica y preguntarle a través de texto su impresin de la escena.

Las contestaciones de Gemini tampoco son tan inmediatas. «La latencia se ha reducido y las respuestas de Gemini se han acortado por brevedad», explica Google en la descripcin de los vdeos. En una publicacin en la web destinada a desarrolladores, la compaa ahonda en las preguntas e imgenes precisas que se emplearon para crear el vdeo final.

La decisin de editar el vdeo ha sido criticada por muchos especialistas y entusiastas de la inteligencia artificial. Piensan que, en su afn por presentar Gemini Ultra como un producto ms atrayente, Google est enturbiando una discusin esencial sobre las capacidades reales del modelo de lenguaje, que segn las pruebas efectuadas suponen verdaderamente un salto importante en el campo de la inteligencia artificial.

Gemini, al fin y al postre, semeja ser el primer modelo largo de lenguaje que ha superado a los humanos en la batera de pruebas MMLU, que incluye una extensa gama de preguntas complejas sobre temas que incluyen falacias lgicas, inconvenientes morales, mdicos, de economa, fsica o geografa. Es un avance sorprendente, indudablemente, mas no tan sorprendente como da a comprender el vdeo.