Google I/O 2024: Lo más destacado de la conferencia

Esto fue lo mejor de la conferencia de desarrolladores de Google, en su edición anual. Veamos qué anunciaron.

Tras su evento anual de desarrollo, el gigante de Mountain View anunció algunas de las cosas en la que está trabajando para este año y sus actualizaciones más esperadas. Si te lo perdiste o solo quieres repasar, aquí te dejamos un resumen de lo más destacado en la “Google I/O 2024”.

Sí, más Inteligencia Artificial

La inteligencia artificial (IA) no deja de ser protagonista, Google presentó una nueva versión de Gemini, la segunda generación de Gemma, nuevas funciones de búsqueda basadas en IA y Project Astra, un asistente virtual multimodal que competirá en directo con el GPT-4o de OpenAI.

Un Gemini más ligero

Google presentó Gemini 1.5 Flash. Se trata de un modelo más ligero, rápido y eficiente que está optimizado para realizar tareas a gran volumen y de alta frecuencia a escala. La compañía promete que se trata del producto más rentable de su portafolio al estar habilitado con una ventana extendida de contexto.

La nueva propuesta es más ligera que Gemini 1.5 Pro. Es capaz de procesar grandes cantidades de información y realizar “razonamiento multimodal”. Es especialmente útil para realizar resúmenes, mejorar la experiencia en aplicaciones de chat, extraer datos de tablas y documentos, generar imágenes y editar vídeos con intervenciones simples, como la incorporación de subtítulos.

La variante 1.5 Flash fue entrenada con base en las capacidades de Gemini 1.5 Pro mediante un proceso conocido como destilación. El mecanismo transfiere los conocimientos y habilidades más esenciales de un modelo de IA más complejo a uno más pequeño y eficiente.

Gemini 1.5 Pro mejora su rendimiento

La variante fue anunciada a principios de este año con una ventana de contexto de extendida de 1 millón de tokens. La capacidad de procesamiento de información del algoritmo se incrementó a 2 millones de tokens.

El sistema de IA ahora puede responder a solicitudes más complejas con matices en formato y estilo. Los usuarios tendrán la capacidad de ajustar el comportamiento y personalidad de los asistentes digitales basados en el modelo.

El equipo de Google perfeccionó el código, el razonamiento lógico y de planificación y la función de conversación de varios turnos. Los ajustes se traducen en una mejora considerable en la comprensión del lenguaje natural, la entrega de resultados más relevantes basadas en contexto y mayor fluidez en las conversaciones que el modelo mantiene con los usuarios.

La capacidad de comprensión de audio e imagen fue optimizada en Gemini 1.5 Pro. El recurso puede ofrecer experiencias más completas y precisas al combinar texto, audio e imágenes. La gama de usos prácticos se ha extendido. El sistema se ha integrado en los productos y aplicaciones productivas de Google, incluidas YouTube, Maps y Gmail.

Gemma 2 está aquí

Google anunció la segunda generación de su familia de modelos de lenguaje de código abierto. Gemma 2 se alza con una nueva arquitectura diseñada para un rendimiento y eficiencia optimizados. La serie estará disponible en nuevos tamaños para amplificar sus casos de uso.

La familia Gemma se está expandiendo con PaliGemma, el primer modelo de visión y lenguaje de la empresa inspirado en PaLI-3. El kit de herramientas de desarrollo de IA generativa de Google se actualizó con LLM Comparator, una herramienta de análisis visual que permite a los usuarios evaluar el rendimiento del modelo en función de sus respuestas y en distintos escenarios.

Project Astra en Desarollo

El equipo de Google trabaja en Project Astra, una iniciativa que tiene como objetivo desarrollar asistentes digitales basados en IA capaces de comprender y responder al mundo “tal y como lo hacen las personas”.

“Hemos trabajado para mejorar la forma en que nuestros modelos perciben, razonan y conversan y en optimizar el ritmo y calidad de las interacciones para hacerlas más naturales”, dijo Demis Hassabis, CEO de Google DeepMind.

El siguiente paso es mejorar los tiempos de respuesta, conseguir que los algoritmos “recuerden” lo que ven y escuchan y mejorar su comprensión del contexto.

La intención es diseñar agentes de servicio virtuales de IA que sean proactivos, didácticos y personales. Los ingenieros de la empresa californiana mostraron un avance de sus desarrollos al respecto. Las soluciones se construyeron sobre la plataforma de Gemini y “otros modelos de tareas específicas”. Se espera que se integren en algunos de los productos de Google a finales de este año.

3 nuevos modelos que quieren revolucionar la producción audiovisual

Google anunció tres nuevos modelos de IA que pretenden acelerar y optimizar los flujos de trabajo en las tareas de producción audiovisual. Veo es un sistema de generación de video que, mediante indicaciones de texto, puede producir materiales de más de un minuto con una resolución de 1080 píxeles. Será un producto que competirá directamente con Sora, de OpenAI.

Image 3 es ahora el sistema de texto a imagen más robusto de Google. Es capaz de comprender la intención de cada indicación de texto que recibe y extraer detalles de las interacciones pasadas con el usuario. Estas características le permite crear imágenes más realistas, con menos elementos innecesarios en comparación con sus antecesores.

Music AI Sandbox una herramienta de generación de música, desarrollada en colaboración con algunos artistas populares.

Google Search gana mejores funciones de IA

La función AI Overview ahora está disponible para todos los usuarios de Estados Unidos. La herramienta entrega descripciones generadas a búsquedas sobre temas particulares. Los sistemas de IA entregan un resumen con enlaces a sitios relacionados para que los usuarios consulten fuentes específicas sobre el tema.

El buscador de Google está introduciendo una nueva función que permitirá a los usuarios ajustar el nivel de complejidad de resultados generados con IA. Los interesados podrán elegir entre un lenguaje más sencillo o uno más sofisticado en función de su conocimiento sobre el tema. El recurso llegará a Search Labs para consultas en inglés en Estados Unidos.

El motor de búsquedas online de la empresa ganó soporte para consultas en video. Los usuarios podrán capturar un contenido audiovisual, introducirlo en la barra de búsquedas de Google y añadir una breve descripción que indique la información esperan recibir.

Android 15

No solo se habló de IA por parte de Google, también nos dieron a conocer el lanzamiento de Android 15 Beta 2.

Esta versión final de Android 15 no tiene fecha de lanzamiento exacta, pero se espera que sea en los últimos meses del año. Para esta, se espera una integración completa de la Inteligencia Artificial en distintos escenarios para agilizar tiempo en tareas e impulsar nuevos procesos.

También se esperan actualizaciones en la cámara, funciones de conexión vía satélite y el uso de NTC para pagos.

La beta está disponible para los Google Pixel, desde el Pixel 6 en adelante. Si tienes alguno de estos dispositivos, puedes descargarla en el siguiente link.

Gemini Live

La app de Gemini va a mejorar introduciendo Gemini Live. Con Live, será posible llevar a cabo conversaciones usando lenguaje natural, incluso interrumpiendo al asistente mientras responde a nuestras consultas.

También se va a añadir soporte para visualización en tiempo real de lo que sucede a nuestro alrededor gracias a la cámara del dispositivo.

Curiosidades: Google compartió el guión de la conferencia con Gemini, para contar cuántas veces se repetía "AI" a lo largo de la presentación. ¿La cifra final?: 121 veces.

🚀

Recibe actualizaciones de la industria en tiempo real uniéndote a nuestro canal de Telegram.

por

Sheroll Agelviz

Actualizado el may. 15, 2024