Google I/O, el evento para desarrolladores, estuvo repleto de anuncios relacionados con la Inteligencia Artificial (IA). Como era de esperar, el evento se centró en gran medida en los modelos de IA Gemini de Google, junto con las formas en que se están integrando en aplicaciones como Workspace y Chrome.
Si te perdiste el evento en vivo, puedes ponerte al día con las más recientes novedades de Google en el resumen que te compartimos a continuación.
IA de Géminis
Google está completamente en su ‘era Géminis’, según el director ejecutivo Sundar Pichai, por lo que se espera ver a la IA tocando cada parte de los anuncios de este año.
Pichai dijo que más de 1,5 millones de desarrolladores utilizan el modelo de IA anteriormente conocido como Bard, y Gemini está disponible para más de 2 mil millones de usuarios en Android.
Gemini también se agregará a Google Photos, agregando capacidades de búsqueda adicionales a través de la función Ask Photos. Pregúntale ‘cuál es mi matrícula de nuevo’ y buscará en tus fotos para encontrar la respuesta más probable, evitando que tengas que mirar manualmente tus fotos para encontrarla tú mismo.
Por otra parte, Notebook LM, destacado en el Google I/O del año pasado, también tendrá Gemini introducido, llevando su IA a niveles aún más altos. Durante la presentación, se nos mostró que se le pedía que desglosara la ciencia utilizando el baloncesto como ejemplo.
Pichai señaló que Gemini 1.5 Pro estará disponible para todos los desarrolladores y usuarios avanzados a partir de hoy, en más de 35 idiomas.
Los agentes de IA
Gemini no es solo para hacer preguntas, y Google está trabajando arduamente para llevarlo más allá de ser simplemente un motor de búsqueda más agradable. Los agentes son una gran parte de eso, y algo con lo que Google está experimentando. La idea central de Agents es usar la IA para, bueno, hacer cosas por ti.
Proyecto Astra
Esto vincula a Géminis con las cámaras y le permite comprender e interpretar el mundo que lo rodea. En la demostración, Astra fue capaz de identificar un altavoz, desglosar qué parte del altavoz hacía ruidos, leer el código y explicarlo.
Project Astra puede interactuar con el mundo que lo rodea. Puede captar información, recordar lo que ve, procesar datos y comprender detalles contextuales.
Además. puede procesar información rápidamente. Utiliza una combinación de video y voz para crear una línea de tiempo de eventos y almacena información para su posterior recuperación.
Modelos de IA generativa para la creatividad
Veo
- Veo es un modelo avanzado de generación de vídeo desarrollado por Google. Puede crear vídeos en alta definición (1080p) que duran más de un minuto.
- Funciona a partir de prompts de texto proporcionados por el usuario. Estas instrucciones en texto guían la creación del vídeo.
- Veo ofrece una variedad de estilos visuales para adaptarse a diferentes preferencias creativas.
- Google ha confirmado que los vídeos generados con Veo tendrán una marca de agua imperceptible al ojo humano para identificar que fueron creados por IA.
- Actualmente, está disponible para un grupo limitado de usuarios de VideoFX, y en el futuro, Google planea integrar Veo en YouTube Shorts y otros productos similares.
Imagen 3
- Imagen 3 es el nuevo modelo de generación de imágenes a partir de prompts de texto.
- A diferencia de otras herramientas similares, Imagen 3 se lleva muy bien con el texto. Puede generar imágenes con un alto nivel de detalle.
- Si deseas incluir fragmentos de texto o palabras sueltas en las imágenes, Imagen 3 obtiene buenos resultados.
- En la presentación, Google mostró varias imágenes generadas con Imagen 3, demostrando su capacidad
Marcas de agua digitales de Google
Todos los videos realizados por el nuevo modelo Veo de la compañía en la aplicación VideoFX tendrán marcas de agua digitales gracias al sistema SynthID de Google.
SynthID es el sistema de marca de agua digital de Google que comenzó a implementarse en imágenes generadas por IA el año pasado.
La tecnología incorpora marcas de agua imperceptibles en el contenido creado por IA para que las herramientas de detección de IA puedan reconocer que el contenido fue generado por IA.
Durante una sesión informativa con periodistas, el CEO de DeepMind, Demis Hassabis, dijo que las marcas de agua de SynthID también se expandirían al texto generado por IA.
Géminis y el espacio de trabajo
Gemini ha estado disponible en el espacio de trabajo de Google desde hace un tiempo, y Google está listo para llevarlo al siguiente nivel. El panel lateral con motor Gemini estará disponible el próximo mes. Géminis también llegará a Meet en más idiomas.
Gmail está listo para aún más IA. Ahora, puedes pedirle que resuma la información de la escuela de tu hijo, o simplemente resumir los correos electrónicos largos para que tú no tengas que hacerlo. Escribe una pregunta o un mensaje, y Géminis podrá responderlo por ti, o realizar una acción.
Por ejemplo, podrá reunir presupuestos separados para trabajos de construcción y traerlos a una lista para usted. Las respuestas inteligentes también se actualizan con las respuestas inteligentes contextuales. Estas capacidades se implementarán para los usuarios de Workspace Labs.
IA en Android
Gemini podrá comprender contextualmente el contenido de tu pantalla, lo que incluye poder descifrar resúmenes de videos de YouTube, crear imágenes para respuestas y responder cualquier pregunta que puedas tener, sin tener que salir de la pantalla que estás mirando.
La accesibilidad es una característica clave que ofrece la IA. La función Talkback existe desde hace tiempo, pero ahora, gracias a Gemini, las imágenes se pueden describir en profundidad y en detalle, lo que brinda a las personas con problemas de visión una forma más fácil de usar sus teléfonos.
Gemini también podrá ayudar a lidiar con las llamadas de spam y estafas. Gemini escuchará tus llamadas y te dará una advertencia cuando detecte actividad sospechosa, y dado que todo está en el dispositivo, la información no saldrá de tu teléfono. Sin embargo, esta función aún se está ajustando y no estará disponible por un tiempo.