Llama 3.2: Meta lanza su primer modelo de IA que puede procesar imágenes

Meta lanzó Llama 3.2, su primer modelo de visión multimodal que puede entender tanto imágenes como texto. Durante el Meta Connect 2024, la compañía mostró la nueva competencia para otras compañías de Inteligencia Artificial (IA) como Anthropic y OpenAI.

Llama 3.2 podría permitir a los desarrolladores crear aplicaciones de IA más avanzadas, como aplicaciones de realidad aumentada que brindan comprensión en tiempo real del video, motores de búsqueda visual que clasifican imágenes en función del contenido o análisis de documentos que resumen largos fragmentos de texto.

De acuerdo con Meta, va a ser fácil para los desarrolladores poner en marcha el nuevo modelo. Los desarrolladores tendrán que hacer poco más que añadir esta ‘nueva multimodalidad y ser capaces de mostrar imágenes de llama y hacer que se comunique’, dijo Ahmad Al-Dahle, vicepresidente de IA generativa de Meta al sitio web The Verge.

Meta ha puesto a disposición la descarga de sus modelos en llama.com y Hugging Face, lo que permite a los desarrolladores trabajar con ellos en una amplia variedad de entornos, desde on-prem (servidores locales) hasta la nube.

¿Qué trae de nuevo Llama 3.2?

El nuevo Llama 3.2 no es cualquier modelo de lenguaje, es una herramienta con modelos más pequeños y medianos que van desde 11 mil millones (11B) hasta 90 mil millones (90B) de parámetros.

Según Meta, destaca su capacidad para entender imágenes, una función clave que le permite captar gráficos, tablas y hasta identificar objetos a partir de descripciones en lenguaje natural.

Pongamos un ejemplo práctico: imagina que tienes un gráfico de ventas de tu empresa y te preguntas en qué mes obtuviste mejores resultados. Con Llama 3.2, podrías preguntarle directamente y el modelo analizaría el gráfico, identificando el mes con mayor rendimiento. Además, también es capaz de generar descripciones de imágenes, lo que puede ser increíblemente útil en aplicaciones como redes sociales o herramientas de trabajo colaborativo.

Llama 3.2: Meta lanza su primer modelo de IA que puede procesar imágenes - llama-32-meta-2

Meta le pone voz a su IA

Llama 3.2 incluye nuevas capacidades multimodales que permiten responder no solo en texto, sino también en voces de celebridades como Dame Judi Dench, John Cena, Kristen Bell, y otros. Imagina enviar un mensaje en WhatsApp y que te responda con la voz de un famoso.

Meta AI también podrá responder a fotos en los chats, cambiar fondos en imágenes o añadir y eliminar elementos, lo que le da un plus en cuanto a personalización visual. Están experimentando, además, con herramientas de traducción, doblaje de video y sincronización de labios, lo cual suena fascinante si piensas en las posibilidades de crear contenido completamente personalizado.

Meta Connect 2024: todo lo que necesitas saber del evento de desarrolladores