De un mundo en blanco y negro a un mundo en color
Durante mucho tiempo, la mayoría de los modelos de IA eran especialistas. Un modelo de lenguaje entendía el texto. Un modelo de visión artificial entendía las imágenes. Eran poderosos, pero vivían en un mundo «unimodal», como una persona que solo podía oír o solo ver. Esto creó una brecha entre la forma en que la IA veía el mundo y la forma en que lo experimentamos.
La IA multimodal es el puente que cierra esa brecha. Al entrenar modelos en vastos conjuntos de datos que conectan diferentes tipos de datos (como imágenes con subtítulos o vídeos con subtítulos), estas nuevas IA aprenden las relaciones entre lo que vemos, decimos y escribimos. Esto permite una comprensión mucho más profunda y contextual. Una IA ahora puede entender que la palabra «perro», el sonido de un ladrido y la imagen de un golden retriever están relacionados con el mismo concepto. Este salto está transformando la IA, que pasa de ser una simple herramienta con la que escribes a convertirse en un socio colaborativo con el que puedes hablar y mostrar cosas.
La IA multimodal en el mundo real
No se trata solo de un concepto futurista; es probable que ya hayas utilizado la IA multimodal sin darte cuenta. Estos son algunos ejemplos clave:
- Búsqueda visual (Google Lens): cuando apuntas con la cámara de tu teléfono a un punto de referencia y preguntas: «¿Qué es este edificio?» , estás utilizando una IA multimodal. Combina la imagen de tu cámara con el texto (o la voz) de tu pregunta para darte una respuesta.
- Asistentes de voz avanzados (ChatGPT-4o, Gemini de Google): la última generación de asistentes de inteligencia artificial permite mantener una conversación fluida y en tiempo real. Puedes mostrarles un vídeo en directo de lo que te rodea, hacerles preguntas sobre lo que están viendo y obtener una respuesta oral. Procesan tu voz, la transmisión de vídeo y su amplia base de conocimientos al mismo tiempo.
- Herramientas creativas (DALL-E, Midjourney): los generadores de conversión de texto a imagen son un ejemplo clásico de multimodalidad. Toman un mensaje de texto («un astronauta fotorrealista montado a caballo en la luna») y generan una imagen completamente nueva, lo que demuestra una profunda conexión entre el lenguaje y los conceptos visuales.
- Vehículos autónomos más inteligentes: los vehículos autónomos son, en esencia, multimodales. Deben procesar simultáneamente los datos de las cámaras (vídeo), el LiDAR (profundidad), el radar (movimiento) y el GPS (ubicación) para navegar por el mundo de forma segura.
¿Cómo funciona? La idea de un «lenguaje compartido»
Entonces, ¿cómo puede una computadora entender tanto una imagen como una oración? La magia está en crear un lenguaje matemático compartido, o lo que los ingenieros llaman un «espacio de integración conjunta».
Imagina que tienes un diccionario gigante que puede traducir no solo palabras, sino píxeles y ondas de sonido, todo ello en un conjunto especial de números (vectores). En este diccionario, el concepto de «gato» se representa mediante una secuencia numérica específica. La IA aprende que la palabra inglesa «cat», una fotografía de un gato y un dibujo de un gato deben traducirse en secuencias numéricas muy similares.
Al convertir todos los diferentes modos de datos a este formato numérico común, la IA puede empezar a entender las relaciones y el contexto entre ellos. Así es como puede ver la imagen de un pastel de cumpleaños y saber cómo generar texto para una canción de «Feliz cumpleaños», o ver un vídeo de un partido de baloncesto y responder a la pregunta «¿Quién acaba de marcar?»
Comprobación rápida
¿Cuál de las siguientes es la mejor descripción de la IA multimodal?
Resumen: IA multimodal
Lo que cubrimos:
- Qué es la IA multimodal: IA que puede procesar texto, imágenes, voz y vídeo juntos.
- Por qué representa un gran avance, ya que permite una comprensión contextual y más humana del mundo.
- Ejemplos del mundo real, como la búsqueda visual, los asistentes de voz avanzados y las herramientas de generación creativa.
- La idea central de su funcionamiento: traduciendo diferentes tipos de datos a un «lenguaje» matemático compartido.
Por qué es importante:
- La IA multimodal está derribando las barreras que nos separan de las computadoras. Está haciendo que nuestras interacciones sean más naturales, intuitivas y potentes, y está allanando el camino para la aparición de asistentes digitales realmente útiles y de una tecnología más accesible para todos.
El siguiente paso:
- Terminaremos este capítulo repasando los conceptos clave que hemos tratado sobre el uso avanzado de la IA.