Las manos y la voz de la IA: Project Mariner y el modo de voz avanzado
En nuestro viaje, hemos visto cómo la IA puede procesar una gran cantidad de información y generar nuevas ideas. Ahora somos testigos del siguiente gran salto: la IA está adquiriendo «manos» sofisticadas que actúan en nuestro nombre y una «voz» prácticamente indistinguible de la nuestra. No se trata de hacer que la IA se parezca más a la humana por el simple hecho de ser novedosa; se trata de cambiar radicalmente nuestra relación con la tecnología, convirtiéndola en una compañera de conversación fluida.
Exploraremos dos tecnologías pioneras que lideran este camino. En primer lugar, Project Mariner, un agente de IA que actúa como tu navegador personal en el vasto mar de Internet y realiza tareas complejas por ti. En segundo lugar, el modo de voz avanzado, que transforma los torpes comandos de voz robóticos del pasado en conversaciones fluidas y emocionalmente inteligentes. Juntos, representan un futuro en el que solo tienes que decir lo que necesitas y tu IA podrá entenderte con matices y ejecutar la tarea en el mundo digital.
Concepto destacado: Project Mariner, el agente de IA
Imagina que necesitas encontrar un apartamento nuevo. La forma antigua consistía en pasar horas navegando por varios sitios web, comparando anuncios, consultando mapas y rellenando formularios. La nueva forma consiste en decirle a un agente de inteligencia artificial: «Búscame un apartamento de dos habitaciones cerca de mi oficina, por menos de 2.000 dólares, que admita mascotas, y crea una hoja de cálculo con las cinco opciones principales».
Este es el trabajo de Project Mariner. Es un «agente de IA» que vive en su navegador web. Le asignas un objetivo complejo y navega por los sitios web de forma autónoma (lee texto, entiende las imágenes, hace clic en botones y rellena formularios) para lograrlo. No se trata solo de seguir un guion, sino de utilizar la inteligencia de un modelo como Gemini para resolver problemas en la web. Es como contratar a un asistente incansable y veloz para que se encargue de tus tareas online, desde planificar unas vacaciones con varias paradas hasta encontrar el mejor precio para un portátil nuevo.
Modo de voz avanzado: de los comandos a la conversación
Mientras que Project Mariner le da «mano» a la IA, el modo de voz avanzado le da una «voz» natural y receptiva. Durante años, hablar con una IA significaba hablar con órdenes claras y sencillas y esperar una respuesta robótica. Era una calle de sentido único.
El modo de voz avanzado, impulsado por modelos como el GPT-4o de OpenAI, cambia esta situación por completo. Utiliza un modelo único y unificado que procesa el tono de voz, el ritmo e incluso la emoción de las palabras, todo en tiempo real. Puedes interrumpirlo, puede detectar el sarcasmo, puede reírse contigo y puede responder con una variedad de tonos y emociones propios. El retraso ha desaparecido. La conversación fluye. Es lo más parecido que hemos estado a la experiencia de la IA en la película Her, ya que hace que la interacción se parezca menos a operar una máquina y más a hablar con una entidad consciente.
Recursos: vea y escuche el futuro
Leer sobre estos conceptos es una cosa, pero verlos y oírlos es otra.
- Demostración de Project Mariner de Google DeepMind: vea una demostración directa de cómo el agente de IA toma un objetivo y lo ejecuta en la web.
- Demostración en directo de OpenAI de la traducción en tiempo real a través de la tecnología GPT-4o: un ejemplo impresionante de la velocidad y naturalidad del modo de voz avanzado.
- Sarcasmo con el GPT-4o de OpenAI: un vídeo breve pero potente que muestra la capacidad de la IA para entender los sutiles matices humanos en las conversaciones.
Comprobación rápida
¿Cuál de las siguientes opciones describe mejor las funciones principales de Project Mariner y el modo de voz avanzado?
```Resumen: Las manos y la voz de la IA
Lo que cubrimos:
- Project Mariner: un agente de IA que actúa como tus «manos» en línea y navega de forma autónoma por los sitios web para completar tareas complejas por ti.
- Modo de voz avanzado: un avance en la tecnología de voz que proporciona una «voz» conversacional natural, en tiempo real y sensible a las emociones para la IA.
- La importancia de supervisar a los agentes de IA cuando comiencen a realizar acciones en nuestro nombre.
Por qué es importante:
- Estas tecnologías marcan el paso de simplemente «usar» la IA a «colaborar» con ella. Son pasos fundamentales hacia un futuro en el que la IA sea una verdadera aliada y se integre a la perfección en nuestra vida diaria.
El siguiente paso:
- ¿Cómo se entregará esta nueva interfaz? Exploraremos el futuro de nuestro principal portal al mundo digital: las gafas de IA.