La IA ya sabe hablar, escuchar y ver

El famoso Chat GPT ha recibido una actualización esta semana que le ha liberado del teclado y la pantalla y facilita hablar con la IA usando la voz, además es capaz de ver y comprender lo que observa

Este es uno de los resultados cuando le pedimos a Midjourney que dibujara la personificación de una inteligencia artificial, es decir cuando le pedimos que se pusiera rostro
Este es uno de los resultados cuando le pedimos a Midjourney que dibujara la personificación de una inteligencia artificial, es decir cuando le pedimos que se pusiera rostro
Midjourney

Muchas cosas distinguen la inteligencia humana de la artificial, pero tal vez una de las más curiosas y de la que no muchos se han percatado es que, esta segunda, la de los ordenadores, ha aprendido antes a leer y a escribir que a escuchar, a hablar o, incluso, a ver.

Pero estas capacidades, que en su conjunto conforman la multimodalidad de la inteligencia artificial (IA), ya están aquí y van a suponer una nueva revolución en la forma en la que los humanos interactuamos con la IA y un gran aumento de las tareas que ésta es capaz de llevar a cabo.

Open AI –creadores de GPT 4 y Chat GPT– enseñaron solo un tonto ejemplo de las nuevas capacidades de su modelo de lenguaje para ver, analizar y comprender las imágenes. En la muestra, un usuario enviaba a Chat GPT una imagen de una bicicleta y le pedía ayuda para ajustar el sillín. El sistema era capaz de ‘leer’ la imagen identificar la bicicleta y sugerir al usuario que buscara una manivela para subir y bajar el asiento. El usuario, como respuesta, enviaba una fotografía de detalle de la zona del sillín en la que se veía que no había palanca de ajuste, pero la IA ‘veía’ el hueco para una llave allen y le sugería al usuario que iba a necesitar herramientas. El usuario enviaba entonces al chat una copia de las instrucciones y una fotografía de su caja de herramientas, con esta información la IA fue capaz de indicarle exactamente qué llave debía usar y cómo proceder.

Esta es solo una muestra sencilla de lo que implica que Chat GPT sea capaz de ‘ver’ y comprender lo que ‘ve’ para asistir al usuario. En otros ejemplos, la IA era capaz de generar el código de una página web a partir de un esquema dibujado en una pizarra.

Las posibilidades de explotar estas nuevas funcionalidades son infinitas y, probablemente, se producirán muchos errores en el inicio, pero es indudable que esta joven tecnología avanza a gran velocidad.

Cinco voces con acento yanqui

Otra nueva virtud de la inteligencia artificial de Open AI es su capacidad de escuchar y hablar. Lo primero ya era posible, a medias, gracias a herramientas voz-texto, pero es la conjunción de ambas capacidades lo que permite ahora mantener una conversación más o menos fluida con el chat.

Para hacerlo, hay que tener instalada la aplicación ‘Chat GPT’ y ser usuario de la versión de pago (20 dólares al mes). El usuario puede elegir entre cinco voces sintéticas distintas para que respondan a sus demandas. Las cinco están programadas para hablar en inglés, pero puede hacerlo en un perfecto castellano. Con marcado acento yanqui, eso sí.

El sistema funciona como un ‘walkie-talkie’: la conversación debe ser ordenada y, tanto el humano como la máquina, deben respetar sus turnos, pero cuando funciona –los servidores sufren caídas ante la alta demanda– lo hace sorprendentemente bien. Las aplicaciones en este caso también son muchas: guía de museo, asistente personal, ayudante en el trabajo o mera compañía de los más solitarios.

Meta, la inteligencia artificial y las gafas

Zukerberg parece decidido a no perder el barco de la inteligencia artificial. Pero la implementa a su manera. Meta ha anunciado que está creando un puñado de asistentes virtuales que usan tecnología similar a la de Chat GPT y que algunos de ellos están ‘inspirados’ en personajes famosos.

Estos ‘chatbots’ estarán integrados directamente en las ‘apps’ de la compañía como Facebook, Instagram o Whatsapp y podrán ser ‘invocados’ por los usuarios en cualquier conversación para resolver dudas o simplemente participar junto a los humanos. Entre las diferentes personalidades habrá un entrenador personal, un asesor de citas o incluso un ‘abuelo’.

En el apartado del ‘hardware’, Meta ha presentado dos pares de gafas. Unas de realidad virtual, aumentada y mixta, orientadas principalmente a los videojuegos y otras con diseños basados en modelos de Rayban, que tienen cámaras para emitir en directo en las redes sociales sin sacar el móvil del bolsillo o escuchar música y hacer llamadas sin necesidad de auriculares gracias a los 5 micrófonos integrados. Además, se podrán controlar con la voz gracias a la IA.

Las nuevas Ray-Ban con cámara para publicar en redes sociales tienen más calidad de imagen y cinco micrófonos
Las nuevas Ray-Ban con cámara para publicar en redes sociales tienen más calidad de imagen y cinco micrófonos
REUTERS/Carlos Barria

Esta nueva generación  de gafas inteligentes Ray-Ban Meta se han rediseñado desde cero y presentan varias mejoras sobre la generación anterior. Entre las novedades destacan una cámara ultra-ancha de 12 MP, altavoces personalizados con sonido direccional mejorado y una variedad de más de 150 combinaciones de monturas y lentes.

Además, estas nuevas gafas inteligentes incorporan un Qualcomm Snapdragon AR1 Gen1, lo que mejora la calidad de las fotos y vídeos. También cuentan con una caja de carga rediseñada, más pequeña y elegante, que ofrece hasta 36 horas de uso.

En cuanto al diseño, están disponibles en los estilos Wayfarer y Headliner, y vienen en una variedad de colores nuevos. También son compatibles con gafas graduadas. El diseño más ligero y el mejorado panel táctil proporcionan una experiencia de usuario más cómoda.

Otra novedad es la capacidad de realizar transmisiones en vivo desde las gafas a Facebook o Instagram, pudiendo ver y escuchar los comentarios en tiempo real. 

Las gafas de realidad virtual de Meta ahora también tienen realidad aumentada
Las gafas de realidad virtual de Meta ahora también tienen realidad aumentada
REUTERS/Carlos Barria

Además, cuentan con Meta AI, un asistente conversacional avanzado que se puede activar simplemente diciendo "Hey Meta" y que permitirá activar funciones sin usar las manos. Algo que parece que solo estará disponible por el momento en Estados Unidos.

Por su parte, las Quest 3 son un paso adelante en la tecnología de realidad mixta, permitiendo una gama de experiencias inmersivas. Los usuarios podrán, por ejemplo, tocar un piano virtual sobre su mesa de café mientras mantienen contacto visual con su entorno físico gracias al sistema de alta fidelidad a todo color que recrea la realidad.

El dispositivo también destaca en especificaciones técnicas. Utiliza el nuevo Snapdragon XR2 Gen 2, desarrollado en colaboración con Qualcomm, que duplica la potencia gráfica en comparación con su predecesor. Además, el Quest 3 incluye una pantalla 4K+ Infinite Display que representa un salto del 30% en resolución visual.

La comodidad también parece una prioridad para Meta. El dispositivo cuenta con un perfil más delgado y una distribución de peso equilibrada. El sistema de audio también ha recibido mejoras, con un rango de sonido 40% más amplio en comparación con el Quest 2.

Las Meta Quest 3, las de realidad virtual, costarán 550 euros y las Ray-Ban Meta Smart Glasses para publicar en Instagram, 330 euros.

Comentarios
Debes estar registrado para poder visualizar los comentarios Regístrate gratis Iniciar sesión