Tercer Milenio

En colaboración con ITA

Investigación

Inteligencia artificial para reconocer nuestra voz y nuestra cara

Nuevas líneas de investigación en reconocimiento facial y de voz trabajan en sistemas para un acceso más seguro a nuestros dispositivos conectados.

Es clave conseguir el reconocimiento de rasgos únicos e instransferibles como la cara o la voz
Es clave conseguir el reconocimiento de rasgos únicos e instransferibles como la cara o la voz

La tecnología se ha vuelto parte crucial en nuestras vidas, ¿quién no tiene un móvil, una tableta o un ordenador? Dispositivos que nos mantienen conectados, permiten crear contenido y acceder a servicios como transacciones bancarias o comercio electrónico. Su implantación en el día a día ha llevado también a abrir nuevas líneas de investigación para crear sistemas con un acceso más seguro, como la utilización de técnicas de inteligencia artificial para reconocer nuestra cara o nuestra voz.

Grandes avances en reconocimiento facial y de voz se han producido con la llegada de las técnicas de aprendizaje profundo basadas en redes neuronales, que intentan aprender como nuestro cerebro, simulando nuestras neuronas y su proceso de aprendizaje por acierto y error. 

Estas técnicas funcionan bastante bien cuando hay muchos datos preparados previamente para que el sistema aprenda a quién debe permitir el acceso. Pero aun así, hay muchos desafíos a los que enfrentarse.

En este ámbito investiga Victoria Mingote en el grupo ViVoLab de la Universidad de Zaragoza, especializado en tecnologías del habla, del lenguaje y el aprendizaje automático. Su tesis doctoral se centraba en los sistemas biométricos faciales y del hablante, el desarrollo de sistemas para la verificación de personas a partir de sus rasgos físicos únicos e intransferibles como su cara o su voz. 

Abordan desafíos como qué ocurre cuando se intentan usar las habituales grandes redes neuronales contando con pocos datos adecuados para enseñar el sistema. Va a ser imposible distinguir entre varias personas hablando.

Otro de los retos es qué sucede en el otro extremo, cuando se tienen demasiados datos. Es bueno tener muchos datos, pero solo si están adecuadamente preparados y controlados para poder usarlos. El desarrollo de la tecnología ha provocado la creación de gran cantidad de contenido audiovisual disponible en internet. Para determinadas aplicaciones, estos vídeos deben estar etiquetados para saber qué información exacta se encuentra en ellos. La tesis doctoral de Victoria Mingote aborda esta situación, dar opciones que eviten hacer ese trabajo de forma manual, con el desarrollo de sistemas de reconocimiento de voz y cara conjuntamente que ayuden a analizar y catalogar el contenido audiovisual de manera más eficiente y de forma automática para ser utilizado fácilmente.

¿Qué es la biometría?

La biometría hace referencia a las medidas biológicas o características físicas intransferibles que se pueden utilizar para identificar a las personas. Lo más conocido son las aplicaciones de las huellas dactilares, el reconocimiento facial o los exámenes de retina. Actualmente, la biometría se utiliza también para reforzar sistemas de seguridad en ordenadores, teléfonos o edificios con acceso restringido, documentos confidenciales y se está incorporando a pasaportes electrónicos en todo el mundo.

Es una alternativa a las contraseñas y otros identificadores para eliminar dudas sobre la identidad, ya que permite verificar que la persona es efectivamente quien dice ser. No obstante, su uso no debe vulnerar las libertades individuales.

Las aplicaciones biométricas están asociadas a otras tecnologías de seguridad como tarjetas inteligentes, cifrado o anonimato de los datos almacenados, entre otras. 

¿Puede una máquina diferenciar voces de distintas personas?

Es fácil disponer de grabaciones sonoras de personas hablando, pero no tanto diciendo una frase concreta que permita mejorar la seguridad o la personalización de los sistemas de reconocimiento de voz.

La escasez de datos específicos en determinadas situaciones sigue siendo un reto para mejorar la seguridad y la personalización de los sistemas de reconocimiento. Todavía existen problemas cuando la voz del locutor cambia mucho debido a una enfermedad, por ejemplo.

A pesar del buen funcionamiento de asistentes virtuales que solo se activan cuando la persona dice: ‘Oye, Siri’ y ‘Ok, Google’, los desarrolladores no siempre pueden disponer de los inmensos recursos con los que cuentan tecnológicas como Apple o Google.

Para abordar este desafío, se han utilizado redes neuronales modificadas. En su desarrollo, se ha tenido en cuenta que la persona que habla pronuncie la frase que le corresponde, ya que tratar todas las partes de las grabaciones por igual –como hacen las grandes redes neuronales– no es lo ideal en estos casos. La línea de investigación en marcha ha introducido modificaciones que permiten fijar la atención de los sistemas en los distintos segmentos de la frase pronunciada, aparte de reconocer la identidad del locutor. Las redes así creadas han demostrado ser robustas y capaces de distinguir entre diferentes personas diciendo cosas concretas.

La cara y la voz, ¿huella digital?

Un gran problema del uso de la tecnología es que personas no deseadas accedan a toda la información de nuestros dispositivos.

Es importante incorporar técnicas de inteligencia artificial que reconozcan rasgos únicos e intransferibles como la cara o la voz como si fuera la ‘huella digital’ de las personas. La ventaja sobre la huella dactilar es que no precisan una tecnología específica, basta con la cámara o con el micrófono que ya incorporan casi todos los modelos.

Ha habido grandes avances gracias a las técnicas de aprendizaje profundo basadas en redes neuronales. Estas redes intentan aprender igual que el cerebro, simulan el proceso de aprendizaje por acierto y error que llevan a cabo nuestras neuronas. La clave es el entrenamiento. Se trata de ofrecer al sistema un conjunto de datos de entrada, indicándole la información que debe aprender. Una vez que la asimile, sabrá qué hacer cuando reciba nuevos datos.

Perfil

  • La autora Victoria Mingote estudió en la UZ el Grado en Tecnologías y Servicios de Telecomunicación y el Máster en Ingeniería de Telecomunicación.
  • Investigación Ha realizado el doctorado en el grupo de investigación ViVoLab del Instituto de Investigación en Ingeniería de Aragón (I3A) en Unizar. Sus líneas principales de trabajo son las tecnologías del habla, del lenguaje y el aprendizaje automático.
  • Premios Biometric Max Snijder de la Asociación Europea de Biometría. Premio a la mejor tesis doctoral en el congreso IberSpeech-2022. Premio de la Red Temática de Tecnologías del Habla al mejor artículo publicado en la revista ‘IEEE/ACM Transactions on Audio, Speech and Language’.
  • Más información vivolab.i3a.es.

Victoria Mingote grupo ViVoLab. Instituto de Investigación en Ingeniería de Aragón (I3A). Universidad de Zaragoza

-Ir al suplemento Tercer Milenio

Apúntate y recibe cada semana en tu correo la newsletter de ciencia

Comentarios
Debes estar registrado para poder visualizar los comentarios Regístrate gratis Iniciar sesión