Los modelos de aprendizaje automático capturan variaciones sutiles en las expresiones faciales
Los modelos de aprendizaje automático personalizados capturan variaciones sutiles en las expresiones faciales para evaluar mejor cómo nos sentimos.
Los investigadores del MIT Media Lab han desarrollado un modelo de aprendizaje automático que acerca a las computadoras a interpretar nuestras emociones tan naturalmente como lo hacen los humanos.
En el creciente campo de la "computación afectiva", se están desarrollando robots y computadoras para analizar las expresiones faciales, interpretar nuestras emociones y responder en consecuencia. Las aplicaciones incluyen, por ejemplo, la monitorización de la salud y el bienestar individual, la medición del interés de los estudiantes en las aulas, el diagnóstico de ciertas enfermedades y el desarrollo de robots acompañantes útiles.
Sin embargo, un desafío radica en que las personas expresan sus emociones de forma muy distinta, dependiendo de muchos factores. Se observan diferencias generales entre culturas, géneros y grupos de edad. Pero otras diferencias son aún más sutiles: la hora del día, cuánto dormiste o incluso tu nivel de familiaridad con la persona con la que conversas provocan variaciones sutiles en la forma en que expresas, por ejemplo, felicidad o tristeza en un momento dado.
El cerebro humano detecta estas desviaciones instintivamente, pero las máquinas tienen dificultades. En los últimos años se han desarrollado técnicas de aprendizaje profundo para ayudar a detectar las sutilezas, pero aún no son tan precisas ni adaptables a diferentes poblaciones como podrían serlo.
Los investigadores del Media Lab han desarrollado un modelo de aprendizaje automático que supera a los sistemas tradicionales en la captura de estas pequeñas variaciones en las expresiones faciales, lo que permite evaluar mejor el estado de ánimo durante el entrenamiento con miles de imágenes de rostros. Además, utilizando algunos datos de entrenamiento adicionales, el modelo puede adaptarse a un grupo completamente nuevo de personas con la misma eficacia. El objetivo es mejorar las tecnologías existentes de computación afectiva.
“Esta es una forma discreta de monitorear nuestro estado de ánimo”, afirma Oggi Rudovic, investigador del Media Lab y coautor de un artículo que describe el modelo, presentado la semana pasada en la Conferencia sobre Aprendizaje Automático y Minería de Datos. “Si queremos robots con inteligencia social, debemos lograr que respondan de forma inteligente y natural a nuestros estados de ánimo y emociones, de forma más parecida a como lo hacen los humanos”.
Los coautores del artículo son: el primer autor Michael Feffer, estudiante universitario de ingeniería eléctrica y ciencias de la computación; y Rosalind Picard, profesora de artes y ciencias de los medios y directora fundadora del grupo de investigación Affective Computing.
Expertos personalizados
Los modelos tradicionales de computación afectiva utilizan un concepto universal. Se entrenan con un conjunto de imágenes que representan diversas expresiones faciales, optimizando rasgos —como la curvatura del labio al sonreír— y mapeando esas optimizaciones generales de rasgos a un conjunto completo de nuevas imágenes.
En cambio, los investigadores combinaron una técnica denominada "mezcla de expertos" (MoE) con técnicas de personalización de modelos, lo que permitió extraer datos más precisos sobre las expresiones faciales de los individuos. Esta es la primera vez que se combinan estas dos técnicas para la computación afectiva, afirma Rudovic.
En los modelos de redes neuronales (MoE), varios modelos de redes neuronales, llamados "expertos", se entrenan para especializarse en una tarea de procesamiento independiente y generar un único resultado. Los investigadores también incorporaron una "red de puertas" que calcula las probabilidades de qué experto detectará mejor los estados de ánimo de sujetos invisibles. "Básicamente, la red puede discernir entre individuos y decir: 'Este es el experto adecuado para la imagen dada'", afirma Feffer.
Para su modelo, los investigadores personalizaron los MoE asociando a cada experto con una de las 18 grabaciones de video individuales de la base de datos RECOLA, una base de datos pública de personas conversando en una plataforma de videochat diseñada para aplicaciones de computación afectiva. Entrenaron el modelo con nueve sujetos y lo evaluaron con los otros nueve, desglosando todos los videos en fotogramas individuales.
Cada experto y la red de selección rastrearon las expresiones faciales de cada individuo con la ayuda de una red residual ("ResNet"), una red neuronal utilizada para la clasificación de objetos. Para ello, el modelo calificó cada fotograma según su nivel de valencia (agradable o desagradable) y excitación (emoción), métricas comúnmente utilizadas para codificar diferentes estados emocionales. Por separado, seis expertos humanos etiquetaron cada fotograma según su valencia y excitación, en una escala de -1 (niveles bajos) a 1 (niveles altos), que el modelo también utilizó para entrenar.
Los investigadores realizaron una mayor personalización del modelo. Introdujeron en el modelo entrenado datos de algunos fotogramas de los vídeos restantes de los sujetos y lo probaron con todos los fotogramas no vistos de esos vídeos. Los resultados mostraron que, con tan solo entre el 5 % y el 10 % de los datos de la nueva población, el modelo superó con creces a los modelos tradicionales, lo que significa que obtuvo puntuaciones de valencia y excitación en imágenes no vistas mucho más cercanas a las interpretaciones de expertos humanos.
Esto demuestra el potencial de los modelos para adaptarse de una población a otra, o de un individuo a otro, con muy pocos datos, afirma Rudovic. «Eso es clave», añade. «Cuando se trata de una nueva población, es necesario tener en cuenta los cambios en la distribución de los datos [variaciones faciales sutiles]. Imaginemos un modelo configurado para analizar las expresiones faciales en una cultura que necesita adaptarse a otra. Si no se tiene en cuenta este cambio en los datos, el rendimiento de esos modelos será inferior. Pero si simplemente se toma una muestra de una nueva cultura para adaptar nuestro modelo, estos modelos pueden obtener un rendimiento mucho mejor, especialmente a nivel individual. Aquí es donde se aprecia mejor la importancia de la personalización del modelo».
Los datos disponibles actualmente para este tipo de investigación de computación afectiva no presentan una gran diversidad en cuanto al color de piel, por lo que los datos de entrenamiento de los investigadores fueron limitados. Sin embargo, cuando estos datos estén disponibles, el modelo podrá entrenarse para su uso en poblaciones más diversas. El siguiente paso, según Feffer, es entrenar el modelo con un conjunto de datos mucho mayor y con culturas más diversas.
Mejores interacciones entre máquinas y humanos
Otro objetivo es entrenar el modelo para ayudar a las computadoras y robots a aprender automáticamente a partir de pequeñas cantidades de datos cambiantes para detectar de forma más natural cómo nos sentimos y servir mejor a las necesidades humanas, dicen los investigadores.
Podría, por ejemplo, ejecutarse en segundo plano en una computadora o dispositivo móvil para rastrear las conversaciones de video de un usuario y aprender cambios sutiles en las expresiones faciales en diferentes contextos. "Se pueden usar aplicaciones para teléfonos inteligentes o sitios web para saber cómo se sienten las personas y recomendar maneras de lidiar con el estrés, el dolor y otros factores que impactan negativamente en sus vidas", dice Feffer.
Esto también podría ser útil para monitorear, por ejemplo, la depresión o la demencia, ya que las expresiones faciales de las personas tienden a cambiar sutilmente debido a estas afecciones. "Al poder monitorear pasivamente nuestras expresiones faciales", dice Rudovic, "con el tiempo podríamos personalizar estos modelos para los usuarios y monitorear cuántas desviaciones presentan a diario (desviaciones del nivel promedio de expresividad facial) y usarlos como indicadores de bienestar y salud".
Una aplicación prometedora, según Rudovic, son las interacciones entre humanos y robots, como en el caso de la robótica personal o los robots con fines educativos, donde los robots deben adaptarse para evaluar los estados emocionales de muchas personas diferentes. Una versión, por ejemplo, se ha utilizado para ayudar a los robots a interpretar mejor los estados de ánimo de niños con autismo.
Roddy Cowie, profesor emérito de psicología en la Queen's University de Belfast y experto en computación afectiva, afirma que el trabajo del MIT "ilustra nuestra situación actual" en este campo. "Nos estamos acercando a sistemas que puedan determinar, a partir de imágenes de rostros de personas, su posición en escalas que van de muy positivo a muy negativo, y de muy activo a muy pasivo", afirma. "Parece intuitivo que las señales emocionales de una persona no son las mismas que las de otra, por lo que tiene mucho sentido que el reconocimiento de emociones funcione mejor cuando es personalizado. El método de personalización refleja otro punto interesante: es más efectivo capacitar a múltiples 'expertos' y agregar sus juicios que capacitar a un solo superexperto. La combinación de ambos constituye un conjunto satisfactorio".
Documento: Una combinación de expertos personalizados para la estimación del afecto humano
Referencia: “Una combinación de expertos personalizados para la estimación del afecto humano” por Michael Feffer, Ognjen (Oggi) Rudovic y Rosalind W. Picard, 8 de julio de 2018, MLDM 2018: Aprendizaje automático y minería de datos en el reconocimiento de patrones .
DOI: 10.1007/978-3-319-96133-0_24
Comentarios
Publicar un comentario