Si inicias sesión en Twitter, Facebook u otras redes sociales, encontrarás que la mayor parte del contenido compartido viene en forma de imágenes, no sólo palabras. Esas imágenes pueden transmitir mucho más que una frase y con frecuencia provocar emociones en el espectador.
Jiebo Luo, profesor de ciencias informáticas en la Universidad de Rochester, en colaboración con investigadores de Adobe, ha llegado a una forma más precisa actualmente posible para poder digerir los datos que vienen en forma de imágenes.
En un documento presentado la semana pasada en la Asociación Americana para la conferencia de Inteligencia Artificial (AAAI) en Austin, Texas, describen lo que ellos denominan una profunda red neuronal convolucional de entrenamiento progresivo (CNN).
La computadora capacitado puede utilizarse para determinar qué sentimientos son propensos a provocar estas imágenes. Luo dijo que esta información podría ser útil para cosas tan diversas como la medición de los indicadores económicos o predecir las elecciones.
El análisis de sentimientos de texto por las computadoras es de por sí una tarea difícil. Y en los medios sociales, el análisis de los sentimientos es más complicado porque muchas personas se expresan a partir de imágenes y videos, que son más difíciles de entender.
Por ejemplo, los políticos en campaña a menudo compartirán sus puntos de vista a través de imágenes. Dos imágenes diferentes pueden mostrar al mismo candidato, podría estar haciendo muy diferentes declaraciones políticas. Un ser humano puede reconocer un retrato positivo del candidato (por ejemplo, el candidato sonriente y levantando los brazos) y el otro negativo (por ejemplo, una imagen del candidato derrotado). Pero ningún ser humano podría mirar cada imagen compartida en las redes sociales – es verdaderamente imposible.
Para poder hacer conjeturas informadas acerca de la popularidad de un candidato, los ordenadores necesitan ser capacitados para digerir estos datos, que es lo que Luo y el enfoque de sus colaboradores pueden hacer con mayor precisión de lo que era posible hasta ahora.
Los investigadores se dieron a la tarea de extraer los sentimientos de las imágenes como un problema de clasificación de imágenes. Esto significa que de alguna manera cada imagen debe ser analizada y etiquetada.
Para comenzar el proceso de formación, Luo y sus colaboradores utilizaron un gran número de imágenes de Flickr que han sido ligeramente marcadas por un algoritmo con sentimientos específicos, en una base de datos existente conocida como SentiBank (desarrollada por el grupo del profesor Shih-Fu Chang de la Universidad de Columbia) . Esto le da al equipo un punto de partida para empezar a entender lo que algunas imágenes pueden transmitir. Pero las etiquetas generadas por la máquina también incluyen una probabilidad de que la etiqueta sea cierta.
El paso clave del proceso de formación viene después, cuando se descartan las imágenes para las que empaten con los sentimientos. Así que se utilizan imágenes sólo con la «mejor» etiqueta para la formación continua y mejorar progresivamente el marco de la poderosa red neuronal convolucional. Ellos encontraron que este paso adicional mejoró significativamente la exactitud de los sentimientos con la que cada imagen está marcada.
También adaptaron este motor de análisis de sentimientos con algunas imágenes extraídas de Twitter. En este caso se empleó «inteligencia multitud», con varias personas que ayudaron a categorizar las imágenes a través de la plataforma de Amazon Mechanical Turk. Utilizaron sólo un pequeño número de imágenes para afinar el equipo y, sin embargo, mediante la aplicación de este proceso de dominio de adaptación, mostraron que podrían mejorar el estado actual de los métodos de la técnica de análisis de los sentimientos de las imágenes de Twitter.
Un hallazgo sorprendente es que la precisión de la clasificación de sentimiento-imagen ha superado la clasificación sentimiento-texto en los mismos mensajes de Twitter.