Page 25 - AMC Boletín #59
P. 25

Usan big data para analizar estado de
ánimo de tuiteros en México

El procesamiento de grandes cantidades de datos con la ayu- con la carga emotiva que tenía el tuitero en el momento de

da de nuevas tecnologías, métodos y técnicas para procesar escribirlo, para esto se utilizaron técnicas de Machine Lear-

información o big data permite extraer patrones, tendencias ning o aprendizaje automático, cuyo objetivo es desarrollar

y conocimientos nuevos, esenciales en la toma de decisiones, programas capaces de aprender basados en la experiencia.

indicó Fabián García Nocetti, del Instituto de Investigaciones   El proceso requirió primero la clasificación manual de un

en Matemáticas Aplicadas y en                                                            subconjunto de tuits en la que se

Sistemas de la UNAM.                                                                     asignó una etiqueta (positiva, ne-

Explicó que big data se originó                                                          gativa o neutra). Más de cinco mil

por la explosión en la cantidad,                                                         estudiantes de la Universidad Tec

velocidad, frecuencia y diversidad                                                       Milenio etiquetaron manualmente

de datos digitales generados en                                                          miles de tuits; cabe destacar que

tiempo real como resultado de la                                                         cada tuit fue presentado múltiples

presencia de la tecnología en las                                                        veces a los estudiantes con la fina-

actividades diarias, por lo que el                                                       lidad de que un solo tuit pudiera

anglicismo puede definirse como                                                          ser etiquetado varias veces y lo-

un conjunto de datos cuyo tama-                                                          grar consenso en la etiqueta.

ño está más allá de la capacidad de Fabián García Nocetti, investigador del IIMAS de la  Posteriormente, a los tuits eti-

las herramientas de software y de UNAM.Foto: Elizabeth Ruiz/AMC.                         quetados se les realizó un proceso

bases de datos típicas para captu-                                                       analítico de limpieza, por ejemplo,

rar, almacenar, gestionar y analizar información.                se identificaron y eliminaron aquellos con etiquetas incon-

“Big data permite nuevas y mejores formas de procesar sistentes, se desecharon contradicciones y repeticiones, y

la información y tiene ventajas sobre los enfoques tradicio- se identificaron los de mayor consenso en su etiqueta, así

nales, en cuanto a velocidad, costos de implementación, como los etiquetados con mayor número de consistencias

escalabilidad y flexibilidad. Además, implica un nuevo para- en el momento de asignar etiquetas a los tuits.

digma en el uso estratégico del análisis de datos, que busca la  Una vez que los tuits fueron “limpiados” se conformaron

obtención de información valiosa en la toma de decisiones”. dos grupos, uno que incluyó el 89% para utilizarlo como con-

Entre los sectores que aprovechan el big data están el junto de entrenamiento y otro como conjunto de validación,

comercio electrónico, la salud o la ciencia (física, bioinfor- el cual sirve para verificar la calidad de la clasificación rea-

mática, astronomía, genética).                                   lizada automáticamente utilizando distintos algoritmos de

El presidente de la Academia Mexicana de Informática y aprendizaje estadístico.

miembro de la AMC se refirió al estudio “Estado de Ánimo         Estos algoritmos, desarrollados con técnicas de inteligen-

de los tuiteros en México”, el cual abarcó 63 millones de cia artificial por investigadores de INFOTEC y de Centro

tuits al interior del país, de febrero de 2014 al 15 de mayo de Geo, fueron integrados en un mecanismo de “ensamble”,

2015. Fue un trabajo multidisciplinario en el que participaron con lo que se aprovecha lo mejor de cada algoritmo logran-

el INEGI, INFOTEC, Centro Geo, Positive Psychology Center do un 70 % de acierto en el etiquetado de los tuits. Una

de la Universidad de Pennsylvania, la Universidad Tec Mile- vez entrenado el programa de ensamblado de algoritmos,

nio y su Instituto de Ciencias de la Felicidad.                  se procesaron todos los tuits restantes, lo que permitió su

Se realizó un análisis geográfico de cada tuit georreferen- clasificación automatizada.

ciado (con las coordenadas geográficas de su ubicación en el     Por último, se desarrolló una herramienta que a partir

momento de su publicación), y se le asignó el código geoes- de la clasificación de los 63 millones de tuits representara

tadístico del estado y el municipio desde donde se emitió gráficamente el estado de ánimo de los tuiteros en México

el tuit. Además, fue necesario calificar cada tuit de acuerdo por entidad federativa y por mes. Noemí Rodríguez

                                                                 Boletín informativo de la Academia Mexicana de Ciencias /  25
   20   21   22   23   24   25   26   27   28   29   30