Page 25 - AMC Boletín #59
P. 25
Usan big data para analizar estado de
ánimo de tuiteros en México
El procesamiento de grandes cantidades de datos con la ayu- con la carga emotiva que tenía el tuitero en el momento de
da de nuevas tecnologías, métodos y técnicas para procesar escribirlo, para esto se utilizaron técnicas de Machine Lear-
información o big data permite extraer patrones, tendencias ning o aprendizaje automático, cuyo objetivo es desarrollar
y conocimientos nuevos, esenciales en la toma de decisiones, programas capaces de aprender basados en la experiencia.
indicó Fabián García Nocetti, del Instituto de Investigaciones El proceso requirió primero la clasificación manual de un
en Matemáticas Aplicadas y en subconjunto de tuits en la que se
Sistemas de la UNAM. asignó una etiqueta (positiva, ne-
Explicó que big data se originó gativa o neutra). Más de cinco mil
por la explosión en la cantidad, estudiantes de la Universidad Tec
velocidad, frecuencia y diversidad Milenio etiquetaron manualmente
de datos digitales generados en miles de tuits; cabe destacar que
tiempo real como resultado de la cada tuit fue presentado múltiples
presencia de la tecnología en las veces a los estudiantes con la fina-
actividades diarias, por lo que el lidad de que un solo tuit pudiera
anglicismo puede definirse como ser etiquetado varias veces y lo-
un conjunto de datos cuyo tama- grar consenso en la etiqueta.
ño está más allá de la capacidad de Fabián García Nocetti, investigador del IIMAS de la Posteriormente, a los tuits eti-
las herramientas de software y de UNAM.Foto: Elizabeth Ruiz/AMC. quetados se les realizó un proceso
bases de datos típicas para captu- analítico de limpieza, por ejemplo,
rar, almacenar, gestionar y analizar información. se identificaron y eliminaron aquellos con etiquetas incon-
“Big data permite nuevas y mejores formas de procesar sistentes, se desecharon contradicciones y repeticiones, y
la información y tiene ventajas sobre los enfoques tradicio- se identificaron los de mayor consenso en su etiqueta, así
nales, en cuanto a velocidad, costos de implementación, como los etiquetados con mayor número de consistencias
escalabilidad y flexibilidad. Además, implica un nuevo para- en el momento de asignar etiquetas a los tuits.
digma en el uso estratégico del análisis de datos, que busca la Una vez que los tuits fueron “limpiados” se conformaron
obtención de información valiosa en la toma de decisiones”. dos grupos, uno que incluyó el 89% para utilizarlo como con-
Entre los sectores que aprovechan el big data están el junto de entrenamiento y otro como conjunto de validación,
comercio electrónico, la salud o la ciencia (física, bioinfor- el cual sirve para verificar la calidad de la clasificación rea-
mática, astronomía, genética). lizada automáticamente utilizando distintos algoritmos de
El presidente de la Academia Mexicana de Informática y aprendizaje estadístico.
miembro de la AMC se refirió al estudio “Estado de Ánimo Estos algoritmos, desarrollados con técnicas de inteligen-
de los tuiteros en México”, el cual abarcó 63 millones de cia artificial por investigadores de INFOTEC y de Centro
tuits al interior del país, de febrero de 2014 al 15 de mayo de Geo, fueron integrados en un mecanismo de “ensamble”,
2015. Fue un trabajo multidisciplinario en el que participaron con lo que se aprovecha lo mejor de cada algoritmo logran-
el INEGI, INFOTEC, Centro Geo, Positive Psychology Center do un 70 % de acierto en el etiquetado de los tuits. Una
de la Universidad de Pennsylvania, la Universidad Tec Mile- vez entrenado el programa de ensamblado de algoritmos,
nio y su Instituto de Ciencias de la Felicidad. se procesaron todos los tuits restantes, lo que permitió su
Se realizó un análisis geográfico de cada tuit georreferen- clasificación automatizada.
ciado (con las coordenadas geográficas de su ubicación en el Por último, se desarrolló una herramienta que a partir
momento de su publicación), y se le asignó el código geoes- de la clasificación de los 63 millones de tuits representara
tadístico del estado y el municipio desde donde se emitió gráficamente el estado de ánimo de los tuiteros en México
el tuit. Además, fue necesario calificar cada tuit de acuerdo por entidad federativa y por mes. Noemí Rodríguez
Boletín informativo de la Academia Mexicana de Ciencias / 25

