Construcción de dos tesauros para el análisis de sentimientos en el idioma español

Date
2018-02-12Authors
Reyes Jalizev, Nikolay LeninDirectors
Alvarado Valencia, Jorge AndrésPublisher
Pontificia Universidad Javeriana
Faculty
Facultad de Ingeniería
Program
Maestría en Ingeniería Industrial
Obtained title
Magíster en Ingeniería Industrial
Type
Tesis/Trabajo de grado - Monografía - Maestría
COAR
Tesis de maestríaShare this record
Citación
Metadata
Show full item record
PDF documents
Resumen
Las empresas con el paso del tiempo suelen basar la toma de decisiones en información relevante de su entorno. Por eso, campos como la minería de datos han logrado un nivel elevado. Esto ha llevado a muchas personas a dedicar sus esfuerzos en obtener un mejoramiento de este campo. Por eso, nuestra institución Pontificia Universidad Javeriana ha hecho una alianza con grandes empresas nacionales para crear el Centro de Excelencia y Apropiación de Big Data y Analytics, conocido como Caoba, que busca la integración de la investigación académica con el mundo empresarial. Dentro de la minería de texto se destaca el análisis de sentimientos, que sirve para analizar la percepción que se expresa en un texto sobre algún tema determinado. Una herramienta importante para el análisis de sentimientos es un diccionario o tesauro que contenga las palabras con una etiquetación que referencie su orientación respecto a la percepción que se quiere evaluar. Para su construcción se utiliza una metodología que consiste en extraer las palabras más comunes de diferentes fuentes para después aplicarles un tratamiento de limpieza, traducción y asignación de valores representativos de los sentimientos que se quieren expresar, provenientes de bases de datos producidas en inglés. Los resultados son dos tesauros, uno de uso genérico para cualquier texto y otro enfocado en el tema de alimentos. En ambos casos las etiquetas en su gran mayoría sonde naturaleza neutral. Esto puede ser consecuencia de que la fuente utilizada para la extracción tenga un sesgo hacia el sentido neutral.
Abstract
The companies with the pass of the time tend to base their decision on relevant information coming from their environment. Therefore, fields such as data mining have a high level of importance. This has led many people to devote their efforts to gain an improvement in this field. For this reason, our institution Pontificia Universidad Javeriana has made an alliance with big companies in order to create the Center of Excellence and Appropriation of Big Data and Analytics, also known as Caoba, which seeks the integration of academic research with the business world. Within text mining, the sentiment analysis serves to analyze the perception expressed in a specific text. An important tool tor the sentiment analysis is a dictionary or thesaurus that contains the words with a label that references its orientation referring to the perception that is wanted to express. The methodology used consists of extracting the most common words from different sources and then apply them a cleaning treatment, translation and assignment of values representative of the feelings that are expressed, from databases produced in English. The results are two thesauri, one of generic use for any text and another focused on the subject of food. In both cases the labels are mostly neutral in nature. This may be due to the fact that the source used for the extraction has a bias towai ds the neutral direction
Keywords
LexicónAnálisis de sentimientos
Tesauro de sentimientos
Procesamiento natural del lenguaje
Keywords
Lexicón in spanishSentiment analysis
Thesaurus for sentiment analysis
Natural language processing
Themes
Maestría en ingeniería industrial - Tesis y disertaciones académicasMinería de datos
Caoba
Tesauros - Construcción
Google Analytics Statistics