Proyecto de NLP para la Identificación de Noticias Falsas Acerca de COVID-19
View/ Open
Date
2023-05-26Authors
Rincon Pineros, Brayan DavidArquez Abdala, Miguel
Restrepo Alvarez, Leonardo
Jimenez Prieto, Giovanni
Directors
Nova Arevalo, Nestor ArmandoPublisher
Pontificia Universidad Javeriana
Faculty
Facultad de Ingeniería
Program
Maestría en Analítica para la Inteligencia de Negocios
Obtained title
Magíster en Analítica para la Inteligencia de Negocios
Type
Tesis/Trabajo de grado - Monografía - Maestría
COAR
Tesis de maestríaShare this record
Citación
Metadata
Show full item record
PDF documents
English Title
NLP Project for the Identification Fake News About COVID-19Resumen
El programa de Ciencia de la Información, Bibliotecología y Archivística (CIBAR) de la Pontificia Universidad Javeriana está actualizando sus líneas disciplinarias, incluyendo la clasificación de información. Ante el creciente volumen de datos, se busca desarrollar sistemas que faciliten la clasificación de manera semiautomática o automática, reduciendo costos y consumo de recursos. Un caso de uso es la clasificación automática de noticias falsas sobre COVID-19. El aumento de estas noticias y la dificultad para el público en general de discernir su veracidad, hacen necesaria la implementación de un sistema que clasifique y etiquete las noticias antes de su difusión. Este sistema empleará técnicas de procesamiento de lenguaje natural y aprendizaje automático para realizar la clasificación de manera autónoma.
El proyecto incluye el desarrollo de una herramienta que evalúa la veracidad de las noticias mediante criterios analíticos, permitiendo a los usuarios identificar señales de noticias potencialmente falsas. Adicionalmente, se utilizará Web Scraping para extraer información complementaria que permita un análisis cualitativo y descriptivo. Este proyecto tiene un gran valor social, pues busca combatir la desinformación en torno al COVID-19, y pedagógico, acercando a la comunidad educativa de la Universidad a temas analíticos y de programación, y familiarizando a estudiantes y docentes con herramientas analíticas para adaptarse a las demandas del entorno laboral.
Abstract
The Information Science, Librarianship, and Archiving program (CIBAR) at the Javeriana University is in the process of updating its disciplinary lines, with a particular emphasis on information classification. With the growing volume of data, the objective is to develop systems that streamline classification semi-automatically or automatically, thus reducing costs and resource utilization. One use case is the automatic classification of false news related to COVID-19. Given the proliferation of such news and the challenges the public faces in discerning its veracity, it is essential to implement a system that classifies and labels the news before its distribution. This system will employ natural language processing and machine learning techniques to carry out classification autonomously.
This project incorporates the development of a tool that assesses news veracity based on analytical criteria, enabling users to identify telltale signs of potentially false news. In addition, Web Scraping will be utilized to extract supplementary information that facilitates qualitative and descriptive analysis. This project carries considerable social value as it aims to combat misinformation surrounding COVID-19. Furthermore, it holds educational significance by bringing the university's educational community closer to analytical and programming topics and familiarizing students and teachers with analytical tools, thus equipping them to meet the demands of the professional landscape.
Keywords
COVID-19Procesamiento de Lenguaje Natural
Aprendizaje Automático
Noticias Falsas
Clasificación Automática de Noticias
Keywords
COVID-19Natural Language Processing
Machine Learning
Fake News
Automatic News Classification
Themes
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicasAprendizaje automático (Inteligencia artificial)
Clasificación
Noticias falsas – China
COVID-19 (Enfermedad)
Google Analytics Statistics