Prueba de concepto para la extracción de recursos bibliográficos desde los catálogos de asignaturas de la Facultad de Comunicación y Lenguaje de la Pontificia Universidad Javeriana
View/ Open
Date
2023-11-15Directors
Nova Arévalo, Néstor ArmandoPublisher
Pontificia Universidad Javeriana
Faculty
Facultad de Ingeniería
Program
Maestría en Analítica para la Inteligencia de Negocios
Obtained title
Magíster en Analítica para la Inteligencia de Negocios
Type
Tesis/Trabajo de grado - Monografía - Maestría
COAR
Tesis de maestríaShare this record
Citación
Metadata
Show full item record
PDF documents
English Title
Proof of concept for the extraction of bibliographic resources from course catalogs of the Faculty of Communication and Language, Pontificia Universidad JaverianaResumen
La bibliotecología se enfrenta constantemente a la tarea dispendiosa de clasificar y organizar manualmente las referencias bibliográficas de tal manera que puedan realizar análisis cualitativos y cuantitativos ya sea para determinar la vigencia de las fuentes, la cantidad de libros o la disponibilidad de algún recurso. Los avances computacionales y el desarrollo de diferentes modelos de Procesamiento de Lenguaje Natural (NLP) permiten la automatización de estas tareas de manera ágil y eficiente.
En este trabajo se realiza una revisión de modelos de Reconocimiento de Entidades Nombradas (NER) a través de la metodología CRISP-DM, que permitan identificar los metadatos de referencias bibliográficas académicas con el objetivo de brindar una herramienta que automatice procesos manuales en la Biblioteca Alfonso Borrero Cabal S.J y en la Facultad de Comunicación y Lenguaje de la Pontificia Universidad Javeriana.
La evaluación de los modelos muestra resultados alentadores con el modelo Bidirectional Encoder Representations from Transformers (BERT) en la extracción de metadatos en recursos bibliográficos, con lo cual se recomienda su implementación.
Abstract
Librarianship is constantly faced with the hard task of manually classifying and organizing bibliographic references in such a way that qualitative and quantitative analyzes can be carried out, either to determine the age of the sources, the number of books or the availability of some resource. Computational advances and the development of different Natural Language Processing (NLP) models allow the automation of these tasks in an agile and efficient way.
In this work, a review of Named Entity Recognition (NER) models is carried out through the CRISP-DM methodology, which allows identifying the metadata of academic bibliographic references with the objective of providing a tool that automates manual processes in the Biblioteca Alfonso Borrero Cabal S.J and at the Faculty of Communication and Language of the Pontificia Universidad Javeriana.
The evaluation of the models shows encouraging results with the Bidirectional Encoder Representations from Transformers (BERT) model in the extraction of metadata in bibliographic resources, which is why its implementation is recommended.
Keywords
BibliotecologiaMetadatos
Recursos Bibliograficos
Reconocimiento de Entidades Nombradas
Bidirectional Encoder Representations from Transformers
Procesamiento de Lenguaje Natural
Keywords
LibrarianshipMetadata
Bibliographic Resources
Named Entity Recognition
Bidirectional Encoder Representations from Transformers
Natural Language Processing
Themes
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicasCitas bibliográficas
Aprendizaje automático (Inteligencia artificial)
Clasificación
Google Analytics Statistics