Análisis de la Calidad de Microdatos Extraídos de Twitter : una aproximación desde investigación reproducible sobre datos de los perfiles de los Candidatos Gustavo Bolívar y Juan Daniel Oviedo en las Elecciones para la Alcaldía de Bogotá 2023

Date
2024-10-17Authors
Vera Yate, Arley FelipeDirectors
Luna Cardenas, Offray VladimirPublisher
Pontificia Universidad Javeriana
Faculty
Facultad de Comunicación y Lenguaje
Program
Ciencia de la Información, Bibliotecología y Archivística
Obtained title
Profesional en Ciencia de la Información, Bibliotecología y Archivística
Type
Tesis/Trabajo de grado - Monografía - Pregrado
Share this record
Citación
Metadata
Show full item record
PDF documents
English Title
Analysis of the Quality of Microdata Extracted from Twitter : an approach from reproducible research on data from the profiles of Candidates Gustavo Bolívar and Juan Daniel Oviedo in the 2023 Bogotá Mayoral ElectionsResumen
Este estudio se centra en examinar la calidad de los datos extraídos de las redes sociales, particular‐ mente de Twitter (ahora denominada “X” y que a lo largo de esta tesis se denominará Twitter/X), en el contexto de las campañas políticas de las elecciones regionales del año 2023 en Bogotá. La infor‐ mación política que Gustavo Bolívar y Juan Daniel Oviedo publicaron en Twitter/X a lo largo de su campaña será analizada mediante minería de textos. El objetivo de este estudio es investigar herra‐ mientas o métodos de scraping para recopilar datos de la red social Twitter/X, por lo que este proyecto utiliza herramientas de análisis de datos para comprender cuánta información podemos extraer de los microdatos del discurso político en contextos digitales, particularmente en Twitter/X. Esto lo hace novedoso y pertinente para los campos de las ciencias de la información, las bibliotecas y los archi‐ vos, particularmente desde el enfoque de las ciencias archivísticas computacionales. Extraer datos de calidad es un primer paso que, a futuro y en investigaciones posteriores fuera del alcance de esta, pue‐ den ayudar a comprender los datos del discurso emitido por candidatos como manera de fomentar la participación política novedosa en contextos discursivos mediados digitalmente, que constituyen buena parte de la manera en que ciudadanos y candidatos se comunican contemporáneamente.
El proyecto de investigación comenzó con una pregunta fundamental: ¿cómo afectan las redes so‐ ciales, especialmente Twitter, la percepción pública sobre los candidatos políticos en las elecciones municipales de 2023 en Bogotá? Esta pregunta inicial tuvo como objetivo comprender las dinámicas del uso de la información y comunicación en las redes sociales y su influencia en la política contempo‐ ránea. Inicialmente paso, se planeó utilizar la API de Twitter para recopilar datos completos sobre las interacciones de los candidatos a lo largo de sus campañas para la Alcaldía de Bogotá, sin embargo, entre el semestre de formulación de la tesis y el de su ejecución, la plataforma fue comprada por Elon Musk y ésta se vio sometida a grandes cambios, entre ellos las relacionadas con las políticas de acceso a la API, las cuales negaron a los centros académicos el acceso a los datos que con anterioridad podían hacer uso. Poco tiempo después del cierre del API oficial para investigadores, ocurriría también el lla‐ mado cierre del API no oficial, usada por proyectos de código abierto como Nitter y Squawker y que en ese momento llevó a anuncios respectivos de sus desarrolladores sobre la muerte de cada uno de los proyectos1 (si bien, gracias a la resiliencia del código abierto, han continuado vigentes después).
Por lo expuesto previamente, quienes queríamos investigar sobre discurso político y público en redes sociales, nos enfrentamos a una panorámica de restricciones progresivas y tajantes frente a informa‐ ción relevante por lo que algunos lugares como la Pontificia Universidad Javeriana en Colombia o el ITESO en México, detuvieron los estudios e investigaciones que requirieran nuevos datos de dicha pla‐ taforma, como se confirmó en conversaciones con investigadores cercanos a centros de investigación en dichas instituciones, que trabajaban con datos tomados de Twitter. Si bien los archivos con trinos del pasado, recopilados antes de la era Musk de Twitter, son conservados por distintos institutos y centros de investigación, para esta tesis no se quería una investigación que se refierra sólo al pasado, sino que también pudiera indagar por datos relevantes en el presente y en el futuro.
Por lo anterior, en lugar de terminar la investigación con esta fuente de datos, siguiendo el enfoque de muchos centros alrededor del mundo, o cambiarla por completo, se persistió creativamente al re‐ pensar no sólo la estrategia de recopilación de datos sino la pregunta de investigación. En lugar de centrarnos en la cantidad y el tipo de interacciones, reducimos nuestro alcance para incluir la calidad de los microdatos extraídos de Twitter/X, a través de técnicas de scraping (raspado o extracción) de datos. Esta nueva perspectiva enfocada en la calidad de los datos extraídos de las redes sociales es un primer elemento a tener en cuenta para futuros estudios que se hagan con dichos datos, frente al escenario de restricciones anteriormente señalado. Este ajuste metodológico fue fundamental para garantizar la viabilidad y profundidad del estudio, dadas las limitaciones impuestas por la API de Twit‐ter. Además se mantuvo la mirada sobre los perfiles particulares para los datos que se querían extraer, pues si bien la calidad del microdato extraído no cambia cuando se cambia de perfil, es decir, la mis‐ ma fuente de datos extraerá datos de igual calidad para un candidato político que para cualquier otro perfil, el estudio de los datos de los políticos, que constituyen su discurso público, es de particular relevancia si se quieren comprender a futuro fenómenos como los de manipulación mediática, que inspiraron la pregunta inicial de esta tesis.
Esta tesis también se enmarca en el llamado giro computacional del archivo o lo que se reconoce como ciencias archivísticas computacionales, de las que se hablará en el marco teórico. Este viraje computacional se preocupa por la materialidad digital del archivo y por el hecho de que éste ahora no es sólo algo que leemos sino que “nos lee” y perfila de vuelta intentando crear patrones sobre los cibernavegantes que consultan y usan un archivo digital, ya sea este una red social o una aplicación ofimática y de groupware en la “nube”. Por ello, no sólo se preocupa por hacer explícitas las interfa‐ ces, algoritmos y el código con el que se extraén y estudian los datos de Twitter, sino las plataformas mismas con las que esta tesis se escribe. Para lograrlo, usa el enfoque de investigación reproduci‐ ble, en el que los investigadores comparten más allá que sus hallazgos y resultados y se esfuerzan por incrementar la trazabilidad histórica de los distintos artefactos que la investigación produce (da‐ tos, código, prosa, etc.) De acuerdo con lo anteriormente señalado, los capítulos que se centran en revelar esa materialidad digital no son anexos técnicos, sino lugares centrales de este estudio que si bien “enrarecen” la escritura, hacen parte de esas nuevas formas escriturales consecuentes con el giro computacional antes mencionado, entre las que se encuentran las libretas interactivas, las visua‐ lizaciones y narrativas de datos y a las que está incursionando también la ciencia de la información, la bibliotecología y la archivística, como se puede apreciar en discusiones recientes del Archivo Nacional del Reino Unido o las ediciones académicas especiales de la ACM (Association for Computing Machinery) sobre Computational Archival Science (Ciencias Archivísticas Computacionales).
Lo anterior implica desafíos tanto para el autor como para el lector de la tesis. Si bien las tesis no son textos de divulgación para público general, sino que suponen públicos especializados, acá nos enfrentamos, además, al desafío de incursionar en esas otras formas de escrituras mixtas (de prosa, código, interfaces y plataformas) y presentarlas al lector de manera comprensible, por lo que, se ha dispuesto un glosario de términos para mejor entendimiento. Sin embargo, se reconoce que se pre‐ sentan los desafíos antes mencionados, y las limitaciones escriturales y de redacción (como se puede notar, distintos apartados tienen distintos niveles de redacción y maduración). Aún así, se considera un esfuerzo valioso y novedoso, particularmente en este nivel formativo de pregrado y en medio de las dificultades de reformular el proyecto mientras se estaba ejecutando, de realizarlo en los tiempos cortos para las complejidades emergentes que un proyecto de esta naturaleza implica, y persistir en la preocupación por los datos que circulan en redes sociales incluso frente a circunstancias adversas a los investigadores, como las antes descritas.
Abstract
This study focuses on examining the quality of data extracted from social media, particularly Twitter (now called “X” and which will be referred to as Twitter/X throughout this thesis), in the context of the political campaigns for the 2023 regional elections in Bogotá. The political information that Gustavo Bolívar and Juan Daniel Oviedo published on Twitter/X throughout their campaign will be analyzed using text mining. The objective of this study is to investigate scraping tools or methods to collect data from the Twitter/X social network, so this project uses data analysis tools to understand how much information we can extract from the microdata of political discourse in digital contexts, particularly on Twitter/X. This makes it novel and relevant to the fields of information science, libraries, and archives, particularly from the perspective of computational archival sciences. Extracting quality data is a first step that, in the future and in subsequent research outside the scope of this one, can help to understand the data of the discourse emitted by candidates as a way of promoting novel political participation in digitally mediated discursive contexts, which constitute a large part of the way in which citizens and candidates communicate today.
The research project began with a fundamental question: how do social networks, especially Twitter, affect public perception of political candidates in the 2023 municipal elections in Bogotá? This initial question aimed to understand the dynamics of the use of information and communication on social networks and their influence on contemporary politics. Initially, the plan was to use the Twitter API to collect comprehensive data on the interactions of candidates throughout their campaigns for Mayor of Bogotá. However, between the semester of the thesis formulation and its execution, the platform was purchased by Elon Musk and underwent major changes, including those related to API access policies, which denied academic centers access to the data that they could previously use. Shortly after the closure of the official API for researchers, the so-called closure of the unofficial API would also occur, used by open source projects such as Nitter and Squawker and which at that time led to respective announcements by their developers about the death of each of the projects1 (although, thanks to the resilience of open source, they have continued to be in force afterwards). As previously stated, those of us who wanted to do research on political and public discourse on social networks were faced with a panorama of progressive and sharp restrictions on relevant information, which is why some places such as the Pontificia Universidad Javeriana in Colombia or ITESO in Mexico, stopped studies and research that required new data from said platform, as confirmed in conversations with researchers close to research centers in these institutions, who worked with data taken from Twitter. Although the archives with tweets from the past, collected before the Musk era of Twitter, are kept by different institutes and research centers, for this thesis we did not want research that refers only to the past, but that could also investigate relevant data in the present and in the future.
Therefore, instead of ending the research with this source of data, following the approach of many centers around the world, or changing it completely, we creatively persisted by rethinking not only the data collection strategy but also the research question. Instead of focusing on the quantity and type of interactions, we narrowed our scope to include the quality of microdata extracted from Twitter/X, through data scraping techniques. This new perspective focused on the quality of data extracted from social networks is a first element to consider for future studies carried out with such data, in the context of restrictions mentioned above. This methodological adjustment was essential to ensure the viability and depth of the study, given the limitations imposed by the Twitter API. In addition, the focus was on the particular profiles for the data to be extracted, because although the quality of the extracted microdata does not change when changing profiles, that is, the same data source will extract data of equal quality for a political candidate as for any other profile, the study of the data of politicians, which constitute their public discourse, is particularly relevant if we want to understand in the future phenomena such as media manipulation, which inspired the initial question of this thesis.
This thesis is also framed within the so-called computational turn of the archive or what is known as computational archival sciences, which will be discussed in the theoretical framework. This computational turn is concerned with the digital materiality of the archive and the fact that it is now not only something that we read but that “reads us” and profiles us in return, trying to create patterns about the cyber surfers who consult and use a digital archive, whether it is a social network or an office and groupware application in the “cloud”. Therefore, it is not only concerned with making explicit the interfaces, algorithms and code with which Twitter data is extracted and studied, but also the platforms themselves with which this thesis is written. To achieve this, it uses the reproducible research approach, in which researchers share more than just their findings and results and strive to increase the historical traceability of the different artifacts that the research produces (data, code, prose, etc.). In accordance with the above, the chapters that focus on revealing this digital materiality are not technical appendices, but central places in this study that, although they “rarify” writing, are part of these new writing forms consistent with the aforementioned computational turn, among which are interactive notebooks, data visualizations and narratives, and which are also being introduced by information science, library science and archival science, as can be seen in recent discussions by the National Archives of the United Kingdom or the special academic editions of the ACM (Association for Computing Machinery) on Computational Archival Science. The above implies challenges for both the author and the reader of the thesis. Although theses are not texts for general public dissemination, but rather for specialized audiences, here we also face the challenge of venturing into these other forms of mixed writing (prose, code, interfaces and platforms) and presenting them to the reader in an understandable way, which is why a glossary of terms has been prepared for better understanding. However, it is recognized that the aforementioned challenges and writing and writing limitations do occur (as can be seen, different sections have different levels of writing and maturity). Even so, it is considered a valuable and novel effort, particularly at this undergraduate training level and in the midst of the difficulties of reformulating the project while it was being executed, of carrying it out in the short timeframes for the emerging complexities that a project of this nature implies, and of persisting in the concern for the data circulating on social networks even in the face of adverse circumstances for researchers, such as those described above.
Keywords
MicrodatosTwitter/X
Candidatos políticos
Gustavo Bolívar
Juan Daniel Oviedo
Elecciones Bogotá 2023
Investigación reproducible
Scraping de datos
Minería de textos
Ciencias archivísticas computacionales
Redes sociales
Calidad de datos
Keywords
MicrodataTwitter/X
Political candidates
Gustavo Bolívar
Juan Daniel Oviedo
Bogotá 2023 elections
Reproducible research
Data scraping
Text mining
Computational archival science
Social media
Data quality
Spatial coverage (cities)
Bogotá (Colombia)Spatial coverage (Municipalities of Colombia)
Bogotá, D.C. (Bogotá, Colombia)Spatial coverage (departments of Colombia)
Cundinamarca (Colombia)Spatial coverage
ColombiaTemporary coverage
2023-2024Themes
Ciencia de la información, Bibliotecología y Archivística - Tesis y disertaciones académicasMinería de datos - Bogotá (Colombia)
Redes sociales - Bogotá (Colombia)
Calidad de la información
Google Analytics Statistics