Análisis de la Calidad de Microdatos Extraídos de Twitter : una aproximación desde investigación reproducible sobre datos de los perfiles de los Candidatos Gustavo Bolívar y Juan Daniel Oviedo en las Elecciones para la Alcaldía de Bogotá 2023

Vera Yate, Arley Felipe

Análisis de la Calidad de Microdatos Extraídos de Twitter : una aproximación desde investigación reproducible sobre datos de los perfiles de los Candidatos Gustavo Bolívar y Juan Daniel Oviedo en las Elecciones para la Alcaldía de Bogotá 2023

dc.contributor.advisor	Luna Cardenas, Offray Vladimir
dc.contributor.author	Vera Yate, Arley Felipe
dc.contributor.evaluator	Luna Cardenas, Offray Vladimir
dc.contributor.evaluator	Bustos Santos, Bustos Santos
dc.coverage.city	Bogotá (Colombia)	spa
dc.coverage.department	Cundinamarca (Colombia)	spa
dc.coverage.region	Bogotá, D.C. (Bogotá, Colombia)	spa
dc.coverage.spatial	Colombia	spa
dc.coverage.temporal	2023-2024	spa
dc.date.accessioned	2024-11-13T16:23:08Z
dc.date.available	2024-11-13T16:23:08Z
dc.date.created	2024-10-17
dc.description.abstract	Este estudio se centra en examinar la calidad de los datos extraídos de las redes sociales, particular‐ mente de Twitter (ahora denominada “X” y que a lo largo de esta tesis se denominará Twitter/X), en el contexto de las campañas políticas de las elecciones regionales del año 2023 en Bogotá. La infor‐ mación política que Gustavo Bolívar y Juan Daniel Oviedo publicaron en Twitter/X a lo largo de su campaña será analizada mediante minería de textos. El objetivo de este estudio es investigar herra‐ mientas o métodos de scraping para recopilar datos de la red social Twitter/X, por lo que este proyecto utiliza herramientas de análisis de datos para comprender cuánta información podemos extraer de los microdatos del discurso político en contextos digitales, particularmente en Twitter/X. Esto lo hace novedoso y pertinente para los campos de las ciencias de la información, las bibliotecas y los archi‐ vos, particularmente desde el enfoque de las ciencias archivísticas computacionales. Extraer datos de calidad es un primer paso que, a futuro y en investigaciones posteriores fuera del alcance de esta, pue‐ den ayudar a comprender los datos del discurso emitido por candidatos como manera de fomentar la participación política novedosa en contextos discursivos mediados digitalmente, que constituyen buena parte de la manera en que ciudadanos y candidatos se comunican contemporáneamente. El proyecto de investigación comenzó con una pregunta fundamental: ¿cómo afectan las redes so‐ ciales, especialmente Twitter, la percepción pública sobre los candidatos políticos en las elecciones municipales de 2023 en Bogotá? Esta pregunta inicial tuvo como objetivo comprender las dinámicas del uso de la información y comunicación en las redes sociales y su influencia en la política contempo‐ ránea. Inicialmente paso, se planeó utilizar la API de Twitter para recopilar datos completos sobre las interacciones de los candidatos a lo largo de sus campañas para la Alcaldía de Bogotá, sin embargo, entre el semestre de formulación de la tesis y el de su ejecución, la plataforma fue comprada por Elon Musk y ésta se vio sometida a grandes cambios, entre ellos las relacionadas con las políticas de acceso a la API, las cuales negaron a los centros académicos el acceso a los datos que con anterioridad podían hacer uso. Poco tiempo después del cierre del API oficial para investigadores, ocurriría también el lla‐ mado cierre del API no oficial, usada por proyectos de código abierto como Nitter y Squawker y que en ese momento llevó a anuncios respectivos de sus desarrolladores sobre la muerte de cada uno de los proyectos1 (si bien, gracias a la resiliencia del código abierto, han continuado vigentes después). Por lo expuesto previamente, quienes queríamos investigar sobre discurso político y público en redes sociales, nos enfrentamos a una panorámica de restricciones progresivas y tajantes frente a informa‐ ción relevante por lo que algunos lugares como la Pontificia Universidad Javeriana en Colombia o el ITESO en México, detuvieron los estudios e investigaciones que requirieran nuevos datos de dicha pla‐ taforma, como se confirmó en conversaciones con investigadores cercanos a centros de investigación en dichas instituciones, que trabajaban con datos tomados de Twitter. Si bien los archivos con trinos del pasado, recopilados antes de la era Musk de Twitter, son conservados por distintos institutos y centros de investigación, para esta tesis no se quería una investigación que se refierra sólo al pasado, sino que también pudiera indagar por datos relevantes en el presente y en el futuro. Por lo anterior, en lugar de terminar la investigación con esta fuente de datos, siguiendo el enfoque de muchos centros alrededor del mundo, o cambiarla por completo, se persistió creativamente al re‐ pensar no sólo la estrategia de recopilación de datos sino la pregunta de investigación. En lugar de centrarnos en la cantidad y el tipo de interacciones, reducimos nuestro alcance para incluir la calidad de los microdatos extraídos de Twitter/X, a través de técnicas de scraping (raspado o extracción) de datos. Esta nueva perspectiva enfocada en la calidad de los datos extraídos de las redes sociales es un primer elemento a tener en cuenta para futuros estudios que se hagan con dichos datos, frente al escenario de restricciones anteriormente señalado. Este ajuste metodológico fue fundamental para garantizar la viabilidad y profundidad del estudio, dadas las limitaciones impuestas por la API de Twit‐ter. Además se mantuvo la mirada sobre los perfiles particulares para los datos que se querían extraer, pues si bien la calidad del microdato extraído no cambia cuando se cambia de perfil, es decir, la mis‐ ma fuente de datos extraerá datos de igual calidad para un candidato político que para cualquier otro perfil, el estudio de los datos de los políticos, que constituyen su discurso público, es de particular relevancia si se quieren comprender a futuro fenómenos como los de manipulación mediática, que inspiraron la pregunta inicial de esta tesis. Esta tesis también se enmarca en el llamado giro computacional del archivo o lo que se reconoce como ciencias archivísticas computacionales, de las que se hablará en el marco teórico. Este viraje computacional se preocupa por la materialidad digital del archivo y por el hecho de que éste ahora no es sólo algo que leemos sino que “nos lee” y perfila de vuelta intentando crear patrones sobre los cibernavegantes que consultan y usan un archivo digital, ya sea este una red social o una aplicación ofimática y de groupware en la “nube”. Por ello, no sólo se preocupa por hacer explícitas las interfa‐ ces, algoritmos y el código con el que se extraén y estudian los datos de Twitter, sino las plataformas mismas con las que esta tesis se escribe. Para lograrlo, usa el enfoque de investigación reproduci‐ ble, en el que los investigadores comparten más allá que sus hallazgos y resultados y se esfuerzan por incrementar la trazabilidad histórica de los distintos artefactos que la investigación produce (da‐ tos, código, prosa, etc.) De acuerdo con lo anteriormente señalado, los capítulos que se centran en revelar esa materialidad digital no son anexos técnicos, sino lugares centrales de este estudio que si bien “enrarecen” la escritura, hacen parte de esas nuevas formas escriturales consecuentes con el giro computacional antes mencionado, entre las que se encuentran las libretas interactivas, las visua‐ lizaciones y narrativas de datos y a las que está incursionando también la ciencia de la información, la bibliotecología y la archivística, como se puede apreciar en discusiones recientes del Archivo Nacional del Reino Unido o las ediciones académicas especiales de la ACM (Association for Computing Machinery) sobre Computational Archival Science (Ciencias Archivísticas Computacionales). Lo anterior implica desafíos tanto para el autor como para el lector de la tesis. Si bien las tesis no son textos de divulgación para público general, sino que suponen públicos especializados, acá nos enfrentamos, además, al desafío de incursionar en esas otras formas de escrituras mixtas (de prosa, código, interfaces y plataformas) y presentarlas al lector de manera comprensible, por lo que, se ha dispuesto un glosario de términos para mejor entendimiento. Sin embargo, se reconoce que se pre‐ sentan los desafíos antes mencionados, y las limitaciones escriturales y de redacción (como se puede notar, distintos apartados tienen distintos niveles de redacción y maduración). Aún así, se considera un esfuerzo valioso y novedoso, particularmente en este nivel formativo de pregrado y en medio de las dificultades de reformular el proyecto mientras se estaba ejecutando, de realizarlo en los tiempos cortos para las complejidades emergentes que un proyecto de esta naturaleza implica, y persistir en la preocupación por los datos que circulan en redes sociales incluso frente a circunstancias adversas a los investigadores, como las antes descritas.	spa
dc.description.abstractenglish	This study focuses on examining the quality of data extracted from social media, particularly Twitter (now called “X” and which will be referred to as Twitter/X throughout this thesis), in the context of the political campaigns for the 2023 regional elections in Bogotá. The political information that Gustavo Bolívar and Juan Daniel Oviedo published on Twitter/X throughout their campaign will be analyzed using text mining. The objective of this study is to investigate scraping tools or methods to collect data from the Twitter/X social network, so this project uses data analysis tools to understand how much information we can extract from the microdata of political discourse in digital contexts, particularly on Twitter/X. This makes it novel and relevant to the fields of information science, libraries, and archives, particularly from the perspective of computational archival sciences. Extracting quality data is a first step that, in the future and in subsequent research outside the scope of this one, can help to understand the data of the discourse emitted by candidates as a way of promoting novel political participation in digitally mediated discursive contexts, which constitute a large part of the way in which citizens and candidates communicate today. The research project began with a fundamental question: how do social networks, especially Twitter, affect public perception of political candidates in the 2023 municipal elections in Bogotá? This initial question aimed to understand the dynamics of the use of information and communication on social networks and their influence on contemporary politics. Initially, the plan was to use the Twitter API to collect comprehensive data on the interactions of candidates throughout their campaigns for Mayor of Bogotá. However, between the semester of the thesis formulation and its execution, the platform was purchased by Elon Musk and underwent major changes, including those related to API access policies, which denied academic centers access to the data that they could previously use. Shortly after the closure of the official API for researchers, the so-called closure of the unofficial API would also occur, used by open source projects such as Nitter and Squawker and which at that time led to respective announcements by their developers about the death of each of the projects1 (although, thanks to the resilience of open source, they have continued to be in force afterwards). As previously stated, those of us who wanted to do research on political and public discourse on social networks were faced with a panorama of progressive and sharp restrictions on relevant information, which is why some places such as the Pontificia Universidad Javeriana in Colombia or ITESO in Mexico, stopped studies and research that required new data from said platform, as confirmed in conversations with researchers close to research centers in these institutions, who worked with data taken from Twitter. Although the archives with tweets from the past, collected before the Musk era of Twitter, are kept by different institutes and research centers, for this thesis we did not want research that refers only to the past, but that could also investigate relevant data in the present and in the future. Therefore, instead of ending the research with this source of data, following the approach of many centers around the world, or changing it completely, we creatively persisted by rethinking not only the data collection strategy but also the research question. Instead of focusing on the quantity and type of interactions, we narrowed our scope to include the quality of microdata extracted from Twitter/X, through data scraping techniques. This new perspective focused on the quality of data extracted from social networks is a first element to consider for future studies carried out with such data, in the context of restrictions mentioned above. This methodological adjustment was essential to ensure the viability and depth of the study, given the limitations imposed by the Twitter API. In addition, the focus was on the particular profiles for the data to be extracted, because although the quality of the extracted microdata does not change when changing profiles, that is, the same data source will extract data of equal quality for a political candidate as for any other profile, the study of the data of politicians, which constitute their public discourse, is particularly relevant if we want to understand in the future phenomena such as media manipulation, which inspired the initial question of this thesis. This thesis is also framed within the so-called computational turn of the archive or what is known as computational archival sciences, which will be discussed in the theoretical framework. This computational turn is concerned with the digital materiality of the archive and the fact that it is now not only something that we read but that “reads us” and profiles us in return, trying to create patterns about the cyber surfers who consult and use a digital archive, whether it is a social network or an office and groupware application in the “cloud”. Therefore, it is not only concerned with making explicit the interfaces, algorithms and code with which Twitter data is extracted and studied, but also the platforms themselves with which this thesis is written. To achieve this, it uses the reproducible research approach, in which researchers share more than just their findings and results and strive to increase the historical traceability of the different artifacts that the research produces (data, code, prose, etc.). In accordance with the above, the chapters that focus on revealing this digital materiality are not technical appendices, but central places in this study that, although they “rarify” writing, are part of these new writing forms consistent with the aforementioned computational turn, among which are interactive notebooks, data visualizations and narratives, and which are also being introduced by information science, library science and archival science, as can be seen in recent discussions by the National Archives of the United Kingdom or the special academic editions of the ACM (Association for Computing Machinery) on Computational Archival Science. The above implies challenges for both the author and the reader of the thesis. Although theses are not texts for general public dissemination, but rather for specialized audiences, here we also face the challenge of venturing into these other forms of mixed writing (prose, code, interfaces and platforms) and presenting them to the reader in an understandable way, which is why a glossary of terms has been prepared for better understanding. However, it is recognized that the aforementioned challenges and writing and writing limitations do occur (as can be seen, different sections have different levels of writing and maturity). Even so, it is considered a valuable and novel effort, particularly at this undergraduate training level and in the midst of the difficulties of reformulating the project while it was being executed, of carrying it out in the short timeframes for the emerging complexities that a project of this nature implies, and of persisting in the concern for the data circulating on social networks even in the face of adverse circumstances for researchers, such as those described above.	spa
dc.description.degreelevel	Pregrado	spa
dc.description.degreename	Profesional en Ciencia de la Información, Bibliotecología y Archivística	spa
dc.format	PDF	spa
dc.format.mimetype	application/pdf	spa
dc.identifier.instname	instname:Pontificia Universidad Javeriana	spa
dc.identifier.reponame	reponame:Repositorio Institucional - Pontificia Universidad Javeriana	spa
dc.identifier.repourl	repourl:https://repository.javeriana.edu.co	spa
dc.identifier.uri	http://hdl.handle.net/10554/68675
dc.language.iso	spa	spa
dc.publisher	Pontificia Universidad Javeriana	spa
dc.publisher.faculty	Facultad de Comunicación y Lenguaje	spa
dc.publisher.program	Ciencia de la Información, Bibliotecología y Archivística	spa
dc.relation.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/co/	*
dc.rights.accessrights	info:eu-repo/semantics/openAccess	spa
dc.rights.coar	http://purl.org/coar/access_right/c_abf2	spa
dc.rights.licence	Atribución-NoComercial-SinDerivadas 4.0 Internacional	*
dc.rights.local	De acuerdo con la naturaleza del uso concedido, la presente licencia parcial se otorga a título gratuito por el máximo tiempo legal colombiano, con el propósito de que en dicho lapso mi (nuestra) obra sea explotada en las condiciones aquí estipuladas y para los fines indicados, respetando siempre la titularidad de los derechos patrimoniales y morales correspondientes, de acuerdo con los usos honrados, de manera proporcional y justificada a la finalidad perseguida, sin ánimo de lucro ni de comercialización. De manera complementaria, garantizo (garantizamos) en mi (nuestra) calidad de estudiante (s) y por ende autor (es) exclusivo (s), que la Tesis o Trabajo de Grado en cuestión, es producto de mi (nuestra) plena autoría, de mi (nuestro) esfuerzo personal intelectual, como consecuencia de mi (nuestra) creación original particular y, por tanto, soy (somos) el (los) único (s) titular (es) de la misma. Además, aseguro (aseguramos) que no contiene citas, ni transcripciones de otras obras protegidas, por fuera de los límites autorizados por la ley, según los usos honrados, y en proporción a los fines previstos; ni tampoco contempla declaraciones difamatorias contra terceros; respetando el derecho a la imagen, intimidad, buen nombre y demás derechos constitucionales. Adicionalmente, manifiesto (manifestamos) que no se incluyeron expresiones contrarias al orden público ni a las buenas costumbres. En consecuencia, la responsabilidad directa en la elaboración, presentación, investigación y, en general, contenidos de la Tesis o Trabajo de Grado es de mí (nuestro) competencia exclusiva, eximiendo de toda responsabilidad a la Pontifica Universidad Javeriana por tales aspectos. Sin perjuicio de los usos y atribuciones otorgadas en virtud de este documento, continuaré (continuaremos) conservando los correspondientes derechos patrimoniales sin modificación o restricción alguna, puesto que, de acuerdo con la legislación colombiana aplicable, el presente es un acuerdo jurídico que en ningún caso conlleva la enajenación de los derechos patrimoniales derivados del régimen del Derecho de Autor. De conformidad con lo establecido en el artículo 30 de la Ley 23 de 1982 y el artículo 11 de la Decisión Andina 351 de 1993, "Los derechos morales sobre el trabajo son propiedad de los autores", los cuales son irrenunciables, imprescriptibles, inembargables e inalienables. En consecuencia, la Pontificia Universidad Javeriana está en la obligación de RESPETARLOS Y HACERLOS RESPETAR, para lo cual tomará las medidas correspondientes para garantizar su observancia.	spa
dc.subject	Microdatos	spa
dc.subject	Twitter/X	spa
dc.subject	Candidatos políticos	spa
dc.subject	Gustavo Bolívar	spa
dc.subject	Juan Daniel Oviedo	spa
dc.subject	Elecciones Bogotá 2023	spa
dc.subject	Investigación reproducible	spa
dc.subject	Scraping de datos	spa
dc.subject	Minería de textos	spa
dc.subject	Ciencias archivísticas computacionales	spa
dc.subject	Redes sociales	spa
dc.subject	Calidad de datos	spa
dc.subject.armarc	Ciencia de la información, Bibliotecología y Archivística - Tesis y disertaciones académicas	spa
dc.subject.armarc	Minería de datos - Bogotá (Colombia)	spa
dc.subject.armarc	Redes sociales - Bogotá (Colombia)	spa
dc.subject.armarc	Calidad de la información	spa
dc.subject.keyword	Microdata	spa
dc.subject.keyword	Twitter/X	spa
dc.subject.keyword	Political candidates	spa
dc.subject.keyword	Gustavo Bolívar	spa
dc.subject.keyword	Juan Daniel Oviedo	spa
dc.subject.keyword	Bogotá 2023 elections	spa
dc.subject.keyword	Reproducible research	spa
dc.subject.keyword	Data scraping	spa
dc.subject.keyword	Text mining	spa
dc.subject.keyword	Computational archival science	spa
dc.subject.keyword	Social media	spa
dc.subject.keyword	Data quality	spa
dc.title	Análisis de la Calidad de Microdatos Extraídos de Twitter : una aproximación desde investigación reproducible sobre datos de los perfiles de los Candidatos Gustavo Bolívar y Juan Daniel Oviedo en las Elecciones para la Alcaldía de Bogotá 2023	spa
dc.title.english	Analysis of the Quality of Microdata Extracted from Twitter : an approach from reproducible research on data from the profiles of Candidates Gustavo Bolívar and Juan Daniel Oviedo in the 2023 Bogotá Mayoral Elections	spa
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.type.driver	info:eu-repo/semantics/bachelorThesis
dc.type.hasversion	http://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado	spa

Archivos

Bloque original

Mostrando 1 - 2 de 2

Nombre:: tesis_pregrado.pdf
Tamaño:: 9.86 MB
Formato:: Adobe Portable Document Format
Descripción:: Documento

Descargar

Nombre:: Carta_de_autorizacion.pdf
Tamaño:: 168.83 KB
Formato:: Adobe Portable Document Format
Descripción:: Licencia de uso

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 2.54 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Ciencia de la información, Bibliotecología y Archivística