Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?

González Pinilla, Juan Sebastián

Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?

dc.contributor.advisor	Galpin, Ixent
dc.creator	González Pinilla, Juan Sebastián
dc.date.accessioned	2024-06-07T12:42:42Z
dc.date.available	2024-06-07T12:42:42Z
dc.date.created	2024-06-06
dc.description.abstract	El discurso de odio en las redes sociales es un problema creciente y complejo, con repercusiones significativas tanto a nivel individual como social. Si bien estas plataformas facilitan la libertad de expresión, también actúan como entornos propicios para la proliferación de mensajes de odio. En este contexto, la identificación y mitigación de dicho contenido resulta crucial para preservar la integridad y seguridad de estos espacios en línea. Este estudio analiza la eficacia de los modelos GPT-3.5 Turbo y GPT-4 en la detección de discurso de odio en redes sociales, comparando su rendimiento con evaluaciones realizadas por humanos. Para ello, se recopiló una muestra de 6.370 tweets mediante la API de Twitter, clasificándolos en cinco categorías de discriminación: racismo, clasismo, xenofobia, sexismo y homofobia. Después, se realizó una encuesta con 65 participantes que evaluaron una submuestra de 100 tweets. Cada tweet fue evaluado también por cada modelo en 13 ocasiones. Los resultados se compararon utilizando métricas como precisión, sensibilidad, especificidad y F1 Score. Los hallazgos preliminares sugieren que el modelo GPT-3.5 Turbo tiende a clasificar un mayor número de tweets como discriminatorios en comparación con GPT-4 y los evaluadores humanos. Esto podría indicar una dependencia excesiva en ciertos términos clave por parte del modelo, sin considerar adecuadamente el contexto integral del mensaje. Por otro lado, GPT-4 demostró un mejor equilibrio entre precisión y sensibilidad, alineándose más estrechamente con las evaluaciones humanas, especialmente en la detección de homofobia. A pesar de estos resultados prometedores, persisten desafíos relacionados con la opacidad de los modelos GPT y su tendencia a generar respuestas incorrectas. Abordar estas limitaciones es esencial para su implementación práctica en la detección de discurso de odio. El desarrollo de herramientas robustas y eficaces para este fin no solo optimizaría la experiencia del usuario en las plataformas en línea, sino que también contribuiría a la creación de entornos digitales más seguros y respetuosos.	spa
dc.description.abstractenglish	Hate speech on social networks is a growing and complex problem, with significant repercussions at both the individual and social levels. While these platforms facilitate freedom of expression, they also act as environments conducive to the proliferation of hate messages. In this context, the identification and mitigation of said content is crucial to preserve the integrity and security of these online spaces. This study analyzes the effectiveness of the GPT-3.5 Turbo and GPT-4 models in detecting hate speech on social networks, comparing their performance with evaluations carried out by humans. To do this, a sample of 6,370 tweets was collected using the Twitter API, classifying them into five categories of discrimination: racism, classism, xenophobia, sexism and homophobia. Next, a survey was conducted with 65 participants who evaluated a subsample of 100 tweets. Each tweet was also evaluated by each model on 13 occasions. The results were compared using metrics such as precision, sensitivity, specificity and F1 Score. Preliminary findings suggest that the GPT-3.5 Turbo model tends to classify a greater number of tweets as discriminatory compared to GPT-4 and human raters. This could indicate an over-reliance on certain key terms by the model, without adequately considering the comprehensive context of the message. On the other hand, GPT-4 demonstrated a better balance between accuracy and sensitivity, aligning more closely with human assessments, especially in detecting homophobia. Despite these promising results, challenges remain related to the opacity of GPT models and their tendency to generate incorrect answers. Addressing these limitations is essential for practical implementation in hate speech detection. The development of robust and effective tools for this purpose would not only optimize the user experience on online platforms, but would also contribute to the creation of safer and more respectful digital environments.	spa
dc.format.extent	37 páginas	spa
dc.format.mimetype	application/pdf	spa
dc.identifier.uri	https://hdl.handle.net/20.500.12010/34532
dc.language.iso	spa	spa
dc.subject	Discurso de odio
dc.subject	Redes sociales
dc.subject	GPT	spa
dc.subject.keyword	GPT
dc.subject.keyword	Hate speech
dc.subject.keyword	Social media
dc.subject.lemb	Discurso de odio en redes sociales
dc.subject.lemb	Inteligencia artificial - Detección de contenido
dc.subject.lemb	Evaluación de modelos de aprendizaje automático
dc.title	Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?	spa
dc.type.coar	http://purl.org/coar/resource_type/c_2df8fbb1	spa

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Evaluación de Modelos GPT en la Detección de Discurso de Odio en español. Cómo se Comparan con los Humanos (1).pdf
Tamaño:: 4.38 MB
Formato:: Adobe Portable Document Format
Descripción:: Documento reservado

Descargar

Bloque de licencias

Mostrando 1 - 3 de 3

Nombre:: license.txt
Tamaño:: 2.87 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Nombre:: FOR-EFE-GDB-008_AUTORIZACION_DE_PUBLICACION_DE_TESIS_O_TRABAJO_DE_GRADO_DE_FORMA_CONFIDENCIAL_signed.pdf
Tamaño:: 275.8 KB
Formato:: Adobe Portable Document Format
Descripción:: Carta de autorización

Descargar

Nombre:: Formato acta de sustentación Juan Sebastián González Pinilla.pdf
Tamaño:: 174.05 KB
Formato:: Adobe Portable Document Format
Descripción:: Acta de sustentación

Descargar

Colecciones

Maestría en Ingeniería y Analítica de Datos