Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?

dc.contributor.advisorGalpin, Ixent
dc.creatorGonzález Pinilla, Juan Sebastián
dc.date.accessioned2024-06-07T12:42:42Z
dc.date.available2024-06-07T12:42:42Z
dc.date.created2024-06-06
dc.description.abstractEl discurso de odio en las redes sociales es un problema creciente y complejo, con repercusiones significativas tanto a nivel individual como social. Si bien estas plataformas facilitan la libertad de expresión, también actúan como entornos propicios para la proliferación de mensajes de odio. En este contexto, la identificación y mitigación de dicho contenido resulta crucial para preservar la integridad y seguridad de estos espacios en línea. Este estudio analiza la eficacia de los modelos GPT-3.5 Turbo y GPT-4 en la detección de discurso de odio en redes sociales, comparando su rendimiento con evaluaciones realizadas por humanos. Para ello, se recopiló una muestra de 6.370 tweets mediante la API de Twitter, clasificándolos en cinco categorías de discriminación: racismo, clasismo, xenofobia, sexismo y homofobia. Después, se realizó una encuesta con 65 participantes que evaluaron una submuestra de 100 tweets. Cada tweet fue evaluado también por cada modelo en 13 ocasiones. Los resultados se compararon utilizando métricas como precisión, sensibilidad, especificidad y F1 Score. Los hallazgos preliminares sugieren que el modelo GPT-3.5 Turbo tiende a clasificar un mayor número de tweets como discriminatorios en comparación con GPT-4 y los evaluadores humanos. Esto podría indicar una dependencia excesiva en ciertos términos clave por parte del modelo, sin considerar adecuadamente el contexto integral del mensaje. Por otro lado, GPT-4 demostró un mejor equilibrio entre precisión y sensibilidad, alineándose más estrechamente con las evaluaciones humanas, especialmente en la detección de homofobia. A pesar de estos resultados prometedores, persisten desafíos relacionados con la opacidad de los modelos GPT y su tendencia a generar respuestas incorrectas. Abordar estas limitaciones es esencial para su implementación práctica en la detección de discurso de odio. El desarrollo de herramientas robustas y eficaces para este fin no solo optimizaría la experiencia del usuario en las plataformas en línea, sino que también contribuiría a la creación de entornos digitales más seguros y respetuosos.spa
dc.description.abstractenglishHate speech on social networks is a growing and complex problem, with significant repercussions at both the individual and social levels. While these platforms facilitate freedom of expression, they also act as environments conducive to the proliferation of hate messages. In this context, the identification and mitigation of said content is crucial to preserve the integrity and security of these online spaces. This study analyzes the effectiveness of the GPT-3.5 Turbo and GPT-4 models in detecting hate speech on social networks, comparing their performance with evaluations carried out by humans. To do this, a sample of 6,370 tweets was collected using the Twitter API, classifying them into five categories of discrimination: racism, classism, xenophobia, sexism and homophobia. Next, a survey was conducted with 65 participants who evaluated a subsample of 100 tweets. Each tweet was also evaluated by each model on 13 occasions. The results were compared using metrics such as precision, sensitivity, specificity and F1 Score. Preliminary findings suggest that the GPT-3.5 Turbo model tends to classify a greater number of tweets as discriminatory compared to GPT-4 and human raters. This could indicate an over-reliance on certain key terms by the model, without adequately considering the comprehensive context of the message. On the other hand, GPT-4 demonstrated a better balance between accuracy and sensitivity, aligning more closely with human assessments, especially in detecting homophobia. Despite these promising results, challenges remain related to the opacity of GPT models and their tendency to generate incorrect answers. Addressing these limitations is essential for practical implementation in hate speech detection. The development of robust and effective tools for this purpose would not only optimize the user experience on online platforms, but would also contribute to the creation of safer and more respectful digital environments.spa
dc.format.extent37 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.urihttps://hdl.handle.net/20.500.12010/34532
dc.language.isospaspa
dc.subjectDiscurso de odio
dc.subjectRedes sociales
dc.subjectGPTspa
dc.subject.keywordGPT
dc.subject.keywordHate speech
dc.subject.keywordSocial media
dc.subject.lembDiscurso de odio en redes sociales
dc.subject.lembInteligencia artificial - Detección de contenido
dc.subject.lembEvaluación de modelos de aprendizaje automático
dc.titleEvaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?spa
dc.type.coarhttp://purl.org/coar/resource_type/c_2df8fbb1spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Evaluación de Modelos GPT en la Detección de Discurso de Odio en español. Cómo se Comparan con los Humanos (1).pdf
Tamaño:
4.38 MB
Formato:
Adobe Portable Document Format
Descripción:
Documento reservado

Bloque de licencias

Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
2.87 KB
Formato:
Item-specific license agreed upon to submission
Descripción:
Cargando...
Miniatura
Nombre:
FOR-EFE-GDB-008_AUTORIZACION_DE_PUBLICACION_DE_TESIS_O_TRABAJO_DE_GRADO_DE_FORMA_CONFIDENCIAL_signed.pdf
Tamaño:
275.8 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta de autorización
Cargando...
Miniatura
Nombre:
Formato acta de sustentación Juan Sebastián González Pinilla.pdf
Tamaño:
174.05 KB
Formato:
Adobe Portable Document Format
Descripción:
Acta de sustentación