Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?

González Pinilla, Juan Sebastián

Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?

Archivos

Descargar archivo

Fecha

2024-06-06

Autores

González Pinilla, Juan Sebastián

Director de trabajo de grado

Galpin, Ixent

Resumen

El discurso de odio en las redes sociales es un problema creciente y complejo, con repercusiones significativas tanto a nivel individual como social. Si bien estas plataformas facilitan la libertad de expresión, también actúan como entornos propicios para la proliferación de mensajes de odio. En este contexto, la identificación y mitigación de dicho contenido resulta crucial para preservar la integridad y seguridad de estos espacios en línea. Este estudio analiza la eficacia de los modelos GPT-3.5 Turbo y GPT-4 en la detección de discurso de odio en redes sociales, comparando su rendimiento con evaluaciones realizadas por humanos. Para ello, se recopiló una muestra de 6.370 tweets mediante la API de Twitter, clasificándolos en cinco categorías de discriminación: racismo, clasismo, xenofobia, sexismo y homofobia. Después, se realizó una encuesta con 65 participantes que evaluaron una submuestra de 100 tweets. Cada tweet fue evaluado también por cada modelo en 13 ocasiones. Los resultados se compararon utilizando métricas como precisión, sensibilidad, especificidad y F1 Score. Los hallazgos preliminares sugieren que el modelo GPT-3.5 Turbo tiende a clasificar un mayor número de tweets como discriminatorios en comparación con GPT-4 y los evaluadores humanos. Esto podría indicar una dependencia excesiva en ciertos términos clave por parte del modelo, sin considerar adecuadamente el contexto integral del mensaje. Por otro lado, GPT-4 demostró un mejor equilibrio entre precisión y sensibilidad, alineándose más estrechamente con las evaluaciones humanas, especialmente en la detección de homofobia. A pesar de estos resultados prometedores, persisten desafíos relacionados con la opacidad de los modelos GPT y su tendencia a generar respuestas incorrectas. Abordar estas limitaciones es esencial para su implementación práctica en la detección de discurso de odio. El desarrollo de herramientas robustas y eficaces para este fin no solo optimizaría la experiencia del usuario en las plataformas en línea, sino que también contribuiría a la creación de entornos digitales más seguros y respetuosos.

Palabras clave

Discurso de odio, Redes sociales, GPT

URI

https://hdl.handle.net/20.500.12010/34532

Colecciones

Maestría en Ingeniería y Analítica de Datos

Página completa del ítem

Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?

Archivos

Fecha

Fecha

Autores

Director de trabajo de grado

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones

Aprobación

Revisión

Complementado por

Referenciado por