Evaluación de modelos GPT en la detección de discurso de odio en español : ¿Cómo se comparan con los humanos?
Archivos
Fecha
Fecha
Autores
Director de trabajo de grado
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
El discurso de odio en las redes sociales es un problema creciente y complejo, con repercusiones significativas tanto a nivel individual como social. Si bien estas plataformas facilitan la libertad de expresión, también actúan como entornos propicios para la proliferación de mensajes de odio. En este contexto, la identificación y mitigación de dicho contenido resulta crucial para preservar la integridad y seguridad de estos espacios en línea. Este estudio analiza la eficacia de los modelos GPT-3.5 Turbo y GPT-4 en la detección de discurso de odio en redes sociales, comparando su rendimiento con evaluaciones realizadas por humanos. Para ello, se recopiló una muestra de 6.370 tweets mediante la API de Twitter, clasificándolos en cinco categorías de discriminación: racismo, clasismo, xenofobia, sexismo y homofobia. Después, se realizó una encuesta con 65 participantes que evaluaron una submuestra de 100 tweets. Cada tweet fue evaluado también por cada modelo en 13 ocasiones. Los resultados se compararon utilizando métricas como precisión, sensibilidad, especificidad y F1 Score. Los hallazgos preliminares sugieren que el modelo GPT-3.5 Turbo tiende a clasificar un mayor número de tweets como discriminatorios en comparación con GPT-4 y los evaluadores humanos. Esto podría indicar una dependencia excesiva en ciertos términos clave por parte del modelo, sin considerar adecuadamente el contexto integral del mensaje. Por otro lado, GPT-4 demostró un mejor equilibrio entre precisión y sensibilidad, alineándose más estrechamente con las evaluaciones humanas, especialmente en la detección de homofobia. A pesar de estos resultados prometedores, persisten desafíos relacionados con la opacidad de los modelos GPT y su tendencia a generar respuestas incorrectas. Abordar estas limitaciones es esencial para su implementación práctica en la detección de discurso de odio. El desarrollo de herramientas robustas y eficaces para este fin no solo optimizaría la experiencia del usuario en las plataformas en línea, sino que también contribuiría a la creación de entornos digitales más seguros y respetuosos.
