Cada vez que una nueva herramienta disruptiva como ChatGPT aparece en el horizonte, surgen inquietudes entre los seres humanos sobre su impacto en nuestras vidas cotidianas. Las preguntas se centran en temas cruciales como la posible pérdida de empleos, la dependencia excesiva de la tecnología y cómo estas innovaciones transformarán nuestros métodos de aprendizaje y la toma de decisiones. A pesar de estas preocupaciones, tecnologías como ChatGPT también ofrecen nuevas oportunidades al aumentar la productividad y facilitar el acceso democratizado al conocimiento, lo que podría revolucionar industrias enteras.
Sin embargo, el uso de la inteligencia artificial, particularmente de sistemas como ChatGPT, plantea serias preguntas éticas y de seguridad. La precisión y la imparcialidad de la información generada son aspectos cruciales para garantizar que los usuarios reciban datos fidedignos y sin sesgos. En este contexto, el proyecto TRUST4AI, desarrollado por un equipo de científicos de la Universidad de Mondragón y la Universidad de Sevilla, busca abordar estas inquietudes a través de la investigación y el desarrollo de herramientas que evalúen la ética y la seguridad de los modelos de IA.
Uno de los desafíos más grandes en el ámbito de la inteligencia artificial generativa es la eliminación de sesgos de género y racial en las respuestas. Al utilizar chatbots contemporáneos, como Grok, se ha evidenciado que estos pueden perpetuar estereotipos al representar a ciertos grupos de manera desproporcionada. Por ejemplo, las ilustraciones predeterminadas para el término ‘CEO’ a menudo muestran a hombres, mientras que para ‘secretaria’ o ‘enfermera’, son mayoritariamente mujeres. La falta de imparcialidad en estas representaciones no solo es engañosa, sino que también refuerza nociones preconcebidas sobre los roles de género en la sociedad.
El enfoque tradicional para detectar problemas de sesgo y seguridad en modelos de inteligencia artificial ha sido mayormente manual, lo que resulta en un proceso costoso y limitado por la capacidad humana. A fin de superar esta barrera, la propuesta de TRUST4AI busca automatizar la detección de vulnerabilidades, centrándose en dos aspectos fundamentales: la seguridad y el sesgo. Con herramientas diseñadas para generar preguntas basadas en categorías específicas como violencia o abuso de menores, se espera no solo descubrir fallos en los sistemas, sino también ofrecer un camino hacia la creación de IA más segura y ética.
Recientemente, el equipo de TRUST4AI evaluó el modelo o3-mini de ChatGPT y encontró que, de un grupo de atacantes simulado, el 28% de las interacciones reveló vulnerabilidades, mientras que el equipo de investigadores logró identificar un 35% de conversaciones inseguras. Estos resultados subrayan la necesidad de contar con metodologías efectivas para detectar y abordar estos problemas lo más rápido posible, garantizando que los modelos de inteligencia artificial no solo sean innovadores, sino también seguros y confiables. En un mundo cada vez más dependiente de la tecnología, esta es una tarea crítica que no debe ser subestimada.