Hackers podrían ayudar a perfeccionar la IA
Las fallas y alucinaciones de la Inteligencia Artificial (IA) son problemas fundamentales que las empresas desarrolladoras buscan perfeccionar. Anthropic, una de las empresas emergentes en el campo de la IA, anunció un programa para contratar a piratas informáticos no maliciosos que identifiquen vulnerabilidades en sus modelos.
En asociación con HackerOne, la compañía ofrecerá recompensas a los hackers que logren encontrar fallas repetibles en sus sistemas. Estas fallas deben ser capaces de generar resultados incorrectos de manera consistente y tener un impacto potencial en áreas sensibles o peligrosas.
Los programas de recompensas por errores permiten a las empresas identificar fallos que podrían pasar desapercibidos y ofrecen incentivos a los piratas informáticos para que reporten sus descubrimientos, en lugar de usarlos para ataques maliciosos.
El alcance de los hackers para encontrar los fallos de esta tecnología también se evidenció durante la última DEF CON, una de las convenciones de hackers más antiguas, donde casi 2 mil 500 hackers se concentraron para examinar y probar algunos de los modelos de lenguaje más populares en busca de fallos de seguridad.
Los participantes recibieron tareas específicas para inducir a los modelos de lenguaje a revelar información dañina, sensible o falsa. Por ejemplo, se les pidió que obtuvieran información de tarjetas de crédito o instrucciones sobre cómo acechar a alguien. Aunque los desafíos resultaron ser complejos, el ejercicio ilustró cómo las herramientas de IA generativa pueden ser manipuladas con fines maliciosos. Uno de los ejercicios permitió crear un sitio de venta fraudulento en solo 8 minutos utilizando herramientas de IA, tal como reporta el medio de comunicación especializado Axios.
Además, el ejercicio demostró que la IA no está libre de errores que podrían desbordar en lo peligroso. Hasta ahora ningún lanzamiento ha estado libre de fallas, y la corrección de alucinaciones sigue siendo una tarea pendiente, aunque actualmente, las empresas tecnológicas han decidido optar por tomar medidas internas y no cuentan con un proceso formalizado para recompensar a los investigadores de seguridad independientes que descubren fallas en los resultados de sus chatbots, como el caso de Anthropic.
Sin embargo, disminuir los fallos y alucinaciones sigue siendo prioridad para las empresas. Un ejemplo de ello es Apple, que recientemente retrasó el lanzamiento de las funciones de Apple Intelligence, en parte, debido a las inquietudes sobre la estabilidad de las nuevas funciones. Apple busca asegurar un lanzamiento sin contratiempos para los consumidores y necesita la colaboración de los desarrolladores para resolver posibles problemas.
Además, los fabricantes están avanzando más lentamente en la implementación de iniciativas de IA generativa de lo que se había anticipado, debido a preocupaciones sobre la precisión, según un estudio de Lucidworks publicado el mes pasado, citado por Reuters.
No está claro cómo las tecnológicas corrigen los errores, cuánto les cuesta hacerlo, y qué tanto progreso tienen. Se trata de un proceso interno que podría no tener fin. Las alucinaciones, por ejemplo, se refieren a la generación de respuestas incorrectas o inexactas por parte de los modelos de lenguaje, algo que puede ser difícil de prever y aún más difícil de corregir. A pesar de los avances en la tecnología, estas "alucinaciones" siguen siendo una barrera para la precisión de la IA.
Un ex investigador de Google sugirió que el problema podría resolverse en el próximo año, aunque reconoció la dificultad del desafío. Mientras tanto, Microsoft ofrece una herramienta para algunos usuarios que supuestamente ayuda a detectar estas fallas. Liz Reid, directora de búsqueda de Google, comentó al medio de comunicación estdounidense, The Verge, que se enfrenta a un dilema entre creatividad y precisión en los modelos de lenguaje, y que están inclinándose más hacia la precisión.
Sin embargo, es posible que las alucinaciones sean inevitables en los grandes modelos de lenguaje. Las alucinaciones son una consecuencia inherente, similar a cómo los humanos también cometen errores, según lo señala estudio de la Universidad Nacional de Singapur citado por The Verge.
Esta percepción puede explicar por qué los líderes de la industria, que tienen tanto recursos como incentivos para promover la adopción de IA, minimizan el problema. OpenAI y Microsoft, consideran las alucinaciones como una inconveniencia menor que se debe tolerar mientras trabajan en desarrollar tecnologías que prometen facilitar nuestras vidas, según explica el medio estadounidense. Generalmente estas inconveniencias están implícitas en el aviso de precaución ante las respuestas de los diferentes modelos.
Sin embargo, se trata de un problema que los reguladores podrían abordar con mayor cautela, pues Arati Prabhakar, directora de la Oficina de Política Científica y Tecnológica de la Casa Blanca, comentó que está acelerando una orden ejecutiva en respuesta a los temas abordados durante el evento de hackers, por lo que las alternativas para mitigar los riesgos podrían comenzar a surgir en mayor medida, y el problema podría abordarse bajo un mayor escrutinio.