Inteligencia Artificial pone en la mira una nueva fuente de ciberataques

El extractivismo de datos, presente en redes sociales, y los ciberataques podrían migrar a esta nueva tecnología que tiene objetivos de alimentarse de datos personales de las personas.
5 Julio, 2024 Actualizado el 5 de Julio, a las 17:57
No se tiene gran certeza de la recolección de datos para la alimentación de modelos de IA.
No se tiene gran certeza de la recolección de datos para la alimentación de modelos de IA.
Arena Pública

Los ciberataques tienen un nuevo objetivo: la Inteligencia Artificial (IA). El año pasado un hacker logró acceder a los sistemas de mensajería internos de OpenAI, empresa desarrolladora de ChatGPT, y sustrajo detalles sobre el diseño de las tecnologías de inteligencia artificial de la compañía, según lo reportó el periodico estadounidense The New York Times.

Si bien no robaron información sobre clientes o socios, y no se accedió a los sistemas donde la empresa alberga y construye su inteligencia artificial, el incidente pone en la mira el peligro que podría desarrollar esta nueva tecnología por los datos que alberga, y su susceptibilidad a ciberataques y usos maliciosos de la información.

Recientemente Meta dijo que la empresa utilizará datos disponibles públicamente de Internet, información con licencia e información compartida por los usuarios dentro de los productos y servicios de Meta, en los que se incluyen fotografías y videos compartidos por los usuarios, para entrenar a su modelo de Inteligencia Artificial.

Pero Meta no es la primera empresa que entrena de esta forma a su modelo. Tal como lo describe Kaspersky, empresa especialista en ciberseguridad, todas las redes neuronales operan esencialmente de la misma manera: se desarrolla un algoritmo que se entrena utilizando un conjunto de datos específico. Estos experimentos no se limitan a imágenes; también se aplican a texto, vídeo y voz, incluyendo la clonación de voz o de video.

Para todas las redes neuronales, el punto de partida es siempre un conjunto de datos de entrenamiento; no pueden generar nuevos elementos desde cero. El problema es de dónde se obtienen estos datos.

La confidencialidad de estos conjuntos de datos es crucial: algunos son de dominio público, otros son propiedad intelectual de empresas que invirtieron en su creación para obtener ventajas competitivas, y otros contienen información confidencial, como datos de salud utilizados en diagnósticos médicos mediante redes neuronales. Sin embargo, hay lagunas respecto al entrenamiento de grandes modelos de lenguaje de IA generativa, como ChatGPT, de OpenAI.

No hay mucha certidumbre de la obtención de estos datos. Tan es así que a finales del año pasado, el periódico estadounidense demandó a OpenAI por el entrenamiento de su modelo con información del periódico. La punta del iceberg son los resultados que arroja dicho chatbot, pero lo que se encuentra por debajo, conlleva entre sus muchos problemas, violaciones a derechos de autor y ataques de ciberseguridad.


Además, hay otros dos tipos de datos a los que OpenAI y otras empresas de IA tienen acceso además de los datos de entrenamiento de alta calidad, que tienen que ver con las interacciones masivas de usuarios y datos de clientes.

Pero además de que no se sabe la certeza de recolección de datos para entrenamiento, convertir estos datos en recursos útiles para entrenar modelos como GPT-4o es una tarea monumental que requiere una cantidad enorme de trabajo humano y solo puede automatizarse parcialmente.

Esto podría ser un atractivo para ciberataques, incluidos estados adversarios. En mayo de este año, el medio de comunicación especializado Axios, reportó que un equipo de hackers chinos llevó a cabo un ataque de phishing dirigido a personas vinculadas a una empresa estadounidense de inteligencia artificial.

El acceso a datos de entrenamiento de alta calidad y millones de interacciones de usuarios podría no sólo comprometer la privacidad, sino también tener repercusiones en la seguridad nacional y la competitividad tecnológica. La preocupación se agudiza en medio de la competencia entre Estados Unidos y China por el liderazgo en IA.

Ante este panorama, la solución podría radicar en mejorar las medidas de seguridad en toda la cadena de suministro de la IA, desde la recolección de datos hasta el despliegue de modelos en producción, aunque esto conllevaría una mejora regulatoria, misma que en este momento se encuentra en desarrollo para todos los países del mundo.