Entrenamiento de IA con datos de usuarios desata preocupaciones de seguridad
Las preocupaciones de seguridad en torno al entrenamiento de modelos de Inteligencia Artificial (IA) no ceden, y los reguladores ya comienzan a tomar cartas en el asunto, aunque esto podría no ser suficiente. Meta, la empresa matriz de Facebook e Instagram, anunció la suspensión de sus planes para entrenar sus modelos de IA utilizando los datos de los usuarios europeos después de la intervención de la Comisión Irlandesa de Protección de Datos (DPC) y la Oficina del Comisionado de Información (ICO) del Reino Unido.
Los reguladores plantearon preocupaciones sobre la privacidad y el uso de los datos personales bajo el Reglamento General de Protección de Datos (GDPR) de la Unión Europea. Y aunque Meta es uno de los casos recientes, no se trata del único, pues el debate sobre estas prácticas traspasa a empresas como OpenAI, el referente en desarrollos de IA.
La principal preocupación radica en cómo los datos de los usuarios se utilizan para entrenar los modelos de IA y la fragilidad de la privacidad. Por un lado, Meta había planeado utilizar contenido público compartido por adultos en Facebook e Instagram en Europa para entrenar sus modelos de lenguaje de IA. Sin embargo, las estrictas regulaciones del GDPR, que protegen los datos personales de los ciudadanos europeos fueron un obstáculo.
La DPC y la ICO instaron a Meta a pausar sus planes hasta que las preocupaciones regulatorias fueran abordadas satisfactoriamente, después de que la empresa notificara a los usuarios sobre un cambio en su política de privacidad que le permitiría usar contenido público para este fin. Sin embargo, la organización activista de privacidad NOYB, presentó quejas argumentando que Meta estaba violando el GDPR, particularmente en cuanto a la aceptación explícita de los usuarios para el procesamiento de sus datos.
Históricamente la empresa ha tenido problemas de este tipo, y el desarrollo de IA es una fragmentación más. En 2018, Meta enfrentó una demanda por permitir a terceros, incluido Cambridge Analytica, acceder a datos de usuarios sin su consentimiento. La empresa afirmaba poder recopilar y analizar datos de millones de usuarios de redes sociales para identificar patrones de comportamiento y preferencias, creando perfiles de votantes y estrategias de microsegmentación y publicidad altamente específicas.
Pero este tipo de prácticas no es exclusivo de Meta. OpenAI ha sido objeto de investigaciones por parte de la autoridad de protección de datos italiana, Garante, por supuestas violaciones a las normas de privacidad de la UE con su popular chatbot ChatGPT.
El entrenamiento de modelos de IA generalmente requiere grandes cantidades de datos, a menudo personales y sensibles. OpenAI, por ejemplo, ha implementado políticas para permitir a los usuarios optar por no participar en el uso de sus datos para entrenar modelos de IA. Sin embargo, estas opciones a menudo no son fácilmente accesibles o comprensibles para los usuarios promedio.
La cuestión de la privacidad en la IA también ha sido abordada por figuras como Elon Musk, quien recientemente criticó a Apple por su asociación con OpenAI, sugiriendo que la integración de ChatGPT en dispositivos Apple podría comprometer la seguridad de los usuarios.
Musk incluso dijo que podría prohibir el uso de dispositivos Apple en sus empresas si estos integran el chatbot de OpenAI, argumentando que la IA de OpenAI actúa como un software espía, aunque no es una práctica distinta a las de redes sociales, que basan la publicidad en la información de los datos.
Pero a medida que la IA se convierte en una parte integral de la vida cotidiana, la transparencia en el uso de los datos y la confiabilidad de las herramientas de IA se vuelven esenciales. Las empresas tecnológicas han rastreado vastas extensiones de la web para recopilar datos que consideran necesarios para crear IA generativa, sin tener en cuenta a los creadores de contenido, las leyes de derechos de autor o la privacidad.
Además, cada vez más empresas buscan unirse a la fiebre del oro de la IA vendiendo o licenciando esa información, como es el caso de Reddit. Muchas de estas empresas ya han recopilado datos de la web, por lo que es probable que cualquier contenido publicado esté en sus sistemas. Tal como informa Wired, estas compañías también son reservadas sobre lo que realmente han extraído, comprado o usado para entrenar sus sistemas. "Honestamente, no sabemos mucho", dice Niloofar Mireshghallah, investigador especializado en privacidad de la IA en la Universidad de Washington, para el medio de comunicación estadounidense. "En general, todo es muy opaco".
Mireshghallah explica que a las empresas les puede resultar complicado optar por no usar datos para el entrenamiento de IA, y aun cuando es posible, muchas personas no tienen una "idea clara" sobre los permisos que han otorgado o cómo se están utilizando sus datos. Esto es antes de considerar varias leyes, como las protecciones de derechos de autor y las estrictas leyes de privacidad de Europa. Facebook, Google, X y otras empresas han indicado en sus políticas de privacidad que pueden usar tus datos para entrenar IA.
Aunque existen varias formas técnicas en las que los sistemas de IA podrían eliminar datos o "desaprenderlos", Mireshghallah señala que se sabe muy poco sobre los procesos existentes. Las opciones pueden estar ocultas o requerir mucho esfuerzo.
"La mayoría de las empresas añaden fricción porque saben que la gente no irá a buscarla", dice Thorin Klosowski, activista de seguridad y privacidad de la Electronic Frontier Foundation. "La aceptación sería una acción intencionada, a diferencia de la exclusión voluntaria, en la que hay que saber que está ahí".
Por esa razón, la regulación existente podría no satisfacer las preocupaciones de seguridad. En el futuro las empresas tecnológicas deben garantizar que sus prácticas de recopilación y uso de datos respeten los derechos de privacidad de los usuarios y cumplan con las regulaciones existentes. Esto incluye ofrecer opciones claras y accesibles para que los usuarios puedan controlar cómo se utilizan sus datos.