Desenmascarando la Inteligencia Artificial
¿Proteger o abrir los datos?: esa es la cuestión
El concepto de privacidad está consagrado en el artículo 12 de la Declaración Universal de Derechos Humanos que a la letra establece:
“Tienes derecho a protección en caso de que alguien trate de calumniarte, de entrar en tu casa sin permiso o de violar tu correspondencia.
Nadie será objeto de injerencias arbitrarias en su vida privada, su familia, su domicilio o su correspondencia, ni de ataques a su honra o a su reputación.
Toda persona tiene derecho a la protección de la ley contra tales injerencias o ataques.”
Ahora más que nunca el término de “Datos Personales” trae consigo la necesidad de proteger más que de abrir información. El término hace referencia a toda aquella “información que identifica o puede usarse de manera razonable para identificar a una persona física de forma directa o indirecta, especialmente por referencia a un número de identificación, datos de localización, un identificador en línea o a uno o más factores referidos específicamente a su identidad física, fisiológica, genética, mental, económica, cultural o social. Incluye información expresada en forma numérica, alfabética, gráfica, fotográfica, alfanumérica, acústica, electrónica, visual o de cualquier otro tipo.” (OEA, 2022)
En 2018, unos 87 millones de usuarios de Facebook descubrieron que se habían convertido en un producto, sin su conocimiento o permiso, cuando sus hábitos de navegación, compras, opiniones políticas y redes de amigos se analizaron y se vendieron con fines de lucro en el caso conocido como Cambridge Analytica.
“Christopher Wylie, ex empleado de Cambridge Analytica, reveló al New York Times y a The Guardian cómo es que la consultora británica utilizaba los datos de perfiles en la red social para generar anuncios personalizados con fines políticos: ‘Explotamos Facebook para acceder a millones de perfiles de usuarios. Y construimos modelos para explotar lo que sabíamos de ellos y apuntar a sus demonios internos. Esa era la base sobre la cual la compañía se fundó”. (Morales, 2020)
Este caso es un claro ejemplo de cómo se vulnera el principio de finalidad que rige el tratamiento de los datos personales. Si bien Cambridge Analytica recababa el consentimiento para el tratamiento de datos personales para ciertos fines, no cabe duda que la información que obtuvieron la desviaron para otros. El principio de finalidad tiene por objetivo establecer claramente cuáles son los fines para los que van a ser utilizados nuestros datos personales. Sin embargo, renunciamos a aspectos de nuestra privacidad cada vez que compramos algo en la red, o usamos un servicio wifi gratuito, es decir, renunciamos a cierto grado de privacidad a cambio de algo de valor.
La gran pregunta es: ¿quién tiene acceso y control de nuestros datos y cómo los utiliza? La supervisión de las cámaras de vigilancia masiva en algunas ciudades del mundo plantea preocupaciones sobre la invasión de la privacidad y los derechos individuales puesto que recopilan y analizan datos provenientes de fuentes como cámaras de seguridad, redes sociales, registros financieros, reconocimiento facial y de voz, entre otros. En medio de esta mercantilización de los datos personales con fines de lucro, ha habido un impulso significativo en la industria y el mundo académico para desarrollar métodos y marcos que ayuden a mitigar las preocupaciones sobre la privacidad.
Una de las estrategias que están utilizando algunos países de Europa y en Estados Unidos, se centran en la reducción de los monitoreos de cámaras de vigilancia masiva. Estos sistemas han avanzado bastante y pueden reconocer rostros en tiempo real y asociarlos con identidades conocidas creando un registro detallado de los movimientos y actividades de las personas con o sin su consentimiento. Asimismo, pueden perfilar y predecir comportamientos, lo que puede llevar a un potencial abuso de la información recopilada a través de vigilancia encubierta o indiscriminada sin un propósito legítimo, como el acceso no autorizado a dispositivos electrónicos.
Sesgos en los algoritmos
Los modelos de vigilancia policial predictiva utilizan algoritmos y datos históricos de delitos para prevenir el crimen. En Estados Unidos se ha popularizado el uso de PredPol (https://www.predpol.com), un algoritmo de aprendizaje automático utilizado para predecir dónde y cuándo es más probable que sucedan ciertos delitos y así ayudar a dirigir patrullajes en zonas.
Está probado cómo el algoritmo predice con mayor probabilidad que los delitos sucedan con más residentes de color, latinos o de bajos ingresos. Por lo tanto, no están exentos de reproducir estereotipos y sesgos que conduzcan a resultados injustos o que perpetúen las desigualdades. (https://themarkup.org/prediction-bias/2021/12/02/crime-prediction-software-promised-to-be-free-of-biases-new-data-shows-it-perpetuates-them)
La automatización de vigilancia tiene riesgos. La tecnología no es neutral desde el diseño. Los riesgos son tan altos que algunas organizaciones en la Unión Europea propusieron la prohibición en su totalidad del uso de sistemas automatizados de evaluación de riesgos en los procedimientos judiciales. Algunas ciudades en Estados Unidos como San Francisco o en Boston ya han prohibido el uso de tecnologías de reconocimiento facial en sus agencias de policía.
La preocupación se encuentra en el potencial abuso o discriminación en función de características personales. Los algoritmos modernos de Inteligencia Artificial (IA) se entrenan con millones de imágenes. Cuanto más fotos de ejemplo tengan, el rendimiento de aprendizaje del algoritmo resultará mayor, aunque se pueden violentar derechos al no ser preciso debido a los sesgos en la data.
A pesar de que existen organizaciones como el Instituto Nacional de Normas y Tecnología (NIST), quien es el mayor experto mundial en la evaluación independiente de algoritmos de reconocimiento facial que comprueba la precisión de más de 650 algoritmos, las consideraciones en reducir la vigilancia masiva y proteger los datos personales de las personas persiste y continúa siendo una de las principales estrategias para mitigar riesgos.
La Liga de la Justicia Algorítmica
Los sesgos en los algoritmos reflejan realidades determinadas y amenazan con perpetuar y profundizar las desigualdades presentes. Se refieren a las distorsiones o inclinaciones sistemáticas que pueden surgir en los resultados o decisiones iniciales en la construcción del algoritmo, afectando diferentes aspectos: el entrenamiento de los sistemas de IA, la toma de decisiones y los resultados finales. Si los datos utilizados para entrenar el algoritmo contienen sesgos inherentes, el sistema puede tomar decisiones que perpetúen o amplifiquen discriminaciones existentes basadas en características de raza, género, edad, origen étnico, etc.
Entonces, ¿cómo regular los algoritmos cuando los sistemas de IA están diseñados por personas con sus propias visiones del mundo, prejuicios, valoraciones de los hechos y sesgos adquiridos que pueden filtrarse en el diseño y definición de criterios de evaluación para estos modelos?
Así fue como comenzó la investigación de Joy Buolamwini, afroamericana investigadora del Massachusetts Institute of Technology (MIT). En el 2015, durante su primer semestre en el laboratorio digital, hizo un curso sobre “invención científica” y quiso construir un espejo digital que la inspirara por las mañanas. Lo llamó “Espejo Aspire”. El espejo colocaba leones sobre su rostro, o gente que la inspirara; colocó una cámara con un software de visión artificial, se suponía que debía detectar los movimientos de su cara. Pero el problema era que no funcionaba bien, hasta que se puso una máscara blanca. Cuando se ponía la máscara, la detectaba. Cuando se la quitaba, no detectaba su color de piel. (https://www.wnyc.org/story/joy-buolamwini-how-does-facial-recognition-software-see-skin-color/)
Fue en ese momento cuando esta investigadora tomó conciencia del sesgo racial existente en los algoritmos de reconocimiento facial y comenzó a analizar sus consecuencias. Creó la Alghoritmic Justice League (https://www.ajl.org/) cuando descubrió que varios sistemas de reconocimiento facial diseñados por empresas como Amazon, IBM y Microsoft funcionaban mejor con el rostro de sus amigos blancos que con el suyo. Este es un caso de los muchos reportados que muestra un rendimiento dispar respecto a variables demográficas como el género y color de piel. Son las mujeres de piel oscura el grupo para el cual los modelos presentan peor rendimiento, hecho que indudablemente está relacionado con la falta de representatividad de mujeres negras en las bases de datos utilizadas para el entrenamiento.
La exclusión y los sesgos son frecuentemente utilizados si en el entrenamiento se inserta ese tipo de información. Los datos de entrenamiento reflejan patrones históricos de injusticia sistémica cuando se extraen de contextos en los que la desigualdad es lo que prevalece. La injusticia puede agravarse por ciertas interseccionalidades, por ejemplo, en la discriminación de una persona de un grupo marginado género y raza. Puede agravarse si un modelo es opaco o inexplicable, lo que dificulta que las víctimas busquen un recurso.
Existen casos conocidos de uso de sesgos que perpetúan estereotipos. En el traductor de Google (Google translate), se probó que el sistema asignaba un género específico al traducir palabras que son neutras en un idioma y no en otro. Asignación de género femenino a la palabra nurse y masculino a doctor, por ejemplo. Los chats bots como Alexa, Siri, Cortana, etc., son otro ejemplo, desde el punto de vista de las voces femeninas que ligaban a los asistentes virtuales con la asistencia de mujeres y de la disparidad de respuestas si se trata de una voz masculina o femenina a una misma consulta. Esta disparidad puede deberse a que el software de reconocimiento de voz está más adaptado a un género que a otro, o incluso a un sesgo en los conjuntos de datos que se utilizan para el entrenamiento.
Podemos concluir que las estrategias para mitigar riesgos son variadas. En primer lugar, la capacitación de los encargados del diseño de los algoritmos es fundamental para que el diseño de los productos sea inclusivo desde el origen. Un ejemplo son los asistentes conversacionales de voces sin género, o crearlos a través de muchas voces diferentes sin condicionar una voz femenina; y, en segundo lugar, es necesario hacer una revisión exhaustiva de los procesos de entrenamiento de los modelos de lenguaje con el objetivo de que represente al mayor número posible de grupos en una sociedad.
Los cuerpos de formación para los modelos de lenguaje de última generación como Chat GPT 3.5 y 4 son extremadamente grandes por lo que sería necesaria la innovación en métodos de revisión e inclusión semiautomáticos.
Referencias de interés
Morales Cáceres, Alejandro, (2020) “El impacto de la inteligencia artificial en la protección de datos personales” World Compliance Association, Capítulo Perú, 01/09/2020
Organización de Estados Americanos (OEA) (2022), Principios Actualizados sobre la Privacidad y la Protección de Datos Personales 2022. Primera edición, Washington DC, 3 de enero.
J. Buolamwini y T. Gebru: «Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification», trabajo presentado en la 1a Conferencia sobre Equidad, Responsabilidad y Transparencia, disponible en Proceedings of Machine Learning Research (pmlr) vol. 81, 2018