CLASE 7: Privacidad y protección de datos Ética aplicada a la inteligencia artificial MIA UC ¿Por qué es importante la privacidad? La privacidad es una discusión de larga data Reforzada por leyes y jurisprudencias nacionales e internacionales Uso de datos Consentimiento Derecho de un individuo a dar su consentimiento informado y voluntario Es esencial antes de recopilar y utilizar sus datos Usuarios deben tener control sobre cómo se utilizan sus datos Restricciones para que los datos se utilicen para los fines para los que se han recopilado Rectificación y supresión Derecho a corregir y actualizar datos personales Solicitar eliminación de datos La privacidad es una discusión de larga data Reforzada por leyes y jurisprudencias nacionales e internacionales Diseño Protección Incorporación de la privacidad desde la etapa de diseño Componente central desde el inicio y no como algo posterior o secundario Medidas técnicas y organizativas para proteger los datos Adopción de protocolos de seguridad y cumplimiento de estándares Minimización de datos Recopilar, procesar y almacenar la cantidad mínima de datos necesaria (i.e., lo estricta y absolutamente necesario) Consentimiento informado Información personal identificable Facebook utiliza los números de teléfono que los usuarios le facilitan por motivos de seguridad (autentificación) para enviarles publicidad New York publicó datos de 173 millones de viajes en taxi, donde se puede encontrar información de cada conductor e inclusive pasajeros Seguridad Filtración de datos de Equifax: información sobre pasaportes, licencias de conducir y números de seguridad social de más de 146 millones de clientes Modelo de suscripción de Meta Dado los desafíos regulatorios de la UE, Meta propuso un modelo de suscripción: los usuarios pueden pagar un cierto monto mensual para no ser rastreados para publicidad o seguir usando la plataforma gratis y consentir el seguimiento. Este modelo busca cumplir con las regulaciones de privacidad de la UE. ¿Cuáles aspectos debemos tener en consideración en este caso? Daño predictivo Inferir información sensible a partir de otros datos. e.g., predecir atributos sensibles como la orientación sexual, opiniones políticas, condición de salud, a partir de datos aparentemente no relacionados. No sólo se trata de qué información nos entregan los datos, sino también de qué se puede inferir a partir de esos datos La privacidad consiste en poder elegir: decidir con quiénes compartimos información, qué límites queremos establecer, decidir cómo queremos interactuar con nuestro entorno, según nuestros propios parámetros. La privacidad es una forma de protegernos: se trata de proteger lo que puede ser conocido sobre una persona y, en consecuencia, lo que se puede “hacer” con esa persona. La privacidad es un derecho: en sí, la privacidad se constituye como un derecho; y las violaciones a la privacidad pueden dar paso a violaciones de otros derechos fundamentales Autonomía y dignidad Privacidad desde el diseño Proactivo, no reactivo; preventivo, no correctivo Anticiparse, dentro de lo posible, a eventos que afecten la privacidad antes de que sucedan. Privacidad en todas las etapas Antes de que el sistema esté en funcionamiento, se debe garantizar la privacidad a lo largo de todas las etapas del tratamiento de datos. Funcionalidad total: pensamiento “todos ganan” Balance óptimo para conseguir sistemas funcionales, eficaces y eficientes y la privacidad. Agencia Española de Protección de Datos (AEPD). (2019). Guía de Privacidad desde el Diseño. Privacidad desde el diseño Visibilidad y transparencia Transparencia en recopilación, uso y consulta de datos, así como las medidas adoptadas para garantizar la seguridad y privacidad. Enfoque centrado en el usuario Además de los intereses legítimos de una organización, se deben garantizar los derechos de los usuarios. Diseñar “con el usuario en mente”. Agencia Española de Protección de Datos (AEPD). (2019). Guía de Privacidad desde el Diseño. DE-IDENTIFICACIÓN Proceso de remover información identificativa de una base de datos Dificultad de dar una definición formal de “información identificativa” y de “deidentificación”: potencialmente toda información puede ser ocupada para identificarnos. De-identificación ≠ anonimización De-identificación implica remover atributos que creemos que son identificativos. Anonimización se refiere a datos que no pueden ser re-identificados. DE-IDENTIFICACIÓN RIESGO DE RE-IDENTIFICACIÓN Se produce cuando se puede descubrir información de identificación personal en datos depurados o denominados “anónimos”. Cuando se re-identifica un conjunto de datos depurado, se conocen identificadores directos o indirectos, que permiten identificar al individuo. Los identificadores directos revelan la identidad real de la persona, mientras que los indirectos suelen proporcionar más información sobre sus preferencias y hábitos. Datos depurados pueden volver a identificarse mediante tres métodos: Des-identificación insuficiente Inversión de seudónimos Combinación de conjunto de datos DES-IDENTIFICACIÓN INSUFICIENTE Se produce cuando un identificador directo o indirecto permanece inadvertidamente en un conjunto de datos que se pone a disposición del público. Ejemplos con datos estructurados En 1990, Massachusetts contrató un seguro médico para funcionarios estatales e hizo público los registros de visitas al hospital. Se eliminaron identificadores explícitos: nombre, dirección y números de seguridad social. Los registros seguían teniendo muchos atributos no depurados por paciente. Se obtuvieron estos datos públicos y se utilizó el código postal, la fecha de nacimiento y el sexo del gobernador para identificar su historial médico, diagnóstico y recetas. Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press. DES-IDENTIFICACIÓN INSUFICIENTE Ejemplo con datos no-estructurados: En 2006, AOL publicó 20 millones de consultas de búsqueda de 658.000 usuarios, a partir de tres meses de datos. AOL intentó depurar los datos de cualquier identificador directo o indirecto: eliminó nombres de usuarios y direcciones IP. Para preservar la utilidad de los datos, se sustituyó esa información por números de identificación únicos mediante seudonimización. Como cada usuario tenía un número único, dos periodistas del New York Times pudieron localizar a una viuda de sesenta y dos años de Georgia analizando sus búsquedas en AOL. INVERSIÓN DE SEUDÓNIMOS Respecto a la seudonimización, hay varias formas de anularla: Algunos seudónimos están diseñados para ser reversibles y se conserva una “clave” para invertir el proceso. Esto impide su función de seguridad. Cuanto más tiempo se utilice el mismo seudónimo para un individuo concreto, menos seguro y más fácil será volver a identificar ese individuo. Si se descubre o se llega a conocer el método utilizado para asignar seudónimos, los datos pueden volver a identificarse. COMBINACIÓN DE CONJUNTO DE DATOS La mejor herramienta para re-identificar datos depurados es combinar dos conjuntos de datos que contengan el mismo individuo en ambos conjuntos. Ataque de enlace (linkage attack): intento de re-identificar individuos en una base de datos haciendo uso de la información presentada por la misma base y de información auxiliar (información obtenida mediante otras fuentes, como otras bases de datos). COMBINACIÓN DE CONJUNTO DE DATOS Ejemplo del premio de Netflix En 2006, Netflix hizo público cien millones de registros que revelaban cientos de miles de valoraciones de usuarios entre 1999 y 2005, y ofreció un premio de un millón de dólares para el primer equipo que mejorara el algoritmo de recomendación de películas. Datos: 100 millones de valoraciones individuales de películas y fecha de las valoraciones desde 1999 hasta diciembre de 2005, de 480.189 suscriptores de Netflix. Los demás datos del usuario se anonimizaron y se redujeron a un identificador numérico único, utilizado para saber qué valoraciones pertenecían al mismo usuario. Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the Netflix Prize dataset. arXiv preprint cs/0610105. COMBINACIÓN DE CONJUNTO DE DATOS Ejemplo del premio de Netflix Netflix no añadió ningún dato que pudiera identificar a un usuario: código postal, fecha de nacimiento, nombre, etc. Arvind Narayanan anunció que se podían conectar muchas de las identificaciones del conjunto de datos de Netflix con personas reales, mediante referencias cruzadas con otro conjunto de datos disponible públicamente: las calificaciones de películas en el sitio de IMDB, donde muchos usuarios publican con sus propios nombres. Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the Netflix Prize dataset. arXiv preprint cs/0610105. K-ANONIMATO Si necesitamos usar datos o información sensible, una pregunta para elegir qué estrategia utilizar para resguardar la privacidad es la siguiente: ¿necesitas retener los valores de verdad? (como código postal, ciudad, nivel de estudios, etc.). Si la respuesta es “sí”, se puede usar k-anonimato. Dos métodos de k-anonimato: Generalización Supresión K-ANONIMATO GENERALIZACIÓN Los identificadores indirectos se transforman, sustituyendo los valores específicos por otros más generales. Así se incrementa la cantidad de datos con los mismos valores, pero estableciendo rangos o jerarquías. Por ejemplo: si el valor a generalizar es ⟨edad = 42⟩, simplemente se sustituye dicho valor por un rango que comprenda el valor 42. Puede ser un rango de ⟨40 a 49 años⟩. K-ANONIMATO SUPRESIÓN Se basa en la eliminación completa del valor identificador dentro del grupo de datos. Esta técnica sólo debe aplicarse para un tipo de dato o rango de datos que no sean importantes para el fin de la información. Siguiendo el ejemplo de la generalización, si la edad es irrelevante para el objetivo de la recopilación de información, pueden eliminarse los datos de rango de edad. De forma que pasaríamos de ⟨edad = 42⟩ a ⟨edad = **⟩. SIN K-ANONIMATO K-ANONIMATO NOMBRE EDAD GÉNERO RELIGIÓN ENFERMEDAD NOMBRE EDAD GÉNERO RELIGIÓN ENFERMEDAD Joan 24 Femenino Hindu Diabetes * 20 ≥ Edad ≤ 30 Femenino * Diabetes Johnson 17 Masculino Budista Cáncer * Edad ≤ 20 Masculino * Cáncer John 19 Masculino Cristiano Infección viral * Edad ≤ 20 Masculino * Infección viral PRIVACIDAD DIFERENCIAL Se añade un “ruido” controlado a los conjuntos de datos para evitar la identificación de individuos concretos. Requiere que añadir o eliminar el registro de datos de un solo individuo no cambie “mucho” la probabilidad de cualquier resultado. Es un marco matemático que garantiza la privacidad al permitir analizar datos sin revelar información sensible sobre ningún individuo del conjunto de datos. El output de una función no varía si un registro está presente o ausente del sistema consultado Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press. PRIVACIDAD DIFERENCIAL La promesa de la privacidad diferencial No importa qué daño te preocupe: promete que el riesgo de cualquier daño no aumenta más que un poco como resultado del uso de datos de cualquier individuo. Ningún observador externo puede aprender mucho sobre un individuo gracias a los datos específicos de esta persona, al tiempo que permite al observador aprender hechos generales sobre el mundo (por ejemplo: fumar y el cáncer de pulmón están correlacionados). Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press. PRIVACIDAD DIFERENCIAL El mecanismo de Laplace Se añade ruido a la salida (output) de una función. La cantidad de ruido depende de la sensibilidad de la función. La sensibilidad refleja la cantidad que puede variar la salida cuando cambia la entrada (input). Es el cambio máximo que puede producirse en la salida si se añade o elimina una sola persona de cualquier posible conjunto de datos de entrada. Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice] PRIVACIDAD DIFERENCIAL El mecanismo de Laplace Ejemplo: Base de datos con personas que padecen una enfermedad y queremos dar a conocer el número de personas de una ciudad con esa enfermedad. Podemos añadir ruido al recuento de personas con esa enfermedad. La contribución de cada paciente puede cambiar el resultado del recuento en un máximo de uno, por lo que la sensibilidad es igual a uno y añadimos ruido en consecuencia. Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice] PRIVACIDAD DIFERENCIAL Respuesta aleatoria y perturbaciones Consiste en pedir a los individuos que respondan a una pregunta “sí” o “no” de forma aleatoria, con cierta probabilidad de dar una respuesta verdadera y cierta probabilidad de dar una respuesta aleatoria. Puede introducir sesgos si no se hace con cuidado: si la probabilidad de dar una respuesta verdadera es demasiado baja, los datos pueden no ser representativos. *Mitigación: usar varias preguntas en lugar de una, lo que proporciona una visión más completa. Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press. PRIVACIDAD DIFERENCIAL Algoritmos diferencialmente privados y modelos de aprendizaje automático Diseñados para proteger la privacidad de los individuos en los datos de entrenamiento. Se añade ruido al tiempo que permite que un algoritmo aprenda de los datos y haga predicciones/tome decisiones precisas. Añadir ruido a los datos durante el proceso de entrenamiento. Añadir ruido para proteger los resultados (predicciones o decisiones). Por ejemplo: impide que un algoritmo entrenado para predecir la probabilidad de que un paciente desarrolle una determinada enfermedad revele información sensible de registros de pacientes que han sido tratados por esa enfermedad antes. Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice] PRIVACIDAD DIFERENCIAL Datos sintéticos diferencialmente privados Se utiliza un algoritmo para crear datos similares al conjunto de datos original. Se añade ruido durante el entrenamiento del modelo generativo. Hace difícil determinar los registros individuales del conjunto de datos original a partir de los datos recién generados. Permite un análisis de datos que preserve la privacidad y compartir datos con terceros. Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice] PRIVACIDAD DIFERENCIAL La privacidad no es gratuita Para obtener el mismo nivel de precisión se necesitan más datos de los que se necesitarían sin una restricción de privacidad. En determinados tipos de análisis, se convierte en una aproximación y no en el resultado exacto que se habría obtenido si se hubiera realizado sobre el conjunto de datos original. Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press. PRIVACIDAD DIFERENCIAL Plantear la privacidad diferencial en términos positivos La privacidad diferencial es una forma de acceder a nuevos datos, que antes no se recopilaban por motivos de seguridad. Es una forma de obtener nuevos datos y no una obligación que degrada los análisis existentes. Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press. APRENDIZAJE FEDERADO Permite entrenar modelos de IA en datos descentralizados sin necesidad de transferir los datos brutos. Los datos permanecen en modelos locales, mientras que el modelo global se actualiza con los conocimientos agregados de múltiples modelos. El algoritmo se entrena por partes en cada lugar donde están los datos y luego combina lo aprendido en un modelo global. Por ejemplo: Google entrenó a su modelo de texto predictivo a partir de todos los mensajes enviados y recibidos por usuarios de Android, sin leer ni extraer los mensajes de los dispositivos. Hao, K. (2019). A little-known AI method can train on your data health without threatening your privacy. [MIT Technology Review] APRENDIZAJE FEDERADO Ejemplo en el campo de la salud Muy útil, ya que no se requiere el traspaso de información confidencial. Algoritmos con datos almacenados en múltiples hospitales, sin que los datos salgan de sus instalaciones ni tengan que ser copiados a los servidores de una empresa. A medida que cada hospital adquiere más datos, se puede descargar el último modelo global, actualizarlo con nueva información y enviarlo de vuelta. Hao, K. (2019). A little-known AI method can train on your data health without threatening your privacy. [MIT Technology Review] APRENDIZAJE FEDERADO Desafíos La combinación de modelos separados corre el riesgo de crear un modelo global peor que cada una de sus partes. En el caso de salud, el aprendizaje federado requiere que cada hospital tenga la infraestructura y el personal cualificado para entrenar los algoritmos. También hay desacuerdos en la estandarización de la recopilación de datos en todos los hospitales. Hao, K. (2019). A little-known AI method can train on your data health without threatening your privacy. [MIT Technology Review] REFLEXIONES FINALES La ética de la IA considera la privacidad como un valor que hay que defender y como un derecho que hay que proteger. Aproximaciones a la privacidad Soluciones técnicas Llamados a más investigación Conciencia y uso de regulaciones