Luzablue

Tecnología y más

Cómo la diferencia en la confidencialidad mantiene tanto los datos útiles como los confidenciales
How Things Work

Cómo la diferencia en la confidencialidad mantiene tanto los datos útiles como los confidenciales

Aunque a menudo utiliza algoritmos bastante complejos, el objetivo de la privacidad diferencial es bastante sencillo: garantizar que las personas cuyos datos se recopilan tengan tanta privacidad como la tendrían si los datos nunca se hubieran registrado. Nunca debería poder identificar a alguien con solo mirar un conjunto de información almacenada sobre él.

Cómo funciona la privacidad diferencial

Debido a que los datos sobre nosotros se recopilan a un ritmo sin precedentes y la gente se siente incómoda con ellos, la idea de que su privacidad puede demostrarse matemáticamente comienza a sonar bastante bien. Compañías como Microsoft, Google, Apple, Facebook y Uber lo han implementado de alguna forma o están explorando sus opciones, pero antes de que la gran tecnología siquiera entrara en él, se estaba utilizando para cosas como datos, investigaciones sensibles, registros médicos e incluso partes. del censo de Estados Unidos.

Lo hace agregando ruido, ya sea a los datos almacenados en sí o a los resultados que se devuelven cuando alguien les hace preguntas, lo que confunde los datos individuales, pero conserva la forma general. El «ruido» es esencialmente una irregularidad, o variabilidad inexplicable, en los datos, y el objetivo aquí es insertar ruido en puntos de datos individuales, mientras se mantienen medidas generales como la media, la mediana, la moda y la desviación estándar, cerca de donde estaban antes. .

Privacidad diferencial simple

Digamos que ha sido seleccionado para participar en un estudio innovador de ciencias sociales. Sin embargo, aquí está el truco: algunas de las preguntas serán potencialmente embarazosas, incriminatorias o incómodas para usted. Digamos que prefieres que nadie vea tu nombre junto a una marca de verificación en la columna titulada «Me gustó mucho la última temporada de Game of Thrones».

Afortunadamente, los investigadores anonimizaron el estudio. En lugar de nombres, obtendrá un número aleatorio, pero incluso entonces las personas pueden usar sus respuestas y refinarlas.

Este es un problema que ha surgido a menudo en el mundo real, quizás el más conocido cuando los investigadores no solo pudieron identificar a los usuarios de Netflix pero están descubriendo algunas de sus preferencias políticas. Pero, ¿qué pasaría si pudiéramos organizar estos datos y nuestra encuesta para que nadie que lea los resultados sepa con certeza lo que dijo cada persona?

Añadiendo ruido en la habitación

Aquí hay una técnica que podemos usar tanto para mantenerlo en privado como para obtener resultados que, en general, harían parecer que todos están diciendo la verdad:

Cambio de moneda de mesa de privacidad diferencial
  1. Se te hará una pregunta de sí / no (¿Te gustó la última temporada de Game of Thrones?). Gire una moneda.
  2. Si la moneda es la cara, voltéala de nuevo. (No importa lo que obtenga una segunda vez). Responda la pregunta con sinceridad. («Sí.»)
  3. Si hay colas, vuelva a dar la vuelta a la pieza. Si hay cabezas, diga «Sí». En cuanto a las colas, diga «No».

No veremos la obra, así que no sabremos si te dijo que mintieras o no. Todo lo que sabemos es que tenía un 50% de posibilidades de decir la verdad y un 50% de posibilidades de decir «Sí» o «No».

dibujo diferencial

Luego, su respuesta se registra junto a su nombre o número de identificación, pero ahora tiene una negación plausible. Si alguien te acusa de disfrutar la última temporada de Game of Thrones, tienes una defensa respaldada por las leyes de la probabilidad: la obra te hizo decirlo.

Los algoritmos reales que utilizan la mayoría de las empresas de tecnología para la privacidad diferencial son mucho más complejos que eso (dos ejemplos a continuación), pero la premisa es la misma. Al no especificar si cada respuesta es realmente válida o no, o incluso cambiar las respuestas al azar, estos algoritmos pueden garantizar que no importa cuántas preguntas se envíen a la base de datos, no podrán identificar a nadie de manera concreta.

Sin embargo, no todas las bases de datos lo tratan de la misma manera. Algunos aplican algoritmos solo cuando se consultan los datos, lo que significa que los datos en sí todavía se almacenan en algún lugar en su forma original. Obviamente, este no es el escenario de privacidad ideal, pero hacer cumplir la privacidad diferencial en todo momento es mejor que simplemente enviar datos sin procesar al mundo.

¿Cómo se usa?

Manzana

Privacidad diferencial de Apple Hademard Mean Count Sketch
Algoritmo de boceto de número promedio utilizado por apple para una confidencialidad diferencial

Apple usa privacidad diferencial para ocultar los datos a los usuarios individuales antes de que se transmitan, utilizando la lógica de que si muchas personas envían sus datos, el ruido no tendrá un impacto significativo en los datos agregados. Usan una técnica llamada «Count Mean Sketch», que básicamente significa que la información está codificada, los elementos aleatorios se cambian y luego la versión «inexacta» se decodifica y se envía a Apple para su análisis. Informa cosas como sugerencias de escritura, sugerencias de búsqueda e incluso emojis que aparecen cuando escribe una palabra.

Google

Informe de privacidad diferencial de flujo de datos
INFORME flujo de datos Proyecto GitHub

La primera gran incursión de Google en la privacidad diferencial fue INFORME (respuesta ordinal aleatoria, que permanece confidencial), que pasa los datos a través de un filtro e intercambia fragmentos al azar utilizando una versión del método de lanzamiento de moneda descrito anteriormente. Inicialmente lo usaron para recopilar datos sobre problemas de seguridad en el navegador Chrome, y desde entonces han aplicado privacidad diferenciada en otros lugares, como para saber qué tan ocupada está una empresa en un momento u otro, sin revelar la actividad de los usuarios individuales. De hecho, abrieron este proyecto para que puedan aparecer más aplicaciones basadas en su trabajo.

¿Por qué no se procesan todos los datos de esta manera?

La privacidad diferencial es actualmente un poco compleja de implementar y viene con un compromiso en la precisión que puede afectar negativamente a los datos críticos en ciertas circunstancias. Un algoritmo de aprendizaje automático que utiliza datos privatizados para investigaciones médicas sensibles podría, por ejemplo, cometer errores lo suficientemente grandes como para matar personas. Sin embargo, ya existe un uso real en el mundo de la tecnología, y dada la creciente conciencia pública sobre la privacidad de los datos, existe una buena posibilidad de que en el futuro veamos la privacidad demostrable matemáticamente como un argumento de venta.

Créditos de imagen: INFORME flujo de datos, Algoritmo del servidor Hademard Mean Count Sketch, Paquete de datos topográficos R-MASS, El árbol de probabilidades: lanza una moneda

DEJA UNA RESPUESTA

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *