Hoy hablaré acerca de un tema que a todos nos toca pasar en nuestro camino al descubrimiento de insights y es que, cuando ya tenemos los datos listos para empezar a ser explotados nos enfrentamos a la pregunta:
¿Cómo mantener la privacidad y ética en los datos?
Ya sea por ética, regulación o por privacidad necesitamos atender el tema sin perder la capacidad de agrupamiento o categorización.
En esta entrada al blog, hablaré de 5 formas de mantener la privacidad de los datos de nuestros clientes, replicable en cualquier plataforma que estemos usando desde la perspectiva de un Ingeniero de datos.
Técnica 1: Eliminación selectiva
Quizá la forma más simple de anonimizar los conjuntos de datos. Eliminar columnas enteras de datos sensibles puede ser una excelente opción si podemos sencillamente prescindir de ellos.
No nos conviene cuando hacemos investigación y queremos posteriormente identificar a cada individuo para una oferta personalizada o queremos hacer un storytelling exhaustivo.
Para esta técnica, no debemos olvidar antes hacer un estudio de los datos existentes y ver los valores nulos, frecuencias o distribuciones para determinar si un comportamiento está alterando los resultados de nuestro estudio.
Una vez verificada la validez de los datos podemos usar herramientas gratuitas para llenar con datos aleatorios completamente diferentes.
Un ejemplo de una herramienta ampliamente usada es Mockeroo, capaz de generar datos de personas ficticias, códigos postales y hasta tarjetas de crédito para poder usarlos en nuestros datasets.
Link: https://www.mockaroo.com
Técnica 2: Sustitución de muestreo
En cualquier caso en el que queramos anonimizar un conjunto de datos, debemos adquirir cierta información sobre las propiedades estadísticas de los datos originales. Es entonces imprescindible obtener la distribución de probabilidad de la columna de interés para poder crear versiones anonimizadas con las mismas propiedades estadísticas.
Existen librerías como Scipy que nos ayudan a extraer una distribución normal sesgada de nuestros datos originales para crear una réplica que tenga los mismos patrones estadísticos. Esto garantiza el anonimato, pero permite que los datos no se pierdan en nuestro intento de extraer información.
Importante mencionar que podemos ajustar esta muestra a más o menos parecida a la original con solo variar un parámetro.
Técnica 3: Sustitución de datos
Pasando ahora a una herramienta indispensable en nuestra caja de herramientas dentro de la ciencia de datos ética, hablemos de la biblioteca de Python generadora de datos falsos llamada Faker.
Con sólo un par de lineas de código es capaz de generar desde nombres, direcciones, detalles de tarjetas de crédito hasta datos más complejos como datos geográficos.
En lo personal, es uno de los paquetes que nunca dejo de tener en los laboratorios de pruebas y lo he utilizado para generar nombres realistas basados en una columna de género existente.
Técnica 4: Funciones de agregación
El título que le doy a esta técnica es más una descripción muy completa del concepto. La generalización de los datos resulta de la aplicación de operaciones de agregación como el binning, el redondeo y la categorización en formas más amplias para sustituir un valor extremadamente preciso por otro menos preciso.
Es como si desdibujáramos ligeramente el rostro de una persona, mientras seguimos viendo a grandes rasgos sus características. Al hacerlo, se eliminan los datos sensibles y los identificadores personales, mientras que los datos siguen siendo útiles para el análisis.
Para esta técnica, podemos utilizar funciones contenidas en el paquete de pandas para Python que nos permite agrupar números o ejecutar funciones tipo SQL.
Técnica 5: Virtualización de datos
Y esta última técnica no es como las anteriores, pues no se basa en modificar los datos si no hacerlos de cierta forma “ilegibles” para poder procesando en la nube pero demos un poco de contexto:
Resulta, que existen regulaciones en varios países donde impiden subir información personal de usuarios a la nube, esto en sectores específicos como el bancario, donde no se puede almacenar la información en servidores de otro país.
Para ello se ocupa la virtualización de datos, que permite acceder a datos sensibles y ser procesados en clústers en la nube.
El objetivo es no almacenar la información si no consumirla a demanda, viviendo en los servidores locales de la compañía y subiendo a ser procesada en la nube cuando sea necesario y al terminar, ser eliminada.
Para esto se pueden ocupar distintos softwares que hacen de cierta forma transparente el consumo de datos por otras plataformas de analítica.
Un ejemplo de este tipo de software es TIBCO TDV.
Lo mejor es que estas soluciones ya están integradas por distintos proveedores de nube para ser consumidas a muy bajo costo.
Conclusión
Cuidar la privacidad de los datos es responsabilidad de todos, desde el cliente hasta el tomador de decisión que hace uso de ellos, y es un tanto sencillo mantener el tema dentro de los limites legales con técnicas sencillas pero funcionales como las anteriores.
Te dejo un par de preguntas:
¿En que parte del ciclo de vida del uso de datos te encuentras?
¿Estás haciendo lo que te corresponde para cuidar de este tema?
Déjame saber tus comentarios.
🏆Consultor en Transformación Digital e Inteligencia Artificial desarrollando proyectos en organizaciones del Gobierno Mexicano como SAT, IMSS, CFE y en el sector privado para empresas internacionales como DHL, Santillana, citiBanamex, HSBC, Softtek y Grupo Salinas.
👨🚀 Podcast: Big Data para Negocios
⭕️CoOrganizer @tedxpolanco