Anonimización de datos – Visión general, técnicas, ventajas

Qué es la anonimización de datos?

La anonimización de datos se refiere al método de preservar la información privada o confidencial borrando o codificando los identificadores que vinculan a los individuos con los datos almacenados. Se realiza para proteger la actividad privada de un individuo o una corporaciónCorporaciónUna corporación es una entidad legal creada por individuos, accionistas o socios, con el propósito de operar con fines de lucro. Se permite la entrada de empresas preservando la credibilidad de los datos recogidos e intercambiados.

La anonimización de datos es una de las técnicas que las organizaciones pueden utilizar para cumplir las estrictas normativas de privacidad de datos que exigen la seguridad de la información personal identificable (PII), como los informes de salud, la información de contacto y los detalles financieros.

Sin embargo, aunque los datos de los identificadores se borren, los atacantes pueden utilizar técnicas de desanonimización para volver a realizar el procedimiento de anonimización de datos. Como los datos suelen fluir a través de varias fuentes, algunas de las cuales están abiertas al público, los métodos de desanonimización cruzarán las fuentes y expondrán la información personal.

Resumen

    Técnicas de anonimización de datos

    1. Enmascaramiento de datos

    El enmascaramiento de datos se refiere a la divulgación de datos con valores modificados. La anonimización de los datos se realiza creando una imagen en espejo de una base de datos y aplicando estrategias de alteración, como el barajado de caracteres, la codificación, el término o la sustitución de caracteres. Por ejemplo, un carácter de valor puede ser sustituido por un símbolo como “*” o “x.” Dificulta la identificación o la ingeniería inversa.

    2. Pseudonimización

    La seudonimización es una herramienta de desidentificación de datos que sustituye los identificadores privados por identificadores falsos o seudónimos, como el intercambio de la “John Smith” identificador con el “Mark Spencer” identificador. Mantiene la precisión estadística y la confidencialidad de los datos, permitiendo que los datos modificados se utilicen para la creación, el entrenamiento, las pruebas y el análisis, al tiempo que se mantiene la privacidad de los datos.

    3. Generalización

    La generalización consiste en excluir algunos datos a propósito para hacerlos menos identificables. Los datos pueden modificarse en una serie de rangos o en una gran región con límites razonables. Por ejemplo, se puede eliminar el número de casa de una dirección, pero hay que asegurarse de que no se elimine el nombre del carril. El objetivo es eliminar parte de los identificadores manteniendo la precisión de los datos.

    4. Intercambio de datos

    Intercambio de datos – A menudo se conoce como permutación y barajado – Reorganiza los valores de los atributos del conjunto de datos para que no se ajusten a la información original. El cambio de atributos (columnas) que incluyen valores reconocibles, como la fecha de nacimiento, puede tener un gran impacto en la anonimización.

    5. Perturbación de los datos

    La perturbación de los datos modifica marginalmente el conjunto de datos inicial aplicando métodos de redondeo y añadiendo ruido aleatorio. El conjunto de valores debe ser proporcional a la perturbación. Una base pequeña puede contribuir a una mala anonimización, mientras que una base amplia puede reducir un conjunto de datos’Utilidad de los datos. Por ejemplo, se debe utilizar una base de 5 para redondear valores como la edad o el número de casa.

    6. Datos sintéticos

    Los datos sintéticos son información generada algorítmicamente sin relación con ningún caso real. Los datos se utilizan para construir conjuntos de datos artificiales en lugar de modificar o utilizar el conjunto de datos original y comprometer la privacidad y la protección.

    El método de datos sintéticos incluye la construcción de modelos matemáticos basados en patrones contenidos en el conjunto de datos original. Desviaciones estándarDesviación estándarDesde un punto de vista estadístico, la desviación estándar de un conjunto de datos es una medida de la magnitud de las desviaciones entre los valores de las observaciones contenidas, regresión lineal, medianasLa mediana es una medida estadística que determina el valor medio de un conjunto de datos enumerados en orden ascendente (i.e., de menor a mayor valor). La mediana, u otros métodos estadísticos pueden utilizarse para producir resultados sintéticos.

    Ventajas de la anonimización de datos

    1. Protege contra la posible pérdida de cuota de mercado y confianza

    La anonimización de datos es un método para garantizar que la empresa entiende y hace cumplir su deber de asegurar los datos sensibles, personales y confidenciales en un mundo de mandatos de protección de datos muy complejos que pueden variar en función del lugar en el que se encuentre la empresa y los clientes. Así, protege a las empresas contra la posible pérdida de cuota de mercado y de confianza.

    2. Salvaguardias contra el mal uso de los datos y los riesgos de explotación de información privilegiada

    La anonimización de los datos es una salvaguarda contra el uso indebido de los datos y los riesgos de explotación de información privilegiada que provocan el incumplimiento de la normativa.

    3. Aumenta la gobernanza y la coherencia de los resultados

    La anonimización de datos también aumenta la gobernanza y la coherencia de los resultados. Los datos limpios y precisos permiten aprovechar las aplicaciones y los servicios y preservar el análisis de big data y la privacidad. Impulsa la transformación digital al proporcionar datos protegidos para su uso en la generación de nuevo valor de mercado.

    Desventajas de la anonimización de datos

    Los cumplimientos normativos exigen que los sitios web reciban el permiso de los usuarios para recopilar información personal, como cookies, direcciones IP e identificaciones de ordenadores. Reunir datos anónimos y eliminar las identidades de la base de datos permitiría restringir la capacidad de extraer información significativa de los resultados.

    La información anonimizada, por ejemplo, no puede utilizarse con fines de segmentación o para personalizar la experiencia del usuario.

    Más recursos

    Gracias por leer nuestro sitio web’Guía de la anonimización de datos. Para seguir aprendiendo y avanzar en su carrera, los siguientes recursos le serán de utilidad:

      Deja un comentario