Wie die Anonymisierung mit Diffix funktioniert

Aircloak Insights anonymisiert Daten mit der eigens dafür entwickelten Anonymisierungsmethode Diffix.

Illustration showing an analyst inspecting a dashboard

Hochwertige Analysen mit sensiblen Daten unter Einhaltung hoher Datenschutzstandards war bislang nur schwer zu erreichen. Die Herausforderung liegt in dem Kompromiss zwischen Datennutzbarkeit (“Data Utility”) und Datenschutz (“Privacy”). Je höher der Schutz, desto geringer die Nutzbarkeit und vice versa. Daher wurde die Anonymisierungsmethode Diffix in Zusammenarbeit mit dem Max Planck Institut für Softwaresysteme entwickelt. Diffix ermöglicht eine starke Anonymisierung und erhält die ursprüngliche Aussagekraft der Daten.

Diffix ist ein neues Framework für Datenbankabfragen.
Abfrageergebnisse werden anonymisiert indem sowohl auf den Input, als auch auf den zugrunde liegenden Datensatz ein zugeschnittenes Rauschen hinzugefügt wird. Im Gegensatz zu anderen Anonymisierungslösungen können somit Datensätze unabhängig vom Anwendungsfall anonymisiert und genutzt werden.

Diffix wurde in Zusammenarbeit mit dem Max Planck Institut für Softwaresysteme entwickelt.
Die Funktionsweise wurde von offiziellen Behörden bestätigt und entspricht den europäischen Richtlinien für Anonymisierung.


“Diffix: High-Utility Database Anonymization” – Research Paper

Wie sich Diffix von
anderen Anonymisierungsmethoden unterscheidet

Grundsätzlich gibt es zwei Ansätze zur Anonymisierung von Daten. Bei der statischen Anonymisierung wird ein Datensatz zuerst anonymisiert, bevor er für analytische Zwecke verwendet wird. Bei der dynamischen Anonymisierung (auch “query-by-query-Anonymisierung” oder “interaktive Anonymisierung”) erfolgt die Anonymisierung während der Abfrage. Die Anonymisierung bei Aircloak Insights erfolgt während der Abfrage und ist damit dynamisch.

Aircloak Insights vs Statische Anonymisierung

Bei der statischen Anonymisierung eines Datensatzes muss die Nutzbarkeit der Daten (weniger Anonymisierung) gegen Sicherheit und Schutz (stärkere Anonymisierung) abgewägt werden. Ein funktionierender Kompromiss bedarf viel manueller Vorarbeit, ist fehleranfällig und Verantwortlich für die meisten bekannten Datenschutzverletzungen im Bereich der Re-Identifizierung.

Bei der statischen Anonymisierung eines Datensatzes muss vorab festgestellt werden, welche Spalten sensible Daten enthalten. Sobald die jeweiligen Werte identifiziert wurden, müssen sie entweder entfernt oder geändert werden, was zu einer qualitativen Verschlechterung der Daten führt. Dieser Prozess wird zusätzlich erschwert, indem man weitere Quellen und Informationen (zum Beispiel aus öffentlich zugänglichen Daten) berücksichtigen muss, die ein potentieller Angreifer haben könnte. Je höher die Wahrscheinlichkeit ist, dass der Datensatz mit anderen Informationen kombiniert wird, desto geringer darf die Granularität des Datensatzes sein – und desto schlechter wird dessen Qualität und Aussagefähigkeit.

Aircloak Insights ist dynamische Anonymisierung
Im Gegensatz zu einem statischen Ansatz bietet Aircloak einem Analysten Zugriff auf alle zugrunde liegenden Daten und passt die Anonymisierung dynamisch an die jeweilige Abfrage und die angeforderten Daten an. Diffix versteht automatisch, welche Daten unter welchen Umständen sensibel sein können und entbindet Mitarbeiter von der fehleranfälligen manuellen Konfiguration. Das vollständig anonymisierte Abfrageergebnis fällt nicht mehr unter den Datenschutz der DSGVO und kann somit frei geteilt werden, ohne sich Gedanken darüber zu machen, welches zusätzliche Wissen ein Analyst haben könnte. Weitere Informationen zu Data Compliance bei Aircloak finden Sie hier.

Da Daten nie als Ganzes anonymisiert werden, behalten sie mit Aircloak Insights ihre Aussagekraft.

 


 

Dynamische Anonymisierung: Diffix vs Differential Privacy

Bei der dynamischen Anonymisierung erfolgt die Anonymisierung auf die Ergebnisse einer Abfrage und nicht vorzeitig auf den gesamten Datenbestand. Im Moment bedienen sich zwei Anonymisierungsmethoden dieser Logik: Differential Privacy und Diffix.

Der Vorteil gegenüber einer statischen Anonymisierung ist, dass nur Dimensionen berücksichtigt werden müssen, die Teil der Abfrage sind. Die Änderung von Aggregaten erfolgt dabei u.a. durch geringfügige Veränderungen der Werte und dem Hinzufügen von statistischem Rauschen (z.B. normalverteiles Rauschen; eng. “Gaussian Noise”). Bei der Nutzung eines zufälligen Wertes für das Rauschen führt jede weitere Abfrage zu einem reduzierten Schutzniveau. Das ist der Ursprung für die Einführung des sogenannten “Privacy Budget”, das bei Differential Privacy verwendet wird. Jede Abfrage verbraucht einen Teil des verfügbaren Budgets, bis es aufgebraucht ist. Danach kann der Datenbestand nicht mehr zur Analyse verwendet werden, weil sonst die Anonymität und der Datenschutz nicht mehr gewährleistet werden können.

Diffix eliminiert den Bedarf eines Privacy Budgets, indem ein deterministisches Rauschen erzeugt wird, das nicht herausgemittelt werden kann. Wiederholte oder semantisch äquivalente Abfragen erzeugen die gleichen Rauschwerte. Das führt dazu, dass beliebig viele Abfragen an einem Datensatz durchgeführt werden können.

Mit Diffix behält Ihr Datensatz seine Aussagekraft!

Sie möchten mehr erfahren?

KOSTENLOSE DEMO ANFORDERN

Vielen Dank für Ihr Interesse an Aircloak Insights.
Bitte senden Sie uns Ihre Kontaktdaten, damit wir umgehend einen Termin für Ihre Demo vereinbaren können.
Ich stimme der Bearbeitung meiner Daten gemäss Ihrer Datenschutzerklärung zu.