Wie die Anonymisierung mit Aircloak funktioniert

Aircloak Insights nutzt einen innovativen Ansatz, um sowohl eine starke Anonymisierung, als auch eine hohe Datenqualität zu gewährleisten.

Illustration showing an analyst inspecting a dashboard

Hochwertige Analysen mit sensiblen Daten unter Einhaltung hoher Datenschutzstandards waren bislang nur schwer zu erreichen. Die Herausforderung liegt in dem Kompromiss zwischen Datennutzbarkeit (“Data Utility”) und Datenschutz (“Privacy”). Je höher der Schutz, desto geringer die Nutzbarkeit und vice versa. Aircloak Insights ermöglicht beides: eine starke Anonymisierung und eine hohe Datennutzbarkeit. 

Aircloak nutzt ein neues Framework für Datenbankabfragen.
Abfrageergebnisse werden anonymisiert indem sowohl auf den Input, als auch auf den zugrunde liegenden Datensatz ein zugeschnittenes Rauschen hinzugefügt wird. Im Gegensatz zu anderen Lösungen können somit sensible Datensätze unabhängig vom Anwendungsfall analysiert und genutzt werden.

Die Anonymisierung basiert auf einer Kombination aus bewährten Methoden wie K-Anonymität, Low-Count-Suppression, Top- und Bottom-Codierung und Differential Privacy Noise sowie patentierten offenen Konzepten, die gemeinsam von Aircloak und dem Max Planck Institut für Softwaresysteme (MPI-SWS) entwickelt wurden, wie Sticky Layered Noise und einer sicheren SQL-Filterung.

Unser Ansatz wurde in Zusammenarbeit mit dem Max Planck Institut für Softwaresysteme entwickelt.
Die Funktionsweise wurde von offiziellen Behörden bestätigt und entspricht den europäischen Richtlinien für Anonymisierung.


“Diffix-Birch: Extending Diffix-Aspen” – Research Paper

Wie sich Aircloak von
anderen Datenschutzansätzen unterscheidet

Es gibt verschiedene Methoden, mit denen sensible Daten datenschutzkonform analysiert werden können. Die Auswahl des richtigen Ansatzes ist wichtig, da je nach Anwendungsfall völlig verschiedene Anforderungen gestellt werden.

In unserem Blog-Artikel A Visual Comparison for Privacy Approaches in Data Analytics erläutern wir die Stärken und Schwächen der einzelnen Ansätze und vergleichen sie in Bezug auf analytische Qualität, Time-to-Market, Stärke des Datenschutzes und Kompabilität für Machine-Learning- und Testdaten-Szenarien.

Zur Vertiefung:

The 7 Myths of Data Anonymization
Explaining Differential Privacy in 3 Levels of Difficulty
Differences between Static and Interactive Anonymization
Aircloak Whitepaper – Data Anonymization in Digital Business Models

Aircloak Insights vs Statische Anonymisierung

Bei der statischen Anonymisierung eines Datensatzes muss die Nutzbarkeit der Daten (weniger Anonymisierung) gegen Sicherheit und Schutz (stärkere Anonymisierung) abgewägt werden. Ein funktionierender Kompromiss bedarf viel manueller Vorarbeit, ist fehleranfällig und verantwortlich für die meisten bekannten Datenschutzverletzungen im Bereich der Anonymisierung.

Bei der statischen Anonymisierung eines Datensatzes muss vorab festgestellt werden, welche Spalten sensible Daten enthalten. Sobald die jeweiligen Werte identifiziert wurden, müssen sie entweder entfernt oder geändert werden, was zu einer qualitativen Verschlechterung der Daten führt. Dieser Prozess wird zusätzlich erschwert, indem man weitere Quellen und Informationen (zum Beispiel aus öffentlich zugänglichen Daten) berücksichtigen muss, die ein potentieller Angreifer haben könnte. Je höher die Wahrscheinlichkeit ist, dass der Datensatz mit anderen Informationen kombiniert wird, desto geringer darf die Granularität des Datensatzes sein – und desto schlechter wird dessen Qualität und Aussagefähigkeit.

Aircloak Insights basiert auf dynamischer Anonymisierung
Im Gegensatz zu einem statischen Ansatz bietet Aircloak einem Analysten Zugriff auf alle zugrunde liegende Daten und passt die Anonymisierung dynamisch an die jeweilige Abfrage und die angeforderten Daten an. Aircloak versteht automatisch, welche Daten unter welchen Umständen sensibel sein können und entbindet Mitarbeiter von der fehleranfälligen manuellen Konfiguration. Das vollständig anonymisierte Abfrageergebnis fällt nicht mehr unter den Datenschutz der DSGVO und kann somit frei geteilt werden, ohne sich Gedanken darüber zu machen, welches zusätzliche Wissen ein Analyst haben könnte. Weitere Informationen zu Data Compliance bei Aircloak finden Sie hier.

 


 

Dynamische Anonymisierung: Aircloak vs Differential Privacy

Bei der dynamischen Anonymisierung erfolgt die Anonymisierung auf die Ergebnisse einer Abfrage und nicht vorzeitig auf den gesamten Datenbestand. Im Moment bedienen sich nur zwei Anonymisierungsmethoden dieser Logik: Differential Privacy und Aircloak.

Der Vorteil gegenüber einer statischen Anonymisierung ist, dass nur Dimensionen berücksichtigt werden müssen, die Teil der Abfrage sind. Die Änderung von Aggregaten erfolgt dabei u.a. durch geringfügige Veränderungen der Werte und dem Hinzufügen von statistischem Rauschen (z.B. normalverteiles Rauschen; eng. “Gaussian Noise”). Bei der Nutzung eines zufälligen Wertes für das Rauschen führt jede weitere Abfrage zu einem reduzierten Schutzniveau. Das ist der Ursprung für die Einführung des sogenannten “Privacy Budget”, das bei Differential Privacy verwendet wird. Jede Abfrage verbraucht einen Teil des verfügbaren Budgets, bis es aufgebraucht ist. Danach kann der Datenbestand nicht mehr zur Analyse verwendet werden, weil sonst die Anonymität und der Datenschutz nicht mehr gewährleistet ist.

Aircloak Insights eliminiert den Bedarf eines Privacy Budgets, indem ein deterministisches Rauschen erzeugt wird, das nicht herausgemittelt werden kann. Wiederholte oder semantisch äquivalente Abfragen erzeugen die gleichen Rauschwerte. Das führt dazu, dass beliebig viele Abfragen an einem Datensatz durchgeführt werden können.

Mit Aircloak behält Ihr Datensatz seine Aussagekraft!