Differential Privacy schützt vor Deanonymisierung persönlicher Daten die Apple, Google und Andere benötigen um ihre Straßenkarten, Tastaturvorschläge und Vieles mehr zu verbessern.
Netflix veröffentlichte Benutzerdaten ohne Benutzerkennung. Durch Abgleich mit Imdb konnten einzelne Benutzer identifiziert werden.
Differential Privacy muss auf dem Endgerät auf die Daten angewendet werden bevor diese übertragen werden und funktioniert durch Hinzufügen von Rauschen ohne dass die Daten signifikant weniger akkurat werden.
Beispiel des Differential Privacy Prinzip:
Benutzer wird gefragt ob er schonmal etwas geklaut hat. Beim Antworten soll er folgende Prozedur anwenden:
Wortvervollständigung soll verbessert werden. Dazu werden von 3 Mitarbeitern einer Steuerkanzlei die eingegebenen Wörter, wie "Steuerschlupfloch", "Kindergeburtstag", "Bewerbung", "Hausbau", gesammelt. Damit man nicht herausfinden kann welcher Mitarbeiter eine andere Arbeitsstelle sucht und "Bewerbung" eingegeben hat kommen 3 Verfahren zum Einsatz.
Netflix veröffentlichte Benutzerdaten ohne Benutzerkennung. Durch Abgleich mit Imdb konnten einzelne Benutzer identifiziert werden.
Differential Privacy muss auf dem Endgerät auf die Daten angewendet werden bevor diese übertragen werden und funktioniert durch Hinzufügen von Rauschen ohne dass die Daten signifikant weniger akkurat werden.
Beispiel des Differential Privacy Prinzip:
Benutzer wird gefragt ob er schonmal etwas geklaut hat. Beim Antworten soll er folgende Prozedur anwenden:
- Wirf eine Münze.
- Bei Zahl antworte wahrheitsgemäß.
- Bei Kopf wirf erneut und antworte "Ja" wenn Kopf und "Nein" wenn Zahl.
So weiß man bei keinem Benutzer ob die Antwort wahr oder dem Zufall geschuldet ist. Über die Gesamtheit erhält man trotzdem hinreichend akkurate Ergebnisse, da der Rauschfaktor bekannt ist und sich weitgehend herausrechnen lässt.
Beispiel in der Praxis
Wortvervollständigung soll verbessert werden. Dazu werden von 3 Mitarbeitern einer Steuerkanzlei die eingegebenen Wörter, wie "Steuerschlupfloch", "Kindergeburtstag", "Bewerbung", "Hausbau", gesammelt. Damit man nicht herausfinden kann welcher Mitarbeiter eine andere Arbeitsstelle sucht und "Bewerbung" eingegeben hat kommen 3 Verfahren zum Einsatz.
- Anonymisierung durch Hashing verwandelt den Benutzernamen "Martin" beispielsweise in "03aa018c" und kann nicht zurückgewandelt werden. Allerdings kann man trotzdem leicht die Person herausfinden, wenn man weiß welcher Mitarbeiter gerade ein Haus baut oder ein Kind hat. Deswegen:
- Datensparsamkeit: Subsampling – reduziert die Daten auf Stichproben. Privacy Budget – erhebt nur die unbedingt notwendigen Daten.
- Noise Injection: Es werden zufällige Wörter hinzugefügt. Damit kann man sich bei keinem Wort sicher sein ob der Benutzer es eingegeben hat.
Voilà, Tastaturvorschläge lassen sich verbessern ohne auswerten zu können welcher Mitarbeiter sich gerade beruflich neu orientiert
Differential Privacy funktioniert nur gut wenn vorher exakt definiert ist welche Aufgabe man mit den Daten erreichen möchte.
- https://www.heise.de/mac-and-i/artikel/Besserer-Datenschutz-Wie-Apples-Differential-Privacy-funktioniert-Update-3678489.html?artikelseite=3
- http://www.wikiwand.com/en/Differential_privacy