Es war gegen Ende der über zweistündigen Keynote, als Craig Federighi den Begriff “Differential Privacy” fallen ließ und auch kurz erklärte: “Differential Privacy ist ein Forschungsgebiet der Statistik und Datenanalyse, das auf Hashing, Sub-Samples und den Einsatz von Rauschen setzt, um eine Art von Lernen durch Crowdsourcing zu erreichen, ohne private Informationen über den individuellen Nutzer offen zu legen.”
Was das bedeutet
Mit den Daten, die Besitzer von iPhone, iPad und Mac täglich erzeugen, können Anbieter wie Apple Rückschlüsse darauf ziehen, in welcher Weise die Services genutzt werden und sie nach den Bedürfnissen der Anwender verbessern. Ein einfaches Beispiel in Bezug auf die Funktion Quicktype in iOS 10 hatte Federighi während der Keynote genannt. Anhand gewaltiger Datenmengen findet die Technik leichter heraus, ob sich das Verb “play” auf ein Baseballspiel in der MLB bezieht oder auf Kinder, die im Hof spielen. Nebenwirkung: Kuriose Autokorrekturen werden immer seltener, lässt man etwa “cheflesen” nicht zu “geflossen” korrigieren, wird das Apple-Gerät irgendwann einmal merken, dass man tatsächlich “cheflesen” meint. Mit den Daten der Masse wird die dahinterstehende künstliche Intelligenz auch neuen Slang-Ausdrücken den Weg in den Mainstream bereiten – plötzlich schlägt die Autokorrektur Worte vor, die man selbst noch nicht benutzt hat.
Apple betont nun aber, aus den gesammelten Daten keine Rückschlüsse auf Individuen ziehen zu wollen, im wesentlichen Unterschied zu Facebook und Google, die aus den von den Nutzern ihrer Dienste benutzten Begriffen auf Interessen schließen und so gezielt Werbung einspielen können. Apple hat andere Geschäftsmodelle und bietet daher eine Ende-zu-Ende-Verschlüsselung an – nicht einmal Apple kann so mitlesen, über was sich zwei oder mehrere iMessenger-Benutzer austauschen.
Wie es funktioniert
Für das maschinelle Lernen muss aber sehr wohl Klartext auf den dafür abgerichteten Servern ankommen. Und eben hier kommt die Differential Privacy ins Spiel, die nicht nur eine Technik ist, sondern mehrere Methoden verwendet. Federighi zitiert den Computerwissenschaftler und Autoren des Standardwerks “Algorithmic Foundations of Differential Privacy” Aaron Roth von der Universität von Pennsylvania, Apples Ansatz wäre “bahnbrechend”. Damit aus den gesammelten Daten keine Rückschlüsse auf Individuen gezogen werden können, werden diese noch auf dem Gerät randomisiert und mit statistischem Rauschen versehen. Sprich: Es werden gezielt Fehler eingebaut, zudem protokolliert die Technik bei weitem nicht jedes getippte Wort mit, sondern nur einen Teil dessen, was der Anwender auf seinem iPhone macht. Apple richtet sogar eine Art Budget ein: bei einer bestimmten Datenmenge ist bei jedem Anwender Schluss mit der Sammelei, damit nicht zu viele Daten von einzelnen Vielnutzern das Ergebnis verzerren.
Professor Adam Smith, ebenfalls an der Universität von Pennsylvania tätig, erklärt gegenüber TecChrunch , dass das ankommende Signal aus der Masse einer Musik gleiche, die man über ein schlecht eingestelltes Radio höre. Wenn man im Rauschen aber eine bestimmte Melodie erkenne, konzentriere man sich auf diese und kann die Nebengeräusche ausblenden. Man lerne dann also nichts über das Individuum, erkenne aber Muster, wenn viele Individuen sich ähnlich verhalten.
Wo Apple es anwendet
Quicktype ist nur ein Beispiel für den Nutzen der Technik, auf der WWDC hat Apple aber auch andere genannt. So soll auch die neue Notizen-App Daten liefern. Ab iOS 10 können auch mehrere Anwender an Notizen arbeiten, wenn die Künstliche Intelligenz weiß, welche Art von Notizen die Anwender aufschreiben und miteinander teilen, weiß iOS schneller etwa zwischen Telefonnummern und Datumsangaben zu unterscheiden und etwas damit anzufangen, etwa neue Kontakte oder Kalendereinträge automatisch zu erstellen. Spotlight ist eine weitere Technik, die nach maschinellem Lernen unter Ausnutzung der Differential Privacy geradezu schreit. Seit iOS 9 kann die interne Suche nicht nur im Web stöbern, sondern auch in an sich gekapselten Apps. Die Eingabe von “Tafelspitz” sucht dann nicht via Safari und Google im Web, sondern in den installierten Rezepte-Apps. Mit Auswertung vieler Nutzungsdaten kann Spotlight dann herausfinden, welche Treffer zu welchen Rezepte besonders gut ankommen und die Top-Treffer künftig weiter empfehlen.
Es sind aber auch weitere Apps und Dienste denkbar, die von Deep Learning und Differentiual Privacy profitieren können: Apples Karten beispielsweise oder der Spracherkennung. Apple könne nach Meinung von Adam Smith so auch herausfinden, zu welcher Tageszeit bestimmte Apps besonders populär sind.
Was Kritiker meinen
Wie jedoch Recode berichtet , haben andere Experten als Roth und Smith Zweifel an der Wirksamkeit der Methode. Sie liefere wegen des Datenrauschens entweder keine guten Ergebnisse oder schütze die Privatsphäre eben nicht ausreichend. Cynthia Dwork, die sich bei Microsoft mit dem Thema beschäftigt, liefert ein schönes Beispiel, wie man aus einem großen Datensatz Informationen über bestimmte Personen ziehen kann, wenn man die Daten nicht mit statistischem Rauschen überlegt. Eine an 1000 Personen, unter denen sich auch der US-Präsident befindet, gerichtete Frage könnte sich etwa darum drehen, ob der Befragte ein bestimmtes Gen trage, das Sichelzellenanämie auslöse. Die Antwort könnte dann etwa lauten, das sieben dieser 1000 Personen den Gendefekt haben. Eine zweite Frage würde sich dann darum drehen, wie viele Personen außer dem Präsidenten dieses Gen haben. Aus dieser Antwort könnte man dann direkt darauf schließen, ob der Präsident betroffen ist oder nicht. Werden die beiden Antworten aber per Zufall verfälscht, könnte die zweite Antwort auch “acht” lauten – und keinerlei Rückschlüsse auf das Individuum zulassen.
Ob die Methode funktioniert und sinnvolle Ergebnisse liefert, ohne die Privatsphäre der Nutzer zu gefährden wird Apple in den nächsten Monaten zeigen können.
Unser Fazit
Dass Apple in den Bereichen wie künstliche Intelligenz vernünftige, besser gesagt, praxis-taugliche Anwendungen schaffen kann, hat das Beispiel Siri bereits bewiesen. Nun will Apple den Datenschatz auf weitere Anwendungen ausweiten. Das Ergebnis kann sein, dass sich iOS und macOS zu proaktiven Helfern entwickeln und nicht nur auf die Eingaben des Nutzers reagieren. Bedingung dafür: Der Anwender muss selbst entscheiden können, was mit seinen Daten passiert und ob er diese überhaupt freigeben möchte. Facebook und Google bieten eine solche Alternative nicht, Apple könnte sich mit einem schlichten Regler in den Datenschutz-Einstellungen positiv davon unterscheiden.