Differential Privacy verandert hoe Apple data analyseert

Een grote aankondiging die te weinig aandacht kreeg op de WWDC Keynote van Apple is Differential Privacy. Een belangrijke aankondiging die de kijk op data analyse hellemaal verandert. Het staat totaal in contrast met hoe Google en Facebook gebruikersdata analyseren. Differential Privacy is geen uitvinding van Apple. Het is een techniek waar al lang onderzoek naar wordt gedaan, maar Apple is een van de eerste bedrijven die de techniek gaat inzetten op grote schaal.

Hoe anderen je data analyseren.

Bedrijven als Google en Facebook analyseren al lang je data. Iets waar Apple zich om privacy redenen lang van heeft proberen weerhouden. Maar om te kunnen blijven concurreren met Googles Android is het analyseren van gebruikersdata steeds belangrijker. Google analyseert data door profielen van gebruikers op te slaan op hun servers. Door deze data kunnen zij zien welk je interesse zijn en welk de trends zijn op grote schaal tussen miljoenen gebruikers. Dit gaat ten kosten van je privacy. Als Google deze data op zijn servers heeft staan gekoppeld aan jou unieke ID is deze ook beschikbaar voor overheden die om een of ander onderzoek toegang vereisen tot jou data; Of bij een hackers aanval op hun servers kan jou data gestolen worden met nare gevolgen. De oplossing hiervoor is natuurlijk jou data niet hebben, maar dat is een zaak voor Google die hen niet past. Heel hun business is gebaseerd op het analyseren van gebruikersdata.


Lees ook: Privacy is een mensenrecht en dat moeten we niet opgeven. 


Eerdere poging tot het anonimiseren van jouw data.

Er zijn al eerdere pogingen gedaan tot het anonimiseren van jouw persoonlijke data. Zo publiceerde Netflix zijn database met gebruikers informatie om onderzoek te kunnen doen naar de patronen die daar in te vinden waren. Netflix anonimiseerde deze data door alle unieke Gebruikers ID’s uit de database te strippen. Zo leverde zij deze data zonder naam een persoonlijk identificeerbare gegevens. Achteraf bleek dit te kort te schieten. Bij het samen voegen van Netflix database met databases van andere bedrijven bleek het toch nog mogelijk om voor een groot deel van de data te achterhalen bij welke gebruiker deze data hoorde. Uit onderzoek blijkt dat 63% van de Amerikaanse bevolking kan geïdentificeerd worden met enkel hun geboorte datum, zip code en geslacht. Uit onderzoek van google blijkt dan dat bij het samen voegen van databases uit sociale netwerken het voldoende is om foto’s met locatie taging te vergelijken om zo unieke gebruikers te kunnen onderscheiden. Er zijn nog andere pogingen gedaan om data te anonimiseren doormidden van hashing, maar deze bleken ook tekort te schieten. Als bedrijven een enorme stapel data van jou hebben opgeslagen geeft dit een soort van digitale vingerafdruk. Dit is al bewezen door het project van Google om je pincode op Android toestelen overbodig te maken. Zo kunnen zij identificeren wie het toestel gebruikt doormiddel van patronen in het gebruik te analyseren. Als deze patronen abrupt veranderen heeft mogelijk iemand anders het toestel in gebruik. Dit bewijst dus dat data — ook al staat je naam er niet letterlijk bij — wel gekoppeld kan worden aan jou als individu. Een enge werkelijkheid.


Lees ook: Encryptie als nieuwe trend in berichten apps.


Hoe Apple dit verandert met Differential Privacy.

Differential Privacy is een volledig ander kijk op hoe we de Privacy van gebruikers moeten beschermen. Dit gebeurt door, vooraleer de data verzonden wordt naar de servers van Apple voor analyse, de data te anonimiseren doormiddel van storingen toe te voegen. Zo maakt Apple een hash van je gegevens (Dat is een cryptografische techniek om data te versleutelen en wordt gebruikt in verschillende beveiligings toepassingen als SSL en Code Signing. Een gekende en werkende beveilingstechniek.). Aan deze uitkomst voegen ze storingen toe zodat niet meer duidelijk is wat de oorspronkelijke waarde was. Dan nemen zij een deel van de gegevens en zenden enkel dat kleine deel naar de servers van Apple. Apple kan niet zien wat jou persoonlijke inzending was omdat het zo goed als onleesbaar is als je het op zijn eentje bekijkt. Maar wanneer dat dit samengevoegd wordt met miljoenen andere data die via deze techniek zijn ingezonden naar hun servers kunnen zij Patronen zien. Zo kunnen zij achterhalen wat de meest gebruikte zoekterm is in spotlight, maar zullen zij nooit weten wat jou persoonlijke zoektermen waren. Om te garanderen dat zij dit niet kunnen achterhalen wat jij inzend in het geval dat jou apparaat veel data inzend zetten zij een limiet op de hoeveelheid data een apparaat kan inzenden. Hierdoor voorkomen zij dat data van een enkele gebruiker kan worden omgezet in een leesbaar antwoord en zorgt er voor dat je privacy gegarandeerd blijft. ook bij zwaar gebruik. Apple bewaard deze data zonder persoonlijke identificatie op hun servers en na verloop van tijd verwijderen ze ook deze data. De techniek wordt toegepast in iOS en macOS. Het is een hele vooruitgang in het analyseren van data.


Lees ook: Eerste indruk van iOS 10.


Differential Privacy heeft zo wel zijn beperkingen. Voor zo ver dat we kunne begrijpen uit de informatie die er op het internet over te vinden is is het niet mogelijk om profielen op te bouwen van gebruikers. Zo kan apple niet zien wat jou persoonlijke voorkeur is bij een zoekopdracht, enkel wat de grote hoeveelheid gebruikers samen als voorkeur hebben. Dit is belangrijk ook. Anders is jouw privacy natuurlijk niet beschermd. Maar het is wel iets dat Google in zijn zoekresultaten wel kan. Hierdoor kan Google jouw zoekresultaten wel aanpassen aan jou persoonlijke interesses. Daarom zal Differential Privacy niet kunnen gebruikt worden voor toepassing in Apple Music omdat daar een persoonlijk beeld nodig is van jouw smaak in muziek en niet en veralgemeend geheel van alle gebruikers. Differential Privacy geeft een hele verbetering in privacy bij data analyse op grote schaal en is een welkome toepassing.