Synthetische netwerken kunnen de beschikbaarheid van bepaalde gegevens vergroten, terwijl ze nog steeds de individuele of institutionele privacy beschermen, volgens een statisticus van Penn State.
"Mijn belangrijkste interesse is het ontwikkelen van een methodologie die een bredere uitwisseling van vertrouwelijke gegevens mogelijk maakt op een manier die wetenschappelijke ontdekkingen kan ondersteunen", zegt Aleksandra Slavkovic, hoogleraar statistiek en associate dean voor graduate education, Eberly College of Science, Penn State. "Het doel is om vertrouwelijke gegevens te kunnen delen met minimaal meetbaar risico voor het ontdekken van gevoelige informatie en toch voor statistische nauwkeurigheid en integriteit te zorgen."
Slavkovic heeft oplossingen gevonden voor dit probleem van gegevensprivacy door middel van interdisciplinaire samenwerkingsverbanden, vooral met computer- en sociale wetenschappers. Haar onderzoek richt zich op verschillende gegevens, waaronder netwerkgegevens die relatie-informatie vastleggen tussen entiteiten zoals individuen of instellingen. Ze meldde haar aanpak voor het leveren van synthetische netwerken die vandaag voldoen aan een begrip van verschillende privacy (16 februari) tijdens de jaarlijkse bijeenkomst van de Amerikaanse vereniging voor de vooruitgang van de wetenschap in Washington, DC in 2019
Differentiële privacy biedt een wiskundig aantoonbare garantie voor het niveau van privacyverlies voor individuen.
Wetenschappers willen toegang tot gegevens die door anderen zijn verzameld voor hun onderzoek, maar een dergelijke toegang kan ook de persoonlijke privacy schaden, zelfs na verwijdering van zogenaamde persoonlijk identificeerbare gegevens.
"Een overvloed aan hulpgegevens is de hoofdschuldige," zei Slavkovic. "Met methodologische en technologische ontwikkelingen op het gebied van gegevensverzameling en recordkoppeling, eenvoudigere toegang tot verschillende gegevensbronnen die gekoppeld kunnen worden aan een dataset in de hand en financieringsvereisten voor het delen van gegevens, nemen de risico's voor gegevensprivacy toe. oplossingen voor het beheren van privacyverlies zijn essentieel om een degelijke wetenschappelijke ontdekking mogelijk te maken. "
Publiek beschikbare informatie van een geneesmiddelonderzoek op een HIV-medicijn zou bijvoorbeeld kunnen aangeven wie in de behandelingsgroep zat en wie in de controlegroep was. De behandelingsgroep zou alleen mensen bevatten die gediagnosticeerd zijn met HIV en hoewel de gegevenseigenaren persoonlijke gegevens uit die dataset verborgen hielden, bleef enige identificerende informatie achter. Omdat er tegenwoordig zoveel informatie online beschikbaar is op sociale media en in andere datasets, is het mogelijk om de stippen te verbinden en mensen te identificeren, waardoor mogelijk hun HIV-status wordt onthuld.
"Technieken om twee datasets te koppelen, zeggen kiezersrecords en ziekteverzekeringsgegevens, zijn sterk verbeterd," zei Slavkovic. "In een van de eerste bevindingen, liet Latanya Sweeny (nu op Harvard) zien dat door het koppelen van dit soort gegevens, 87 procent van de mensen in de US Census vanaf 1990 geïdentificeerd kan worden op basis van hun geboortedatum, geslacht en 5-cijferig getal. Meer recent gebruikten onderzoekers tweets en bijbehorende Twitter-metadata om aan te tonen dat ze gebruikers kunnen identificeren met een nauwkeurigheid van 96,7 procent. "
Slavkovic merkt op dat het niet alleen mensen of instellingen zijn waarvan de gegevens zijn opgenomen in de databases, maar dat mensen buiten de database ook kunnen lijden onder inbreuk op privacy, direct of door vereniging. Koppelingen tussen informatie in een dataset en informatie op sociale media kunnen leiden tot een ernstige privacystuit - zoiets als HIV-status of seksuele geaardheid kan ernstige gevolgen hebben als het wordt onthuld.
Hoewel privacy belangrijk is, vormen verzamelde datasets een essentiële bron van informatie voor onderzoekers. Momenteel, in sommige gevallen wanneer de gegevens uitzonderlijk gevoelig zijn, moeten onderzoekers fysiek naar de gegevensopslagplaatsen gaan om hun onderzoek te doen, waardoor onderzoek moeilijker en duurder wordt.
Slavkovic is geïnteresseerd in netwerkgegevens. Informatie die de onderlinge verbondenheid van mensen of instellingen - de knooppunten - en de verbindingen tussen knooppunten laat zien. Haar aanpak is om enigszins gewijzigde, gespiegelde netwerkgegevenssets te maken met enkele van de knooppunten verplaatst, verbindingen verplaatst of randen gewijzigd.
"Het doel is om nieuwe netwerken te creëren die voldoen aan de strenge differentiële privacyvereisten en tegelijkertijd de meeste statistische functies van het oorspronkelijke netwerk vast te leggen," zei Slavkovic.
Deze synthetische datasets kunnen voor sommige onderzoekers voldoende zijn om aan hun onderzoeksbehoeften te voldoen. Voor anderen is het voldoende om hun aanpak en hypothese te testen voordat ze naar de data-opslagsite moeten gaan. Onderzoekers zouden code kunnen testen, verkennend onderzoek kunnen doen en wellicht basisanalyses kunnen uitvoeren in afwachting van toestemming om de originele gegevens op de repository-site te gebruiken.
"We kunnen niet voldoen aan de vraag naar alle statistische analyses met hetzelfde type gewijzigde gegevens," zei Slavkovic. "Sommige mensen zullen de originele gegevens nodig hebben, maar anderen kunnen een lange weg afleggen met synthetische gegevens zoals synthetische netwerken."