Anonimowe Big Data również ułatwiają odkrycie tożsamości
Nowe badania przeprowadzone przez naukowców z Massachusetts Institute of Technology dowodzą, że coraz częstsza praktyka gromadzenia ogromnych, anonimowych zbiorów danych na temat wzorców ruchów ludzi w internecie - tak zwanych Big Data, jest mieczem obosiecznym. Z jednej strony może pomóc w badaniach zapewniając głęboki wgląd w ludzkie zachowania, ale może również narazić prywatne dane internautów. Firmy i inne podmioty zaczynają gromadzić, przechowywać i przetwarzać anonimowe dane zawierające "znaczniki lokalizacji" (współrzędne geograficzne i znaczniki czasu) użytkowników. Jednak pojawiają się duże problemy dotyczące prywatności: znaczki lokalizacji mogą zostać wykorzystane do odkrywania tożsamości obywateli.
Big Data to termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych. Wykorzystywane są on głównie w marketingu do badania preferencji klientów.
Big Data można pobierać z zapisów telefonu komórkowego, Facebooka, Google, transakcji kartą kredytową, inteligentnych kart transportu publicznego, kont na Twitterze i aplikacji mobilnych. Pozwalają na odkrycie na przykład preferencji zakupowych kobiet w ciąży czy też właścicieli kotów. Wszystko to by lepiej trafiać z reklamą do odbiorcy. Scalenie tych zbiorów danych może dostarczyć na przykład bogatych informacji o tym, jak ludzie podróżują, aby zoptymalizować transport i planowanie miejskie. Ostatnie badania pokazały jednak, że ktoś może je wykorzystać do odkrycia tożsamości i zdobycia poufnych informacji. W artykule opublikowanym w IEEE Transactions on Big Data, naukowcy z MIT pokazują, jak może się to zdarzyć podczas pierwszej analizy tzw. "zgodności" użytkowników. Wystarczyły do tego dwa duże zestawy danych z Singapuru, jeden pochodzący od operatora sieci komórkowej i jeden z lokalnego systemu transportowego. "Jako naukowcy uważamy, że praca z wielkoskalowymi zestawami danych może pozwolić na odkrycie niespotykanych dotąd spostrzeżeń na temat ludzkiego społeczeństwa i mobilności, co pozwoli nam lepiej planować miasta. Niemniej ważne jest, aby ludzie mogli być świadomi potencjalnego ryzyka związanego z udostępnianiem danych o przemieszczaniu się" - mówi Daniel Kondor, z Singapore-MIT Alliance for Research and Technology.
Niebezpieczne luki w Apple Safari wykryte podczas testów Dropbox
Naukowcy używają modelu statystycznego, który śledzi znaczniki lokalizacji użytkowników w zestawach danych tak, aby sprawdzić czy pochodzą one od tej samej osoby. W czasie swojej pracy naukowcy przygotowali dwa anonimowe zestawy danych o małej gęstości. Zawierały one po kilka zapisów dziennie - na temat korzystania z telefonów komórkowych i transportu miejskiego w Singapurze. Dane zarejestrowane zostały w ciągu jednego tygodnia w 2011 r. Pochodziły od dużego operatora sieci komórkowej i składały się z sygnatur czasowych oraz współrzędnych geograficznych w ponad 485 milionach rekordów od ponad 2 milionów użytkowników. Dane transportowe zawierały ponad 70 milionów rekordów z sygnaturami czasowymi. Prawdopodobieństwo, że dany użytkownik ma zapisy w obu zestawach danych, wzrośnie wraz z rozmiarem scalonych zestawów danych.
Logowanie do kont Microsoft bez haseł możliwe z kluczem FIDO2
Model naukowców wybiera użytkownika z jednego zestawu danych i znajduje użytkownika z innego zestawu danych, który ma dużą ilość pasujących znaczków lokalizacji. Krótko mówiąc, wraz ze wzrostem liczby pasujących punktów maleje prawdopodobieństwo fałszywego wyniku. Naukowcy oszacowali wskaźnik dopasowania zakończonego sukcesem na 17 procent jeśli dane były zbierane przez tydzień i około 55 procent jeśli trwało to cztery tygodnie. Wskaźnik ten wzrasta do około 95 procent z danymi zebranymi w ciągu 11 tygodni. Naukowcy sprawdzili również, ile aktywności z naszej strony potrzeba, by odkryć naszą tożsamość w ciągu tygodnia. Wystarczy do tego około 30 do 49 zapisów dotyczących naszego przemieszczania się i około 1000 rekordów ze smartfona (telefony, internet, płatności, socialmedia) - daje to 90 procent szans na sukces. Dzięki badaniom naukowcy mają nadzieję zwiększyć świadomość publiczną i promować bardziej rygorystyczne przepisy dotyczące udostępniania danych przez konsumentów. "Wszystkie dane ze znaczkami lokalizacji, które stanowią większość dzisiejszych zebranych danych, są potencjalnie bardzo wrażliwe i wszyscy powinniśmy podejmować bardziej świadome decyzje dotyczące tego, komu je udostępniamy" - mówi Daniel Kondor.