Cambridge Analytica: jak przekuć kliknięcia w głosy?

Informator Christopher Wylie wyjaśnia, na czym polegała misja Cambridge Analytica, polegająca na przekształceniu ankiet i danych z Facebooka w broń polityczną.

W jaki sposób 87 milionów ankiet zebranych z Facebooka stało się kampanią reklamową, która może wpłynąć na przebieg wyborów? Na czym właściwie polega zbieranie tak dużej ilości danych? I co te dane mówią nam o nas samych?

Skandal z Cambridge Analytica rodzi pytania za pytaniami, ale dla wielu technologiczna Unikalna Propozycja Sprzedaży tej firmy, która w zeszłym tygodniu ogłosiła, że zamyka swoją działalność, pozostaje tajemnicą.

Dla tych 87 milionów ludzi, którzy prawdopodobnie zastanawiają się, co tak naprawdę zrobiono z ich danymi, zwróciłem do Christophera Wylie, byłego pracownika Cambridge Analytica, który zaczął informować o problematycznych działaniach firmy w gazecie Observer. Według Chrisa Wylie, wszystko, co musisz wiedzieć, to trochę o nauce o danych, trochę o znudzonych bogatych kobietach i trochę o ludzkiej psychologii…

Krok pierwszy, mówi przez telefon, gdy spieszy się, by zdążyć na pociąg: “Kiedy budujesz algorytm, musisz najpierw stworzyć zestaw treningowy”. To znaczy: niezależnie od tego, co chcesz odkryć za pomocą fantastycznej nauki o danych, najpierw musisz zebrać dane w staroświecki sposób. Zanim będziesz mógł wykorzystać polubienia na Facebooku do przewidywania profilu psychologicznego danej osoby, musisz nakłonić kilkaset tysięcy ludzi do wykonania quizu osobowościowego składającego się ze 120 pytań.

Zbiór treningowy” odnosi się więc do tych danych w całości: polubienia na Facebooku, testy osobowości i wszystko inne, z czego chcesz się uczyć. Co najważniejsze, musi on zawierać Twój “zestaw cech”: “dane bazowe, na podstawie których chcesz tworzyć prognozy” – mówi Wylie. “W tym przypadku są to dane z Facebooka, ale może to być na przykład tekst, jak język naturalny, lub mogą to być dane dotyczące klików [clickstream]” – kompletny zapis aktywności przeglądania stron internetowych. “To są wszystkie cechy, które chcesz [wykorzystać do] przewidywania”.

Na drugim końcu potrzebne są “zmienne docelowe” – jak mówi Wylie, “rzeczy, które próbujesz przewidzieć”. W tym przypadku są to cechy osobowości, orientacja polityczna lub inne”.

Christopher Wylie

Christopher Wylie: “Można tworzyć komunikaty, które dla jednych nie mają sensu, a dla innych mają sens”.

 

Jeśli próbujesz wykorzystać jedną rzecz do przewidywania innej, pomocne jest, jeśli możesz spojrzeć na obie rzeczy w tym samym czasie. “Jeśli chcesz poznać zależności między polubieniami na Facebooku a cechami osobowości jako zmiennymi docelowymi, musisz zobaczyć obie te cechy” – mówi Wylie.

Dane z Facebooka, które są rdzeniem historii Cambridge Analytica, są dość obfitym zasobem w świecie nauki o danych [data science] – a na pewno były nimi w 2014 roku, kiedy Chris Wylie po raz pierwszy zaczął pracować w tym obszarze. Cechy osobowościowe są znacznie trudniejsze do uchwycenia: pomimo tego, co może sugerować mnożenie się quizów na BuzzFeed, potrzeba całkiem sporo, aby przekonać kogoś do wypełnienia 120-pytaniowej ankiety (długość skróconej wersji jednej ze standardowych ankiet psychologicznych, Ipip-Neo).

“Całkiem sporo” jest jednak względne. “Dla niektórych osób zachętą do wzięcia udziału w badaniu jest motywacja finansowa. Jeśli jesteś studentem lub szukasz pracy, albo po prostu chcesz zarobić 5 dolarów, to jest to zachęta.” Rzeczywiste pieniądze przekazane, mówi Wylie, “wahały się od 2 do 4 dolarów”. Wyższe wypłaty trafiają do “grup, które trudniej było zdobyć“. Grupą, która najrzadziej brała udział w ankiecie, a więc zarabiała na niej najwięcej, byli afroamerykańscy mężczyźni. “Inni ludzie wypełniają ankiety tylko dlatego, że uważają je za interesujące, albo się nudzą. Dlatego też nadmiernie wybraliśmy zamożne białe kobiety. Ponieważ jeśli mieszkasz w Hamptons i nie masz nic do roboty po południu, wypełniasz ankiety dotyczące badań konsumenckich.”

Badania osobowości wykorzystują te 120 pytań do profilowania ludzi względem pięciu dyskretnych osi – model “pięciu czynników”, popularnie nazywany modelem “Ocean” po jednym wspólnym podziale czynników: otwartości na doświadczenie, sumienności, ekstrawersji, ugodowości i neurotyczności.

Model ten grupuje cechy osobowości w rozróżnienia, które wydają się utrzymywać w różnych kulturach i na przestrzeni czasu. Tak więc, na przykład, osoby, które opisują siebie jako “głośne”, prawdopodobnie będą również opisywać siebie jako “towarzyskie”. Jeśli zgadzają się z tym opisem w tym roku, prawdopodobnie będą się z nim zgadzać również w następnym roku. To skupisko prawdopodobnie pojawi się w odpowiedziach w każdym języku. A jeśli osoba odpowie na to pytanie negatywnie, prawdopodobnie wystąpią rzeczywiste, zauważalne różnice pomiędzy nią a osobami, które odpowiedziały na to pytanie pozytywnie.

Te cechy modelu sprawiają, że jest on przydatny do profilowania osób, mówi Wylie – w przeciwieństwie do niektórych innych popularnych profili psychologicznych, takich jak system Myers-Briggs. W fazie testowej badań Facebook nie był prawie w ogóle zaangażowany. Ankiety były oferowane na komercyjnych stronach badań danych – najpierw na platformie Mechanical Turk firmy Amazon, a następnie u wyspecjalizowanego operatora o nazwie Qualtrics. (Wylie mówi, że zmiana została dokonana, ponieważ Amazon ma problem z tym, że “ludzie są zbyt obeznani z wypełnianiem ankiet” – do tego stopnia, że zaczyna to wpływać na wyniki).

Dopiero na samym końcu do gry wkroczył Facebook. Aby otrzymać zapłatę za ankietę, użytkownicy musieli zalogować się na stronie i zatwierdzić dostęp do aplikacji ankietowej opracowanej przez dr Aleksandra Kogana, pracownika naukowego Uniwersytetu Cambridge, którego badania nad profilowaniem osobowości przy użyciu polubień na Facebooku zapewniły finansowanej przez Roberta Mercera firmie Cambridge Analytica idealny dostęp do szybkiego wejścia na rynek. (Kogan utrzymuje, że Cambridge Analytica zapewniała go o właściwym wykorzystaniu danych i twierdzi, że został “wykorzystany jako kozioł ofiarny zarówno przez Facebooka, jak i Cambridge Analytica“).

Dla osoby wypełniającej ankietę proces był szybki: “Klikasz aplikację, przechodzisz dalej, a potem podaje ci kod płatności”. Ale w ciągu tych kilku sekund wydarzyły się dwie bardzo ważne rzeczy. Po pierwsze, aplikacja zebrała jak najwięcej danych o użytkowniku, który właśnie się zalogował. Gdzie profil psychologiczny jest zmienną docelową, dane z Facebooka są “zestawem cech”: informacje, które naukowcy mają na temat wszystkich innych, które muszą wykorzystać, aby dokładnie przewidzieć cechy, które naprawdę chcą znać.

Dostarczały one również informacji umożliwiających identyfikację osób, takich jak prawdziwe imię, lokalizacja i dane kontaktowe – coś, czego nie można było odkryć za pośrednictwem samych stron ankietowych. “To oznaczało, że można było wziąć spis i odnieść go do osoby fizycznej [która jest] możliwa do dopasowania do rejestru wyborców”.

Po drugie, aplikacja zrobiła to samo dla wszystkich znajomych użytkownika, który ją zainstalował. Nagle setki tysięcy ludzi, którym zapłaciłeś kilka dolarów za wypełnienie ankiety, których osobowości są tajemnicą, stały się milionami ludzi, których profile na Facebooku są otwartą księgą.

I tu właśnie pojawia się ostateczna transformacja. Jak przekształcić kilkaset tysięcy profili osobowościowych w kilka milionów? Za pomocą dużej mocy obliczeniowej i ogromnej matrycy możliwości. Nawet jeśli wielkość próby wynosi 300.000 osób, to zestaw funkcji ma około 100 milionów” – mówi Wylie. Każdy pojedynczy “like” z Facebooka znaleziony w zbiorze danych staje się własną kolumną w tej ogromnej macierzy. “Nawet jeśli w całym zbiorze jest tylko jedna instancja, to nadal jest to cecha”.

“Wszystkie te dane zostały następnie umieszczone w modelu zbiorczym” – mówi Wylie. “To jest, gdy używasz różnych rodzin lub podejść do uczenia maszynowego, ponieważ każde z nich będzie miało swoje mocne i słabe strony … i wtedy one jakby głosują, a następnie łączysz wyniki i dochodzisz do wniosku“. To właśnie tutaj nauka o danych staje się bardziej sztuką danych: dokładny wkład każdego podejścia do ogólnego modelu nie jest wyryty w kamieniu i nie ma właściwego sposobu, aby to zrobić. W świecie akademickim jest to czasami nazywane “szkoleniem przez absolwenta” – punkt, w którym jedyną rzeczą, jaką można zrobić, jest posuwanie się naprzód poprzez żmudne próby i błędy. Mimo to, działało to wystarczająco dobrze, a w końcu, jak mówi Wylie, “zbudowaliśmy 253 algorytmy, co oznaczało 253 przewidywania na każdy profilowany zapis“. Cel został osiągnięty: model, który mógł efektywnie wziąć polubienia na Facebooku swoich uczestników i pracować wstecz, wypełniając pozostałe kolumny arkusza kalkulacyjnego, aby uzyskać przypuszczenia co do ich osobowości, przynależności politycznej i nie tylko.

Cambridge Analytica - jak wyłudzono 50 mln zapisów z Facebooka

Do końca sierpnia 2014 roku Wylie miał pierwsze udane wyniki: 2,1 mln sprofilowanych zapisów/rekordów, z 11 docelowych stanów USA, plan zakładał, że zostaną one wykorzystane do komunikacji i udoskonalenia wiadomości w kampaniach republikańskich wspieranych przez Mercera i Steve’a Bannona, prowadzących do prawyborów w 2016 roku (Chris Wylie odszedł przed nimi). “To, co ta liczba reprezentuje, to ludzie, którzy nie tylko mają swoje dane z Facebooka, dane wyborców i dane konsumentów (które wszystkie zostały dopasowane), ale także mieli dodatkowe 253 przewidywania lub wyniki, które następnie zostały dołączone do ich profilu”.

Te 253 przewidywania były “tajnym sosem”, co do którego Cambridge Analytica twierdziła, że może zaoferować swoim klientom. Korzystając z samego Facebooka, reklamodawcy są ograniczeni do szerokich zarysów demograficznych, oraz kilku węższych algorytmicznie określonych kategorii – czy lubisz muzykę jazzową, albo jak jest Twoja ulubiona drużyna sportowa. Ale dzięki 253 dalszym przewidywaniom Cambridge Analytica mogłaby, jak twierdzi Wylie, tworzyć reklamy, których nikt inny nie byłby w stanie stworzyć: neurotyczny, ekstrawertyczny i ugodowy demokrata mógłby otrzymać radykalnie inny komunikat niż stabilny emocjonalnie, introwertyczny intelektualista, a każdy z nich zostałby zaprojektowany tak, by stłumić jego zamiar głosowania – nawet jeśli te same komunikaty, zamienione miejscami, miałyby odwrotny skutek.

Chris Wylie przywołuje uśmierzające polityczne stwierdzenie, że kandydat jest zwolennikiem nowych miejsc pracy. “Miejsca pracy w gospodarce to dobry przykład, ponieważ jest to przesłanie pozbawione znaczenia. Każdy jest za utrzymaniem miejsc pracy w gospodarce. Tak więc w tym sensie, używając tylko komunikatu ‘Jestem za utrzymaniem miejsc pracy w gospodarce’, lub ‘Mam plan naprawy miejsc pracy w gospodarce’, takim komunikatem nie można odróżnić się od przeciwnika.”

Ale jedną z rzeczy, które odkryliśmy, było to, że w rzeczywistości, gdy rozpakowujesz to, co jest pracą dla różnych ludzi, różni ludzie angażują się w konstrukty z różnymi motywacjami i zestawami wartości, które są powiązane z ich usposobieniem“.

Co to oznacza w praktyce, to fakt, że ten samo pochlebstwo może być ubrane w inny język dla różnych osobowości, tworząc wrażenie kandydata, który łączy się z wyborcami na poziomie emocjonalnym. “Jeśli rozmawiasz z osobą sumienną” – taką, która plasuje się wysoko w części C modelu Ocean – “mówisz o możliwości odniesienia sukcesu i odpowiedzialności, jaką daje praca. Jeśli jest to osoba otwarta, rozmawiamy o możliwości rozwoju jako osoby. Porozmawiaj z osobą neurotyczną, a podkreślisz bezpieczeństwo, jakie daje ona mojej rodzinie.”

Dzięki sieciowej naturze nowoczesnej kampanii, teoretycznie wszystkie te komunikaty mogą być dostarczane jednocześnie do różnych grup. Pod koniec kampanii, gdy przekaz już się ustabilizuje, można go nawet zautomatyzować w stylu gry w skojarzenia [Mad Libs] – algorytm przeczesuje słownik synonimów, aby znaleźć idealną kombinację słów, która zjedna sobie różne podgrupy.

Oczywiście, to nie wszystkie błyskotki. Jeden z przekazów wykorzystanych do zwiększenia frekwencji prawicy atakował małżeństwa osób tej samej płci. “To zabawne, bo jest to tak obraźliwe i w domyśle homofobiczne, ale stworzył to zespół gejów” – mówi Wylie. “To było skierowane do sumiennych ludzi. To był obrazek ze słownikiem, na którym było napisane ‘Sprawdź, co to jest małżeństwo i odezwij się do mnie’. Dla kogoś, kto jest sumienny, jest to przekonujący przekaz: słownik jest źródłem porządku, a osoba sumienna jest bardziej uległa wobec struktury.”

W pewnym momencie psychometryczne obieranie na celownik przenosi się w sferę kampanii opartej o  psi gwizdek. Na przykład obrazy murów okazały się naprawdę skuteczne w kampanii wokół imigracji. “Ludzie sumienni lubią strukturę, więc dla nich rozwiązanie problemu imigracji powinno być uporządkowane, a mur to uosabiał. Możesz stworzyć przekaz, który nie ma sensu dla niektórych, ale ma sens dla innych. Jeśli pokażesz ten obraz, niektórzy ludzie nie zrozumieją, że chodzi o imigrację, a inni natychmiast to zrozumieją.” Rzeczywiste kwestie, dla Wylie, są po prostu “zwykłymi białymi kromkami chleba” polityki, czekającymi na położenie właściwego smaku. “Nikt nie chce zwykłej białej kromki chleba”. Zadaniem danych, jak mówi, jest “nauczenie się szczególnego smaku lub przyprawy”, która uczyni tę kromkę bardziej atrakcyjną.

Podczas gdy była to niewątpliwie wysoce wyrafinowana maszyna do obierania na celownik, pozostają pytania dotyczące modelu psychometrycznego Cambridge Analytica – takie, na które Chris Wylie, być może, nie jest najlepiej przygotowany, aby odpowiedzieć. Kiedy Kogan zeznawał w parlamencie w kwietniu, zasugerował, że ten model psychometryczny był niewiele lepszy niż przypadek w stosowaniu właściwych wyników w modelu Ocean do poszczególnych osób. Być może ta przewaga jest wystarczająca, aby mieć znaczenie – a może firma Cambridge Analytica sprzedawała ściemę. A nawet jeśli pojedyncze osoby były prawidłowo oznakowane w kategoriach pięciu czynników, to czy reklama do nich skierowana na podstawie tego naprawdę jest tak prosta, jak odwołanie się do miłości, porządku lub strachu przed innym?

To powiedziawszy, rzeczywiście coś w tym jest. Spójrz na patent złożony w 2012 roku na “określanie cech osobowości użytkownika z komunikacji systemu sieci społecznych”. Treść patentu sugeruje, że “przechowywane cechy osobowości mogą być wykorzystywane jako kryteria targetowania dla reklamodawców … w celu zwiększenia prawdopodobieństwa, że użytkownik … pozytywnie zareaguje na wybraną reklamę“. Kto jest autorem? Sam Facebook.

Źródło: Cambridge Analytica: how did it turn clicks into votes?

 

Zobacz na: Trankrypt filmu Kapitalizm inwigilacyjny – prof. Shoshana Zuboff
Cenzura: Współpraca Facebooka, Twittera i Google
Zachary Vorhies: Informator Google o „Maszynowym Uczeniu Sprawiedliwości”
Demaskatorzy z Facebooka ujawnili dokumenty szczegółowo opisujące wysiłki na rzecz potajemnej cenzury dotyczącej szczepionek na skalę globalną