Wszyscy kłamiąTekst

Przeczytaj fragment
Oznacz jako przeczytane
Jak czytać książkę po zakupie
Nie masz czasu na czytanie?
Posłuchaj fragmentu
Wszyscy kłamią
Wszyscy kłamią
− 20%
Otrzymaj 20% rabat na e-booki i audiobooki
Kup zestaw za 69,80  55,84 
Wszyscy kłamią
Audio
Wszyscy kłamią
Audiobook
Czyta Tomasz Sobczak
34,90  25,48 
Szczegóły
Czcionka:Mniejsze АаWiększe Aa

Wskaźnik rasistowskich zapytań



Ludzie często kłamią – okłamują siebie oraz innych. W 2008 roku Amerykanie w badaniach opinii publicznej twierdzili, że kwestie rasowe nic ich już nie obchodzą, a osiem lat później wybrali na prezydenta Donalda J. Trumpa, człowieka, który rozpowszechniał na Twitterze fałszywą informację, jakoby to czarni byli odpowiedzialni za większość zabójstw białych Amerykanów, bronił swoich popleczników, którzy poturbowali demonstranta z organizacji Black Lives Matter na jednym z wieców wyborczych, i długo się wahał, czy powinien zrezygnować z poparcia ze strony byłego przywódcy Ku-Klux-Klanu. Utajony rasizm, który zaszkodził Barackowi Obamie, dopomógł Trumpowi.

Na początku prawyborów Nate Silver wygłosił swoją słynną już opinię, że Trump właściwie nie ma szans na zwycięstwo. W miarę upływu czasu okazywało się jednak coraz wyraźniej, że kandydat republikanów cieszy się szerokim poparciem, Silver postanowił więc przyjrzeć się danym analitycznym i zobaczyć, czy uda mu się na tej podstawie zrozumieć, co się dzieje. Jak to możliwe, że Trump osiąga takie dobre wyniki?

Silver zauważył, że regiony, w których Trumpowi szło najlepiej, tworzą dziwnie układającą się mapę, przyszły prezydent radził sobie bowiem świetnie w wielu miejscach na Północnym Wschodzie i uprzemysłowionym Środkowym Zachodzie, nie tylko na Południu, znacznie słabiej wypadł natomiast w stanach zachodnich. Nate zaczął więc szukać odpowiednich zmiennych, żeby wyjaśnić ten układ. Czy decydowało o nim bezrobocie? Religia? Dostęp do broni palnej? Liczba imigrantów? Niechęć do Obamy?

Doszedł do tego samego wniosku, co ja cztery lata wcześniej[9]. Trump mógł liczyć na największe poparcie tam, gdzie w wyszukiwarkach najczęściej pojawiało się słowo „czarnuch”.

W ciągu ostatnich czterech lat analizowałem dane z wyszukiwarki właściwie codziennie, a przez pewien czas nawet jako analityk w Google’u, bo firma wynajęła mnie do pracy, dowiedziawszy się o moich internetowych badaniach nad rasizmem. Nadal analizuję dane jako felietonista i dziennikarz, piszący o Internecie dla „New York Timesa”. I nieustannie odkrywałem coś nowego. Interesowały mnie choroby umysłowe, ludzka seksualność, molestowanie dzieci, aborcja, reklama, religia, zdrowie. To żywotne zagadnienia, a nieistniejące jeszcze dwadzieścia lat temu materiały źródłowe rzucały na nie zaskakująco nowe światło. Ekonomiści oraz inni uczeni, zajmujący się naukami społecznymi, nieustannie poszukują nowych źródeł informacji, powiem więc bez ogródek: jestem dziś przekonany, że wyszukiwania w Google’u to najważniejszy w dziejach ludzkości zbiór danych dotyczących psychiki człowieka.

Ale nie jest to jedyne narzędzie, jakie oferuje nam Internet, abyśmy mogli lepiej zrozumieć świat. Szybko się zorientowałem, że istnieją jeszcze inne cyfrowe kopalnie złota. Zapisałem sobie na twardym dysku całą Wikipedię, przeglądałem profile na Facebooku i „przeleciałem” przez Stormfront. PornHub, jeden z największych portali pornograficznych, udostępnił mi kompletne dane na temat treści wyszukiwanych i oglądanych w sieci przez anonimowych użytkowników z całego świata. Inaczej mówiąc, zanurzyłem się bardzo głęboko w czymś, co nazywamy dzisiaj wielkim zbiorem danych – big data. Poza tym przeprowadziłem dziesiątki rozmów z innymi osobami – uczonymi, dziennikarzami i menedżerami – które również zajmują się tymi nowymi aspektami rzeczywistości, i wiele wyników ich badań przedstawiam w niniejszej książce.

Najpierw jednak muszę się do czegoś przyznać: nie podam dokładnej definicji big data. Dlaczego? Ponieważ jest to pojęcie nieprecyzyjne z natury. Co znaczy „wielki”? Czy osiemnaście tysięcy czterysta sześćdziesiąt dwie obserwacje to jeszcze „small data”, a osiemnaście tysięcy czterysta sześćdziesiąt trzy to już jest duży zbiór danych? Preferuję podejście całościowe: wprawdzie większość informacji, którymi się zajmuję, pochodzi z Internetu, będę też jednak omawiał inne źródła. Żyjemy w epoce zarówno ilościowej, jak i jakościowej eksplozji danych z wszystkich możliwych dziedzin. Wiele z tych nowych informacji napływa z Google’a i mediów społecznościowych, choć w pewnej mierze są to zapisane dziś cyfrowo stare treści, tkwiące gdzieś do tej pory w różnych szafkach i teczkach. Część materiałów źródłowych pochodzi z mnożących się wciąż ośrodków badań rynkowych i opinii publicznej. A jeszcze inne badania omawiane w mojej książce w ogóle nie korzystają z wielkich zbiorów danych, lecz po prostu stosują nowe, kreatywne podejście do nich – co w epoce nadmiaru informacyjnego jest niesłychanie istotne.

Dlaczego więc big data to tak potężny zbiór? Pomyślcie o wszystkich informacjach, które rozsiewamy w sieci każdego dnia – a potrafimy nawet określić ich liczbę. Otóż dziś, w drugiej dekadzie XXI wieku, ludzie produkują średnio dwa i pół miliona trylionów bajtów informacji dziennie[10].

I te bajty stanowią dla nas wskazówki.

Pewna kobieta nudzi się w czwartkowe popołudnie. Googluje w poszukiwaniu nowych „śmiesznych nieświńskich dowcipów”. Sprawdza swoją skrzynkę w poczcie elektronicznej. Zakłada konto na Twitterze. Googluje w poszukiwaniu „dowcipów o czarnuchach”.

Pewnego mężczyznę ogarnia smutek. Googluje w poszukiwaniu „symptomów depresji” i „opowieści o depresji”. Układa elektronicznego pasjansa.

Inna kobieta dostaje na Facebooku wiadomość, że jej przyjaciółka się zaręczyła. Adresatka, która jest singielką, blokuje dalsze wiadomości od niej.

Inny mężczyzna robi sobie przerwę w googlowaniu informacji o zespołach hokejowych w NHL i muzyce rap, aby wstukać w wyszukiwarkę pytanie: „Czy to normalne, że mi się śni, że całuję się z mężczyznami?”.

Jakaś kobieta klika w nagłówek w BuzzFeed, żeby zobaczyć „15 najśliczniejszych kotów na świecie”.

Jakiś mężczyzna widzi tę samą kartę w BuzzFeed, ale na ekranie jego komputera nagłówek brzmi: „15 najbardziej uroczych kotów na świecie”. Mężczyzna nie wchodzi na stronę.

Inna kobieta wpisuje w wyszukiwarkę: „Czy mój syn jest geniuszem?”.

Inny mężczyzna wpisuje w wyszukiwarkę: „Jak mam namówić córkę, żeby się odchudziła?”.

Kobieta spędza urlop z sześcioma swoimi najlepszymi przyjaciółkami, które powtarzają w kółko, jak się świetnie bawią. Kobieta wpisuje ukradkiem w wyszukiwarkę: „Samotność z dala od męża”.

Mężczyzna, mąż kobiety z poprzedniego akapitu, spędza urlop z sześcioma swoimi najlepszymi przyjaciółmi. Wpisuje ukradkiem w wyszukiwarkę: „Jak poznać, że żona cię zdradza?”.

Niektóre z tych danych zawierają informacje, których w innych okolicznościach nie podalibyśmy nikomu. Jeżeli je zsumujemy i zapewnimy internautom anonimowość tak, abyśmy tych lęków, pragnień i postaw nie mogli przyporządkować konkretnym osobom, a potem poddamy dane analizie naukowej, to otrzymamy nowy obraz człowieka – jego zachowań, pragnień i natury. Prawdę powiedziawszy, chociaż nie chciałbym brzmieć pompatycznie, uważam, że nowe informacje, coraz szerzej dostępne w dzisiejszej epoce cyfrowej, radykalnie pogłębią naszą wiedzę o człowieku. Dzięki mikroskopowi okazało się, że w kropli wody ze stawu możemy znaleźć więcej, niż nam się wydaje. Dzięki teleskopowi przekonaliśmy się, że na nocnym niebie widać znacznie więcej, niż sądzimy. A nowe, cyfrowe dane pokazują dzisiaj, że współczesne społeczeństwo nie jest takie, jakim się nam wydaje. Internet może okazać się mikroskopem albo teleskopem naszych czasów – pozwala bowiem dokonywać ważnych, może nawet przełomowych odkryć.

Z tego rodzaju deklaracjami wiąże się jeszcze jedno ryzyko – że zabrzmią one nie tylko pompatycznie, ale też „trendy”. Wiele osób wygłaszało szumne oświadczenia dotyczące potęgi big data, nie miało jednak żadnych dowodów na poparcie swoich tez.

Była to woda na młyn sceptyków – których również nie brakuje – rezygnujących z poszukiwań wielkich zbiorów danych. „Nie twierdzę, że w big data brakuje informacji – napisał eseista i statystyk Nassim Taleb. – Jest ich bardzo dużo. Problem, i to jest zasadnicza kwestia, polega jednak na tym, że igła kryje się w nieustannie rosnącym stogu siana”[11].

Dlatego jednym z głównych celów tej książki jest przedstawienie brakujących dowodów na to, jak można wykorzystać big data – czyli jak można dziś znajdować igły, jeśli zaakceptujemy powyższe porównanie, w coraz większych stogach siana. Mam nadzieję przedstawić wystarczająco dużo przykładów dowodzących, że big data maluje nowy obraz psychiki i zachowania człowieka, dzięki czemu możemy już dziś dojrzeć zarysy naprawdę rewolucyjnego odkrycia.

„Zaraz, zaraz, Seth – mówicie może w tej chwili. – Obiecujesz rewolucję. Używając poetyckiego języka, rozwodzisz się na temat wielkich nowych zbiorów danych, chociaż do tej pory wykorzystałeś wszystkie te rzekomo zdumiewające, niesamowite, zapierające dech w piersi i przełomowe informacje właściwie tylko po to, żeby powiedzieć dwie rzeczy: że w Ameryce mieszka mnóstwo rasistów, a ludzie, zwłaszcza mężczyźni, zawyżają liczbę swoich kontaktów seksualnych”.

Przyznaję, że nowe dane czasami po prostu potwierdzają to, co jest skądinąd oczywiste. Jeżeli jednak sądzicie, że przytoczone wyżej ustalenia brzmią banalnie, to zaczekajcie, aż dojdziecie do rozdziału czwartego, gdzie na podstawie wyszukiwań w Google’u przedstawiam jasne i nieodparte dowody na to, że mężczyźni są bardzo niepewni siebie i przewrażliwieni na punkcie – uwaga, napięcie rośnie... – wielkości swojego penisa.

 

Wydaje mi się bowiem, że czasem warto potwierdzić prawdziwość jakiejś ogólnie przyjętej tezy, na której słuszność nie mieliśmy wcześniej dowodów – gdyż przypuszczenia to jedno, a dowody drugie. Ale jeśli zbiór big data mógłby tylko umacniać nas w przyjętych już przekonaniach, to nie byłoby w nim nic rewolucyjnego. Na szczęście big data potrafi znacznie więcej – i co rusz napawa mnie przekonaniem, że świat wygląda całkowicie inaczej, niż sądziłem. Oto kilka egzemplifikacji, które okażą się może bardziej zaskakujące.

Mogłoby się wydawać, że główną przyczyną rasizmu jest ubóstwo i niepewność jutra, dlatego można naturalnie podejrzewać, że nastroje rasistowskie przybierają na sile, gdy ludzie tracą pracę. W rzeczywistości jednak liczba rasistowskich wyszukiwań czy nowych członków organizacji Stormfront nie zwiększa się wcale wraz ze wzrostem bezrobocia[12].

Można też pomyśleć, że stanów lękowych najczęściej doświadczają wykształceni tak dobrze, że aż przeintelektualizowani mieszkańcy wielkich miast. Stereotyp miejskiego neurotyka jest powszechnie znany. Lecz najwyraźniej przeżywających stany lękowe autorów wyszukiwań w Google’u[13], na przykład o takiej treści jak „symptomy stanów lękowych” czy „pomoc w stanach lękowych”, najczęściej obserwujemy więcej tam, gdzie mieszkają ludzie gorzej wykształceni, średnia dochodów jest niższa, a większa część populacji żyje na terenach niezurbanizowanych. Tak więc liczba wyszukiwań dotyczących neurozy okazuje się wyższa w wiejskiej, północnej części stanu Nowy Jork niż w wielkim mieście, od którego ten stan bierze swą nazwę.

Można by sądzić, że po ataku terrorystycznym, w którym giną dziesiątki albo setki ludzi, następuje coś w rodzaju epidemii depresji czy nerwic na tle lękowym. Terroryzm ma w nas przecież wzbudzać grozę niejako z definicji. Przyjrzałem się więc dotyczącym depresji wyszukiwaniom w Google’u. Sprawdziłem, o ile w USA wzrastała ich liczba po kilku dniach, tygodniach i miesiącach od każdego większego ataku terrorystycznego w Europie czy Ameryce, który przeprowadzono po 2004 roku. Nie wzrastała. Wcale.

Można też podejrzewać, że ludzie szukają dowcipów w sieci głównie wtedy, kiedy jest im smutno[14]. Wielu największych mędrców utrzymywało, że w śmiechu poszukujemy ucieczki od bólu. Od dawna sądzono, że śmiech pozwala nam poradzić sobie z rozgoryczeniem, cierpieniem i nieuniknionymi rozczarowaniami, jakie niesie życie. Jak twierdził Charlie Chaplin, śmiech przynosi ulgę, uśmierza, a nawet powstrzymuje ból.

Tymczasem najrzadziej wyszukujemy dowcipy w poniedziałki, kiedy jak sami twierdzimy, jesteśmy w najgorszych nastrojach – a także w pochmurne i deszczowe dni. Liczba wyszukiwanych dowcipów spada także drastycznie po każdej większej tragedii, takiej jak eksplozja dwóch bomb przy trasie bostońskiego maratonu w 2013 roku, w której wyniku zginęły trzy osoby, a kilkaset odniosło rany. Wydaje się więc, że chętniej szukamy dowcipów, gdy układa nam się w życiu dobrze, a nie źle.

Czasami nowy zbiór danych ujawnia jakieś ludzkie zachowania, pragnienia albo obawy, które same nigdy nie przyszłyby mi do głowy. W tej kategorii mieszczą się między innymi nasze upodobania seksualne. Na przykład – czy wiedzieliście, że w Indiach najczęściej wyszukiwana fraza, zaczynająca się od słów „Mój mąż chce...”, brzmi: „Mój mąż chce, żebym karmiła go piersią”?[15]. Jest to hasło spotykane znacznie częściej w Indiach niż gdziekolwiek indziej, a treści wizualne przedstawiające kobiety, które karmią piersią dorosłych mężczyzn[16], w Indiach i Bangladeszu wyszukiwane są czterokrotnie częściej niż w jakimkolwiek innym kraju na świecie. Na pewno nigdy bym się tego nie domyślił, gdybym nie poznał danych z Internetu.

Poza tym o ile to, że mężczyźni mają obsesję na punkcie wielkości swojego penisa, nie jest może zbyt zaskakujące, o tyle największe cielesne zmartwienie kobiet, zgodnie z tym, co mówi Google, okazuje się naprawdę nieoczekiwane. Opierając się na nowych danych, możemy powiedzieć, że damskim ekwiwalentem lęków mężczyzn, którzy sądzą, że natura obdarzyła ich zbyt małym przyrodzeniem, jest – i tu napięcie znów wzrasta... – podzielana przez wiele kobiet obawa, że ich wagina wydziela niemiły zapach. Panie wpisują w wyszukiwarkę pytania wyrażające lęki związane ze swoimi genitaliami równie często jak mężczyźni[17], którzy mają kompleksy na punkcie swoich narządów płciowych, kobiety jednak najczęściej martwią się, że pochwa nieładnie pachnie i chciałyby się dowiedzieć, jak mogą temu zaradzić. Nie miałem o tym pojęcia, dopóki nie przeanalizowałem danych z sieci.

Czasami nowe dane pokazują też różnice kulturowe, których nigdy nawet nie brałem pod uwagę. Przykład: różne sposoby, w jakie reaguje mężczyzna na wiadomość, że jego żona jest w ciąży. W Meksyku do najczęściej wpisywanych w wyszukiwarkę fraz powiązanych z hasłem „moja żona jest w ciąży” należy „frases de amor para mi esposa embarazada”[18] („najserdeczniej pozdrawiam moją ciężarną żonę”) albo „poemas para mi esposa embarazada” („strofy dla ciężarnej żony”). W Stanach Zjednoczonych do najczęściej powtarzających się wpisów zaliczamy „moja żona jest w ciąży i co teraz będzie” albo „moja żona zaszła, co mam robić”.

Ale Wszyscy kłamią jest czymś więcej niż zbiorem ciekawych faktów czy wyników jednorazowych badań, chociaż napotkacie ich tu wiele. Metodologia, którą się posługuję, z czasem będzie jeszcze skuteczniejsza; na razie jest tak nowa, że muszę najpierw przedstawić kilka zasad, na jakich się opiera, i wyjaśnić, na czym polega jej przełomowy charakter. Jednocześnie wskażę ograniczenia big data.

Entuzjazm dla rewolucyjnego potencjału nowych danych bywał dotąd niewłaściwie lokowany. Większość osób urzeczonych big data zachwyca się tym, jak gigantyczne bywają zbiory informacji, przy czym obsesja na punkcie ich wielkości nie jest niczym nowym. Zanim powstały Google, Amazon, Facebook i samo pojęcie big data, w 1977 roku w Dallas, w Teksasie, odbyła się konferencja pod hasłem Duże i złożone zbiory danych. Wspomina ją Jerry Friedman, profesor statystyki na Uniwersytecie Stanforda, mój kolega po fachu, którego poznałem w okresie pracy w Google’u. Oto wstaje pewien znakomity statystyk, żeby zacząć swoje wystąpienie, i mówi, że zebrał zdumiewające, niebywałe pięć gigabajtów danych. Po nim podnosi się następny uczony i zaczyna w te słowa: „Mój poprzednik mówił o gigabajtach. To jeszcze nic. Ja mam terabajty”. Innymi słowy, uczeni skupiali się na tym, jak dużo informacji można zgromadzić, a nie na tym, co można by z nimi zrobić albo na jakie pytania odpowiedzieć z ich wykorzystaniem. „Wydało mi się wtedy zabawne – mówi Friedman – że ludzie chcieli sobie zaimponować tym, jak wielkimi zbiorami danych dysponują. Zdarza się to do dziś”[19].

Zbyt wielu współczesnych analityków gromadzi olbrzymie zbiory informacji po to, żeby powiedzieć nam coś bardzo mało ważnego – jak na przykład to, że koszykarska drużyna Knicks cieszy się popularnością w Nowym Jorku. Zbyt wiele firm dosłownie tonie w danych. Mają mnóstwo terabajtów informacji, lecz dokonują niewielu ważnych odkryć. Tymczasem moim zdaniem rozmiary zbioru danych często się przecenia. Istnieje na to subtelne, lecz ważne wytłumaczenie. Im bardziej spektakularny efekt, tym mniejsza liczba obserwacji jest potrzebna, aby go dostrzec. Gorącej kuchenki wystarczy dotknąć raz, żeby się przekonać, że jest niebezpieczna, lecz trzeba wypić może nawet tysiące filiżanek kawy, aby zdać sobie sprawę, że dostajemy po niej bólu głowy. Która z powyższych nauczek jest ważniejsza? Oczywiście ta z kuchenką, bo ze względu na siłę jej rażenia wnioski nasuwają się bardzo szybko, mimo że do ich wyciągnięcia potrzebujemy niewielu obserwacji.

Z tej przyczyny najlepsze firmy analityczne często tną swoje dane. W Google’u na przykład pierwszorzędne decyzje podejmuje się jedynie na bazie skromnej próbki dostępnych materiałów źródłowych[20]. Nie zawsze musimy mieć ich całe tony, żeby dokonać jakiegoś ważnego odkrycia – potrzeba nam po prostu odpowiednich danych. Wyszukiwania w Google’u okazują się dla nas takie cenne nie dlatego, że jest ich bardzo wiele, tylko dlatego, że ludzie są w nich tak szczerzy. Okłamujemy znajomych, kochanków, lekarzy, ankiety i samych siebie, ale w wyszukiwarce Google’a jesteśmy gotowi podzielić się ze światem każdą wstydliwą dla nas informacją, na przykład o deficycie seksu w małżeństwie, kłopotach ze zdrowiem psychicznym, nękających nas obawach czy niechęci do czarnoskórych współobywateli.

Najważniejsze jest to, że aby wycisnąć z big data coś ciekawego, należy zadawać odpowiednie pytania. Tak jak nie da się skierować teleskopu w nocne niebo byle gdzie i wymagać, by odkrył wam Plutona, nie można też po prostu ściągnąć sobie na twardy dysk całej masy danych i oczekiwać, że one same odsłonią nam sekrety ludzkiej natury. Powinniśmy szukać w obiecujących miejscach – na przykład w Indiach wśród wpisów, które zaczynają się od słów „Mój mąż chce...”.

Wszyscy kłamią pokaże, jak najefektywniej posługiwać się big data, i szczegółowo wyjaśni, dlaczego wielki zbiór danych może okazać się naprawdę potężnym narzędziem badawczym. Po drodze poznacie odpowiedzi, które mnie i innym analitykom udało się już uzyskać, między innymi na takie pytania, jak:

• Jaki jest odsetek homoseksualistów wśród męskiej populacji Stanów Zjednoczonych?

• Czy reklama jest skuteczna?

• Dlaczego American Pharoah był tak dobrym koniem wyścigowym?

• Czy media są stronnicze?

• Czy pomyłki freudowskie zdarzają się naprawdę?

• Kto oszukuje na podatkach?

• Czy uczelnia, na której kończysz studia, ma znaczenie dla twojego sukcesu życiowego?

• Czy można przewidzieć zmiany na giełdzie papierów wartościowych?

• Gdzie najlepiej wychowywać dzieci?

• Co sprawia, że jakaś historia w sieci staje się zaraźliwa w tym sensie, że dzieli się nią ze sobą duża liczba osób?

• O czym powinieneś rozmawiać na pierwszej randce, jeżeli chcesz doprowadzić do drugiej?

I wiele, wiele innych.

Ale zanim do tego wszystkiego dojdziemy, musimy zadać sobie jedno nieco bardziej podstawowe pytanie: po co w ogóle są nam potrzebne bazy danych? Żeby uzyskać odpowiedź, przedstawię wam moją babcię.

CZĘŚĆ PIERWSZA

ZBIORY DANYCH,

DUŻE I MAŁE

ROZDZIAŁ PIERWSZY

NASZA OMYLNA INTUICJA

Jeśli masz trzydzieści trzy lata i na kilka kolejnych obiadów z okazji Święta Dziękczynienia przychodziłeś samotnie, przy stole na pewno pojawi się w końcu temat wyboru odpowiedniej partnerki dla ciebie. I oczywiście właściwie każdy będzie miał w tej kwestii coś do powiedzenia.

– Sethowi potrzeba wariatki, bo sam jest wariatem – mówi moja siostra.

– To ty jesteś wariatka! Trzeba mu normalnej dziewczyny, wtedy oboje będą się uzupełniać – twierdzi mój brat.

– Seth nie jest wariatem – odzywa się moja mama.

– Ale z ciebie wariatka! Oczywiście, że Seth jest wariatem – wtrąca ojciec.

Nieoczekiwanie głos zabiera moja nieśmiała, łagodna babcia, która milczała dotąd w czasie obiadu. Donośne, agresywne nowojorskie głosy milkną i wszystkie spojrzenia kierują się na tę drobną starszą panią o krótkich jasnych włosach, mówiącą wciąż jeszcze z lekkim wschodnioeuropejskim akcentem.

– Tobie potrzeba miłej dziewczyny, Seth. Nie za ładnej. Bardzo inteligentnej. I żeby miała dobry kontakt z ludźmi. Żeby była towarzyska, wtedy będziecie mieli ciekawe życie. I żeby miała poczucie humoru, jak ty.

Dlaczego rada staruszki do tego stopnia przykuwa uwagę członków rodziny i budzi ogólny szacunek? No cóż, moja osiemdziesięcioośmioletnia babcia widziała w życiu więcej niż ktokolwiek z nas. Widziała więcej małżeństw niż my, udanych i nieudanych, i z czasem skatalogowała w głowie wszystkie te elementy, które składają się na dobry związek. Jeżeli chodzi o pytanie dotyczące wyboru właściwej partnerki, to przy naszym stole w Święto Dziękczynienia właśnie moja babcia ma dostęp do największej liczby danych, potrzebnych do udzielenia odpowiedzi. To babcia jest big data.

Chciałbym w tej książce nieco zdemistyfikować analizę danych jako gałąź nauki. Czy komuś się to podoba, czy nie, informacja odgrywa coraz ważniejszą rolę w naszym życiu, a rola ta wkrótce stanie się jeszcze większa. W gazetach codziennych mamy już duże działy poświęcone analizie danych, a współczesne przedsiębiorstwa zatrudniają całe zespoły analityków. Inwestorzy wydają dziesiątki milionów dolarów na start-upy, jeśli tylko są w stanie przechowywać dzięki nim więcej informacji. Nawet jeśli nigdy nie uczyliśmy się analizy regresji albo obliczania przedziału ufności, wszędzie mamy do czynienia z informacją – w tym, co czytamy, na spotkaniach biznesowych albo w plotkach zasłyszanych przy biurowych zbiornikach z wodą, kiedy idziemy się napić.

 

Ten stan rzeczy niepokoi wielu ludzi. Informacja ich onieśmiela, łatwo się gubią i tracą orientację w świecie liczb. Wydaje im się, że ilościowe rozumienie świata jest dobre wyłącznie dla kilku genialnych mózgowców, nie dla nich, i kiedy tylko napotykają znaki matematyczne, gotowi są przewrócić stronę, zakończyć spotkanie lub zmienić temat rozmowy.

Ja jednak poświęciłem dziesięć lat życia na analizę danych i miałem szczęście pracować z wieloma najwybitniejszymi specjalistami w tej dziedzinie. Nauczyłem się od nich wielu ważnych rzeczy, między innymi tego, że dobra analiza jest mniej skomplikowana, niż to się ludziom wydaje. Powiedziałbym nawet, że najlepsze wyniki można w niej uzyskać, opierając się na intuicji[1].

Jak to możliwe, by analiza danych była intuicyjna? Otóż w gruncie rzeczy chodzi w niej o to, by wykryć pewne wzorce, prawidłowości, i umieć przewidywać, jak jedna zmienna będzie wpływała na drugą. A każdy człowiek robi dokładnie to samo w codziennym życiu.

Zastanówcie się choćby nad tą radą, którą dostałem w kwestii życiowej partnerki. Moja babcia wykorzystała ogromną bazę danych, zgromadzonych w jej umyśle w ciągu blisko stuletniego życia – czerpała swoją wiedzę z opowieści zasłyszanych od członków rodziny, przyjaciół i znajomych. Analizę ograniczyła jednak do kilku takich przykładowych związków, w których mężczyzna odznaczał się wieloma podobnymi cechami, jakie mam ja – wrażliwością, skłonnością do samotnictwa czy poczuciem humoru. Następnie skupiła się na kluczowych cechach kobiet z takich małżeństw, zastanawiając się, czy i w jakim stopniu czyniły je one dobrymi, miłymi, inteligentnymi i atrakcyjnymi żonami. Następnie zestawiła kluczowe cechy kobiece z najważniejszą własnością związku, pytając, czy był udany, na końcu przedstawiła zaś wyniki tego procesu myślowego. Innymi słowy, dostrzegła określone prawidłowości i przewidziała, w jaki sposób jedna zmienna będzie wpływać na drugą. Moja babcia jest analitykiem danych.

I wy też nim jesteście. Jak byliście mali, spostrzegliście, że kiedy płaczecie, mama zaczyna się wami interesować. To analiza danych. Kiedy dorośliście, zorientowaliście się, że jeśli za często narzekacie, znajomi nie bardzo mają chęć na wasze towarzystwo. To również jest przykład myślenia analitycznego. Zauważyliście ponadto, że kiedy ludzie rzadziej z wami przestają, popadacie w gorszy nastrój, a w gorszym nastroju jesteście mniej przyjaźnie nastawieni do świata. I wtedy znajomi jeszcze mniej mają ochotę się z wami zadawać. Analiza danych. Analiza danych. Analiza danych.

Przekonałem się, że ponieważ jest ona tak naturalna, najciekawsze badania spod znaku big data może zrozumieć właściwie każdy inteligentny człowiek. Jeżeli nie, to coś jest zapewne nie w porządku z tymi badaniami, a nie z nim.

Chcecie dowodu, że najlepsza analiza danych opiera się na ogół na intuicji? Natknąłem się niedawno na wyniki być może najważniejszych studiów analitycznych, jakie przeprowadzono w ostatnich kilku latach, a przy tym zapewne najbardziej intuicyjnych, jakie kiedykolwiek widziałem. Zastanówcie się nie tylko nad ich doniosłym znaczeniem, ale też nad tym, w jak naturalny sposób, przypominający metodę mojej babci, wyciągnięto z nich wnioski.

Badania, o których mówię, przeprowadził zespół naukowców z Columbia University i z firmy Microsoft. Uczeni chcieli ustalić, jakie symptomy mogą pomóc przewidzieć ryzyko wystąpienia raka trzustki[2]. Szanse na wyleczenie tej choroby są bardzo niskie, wynoszą około trzech procent, ale jej wczesne wykrycie może je podwoić.

Jaką metodę zastosowali badacze? Wykorzystali dane z wpisów dziesiątków tysięcy użytkowników Binga, wyszukiwarki Microsoftu. To, że u danego internauty zdiagnozowano niedawno tę chorobę, stwierdzano na podstawie jednoznacznych wpisów z jego strony, takich jak „właśnie zdiagnozowano u mnie raka trzustki” albo „powiedziano mi, że mam raka trzustki, czego mogę w związku z tym się spodziewać?”.

Później uczeni przyjrzeli się wyszukiwaniom dotyczącym ogólnych problemów zdrowotnych i porównali wpisy niewielkiej liczby tych internautów, u których po pewnym czasie stwierdzono raka, z wpisami tych, którzy na niego nie zapadli. Właśnie w ten sposób poszukiwali symptomów sygnalizujących, że za kilka tygodni czy miesięcy dana osoba zachoruje.

Rezultaty były zdumiewające. Okazało się, że bóle pleców połączone z żółknięciem skóry to objaw nowotworu trzustki, choć same bóle pleców raczej wykluczały tę chorobę. Zapowiadała ją też niestrawność, połączona z bólami żołądka, mimo że sama niestrawność nie świadczyła o żadnym zagrożeniu. Zespołowi badawczemu udało się wytypować od pięciu do piętnastu procent przypadków zachorowań niemal bezbłędnie. Być może nie wygląda to na zbyt imponujący wynik, ale jeżeli chorujesz na raka wspomnianego narządu, to nawet dziesięć procent szans na prawdopodobne zwiększenie możliwości wyleczenia jest czystym darem niebios.

Rzecz jasna, artykuł, w którym szczegółowo opisano powyższe badania, trudno byłoby w pełni zrozumieć niespecjaliście. Zawiera sporo technicznego żargonu – mówi na przykład o teście Kołmogorowa-Smirnowa, a muszę tutaj przyznać, że już sam zapomniałem, na czym on dokładnie polega (pamiętam tylko, że jest stosowany do porównywania rozkładów jednowymiarowych cech statystycznych i pozwala określić, czy przyjęty model da się dopasować do konkretnego zbioru danych).

Zwróćcie jednak uwagę, jak naturalne i intuicyjne są te zdumiewające badania na poziomie najbardziej podstawowym. Uczeni przyjrzeli się szerokiemu spektrum przypadków medycznych i próbowali połączyć symptomy z konkretną chorobą. Wiecie, kto jeszcze używa takiej metody, starając się ustalić, czy człowiek jest na coś chory? Mężowie i żony, matki i ojcowie, pielęgniarki i lekarze. Opierając się na doświadczeniu i wiedzy, usiłujemy połączyć gorączkę, ból głowy, katar i ból brzucha z rozmaitymi chorobami. Mówiąc wprost, naukowcy z Uniwersytetu Columbia i firmy Microsoft przeprowadzili przełomowe badania, stosując naturalną, oczywistą metodę, której używamy wszyscy, kiedy chcemy postawić jakąś diagnozę.

Ale zaraz, zaraz. Zwolnijmy tempo. Jeżeli najlepsze analizy danych przeprowadza się często w sposób naturalny i intuicyjny, jak w tej chwili twierdzę, to powstaje podstawowe pytanie o wartość big data. Jeśli ludzie są z natury analitykami danych, jeżeli analiza jest intuicyjna, to po co nam komputery i specjalistyczne oprogramowanie? Po co testy Kołmogorowa-Smirnowa? Czy nie możemy po prostu działać na podstawie intuicji, jak moja babcia albo lekarze i pielęgniarki?

W tym miejscu dochodzimy do sporu, który przybrał na sile zwłaszcza po wydaniu bestsellera Malcolma Gladwella Błysk! Potęga przeczucia[2*], wynoszącego pod niebiosa czarodziejską moc naszych intuicji i instynktów. Autor opowiada w nim o ludziach, którzy opierając się wyłącznie na intuicji, potrafią rozpoznać sfałszowaną rzeźbę, przewidzieć, czy tenisista popełni błąd, zanim jeszcze w ogóle dotknie piłki, i ile dany klient gotów jest wydać pieniędzy. Bohaterowie tej książki nie przeprowadzają analizy regresji, nie obliczają przedziałów ufności i nie stosują testów Kołmogorowa-Smirnowa, ale w większości wypadków zdumiewająco odgadują prawdę. Wiele osób intuicyjnie wspiera taką apologię intuicji, jaką przeprowadza Gladwell, ponieważ sami ufają swoim przeczuciom i wrażeniom. Wielbiciele Błysku będą zapewne unosić się nad mądrością mojej babci, która udziela mi rad na temat związków damsko-męskich bez pomocy komputerów, ale już z mniejszym entuzjazmem podejdą do wykorzystujących te urządzenia moich czy innych badań, opisanych w tej książce. Jeżeli zatem to komputerowa, a nie babcina analiza big data stanowi autentyczną rewolucję, musi ona udowodnić, że jest potężniejsza niż niewspomagana maszynowo ludzka intuicja, która, jak słusznie wskazał Gladwell, rzeczywiście bywa zdumiewająca.