Wszyscy kłamiąTekst

Przeczytaj fragment
Oznacz jako przeczytane
Jak czytać książkę po zakupie
Nie masz czasu na czytanie?
Posłuchaj fragmentu
Wszyscy kłamią
Wszyscy kłamią
− 20%
Otrzymaj 20% rabat na e-booki i audiobooki
Kup zestaw za 69,80  55,84 
Wszyscy kłamią
Audio
Wszyscy kłamią
Audiobook
Czyta Tomasz Sobczak
34,90  25,48 
Szczegóły
Czcionka:Mniejsze АаWiększe Aa

CZĘŚĆ DRUGA

MOCE BIG DATA

ROZDZIAŁ DRUGI

CZY FREUD MIAŁ RACJĘ?

Zauważyłem niedawno, że ktoś napisał o idącym ulicą mężczyźnie „penistrian”. Rozumiecie, prawda? „Penistrian” zamiast „pedestrian” [„przechodzień”]. Natknąłem się na to słowo w wielkim zbiorze literówek, jakie popełniają internauci. Widzimy nieznajomego na ulicy i piszemy „penis”. To chyba musi coś znaczyć?

Słyszałem też ostatnio o mężczyźnie, któremu śniło się, że je banana w drodze do ołtarza na zaślubiny ze swoją narzeczoną. Znalazłem tę historię w dużym zbiorze snów, które ludzie zapisują w sieci. Mężczyzna wyobraża sobie, że bierze ślub z kobietą, jedząc falliczny owoc[1]. To pewnie też coś znaczy, prawda?

Czy Sigmund Freud miał rację? Najbardziej uczciwą odpowiedzią na to pytanie, zadawane, odkąd jego teorie zaczęły się cieszyć szerszym zainteresowaniem, byłoby wzruszenie ramion. Dlaczego? Najjaśniej wytłumaczył to Karl Popper, austriacki filozof, który większość życia spędził w Anglii. Popper zasłynął stwierdzeniem, że teorii Freuda nie da się sfalsyfikować. Nie można wykazać ich prawdziwości, tak jak nie można dowieść, że są fałszywe.

Freud mógłby dowodzić, że osoba, która napisała „penistrian”, ujawnia być może swoje tłumione pragnienie seksualne. Osoba ta mogłaby jednak odpowiedzieć, że absolutnie niczego nie ujawnia i że po prostu zrobiła niewinną literówkę tego samego rodzaju, jak na przykład „pedaltrian”. Mielibyśmy zatem sytuację typu „słowo przeciw słowu”. Freud mógłby też powiedzieć, że mężczyzna, któremu śniło się, że je banana w dniu swojego ślubu, myślał podświadomie o penisie, ujawniając w ten sposób, że w rzeczywistości pragnie poślubić mężczyznę. Śniący mógłby jednak utrzymywać, że po prostu przypadkiem śnił mu się banan i równie dobrze mogłoby mu się przyśnić, że po drodze do ołtarza je jabłko. Jeden mówi jedno, drugi drugie. Nie było żadnego sposobu, by poddać teorię Freuda sprawdzianowi.

Aż do dzisiaj.

Analiza danych falsyfikuje wiele twierdzeń Freuda i jest w stanie zweryfikować wiele jego słynnych teorii. Korzystając z olbrzymiego zbioru danych, zawierającego zapisane sny, możemy łatwo zbadać, jak często pojawiają się w nich przedmioty o kształcie fallicznym. Żywność może być w tej sferze wdzięcznym przedmiotem zainteresowania uczonych, często występuje bowiem w snach, a to, co jemy, nierzadko ma kształt falliczny – banany, ogórki, hot dogi i tak dalej. Następnie możemy przyjrzeć się czynnikom, które sprawiają, że częściej śnimy o takich, a nie innych daniach, owocach czy warzywach – a zatem da się sprawdzić, jak często je spożywamy, czy ludzie w większości uważają je za smaczne, no i, owszem, czy rzeczywiście mają falliczną formę.

Możemy na przykład zbadać, czy dwie równie popularne potrawy, z których jedna kształtem przypomina męski narząd płciowy, pojawiają się w naszych snach z taką samą czy różną częstotliwością. Jeżeli okaże się, że potrawy o kształcie członka w erekcji nie śnią się ludziom częściej niż inne, to można będzie powiedzieć, że symbole falliczne nie odgrywają znaczącej roli w snach. Dzięki big data ta część teorii Freuda może więc naprawdę zostać sfalsyfikowana.

Informacje potrzebne mi do pracy zaczerpnąłem tym razem z Shadow – aplikacji, która prosi użytkowników, by zapisywali swoje sny – po czym odpowiednio zakodowałem potrawy wymienione w dziesiątkach tysięcy snów.

Co, najogólniej rzecz biorąc, sprawia, że śni nam się jedzenie? W głównej mierze decyduje o tym to, jak często spożywamy określone dania, owoce czy warzywa. Substancja, która śni się nam najczęściej, to woda, a wśród dwudziestu potraw najpowszechniej występujących w snach znajdują się kurczaki, chleb, kanapki i ryż – symbole ewidentnie niefreudowskie.

Drugim czynnikiem prognostycznym, wskazującym, jak często dana potrawa pojawi się w naszych snach, jest jej smakowitość. Dwa artykuły spożywcze, które śnią się ludziom najczęściej i są wyraźnie niefreudowskie, lecz uchodzą powszechnie za smakowite, to czekolada i pizza.

No a co z potrawami o kształtach fallicznych? Czy przenikają do naszych snów nadspodziewanie często?

Nie.

Banany zajmują drugie miejsce, gdy chodzi o częstotliwość występowania w snach, plasują się jednak też na drugim miejscu wśród najczęściej spożywanych owoców. Ogórki występują na miejscu siódmym wśród najczęściej obecnych w naszych snach warzyw – ale znajdziemy je także na siódmym miejscu wśród najczęściej spożywanych warzyw. A zatem kształt ogórków nie jest potrzebny do tego, żeby wyjaśnić ich pojawianie się w naszych śniących umysłach. Znacznie rzadziej śnimy też o hot dogach niż o hamburgerach – których zjadamy daleko więcej niż hot dogów.

Ogólnie rzecz biorąc, dzięki zastosowaniu analizy regresji (metodzie pozwalającej socjologom rozdzielić wpływy różnorakich czynników) ustaliłem dla wszystkich owoców i warzyw, że falliczny kształt nie czyni występowania podłużnych płodów ziemi w naszych snach bardziej prawdopodobnym, niż wskazywałaby na to ich popularność. Ta teoria Freuda jest falsyfikowalna – i przynajmniej z punktu widzenia mojej analizy, fałszywa.

Weźmy teraz z kolei pomyłki freudowskie. Wiedeński psychoanalityk przypuszczał, że kiksy w mowie lub piśmie ujawniają nasze podświadome pragnienia, nierzadko seksualne. Czy możemy wykorzystać big data, by sprawdzić tę hipotezę? Oto jeden sposób: przekonajmy się, czy tego rodzaju błędy zdradzają „niegrzeczne” tendencje. Bo skoro ludzkie utajone skłonności seksualne wychodzą na jaw właśnie omyłkowo, to duża liczba pomyłek powinna zawierać takie słowa jak „penis”, „kutas” czy „seks”.

Przestudiowałem zatem w celach badawczych zbiór danych złożony z ponad czterdziestu tysięcy literówek odnotowanych przez pracowników Microsoftu[2]. Zbiór obejmował też błędy, które ludzie poprawiają od razu w trakcie pisania. W tak pokaźnej liczbie literówek znalazło się wiele pomyłek natury seksualnej, takich jak wspomniany wyżej „penistrian”. Ktoś napisał między innymi „sexurity” zamiast „security” [„bezpieczeństwo”] i „cocks” [„kutasy”] zamiast „rocks” [„skały”, „kamienie”]. Znalazłem też jednak mnóstwo pomyłek niewinnych. Ludzie pisali „pindows” zamiast „windows” [„okna”], „fegetables” zamiast „vegetables” [„warzywa”], „aftermoons” zamiast „afternoons” [„popołudnia”], i „refriderators” zamiast „refrigerators” [„lodówki”].

Czy zatem liczba pomyłek seksualnych wśród literówek rzeczywiście okazała się nieprzeciętnie wysoka?

Żeby to zbadać, użyłem najpierw wspomnianego zbioru Microsoftu, chcąc sprawdzić, jak często omyłkowo przestawiamy konkretne litery. Obliczyłem na przykład, jak często zastępujemy „t” literą „s”, a „g” literą „h”. Potem stworzyłem program komputerowy, który popełniał takie błędy jak człowiek. Nazwijmy go Error Bot. Z taką samą częstotliwością, jak internauci w badaniach Microsoftu, zastępował „t” literą „s”, a „g” literą „h”. I tak dalej. Później przepuściłem przez ten program wszystkie słowa, w których, jak wynikało z badań Microsoftu, popełniali błędy ludzie. Mój bot próbował zatem pisać poprawnie „pedestrian”, „rocks”, „windows” i „refrigerator” – ale zamieniał „r” na „t” równie często jak człowiek, pisząc na przykład „tocks”. Tak często jak człowiek zamieniał też „r” na „c” i czasem pisał „cocks” [„kutasy”].

Czego zatem w końcu się dowiedzieliśmy, porównując działania Error Bota z istotami ludzkimi, które są po prostu nieuważne z natury? Przestawiając litery, program popełnił kilka milionów błędów, w tym wiele takich, które można by nazwać freudowskimi. Zamiast „seashell” [„muszla”] pisał „sexshell”, zamiast „lipstick” [„szminka”] – „lipsdick” [„fiut do ust”], a zamiast „luckiest” [„mający największe szczęście”] – „fuckiest” [„najchętniej posuwany/posuwana”, „najbardziej chętny/chętna na seks”, „najbardziej pierdolony”], i popełnił jeszcze wiele podobnych błędów. Kluczowym spostrzeżeniem było natomiast to, że Error Bot, niewyposażony, rzecz jasna, w podświadomość, popełniał błędy, które można uważać za seksualne, równie często jak ludzie z krwi i kości. Pamiętając, że trzeba jeszcze przeprowadzić w tej sferze kolejne badania, co zawsze powtarzamy my, przedstawiciele nauk społecznych, można powiedzieć, że pomyłki o charakterze seksualnym nie zdarzają się ludziom częściej niż jakiekolwiek inne przypadkowe błędy.

Wynikałoby z tego, że aby zdarzały się takie literówki jak „penistrian”, „sexurity” czy „cocks”, nie musi istnieć żaden związek pomiędzy nimi i sferą tabu czy jakąś teorią umysłu, zgodnie z którą ludzie ujawniają swoje sekretne pragnienia w nieświadomych pomyłkach. Można je wyjaśnić, wskazując wyłącznie na przeciętną, przypadkową częstotliwość błędów literowych. Człowiek często się myli. Jeśli przytrafia się nam dość duża liczba pomyłek, w końcu powiemy lub napiszemy „lipsdick”, „fuckiest” czy „penistrian”. Jeżeli małpa będzie odpowiednio długo stukać w klawiaturę, to w końcu wystuka zdanie „być albo nie być”, a człowiek w pewnym momencie napisze „penistrian”.

Hipoteza Freuda, że pomyłki są odzwierciedleniem naszych nieuświadomionych pragnień, jest zatem falsyfikowalna – i zgodnie z moją analizą danych, fałszywa.

Big data mówi nam, że banan to po prostu banan, a „penistrian” to jedynie niepoprawnie zapisany „pedestrian”.

Czy zatem Freud mylił się całkowicie we wszystkich swoich teoriach? Niezupełnie. Gdy po raz pierwszy uzyskałem dostęp do danych z PornHubu, znalazłem tam fascynujące informacje, które uderzyły mnie jako przynajmniej po trosze freudowskie. Można nawet powiedzieć, że jest to jedno z najbardziej zdumiewających spostrzeżeń, które poczyniłem w swojej pracy nad analizą danych: otóż szokująco wysoka liczba ludzi odwiedzających mainstreamowe portale pornograficzne poszukuje treści wizualnych przedstawiających stosunki kazirodcze.

 

Szesnaście na sto najpopularniejszych wyszukiwań w PornHubie, jednym z najchętniej odwiedzanych portali porno, dotyczy kazirodczych materiałów wideo. Muszę was uprzedzić, że są one dosyć obrazowe: „brat z siostrą”, „macocha rucha się z synem”, „matka z synem”, „matka rucha się z synem” czy „prawdziwi brat i siostra”. Szukający kazirodczych scen mężczyźni najczęściej życzą sobie oglądać matki z synami. A kobiety? Na sto najpopularniejszych kobiecych wyszukiwań w PornHubie związek z kazirodztwem ma dziewięć i obejmują one podobne treści, tyle tylko, że zmienia się płeć rodziców i dzieci. To znaczy, że większość kazirodczych filmów, które chcą oglądać panie, przedstawia ojców i córki.

Nietrudno zauważyć w tych danych co najmniej ciche echo freudowskiego kompleksu Edypa. Freud sądził, że w dzieciństwie prawie wszyscy odczuwamy tego rodzaju pragnienie, które zostaje z upływem czasu stłumione – pragnienie kontaktów seksualnych z rodzicem płci przeciwnej. Szkoda, że wiedeński uczony nie żył na tyle długo, aby mógł zastosować swoje umiejętności analityczne do danych z PornHubu, gdzie zainteresowanie rodzicami płci przeciwnej zdradzają dorośli, i to bardzo wyraźnie, a prawie żadne z naszych pragnień stłumione nie jest.

Oczywiście dane z PornHubu nie powiedzą nam z całą pewnością, o kim naprawdę fantazjują internauci, kiedy oglądają takie filmy. Czy rzeczywiście wyobrażają sobie, że kochają się z własnymi rodzicami? Ale wyszukiwania w Google’u dostarczają kolejnych dowodów na to, że na świecie żyje mnóstwo osób, które mają podobne fascynacje.

Weźmy pod uwagę wszystkie sieciowe wyszukiwania w postaci „Chcę uprawiać seks z moją/moim...”[3]. Najczęściej frazę tę kończy słowo „mamą/tatą”, a osiemdziesiąt dwa i siedem dziesiątych procent tak sformułowanych wyszukiwań dotyczy kazirodztwa. Nie chodzi jednak wyłącznie o taką formę wpisu. Na przykład wyszukiwania w postaci „odczuwam pociąg do...” dotyczą pragnień kazirodczych jeszcze częściej. Ryzykując, że rozczaruję Herr Freuda, spieszę przyznać, że treści tego typu nie są szczególnie liczne: w Stanach Zjednoczonych zaledwie kilka tysięcy osób rocznie wyznaje, że odczuwa pociąg do własnych matek. Ktoś powinien też poinformować Freuda, że wyszukiwania w Google’u czasami generalnie kierują się ku sferom tabu, chociaż niekoniecznie seksualnym, o czym będzie jeszcze mowa dalej.

Mimo to... Istnieje mnóstwo innych obiektów niestosownego zainteresowania, które, jak sądziłem, powinny się częściej pojawiać w wyszukiwarce. Szef/szefowa? Podwładny/podwładna? Uczeń/uczennica? Terapeuta/terapeutka? Pacjent/pacjentka? Najlepsza przyjaciółka żony? Najlepsza koleżanka córki? Siostra żony? Żona najlepszego przyjaciela? Żadna z tych osób, których, do czego internauci się przyznają, niekiedy pożądamy, nie może jednak konkurować z matką. Być może w połączeniu z danymi z PornHubu to naprawdę coś znaczy.

Tym bardziej że generalizujące stwierdzenie Freuda, iż seksualność człowieka jest kształtowana przez doświadczenia z dzieciństwa, wspierają jeszcze inne dane z Google’a czy PornHubu, z których wynika, że przynajmniej panowie przechowują w pamięci niezwykle dużo fantazji erotycznych powiązanych z dzieciństwem. Jak pokazują wpisy żon na temat mężów, do najpopularniejszych marzeń dorosłych mężczyzn należy pragnienie, żeby nosić pieluszki i żeby żony karmiły ich piersią – to ostatnie życzenie, jak wspominałem wcześniej, szczególnie często występuje w Indiach. Dużym zainteresowaniem cieszą się też animowane filmy pornograficzne[4], w których w niecenzuralnych scenach występują postaci ulubione przez nastoletnich chłopców. Weźmy także pod uwagę najczęściej wyszukiwane przez mężczyzn zawody kobiece na portalach pornograficznych – mężczyźni pomiędzy osiemnastym i dwudziestym czwartym rokiem życia zazwyczaj chcą oglądać w akcji opiekunki do dzieci[5]. Podobnie panowie w przedziale wiekowym od dwudziestu pięciu do sześćdziesięciu czterech lat. A także sześćdziesięciopięcioletni i starsi. W pierwszej czwórce dla wszystkich tych grup wiekowych znajdują się jeszcze nauczycielki i czirliderki. Najwyraźniej początkowe lata życia rzeczywiście mają przemożny wpływ na fantazje dorosłych mężczyzn.

Nie miałem jak dotąd możliwości wykorzystania wszystkich tych bezprecedensowych informacji na temat seksualności, żeby dokładniej zbadać, w jaki sposób rodzą się nasze preferencje erotyczne. Ale w ciągu kilku najbliższych dziesięcioleci zarówno ja, jak i inni badacze z zakresu nauk społecznych z pewnością zdołamy stworzyć nowe, falsyfikowalne teorie dotyczące życia seksualnego dojrzałego człowieka i zweryfikować je, konfrontując z aktualnym zbiorem danych na ten temat.

Już dzisiaj mogę przewidzieć parę podstawowych wątków, które niewątpliwie staną się częścią teorii seksualności bazującej na analizie danych. Oczywiście nie będzie ona identyczna z tą, którą zaproponował Freud, opisujący konkretne, jasno określone etapy erotyzmu dziecięcego i nasze tłumione pragnienia. Opierając się jednak na moim pierwszym kontakcie z danymi z PornHubu, jestem absolutnie pewien, że ostateczny werdykt w procesie życia płciowego osób dorosłych będzie odnosił się do niektórych kluczowych tez postawionych przez Freuda, a dzieciństwo odegra w nim istotną rolę. Ważne miejsce zajmą również matki.

Poddanie teorii Freuda takiej analizie najprawdopodobniej byłoby niemożliwe jeszcze dziesięć, a już na pewno osiemdziesiąt lat temu, czyli wciąż za życia wiedeńskiego uczonego. Zastanówmy się więc, dlaczego te źródła danych są nam pomocne. Ćwiczenie to pozwoli zrozumieć powody, czyniące big data rzeczywiście potężnym narzędziem badawczym.

Jak pamiętacie, powiedzieliśmy, że sam olbrzymi zbiór danych nie będzie automatycznie i samoistnie generował takich czy innych odkryć. Wielkość zbioru danych sama w sobie jest często przeceniana. Z czego wynika zatem moc big data? I dlaczego wywoła rewolucję, która sprawi, że wkrótce spojrzymy na siebie zupełnie inaczej? Według mnie big data odznacza się czterema unikatowymi mocami, a analiza teorii Freuda dobrze je ilustruje.

Skonstatujmy na początek, że jak pewnie zauważyliście, w rozważaniach o Freudzie traktujemy pornografię serio. I z danych na temat pornografii często będziemy w niniejszej książce korzystać. Zabrzmi to może nieco zaskakująco, ale socjologowie rzadko sięgają po materiały źródłowe ze świata pornografii, zadowalając się w większości tradycyjnymi zbiorami informacji, pochodzących z ankiet i sondaży, na których opierali się podczas swojej dotychczasowej kariery zawodowej. Wystarczy jednak chwila refleksji, aby się zorientować, że powszechne zainteresowanie pornografią, jak również towarzyszące jej dane w postaci wpisów w sieci i oglądanych przez internautów treści wizualnych, stanowią najważniejsze elementy na drodze do zrozumienia ludzkiej seksualności od czasów... No, właściwie chyba w całej naszej historii. Schopenhauer, Nietzsche, Freud i Foucault dostaliby po prostu ślinotoku na widok tych zbiorów danych, które za ich życia jeszcze nie istniały. Nie istniały też nawet dwadzieścia lat temu – ale istnieją dzisiaj. Obecnie dysponujemy wieloma wyjątkowymi źródłami informacji, dotyczących całego szeregu tematów i dających nam wgląd w takie sfery życia, które wcześniej rozświetlaliśmy jedynie domysłami. Nowe typy źródeł danych to pierwsza moc big data.

Dane z obszaru pornografii i z wyszukiwarki Google’a są nie tylko nowe, ale też prawdziwe w tym sensie, że szczere, nieskłamane. W epoce precyfrowej nie ujawnialiśmy swoich wstydliwych myśli przed innymi ludźmi. Dziś również się ich wstydzimy, ale nie taimy ich przed Internetem i niektórymi wyszukiwarkami, takimi jak Google czy PornHub, które chronią naszą anonimowość. Te portale funkcjonują jako coś w rodzaju cyfrowego serum prawdy – dlatego jesteśmy na przykład w stanie pokazać, jak rozpowszechnione jest zainteresowanie kazirodztwem. Big data pozwala nam także przekonać się, czego ludzie naprawdę chcą i co naprawdę robią, a nie co mówią, że chcą, i nie co mówią, że robią. Gromadzenie prawdziwych danych to druga moc big data.

Ponieważ dysponujemy teraz tak wielkim zbiorem danych, otrzymujemy ważne informacje na temat nawet bardzo skromnych ułamków populacji. Możemy na przykład porównać liczbę osób, którym śnią się ogórki, z liczbą osób, którym śnią się raczej pomidory. Możliwość dokładnego przyjrzenia się małym grupom społecznym to trzecia moc big data.

W trakcie swojej ekspresowej analizy teorii Freuda nie odwołałem się do kolejnej imponującej mocy big data, ale może zrobię to w przyszłości – i przeprowadzę kilka szybkich, kontrolowanych eksperymentów, dzięki którym bada się przyczynowość, nie tylko korelacje. Tego rodzaju doświadczenia zlecają dzisiaj w większości jedynie firmy i przedsiębiorstwa, wkrótce jednak takie eksperymenty staną się potężnym narzędziem również dla przedstawicieli nauk społecznych. Możliwość przeprowadzania licznych, a przy tym szybkich badań to czwarta moc big data.

Nadeszła zatem pora, by przyjrzeć się każdej z owych mocy po kolei i bardziej szczegółowo odpowiedzieć na pytanie, dlaczego nie należy lekceważyć wielkich zbiorów danych.

ROZDZIAŁ TRZECI

DANE PRZEOBRAŻONE

Ulice prawie całego Manhattanu wyglądają o godzinie szóstej rano na niemal całkowicie opustoszałe. Zamknięte sklepy są na dole od frontu osłonięte stalowymi żaluzjami antywłamaniowymi, a mieszkania na wyższych kondygnacjach ciemne i milczące.

Ale w jeden piątek każdego miesiąca na piętrach zajmowanych przez ogromny bank inwestycyjny Goldman Sachs na dolnym Manhattanie nawet wtedy świeci się jaskrawe światło, a windy przewożą tysiące pracowników, zdążających na swoje miejsca przy biurkach. O siódmej rano większość z nich zostanie już zajęta.

Nie popełnilibyśmy nietaktu, mówiąc o tej części miasta każdego innego dnia, że jest senna, ale jednego piątkowego poranka w miesiącu na Manhattanie wyczuwa się napięcie i poruszenie. Bo tego dnia dociera tu pewna wiadomość, która za każdym razem trzęsie giełdą papierów wartościowych.

Zaledwie kilka minut po jej ujawnieniu zostanie przekazana przez portale informacyjne, a najwyżej kilka sekund później stanie się przedmiotem dyskusji oraz sporów i będzie głośno rozbierana na czynniki pierwsze zarówno w Goldman Sachs, jak i setkach innych firm finansowych. Lecz w dzisiejszych czasach to, co naprawdę liczy się w bankowości, rozgrywa się w ciągu kilku milisekund, nie sekund. Goldman oraz inne przedsiębiorstwa finansowe zapłaciły dziesiątki milionów dolarów za kable światłowodowe, by skrócić czas przesyłu informacji z Chicago do New Jersey o zaledwie cztery milisekundy (z siedemnastu do trzynastu). Firmy finansowe dysponują specjalnymi algorytmami[1] do odczytu danych i prowadzenia opierających się na nich interesów – zajmuje im to właśnie kilka milisekund. Dlatego po ujawnieniu owej niezwykle ważnej wiadomości zmiany na rynku następują szybciej, niż trwa mgnienie oka.

A czego dotyczy niezwykle ważna wiadomość, warta tyle pieniędzy dla Goldmana i wielu innych instytucji finansowych?

Miesięcznej stopy bezrobocia w kraju.

Ta informacja, która ma tak poważny wpływ na giełdę, że instytucje finansowe robią, co tylko mogą, aby jak najszybciej ją uzyskać, przeanalizować i rozpocząć na jej podstawie odpowiednie działania, jest jednak wynikiem telefonicznego sondażu, prowadzonego przez Bureau of Labor Statistics [Biuro Analizy Statystycznej Rynku Pracy], i kiedy zostaje opublikowana, liczy sobie już całe trzy tygodnie – czyli dwa miliardy milisekund.

Zdziwicie się zapewne bardziej niż trochę, że z jednej strony firmy wydają miliony dolarów na to, aby przyspieszyć przekaz tych danych o chociażby mikroskopijne wartości, a z drugiej rząd federalny oblicza stopę bezrobocia tak powoli.

Kiedy w 2011 roku Alan Krueger, współpracownik prezydenta Obamy i szef jego Council of Economic Advisors [Rady Ekonomicznej], obejmował swoje stanowisko, starał się przyspieszyć publikację tych niezwykle ważnych informacji. Bezskutecznie. „Albo BLS nie ma na to środków – powiedział – albo jego pracownicy utknęli umysłowo w XX wieku”[2].

Rząd najwyraźniej nie zamierza w najbliższej przyszłości przyspieszyć w tej kwestii, ale czy istnieje jakiś sposób, by nieco szybciej chociaż z grubsza oszacować miesięczną stopę bezrobocia? Czy w czasach nowoczesnych technologii, kiedy niemal każde kliknięcie w Internecie zostaje gdzieś zapisane, naprawdę musimy czekać całymi tygodniami, żeby się dowiedzieć, ile osób w kraju pozostaje bez pracy?

Jedno potencjalne rozwiązanie zaproponował były pracownik Google’a Jeremy Ginsberg, który zauważył, że rząd federalny wypuszcza informacje dotyczące zdrowia obywateli z dużym opóźnieniem, dokładnie tak samo jak dane o bezrobociu. Centers for Disease Control and Prevention [Ośrodki Kontroli Chorób i Prewencji Zdrowotnej] publikują na przykład statystyki zachorowań na grypę z tygodniowym poślizgiem, mimo że szpitale i lekarze bardzo by skorzystali na znacznie szybszym dostępie do tych danych.

 

Ginsberg przypuszczał, że osoby chore na grypę szukają w sieci odpowiedzi na pytania związane z tą chorobą – czyli że, krótko mówiąc, zwierzają się z jej symptomów wyszukiwarce – i że dzięki temu można ustalić stosunkowo dokładną liczbę zakażeń. Miał rację, bo wyszukiwania takie jak „objawy grypy” czy „bóle mięśniowe” szybko okazały się ważnymi wskaźnikami[3] tempa rozprzestrzeniania się choroby[4*].

Tymczasem informatycy z Google’a stworzyli serwis internetowy, Google Correlate, który umożliwia badaczom spoza firmy prowadzenie tego rodzaju analiz w bardzo wielu sferach naszego życia, nie tylko w zakresie opieki zdrowotnej. Dzisiaj możemy więc wyodrębnić interesujące nas dane, które Google rejestruje w czasie, i sprawdzić, jakie wyszukiwania występują najczęściej w korelacji z ich zbiorem.

Na przykład korzystając z Google Correlate, Hal Varian, główny ekonomista Google’a, i ja ustaliliśmy, jakie wpisy internetowe pozwalają przewidywać zmiany cen nieruchomości[4]. Gdy ceny rosną, Amerykanie na ogół wrzucają w wyszukiwarki frazy typu „hipoteka 80/20”, „budowa nowych domów” czy „stopa aprecjacji”, a kiedy spadają, pojawia się „proces short sale”, „hipoteka o straconej wartości” albo „odsetki hipoteczne wolne od podatku”.

Czy zatem wpisy internetowe mogą być takim papierkiem lakmusowym bezrobocia jak w wypadku zachorowań na grypę albo cen nieruchomości? Czy dzięki temu, czego ludzie poszukują w Google’u, możemy stwierdzić, ile osób pozostaje bez pracy, i czy da się to zrobić dużo wcześniej, zanim rząd ogłosi wyniki swojego sondażu?

Pewnego dnia przepuściłem amerykańską stopę bezrobocia w latach 2004–2011 przez Google Correlate.

Jak myślicie, jaka fraza z trylionów wpisów z tego czasu pojawiała się w związku z bezrobociem najczęściej? Sądzicie może, że „pośredniak” albo coś w tym rodzaju? Owszem, plasował się wysoko, lecz nie na samej górze. „Nowe miejsca pracy”? One również figurowały wysoko, ale nie na szczycie.

W okresie, który objęła moja analiza, najczęściej występującym wpisem – choć jego forma się zmienia – była nazwa „Slutload”. Tak jest, ludzie najchętniej wyszukiwali portal pornograficzny. Na pierwszy rzut oka i pierwszy rumieniec może się to wydawać dosyć dziwne, należy jednak przypuszczać, że osoby bezrobotne mają sporo wolnego czasu. Wiele z nich siedzi samotnie w domu i się nudzi. Inna często wpisywana fraza – tym razem poza nieprzyzwoitymi portalami – brzmiała: „pasjans pająk”. To chyba również nie dziwi, bo nadal mówimy o ludziach, którzy najprawdopodobniej mają dużo czasu.

Nie twierdzę oczywiście, opierając się na jednej analizie, że śledzenie takich wyszukiwań jak „Slutload” czy „pasjans pająk” to najlepszy sposób, aby określić stopę bezrobocia. Rozrywki, jakim się oddają bezrobotni, zmieniają się w czasie (w pewnym okresie najpopularniejszym wpisem–korelatem bezrobocia był „rawtube”, inny portal porno), a żadna z nich sama z siebie ani trochę nie oddaje różnorodności w grupie bezrobotnych. Ogólnie rzecz biorąc, przekonałem się jednak, że cała mieszanka wpisów związanych z rozrywką może pomóc w ustaleniu stopy bezrobocia – i powinna być częścią skutecznego modelu predykcyjnego.

Powyższy przykład ilustruje pierwszą moc big data, każąc nam zweryfikować wyobrażenia o tym, co traktujemy jako dane. Wartość big data często wcale nie kryje się w wielkości zbioru, tylko w tym, że może nam zaproponować nowe obszary informacji, którym warto się przyjrzeć – takich informacji, jakich nigdy przedtem nie zbierano.

Przed wyszukiwarką Google’a mieliśmy do dyspozycji dane na temat niektórych sposobów spędzania wolnego czasu – znaliśmy na przykład liczbę biletów sprzedawanych na seanse kinowe – które mogły podpowiedzieć badaczom, ile Amerykanie rzeczywiście go mają. Ale dopiero dzisiaj możemy sprawdzić, jak często internauci stawiają w sieci pasjanse i ile czasu poświęcają na oglądanie pornografii, a są to informacje zarówno nowe, jak i niezwykle znaczące. W tym konkretnym wypadku analiza danych może nam pomóc określić znacznie prędzej, jak radzi sobie krajowa gospodarka – w każdym razie dopóki rząd nie zacznie szybciej przeprowadzać sondaży i upowszechniać ich wyników.

Życie na kampusie Google’a w Mountain View w Kalifornii radykalnie różni się od pracy w głównej siedzibie banku Goldman Sachs na Manhattanie. Biura Google’a są właściwie puste jeszcze o dziewiątej rano. Jeśli kręcą się w nich jacyś pracownicy, to zapewne po to, by zjeść darmowe śniadanie, na które składają się naleśniki bananowo-jagodowe, jajecznica z samych białek i filtrowana woda z ogórków. Niektórzy przebywają chyba poza miastem: są na jakimś spotkaniu w Boulder czy Las Vegas albo na darmowej wycieczce narciarskiej nad jeziorem Tahoe. Mniej więcej w porze lunchu zapełnią się boiska do gry w siatkówkę plażową i trawiaste boisko do piłki nożnej. Najlepsze burrito w życiu jadłem w meksykańskiej restauracji Google’a.

Jak to możliwe, że jedna z największych i najbardziej konkurencyjnych firm technologicznych na świecie pracuje na takim luzie i jest dla swoich pracowników tak hojna? Google okiełznał big data jak żadna inna firma, przekształcając zbiór danych w maszynkę do robienia pieniędzy. Wspominam ją często w tej książce, bo to właśnie ta wyszukiwarka stanowi zdecydowanie najważniejsze źródło big data. Trzeba jednak pamiętać, że sukces Google’a sam został zbudowany na zbiorze nowych danych.

Jeżeli jesteście w takim wieku, że korzystaliście z Internetu jeszcze w XX stuleciu, to może pamiętacie pierwsze wyszukiwarki z tamtych lat – MetaCrawler, Lycos czy AltaVista, żeby wymienić choć kilka. I chyba też pamiętacie, że bywały one dość zawodne. Jeśli sprzyjało wam szczęście, czasami udawało im się znaleźć to, czego potrzebowaliście, ale rzadko. Jeszcze w drugiej połowie lat dziewięćdziesiątych po wpisaniu w największą ówczesną wyszukiwarkę hasła „Bill Clinton” pośród najczęstszych wyników pojawiała się na przykład jakaś przypadkowa strona, głosząca po prostu, że „Bill Clinton jest do dupy”, albo witryna, gdzie można było znaleźć marnej jakości dowcipy o Clintonie – czyli że dostawaliśmy z tych źródeł stosunkowo mało istotne informacje o ówczesnym prezydencie Stanów Zjednoczonych.

W 1998 roku na rynku pojawił się Google, którego wyniki wyszukiwania okazały się bezdyskusyjnie lepsze od całej konkurencji. Jeżeli w 1998 roku wpisaliście w Google’a „Bill Clinton”, dostawaliście w odpowiedzi adres jego strony internetowej, adres mejlowy Białego Domu i najlepsze biogramy prezydenta, jakie można było wtedy znaleźć w sieci. Google czynił czary.

Co takiego zrobili jego założyciele, Sergey Brin i Larry Page, że ich wyszukiwarka działała inaczej?[5].

Konkurencyjne algorytmy znajdowały dla swoich użytkowników strony, na których najczęściej pojawiała się szukana fraza. Jeżeli interesowały cię informacje o Billu Clintonie, to znajdowały w Internecie te strony, na których go najczęściej wzmiankowano. Istniało wiele powodów, dla których taki system był niedoskonały, a jednym z nich jest to, że łatwo go było oszukać. Na przykład portal z dowcipami, gdzie na jakiejś stronie ukrywałby się, powiedzmy, tekst typu „Bill Clinton Bill Clinton Bill Clinton Bill Clinton”, zostałby sklasyfikowany wyżej niż oficjalna strona Białego Domu[5*].