Wszyscy kłamiąTekst

Przeczytaj fragment
Oznacz jako przeczytane
Jak czytać książkę po zakupie
Nie masz czasu na czytanie?
Posłuchaj fragmentu
Wszyscy kłamią
Wszyscy kłamią
− 20%
Otrzymaj 20% rabat na e-booki i audiobooki
Kup zestaw za 69,80  55,84 
Wszyscy kłamią
Audio
Wszyscy kłamią
Audiobook
Czyta Tomasz Sobczak
34,90  25,48 
Szczegóły
Czcionka:Mniejsze АаWiększe Aa

Brin i Page znaleźli natomiast sposób rejestrowania informacji nowego typu, i to o wiele bardziej wartościowych niż prosta liczba powtórzeń danego wyrazu. Portale internetowe często tworzyły związane z poruszanym tematem linki do stron, które ich zdaniem mogły być pomocne w jego przybliżeniu. Na przykład jeśli Billa Clintona wspominał „New York Times”, odsyłał czytelników, którzy kliknęli jego nazwisko, na oficjalną stronę Białego Domu.

Każdy portal tworzący taki link w pewnym sensie wyrażał opinię o tym, gdzie można znaleźć najlepsze wiadomości o Clintonie. Brinowi i Page’owi udało się zebrać wszystkie tego rodzaju opinie na każdy temat. Ściągali je[6] z „New York Timesa”, od milionów użytkowników systemu obsługi list dyskusyjnych Listserv, setek blogerów i innych internautów. Jeżeli cała masa ludzi uważa, że najważniejszym linkiem związanym z hasłem „Bill Clinton” jest jego oficjalna strona internetowa, to można przypuszczać, że większość internautów, wpisująca w wyszukiwarkę nazwisko prezydenta, chciałaby zobaczyć właśnie tę stronę.

Te linki niesłychanie ułatwiały dostęp do najbardziej użytecznych informacji na żądany temat i były danymi, których inne wyszukiwarki nie brały nawet pod uwagę. Trzeba tu podkreślić, że Google nie zdominował rynku wyszukiwarek wyłącznie dlatego, że zgromadził więcej danych niż jego konkurenci, tylko dlatego, że miał lepsze dane. W ciągu niecałych dwóch lat napędzany analizą linków Google stał się najpopularniejszą wyszukiwarką internetową na świecie, a Brin i Page są dzisiaj warci ponad sześćdziesiąt miliardów dolarów.

To, co jest prawdą o Google’u, obchodzić musi wszystkich, którzy wykorzystują analizę danych, aby zrozumieć świat. Rewolucja big data polega nie tyle na gromadzeniu coraz większej ilości informacji, ile na gromadzeniu informacji dobrych, odpowiednich do realizacji zadanego celu.

Internet to wszakże nie jedyne miejsce, gdzie można zbierać nowe informacje i gdzie dostęp do odpowiednich danych może przynieść przełomowe rezultaty. Niniejsza książka dotyczy w dużym stopniu tego, w jaki sposób materiały z sieci mogą nam pomóc lepiej poznać człowieka, ale następny podrozdział nie ma nic wspólnego z danymi z Internetu. Ba, nie ma nawet nic wspólnego z ludźmi, dobrze ilustruje jednak główną tezę niniejszego rozdziału, czyli nieocenioną wartość nowych, niekonwencjonalnych danych. Zasady, których możemy się z niego nauczyć, pozwolą nam lepiej zrozumieć zachodzącą właśnie na naszych oczach cyfrową rewolucję informacyjną.

CIAŁO JAKO ZBIÓR DANYCH

Latem 2013 roku pewną niewielką stajnię w północnej części stanu Nowy Jork zajmował więcej niż średniej wielkości, kasztanowaty koń o czarnej grzywie. Był jednym ze stu pięćdziesięciu dwóch jednoroczniaków wystawionych na sprzedaż w odbywającej się w sierpniu aukcji Fasig-Tipton Selected Yearling Sale w Saratoga Springs i jednym z dziesięciu tysięcy, które miały trafić na licytację tamtego roku.

Kiedy zamożni mężczyźni albo bogate kobiety wykładają duże pieniądze na konia wyścigowego, to chcą mieć zaszczyt wybrania dla niego imienia. Dlatego ten kasztanek jeszcze go nie miał i jak większość zwierząt na wyprzedaży nosił tylko numer swojej stajni: 85.

Niewiele wyróżniało tego konia wśród innych. Miał dobry, chociaż wcale nie rewelacyjny rodowód. Jego ojciec, Pioneerof (sic!) the Nile, był znakomitym koniem wyścigowym, lecz jego inne dzieci nie odnosiły zbyt wielkich sukcesów na torze. Wątpliwości budził także stan zdrowia Numeru 85. Miał na przykład zadrapanie w okolicach pęciny, niektórzy kupujący obawiali się więc, że jest to oznaka jakiejś kontuzji.

Ówczesnym właścicielem tego konia był egipski magnat piwny Ahmed Zayat, który przyjechał na aukcję z nadzieją na jego sprzedaż i kupno kilku innych jednoroczniaków.

Jak prawie wszyscy właściciele, Zayat wynajął zespół ekspertów, którzy mieli mu dopomóc w wyborze koni przy kupnie. Specjaliści Zayata różnili się jednak nieco od tych, z których usług korzystali prawie wszyscy nabywcy poza nim. Typowy koński znawca, jakiego można spotkać na takich imprezach, jest zwykle w średnim wieku, pochodzi z Kentucky albo florydzkiej wsi i nie ma szczególnie imponującego wykształcenia, choć jego rodzina zazwyczaj już od pokoleń zajmuje się handlem końmi. Eksperci Egipcjanina wywodzili się jednak z niewielkiej firmy o nazwie EQB, a jej szef nie należał do oldskulowych znawców koni. Nazywał się Jeff Seder, był urodzonym w Filadelfii ekscentrykiem i mógł się pochwalić kilkoma dyplomami z Harvardu.

Zayat ludzi z EQB zatrudniał już wcześniej, znał więc sposób ich pracy. Po kilku dniach, bo tyle zajmowała im ocena zwierząt, mieli do niego wrócić z mniej więcej pięcioma nowymi propozycjami na miejsce Numeru 85.

Tym razem stało się inaczej. Zespół Sedera po powrocie stwierdził, że nie może spełnić jego prośby. Po prostu nie mogli mu zarekomendować żadnego ze stu pięćdziesięciu jeden pozostałych koni wystawianych tego dnia na sprzedaż. Zgłosili natomiast nieoczekiwaną i niemal desperacką prośbę. Zayat absolutnie i z całą pewnością nie powinien sprzedawać Numeru 85. Bo ten koń, oświadczyli specjaliści z EQB, nie tylko jest najlepszym koniem na aukcji, ale też najlepszym koniem roku, a może nawet dekady. „Niech pan lepiej sprzeda dom – zaklinali Zayata. – Byle nie tego konia”[8].

Następnego dnia bez zbędnych fanfar konia o numerze 85 kupił za trzysta tysięcy dolarów człowiek nazwiskiem Incardo Bloodstock. Jak później ujawniono, był to pseudonim Ahmeda Zayata. W odpowiedzi na prośby Sedera odkupił własnego konia, była to zatem sprawa niemal bez precedensu (zasady aukcyjne nie pozwalały Zayatowi po prostu wycofać konia ze sprzedaży, musiał więc przeprowadzić transakcję pod pseudonimem). Drożej niż Numer 85 sprzedano aż sześćdziesiąt dwa jednoroczniaki, przy czym dwa z nich osiągnęły ceny powyżej miliona dolarów.

Po trzech miesiącach Zayat wybrał w końcu imię dla Numeru 85: American Pharoah. Półtora roku później w ciepły sobotni wieczór na przedmieściach Nowego Jorku American Pharoah został pierwszym koniem od przeszło trzydziestu lat, który zdobył Potrójną Koronę.

Co takiego wiedział Jeff Seder o koniu numer 85, czego nie wiedział nikt inny? Jak to się stało, że facet po Harvardzie nauczył się tak dobrze oceniać sportową wartość koni?

Pierwszy raz spotkałem się z Sederem[9], wtedy sześćdziesięcioczterolatkiem, upalnego czerwcowego popołudnia w Ocala na Florydzie, ponad rok po zdobyciu Potrójnej Korony przez American Pharoah. Były to trwające tydzień widowiskowe zawody dla dwulatków, zakończone aukcją podobną do tej z 2013 roku, na której Zayat sam od siebie odkupił swojego ogiera.

Seder ma dźwięczny głos, przypominający trochę głos Mela Brooksa, gęste włosy i porusza się wyraźnie sprężystym krokiem. Był w szelkach, spodniach khaki i czarnej koszuli z logo swojej firmy. Nosił aparat słuchowy.

Przez następne trzy dni opowiadał mi historię swojego życia – i o tym, jak doszedł do tego, że tak dobrze nauczył się oceniać konie wyścigowe. Nie zmierzał prostą drogą. Ukończył na Harvardzie swoje pierwsze studia magna cum laude, należał do zrzeszającej najlepszych studentów organizacji Phi Beta Kappa, po czym zrobił jeszcze na tej samej uczelni drugi dyplom z prawa i biznesu. W wieku dwudziestu sześciu lat zaczął pracować jako analityk dla Citigroup w Nowym Jorku, gdzie jednak czuł się nieszczęśliwy i wypalony. Któregoś dnia, siedząc w atrium w nowych biurach firmy na Lexington Avenue, zaczął się przyglądać dużemu muralowi, przedstawiającemu otwarte pole. Malowidło przypomniało mu o jego miłości do wsi i koni. Wrócił do domu i wciąż tkwiąc w trzyczęściowym garniturze, przejrzał się w lustrze. Zrozumiał, że nie nadaje się do pracy w bankowości i nie powinien mieszkać w Nowym Jorku. Rano złożył w firmie wymówienie.

Przeprowadził się na wieś, do Pensylwanii, i imał się tam wielu różnych zajęć, od handlu tekstyliami po medycynę sportową, aż wreszcie poświęcił się bez reszty swojej pasji, czyli zaczął oceniać sportowe szanse koni wyścigowych. Matematyka jest w tej dziedzinie brutalna. Z tysiąca dwulatków prezentowanych na aukcji w Ocala, jednej z najbardziej prestiżowych w kraju, może pięć wygra kiedyś jakąś gonitwę o liczącą się finansowo nagrodę. A pozostałych dziewięćset dziewięćdziesiąt pięć zwierząt? Mniej więcej jedna trzecia[10] okaże się zbyt wolna. Jedna trzecia dozna kontuzji, w większości dlatego, że ich nogi nie będą w stanie wytrzymać olbrzymiego wysiłku fizycznego, jakiego wymaga bieg ze wszystkich sił (każdego roku na amerykańskich torach zdychają setki koni[11], głównie właśnie z powodu złamanych nóg[12]). I wreszcie jedna trzecia będzie cierpieć na coś, co można by nazwać syndromem Bartleby’ego. Bartleby, skryba z genialnego opowiadania Hermana Melville’a, przestaje nagle pracować i na każdą prośbę ze strony chlebodawcy odpowiada, że wolałby jej więcej nie spełniać. A wiele koni już u progu swojej kariery sportowej najwyraźniej zdaje sobie sprawę, że wcale nie muszą biegać, jeśli nie mają na to ochoty. Zaczynają czasem gonitwę w szybkim tempie, lecz w pewnym momencie zwalniają lub w ogóle się zatrzymują. Bo po co biegać po jajowatym torze ile sił w nogach, zwłaszcza jeśli bolą cię kopyta i pęciny? Niektóre konie wyścigowe uznają zatem, że lepiej tego nie robić (mam słabość do wszystkich Bartlebych, zarówno wśród zwierząt, jak i ludzi).

Skoro szanse na sukces są tak nikłe, to jak można wskazać dobrego konia? Panowała rozpowszechniona opinia, że najłatwiej przewidzieć, czy koń będzie wygrywał, jeżeli przyjrzymy się jego rodowodowi, a być ekspertem od koni oznacza, że umie się wyrecytować wszystko, co można by chcieć wiedzieć o ich ojcach, matkach, dziadkach, babciach, braciach i siostrach. Fachowcy powiadają na przykład, że duży koń „osiągnął swoje rozmiary prawowicie”, jeśli w jego drzewie genealogicznym ze strony matki występuje wielu rosłych przodków.

 

Jest jednak pewien problem. Rodowód ma wprawdzie znaczenie, lecz za jego pomocą można jedynie cząstkowo wyjaśnić sukces konia. Weźmy pod lupę wyniki najbliższego rodzeństwa wszystkich zdobywców tytułu Konia Roku, najbardziej prestiżowej dorocznej nagrody na świecie. Te zwierzęta mogą się poszczycić najlepszym możliwym pochodzeniem, bo przecież ich drzewo genealogiczne jest takie samo jak koni, które przeszły do historii. Mimo to więcej niż trzy czwarte[13] z nich nie wygrywa w życiu ani jednej ważniejszej gonitwy. Analiza danych mówi nam wyraźnie, że ten tradycyjny sposób przewidywania przyszłych sukcesów konia na torze wyścigowym pozostawia wiele do życzenia.

Właściwie jednak nie powinniśmy się dziwić, że rodowód wcale nie jest takim dobrym materiałem predykcyjnym. Pomyślcie o ludziach. I wyobraźcie sobie właściciela drużyny NBA, który opierając się na rodowodach, kupuje do niej graczy, kiedy mają dopiero dziesięć lat. Wynająłby pewnie fachowca, by przyjrzał się Earvinowi Johnsonowi III, synowi „Magica” Johnsona. „Na razie ładnie rośnie – mógłby powiedzieć fachowiec. – Prawowity wzrost, z linii Johnsonów. Powinien mieć w przyszłości świetną orientację na boisku, wzrost i szybkość, i nie będzie chyba egoistą. Sprawia wrażenie towarzyskiego, świetna osobowość. Pewny krok. Łatwo nawiązuje kontakty. Warto na niego postawić”. Niestety dwadzieścia dwa lata później właściciel tego zespołu dostałby gracza wzrostu sześciu stóp i dwóch cali (czyli niskiego jak na zawodowego koszykarza), a przy tym będącego blogerem modowym dla „E!”. Earvin Johnson III[14] mógłby mu bardzo pomóc w projektowaniu strojów dla zawodników, lecz nie okazałby się szczególnie przydatny na parkiecie.

Właściciel drużyny z NBA, który kompletowałby zawodników, tak jak wybiera się konie wyścigowe, oprócz modowego blogera rzuciłby się też pewnie na Jeffreya i Marcusa, synów Michaela Jordana, którzy okazali się zaledwie średniej klasy graczami ligi akademickiej – możemy więc im tylko życzyć powodzenia w meczu przeciwko Cleveland Cavaliers z LeBronem Jamesem na czele, choć jego matka mierzy zaledwie pięć stóp i pięć cali wzrostu[15]. Albo wyobraźcie sobie kraj, który na podstawie drzewa genealogicznego wybiera prezydenta: wtedy przewodziliby w nim ludzie tacy jak George W. Bush (sorki, nie mogłem się powstrzymać).

Znawcy koni korzystają też oczywiście z innych informacji niż rodowodowe. Analizują na przykład chody dwulatków i uważnie im się przyglądają. W Ocala prowadziłem jednak na tyle długie rozmowy z różnymi ekspertami, aby się zorientować, że w gruncie rzeczy nie zgadzają się ze sobą co do tego, czego szukają.

Do wszystkich tych mnożących się sprzeczności i niepewności dochodzą kupujący, którzy jak się zdaje, dysponują czasem niemal nieograniczonymi funduszami, co w sumie składa się na sporą liczbę pomyłek na końskim rynku. Dziesięć lat temu koń numer 153 był najszybszym dwulatkiem, wszystkim ekspertom wydawał się piękny, a do tego jako potomek pary Northern Dancer / Secretariat, dwójki najlepszych koni wyścigowych wszech czasów, miał wspaniały rodowód. Chcieli go kupić pewien irlandzki miliarder i szejk z Dubaju. Doszło nawet między nimi do wojny licytacyjnej, która szybko przerodziła się w rywalizację czysto ambicjonalną. Setki amatorów koni wyścigowych przyglądało się coraz wyższym stawkom, aż wreszcie dwulatka sprzedano za szesnaście milionów dolarów, zdecydowanie najwyższą kwotę w historii. Ale Numer 153, któremu nadano imię Green Monkey[16], pobiegł w życiu tylko w trzech wyścigach, zarobił zaledwie dziesięć tysięcy dolarów i został szybko odesłany na emeryturę.

Sedera nigdy nie interesowały tradycyjne kryteria oceny konia, lecz konkretne informacje. Zamierzał przebadać różne cechy koni wyścigowych i sprawdzić, które mają wpływ na ich wyniki. Trzeba tu zauważyć, że chociaż opracował swój program na pięć lat przed wynalezieniem Internetu, to jego strategia w znacznym stopniu opierała się na analizie danych. Wszystko, czego się przy okazji nauczył, będzie przydatne każdemu, kto korzysta z big data.

Przez długie lata poszukiwania Sedera dostarczały mu samych rozczarowań. Mierzył na przykład wielkość końskich chrap i stworzył pierwszą i największą na świecie bazę danych na ten temat, która, nawiasem mówiąc, w końcu przyniosła zyski. Okazało się jednak, że wielkość chrap nie ma związku z dobrymi wynikami na torze. Robił też koniom EKG i badał odcięte nogi padłych zwierząt, by mierzyć wielkość ich mięśni szybkokurczliwych. Raz chwycił nawet szpadel przed wejściem do stajni, żeby ważyć końskie ekskrementy, ponieważ pojawiła się teoria, że koń będzie wolniejszy, jeżeli przed wyścigiem straci za dużo na wadze. Nie znalazł jednak czynników, które miałyby wpływ na sukcesy zwierząt na torze.

Potem, dwanaście lat temu, dokonał pierwszego istotnego odkrycia. Postanowił przeprowadzać pomiary wielkości wewnętrznych organów koni. Ówczesna technologia na to nie pozwalała, skonstruował więc własny przenośny ultrasonograf. Rezultaty były zdumiewające. Okazało się, że wielkość serca, a zwłaszcza jego lewej komory, jest niezwykle ważnym elementem, dzięki któremu można prognozować najważniejszą zmienną – wyniki zwierzęcia na torze. Innym istotnym dla sukcesów organem, odkrył Seder, jest śledziona: konie z małą śledzioną właściwie nigdy nie odnosiły zwycięstw.

Powiodło mu się jeszcze w dwóch kwestiach. Po pierwsze, zapisał cyfrowo nagrania galopujących koni i odkrył, że wpływ na dobre wyniki mają niektóre chody. Poza tym ustalił, że są dwulatki zaczynające rzęzić już po przebiegnięciu jednej ósmej mili. Ceny takich zwierząt sięgają niekiedy nawet miliona dolarów, lecz dane zebrane przez Sedera mówiły, że końscy astmatycy nigdy nie robią dobrych czasów na torze, zatrudnił więc asystenta, który siedział na mecie i wyławiał ich spośród startujących.

Z tysiąca koni na aukcji w Ocala wszystkie testy Sedera przeszłoby pozytywnie może około dziesięciu. Jeff w ogóle nie zwraca uwagi na rodowód, bierze pod uwagę wyłącznie wpływ, jaki drzewo genealogiczne może wywrzeć na cenę zwierzęcia. „Rodowód mówi nam, że taki czy inny koń ma znikome szanse na wielki sukces – twierdzi. – Ale jeżeli widzę na własne oczy, że jest świetny, to co mnie może obchodzić, kim byli jego przodkowie?”

Pewnego wieczoru zaprosił mnie do swojego pokoju w hotelu Hilton w Ocala, wyciągnął zdjęcia żony, córki i syna i opowiedział mi o swoim dzieciństwie, rodzinie oraz drodze do zawodu. Był jednym z trzech żydowskich uczniów w liceum w Filadelfii; gdy zdawał maturę, mierzył cztery stopy i dziesięć cali wzrostu (na studiach dobił do pięciu stóp i dziewięciu cali). Opowiedział mi też o swoim ulubionym koniu, który nosił nazwę Pinky Pizwaanski. Seder kupił go i sam nadał mu to imię na cześć pewnego gejowskiego dżokeja. Uważał, że Pinky – koń – zawsze dawał z siebie wszystko, chociaż nie należał do najlepszych na torze.

W końcu pokazał mi plik komputerowy zawierający wszystkie dane o koniu numer 85, dzięki któremu osiągnął największy sukces w życiu. Czy wyjawiał mi sekret? Być może, ale jak powiedział, nic go to nie obchodziło. Ważniejsze niż ochrona tajemnicy było dla niego to, że jak ostatecznie udowodnił, miał rację; chciał pokazać światu, że warto było przez dwadzieścia lat obcinać nogi padłym zwierzętom, szuflować łajno i własnoręcznie konstruować ultrasonografy.

Oto kilka informacji o koniu numer 85:

Percentyle Numeru 85 (później American Pharoah) jako jednoroczniaka


Percentyl
Wzrost 56
Waga 61
Rodowód 70
Lewa komora serca 99,61

Można więc było zobaczyć czarno na białym, dlaczego Seder i jego zespół dostali takiej obsesji na punkcie Numeru 85: ze względu na percentyl lewej komory jego serca!

Poza tym wszystkie pozostałe organy wewnętrzne tego konia, w tym śledziona, również były wyjątkowo duże. Jeff odkrył, że im większa lewa komora serca, tym na ogół dla konia wyścigowego lepiej, chociaż lewa komora takich rozmiarów może także być oznaką choroby, jeżeli inne narządy wewnętrzne są niewspółmiernie małe. American Pharoah wszystkie najważniejsze organy miał jednak większe od przeciętnych, a lewą komorę olbrzymią. Z analizy danych wynikało, że Numer 85 to koń jeden na sto tysięcy, a może nawet na milion.

Czego więc analitycy mogą się nauczyć dzięki badaniom Sedera?

Po pierwsze i najważniejsze, jeżeli zamierzacie używać nowych danych, by zrewolucjonizować jakąś dziedzinę nauki, najlepiej jest zrobić to na takim polu, gdzie stare metody po prostu się nie sprawdzają. Obsesyjnie przywiązani do rodowodów znawcy, których pokonał Seder, pozostawili mnóstwo miejsca na rozmaite ulepszenia, podobnie jak nastawione wyłącznie na liczenie słów wyszukiwarki, które pokonał Google.

Pewną słabością Google’a, jeśli chodzi o prognozowanie zachorowań na grypę[17], jest to, że można już zupełnie dobrze przewidywać ich liczbę, po prostu stosując dane z ostatniego tygodnia i dokonując sezonowych korekt. Wciąż dyskutuje się o tym, jak wiele wnoszą do tego prostego i potężnego modelu informacje dotyczące wyszukiwań. Moim zdaniem Google ma większe szanse, gdy chodzi o schorzenia, o których pozyskujemy mniej danych, dlatego Google STD[6*] może okazać się w ostatecznym rozrachunku przydatniejszy niż Google Flu.

Drugi wniosek, jaki możemy wyciągnąć z dokonań Sedera, brzmi tak, że nie za bardzo trzeba się martwić o to, co sprawia, że wasza teoria się sprawdza. Jeff nie potrafił mi dokładnie wyjaśnić, dlaczego lewa komora serca ma tak poważny wpływ na wyniki konia wyścigowego, nie był też w stanie powiedzieć, dlaczego taka istotna jest śledziona. Być może pewnego dnia końscy kardiolodzy i hematolodzy rozwikłają te zagadki, na razie jednak nie ma to znaczenia. Seder zajmuje się prognozowaniem, nie wyjaśnianiem. A w prognozowaniu trzeba po prostu umieć przewidzieć, że coś się stanie – nie trzeba wiedzieć dlaczego.

Na przykład Walmart korzysta z danych o sprzedaży we wszystkich swoich sklepach, żeby ustalić, jakie produkty powinny się znajdować na ich półkach. Przed atakiem huraganu Frances, który uderzył na południowo-wschodnie wybrzeże Stanów Zjednoczonych w 2004 roku, Walmart podejrzewał – całkiem słusznie – że w oczekiwaniu na atak niszczycielskiego wiatru ludzie chyba zmienią trochę zwyczaje konsumenckie, pracownicy firmy przejrzeli zatem dane o zakupach, jakie robili mieszkańcy przed uderzeniami wcześniejszych huraganów. Co kupowano najczęściej? Ciastka Pop-Tarts o smaku truskawkowym[18]. Przed nadejściem wichury ten właśnie produkt sprzedaje się nawet siedem razy lepiej niż zazwyczaj.

Opierając się na takiej analizie, Walmart zamówił całe ciężarówki tych ciastek i przetransportował je drogą międzystanową 95 do swoich sklepów w rejonie, gdzie miał uderzyć huragan. I rzeczywiście sprzedawały się dobrze.

Dlaczego akurat one? Może dlatego, że nie trzeba ich przechowywać w lodówce ani piec. A z jakiego powodu konsumenci preferują smak truskawkowy? Nie mam pojęcia. Wygląda jednak na to, że kiedy przychodzi kataklizm, sięgają najchętniej właśnie po te ciastka. Odtąd przed atakiem huraganu Walmart zawsze zapełnia swoje półki pudełkami truskawkowych pop-tartów. I nie jest ważne, z czego wynika ten związek, liczy się bowiem on sam. Może któregoś dnia uczeni od żywienia czy dietetycy zrozumieją, co łączy silny wiatr i kruche ciastka z dżemem truskawkowym, tymczasem jednak w oczekiwaniu na takie wyjaśnienie Walmart wciąż musi zapełniać półki swoich sklepów pop-tartami, gdy zbliża się sezon sztormów, rice krispies zachować natomiast na bardziej słoneczne dni.

Do podobnych wniosków jasno prowadzi też historia Orleya Ashenfeltera, ekonomisty z Uniwersytetu Harvarda, który jest takim autorytetem wśród winiarzy, jak Seder wśród znawców koni.

Jeszcze nieco ponad dziesięć lat temu Ashenfelter miał zmartwienie. Kupował dużo czerwonego wina z regionu Bordeaux we Francji – niekiedy było pyszne, warte wysokiej ceny, częściej jednak jego jakość przynosiła mu rozczarowanie.

 

Dlaczego, zastanawiał się Ashenfelter, trzeba płacić tyle samo za mniej smaczne wino?

Któregoś dnia dostał pewną wskazówkę od znajomego dziennikarza i konesera win. Okazało się, że można przewidzieć, czy wino będzie dobre. Kluczem do jego smaku, powiedział Ashenfelterowi ów znajomy, jest pogoda panująca w okresie dojrzewania winorośli.

Ashenfeltera zaintrygowała ta informacja. Próbował ustalić, czy jest prawdziwa i czy będzie mógł odtąd już zawsze kupować tylko dobre wino. Ściągnął sobie na komputer dane o pogodzie w rejonie Bordeaux z ostatnich trzydziestu lat. Zapisywał także ceny na aukcjach, na które wino trafia zwykle wiele lat od daty pierwotnej sprzedaży, bo dzięki nim można się zorientować, jakiej ostatecznie jest jakości.

Rezultaty tych dociekań były zdumiewające. W ogromnej większości przypadków smak wina zależał właśnie od pogody panującej w okresie dojrzewania.

Właściwie jakość wina da się sprowadzić do jednego prostego równania, które możemy nazwać Pierwszym Prawem Uprawy Winorośli:

Cena = 12,145 + 0,00117 opadów zimowych + 0,0614 średniej temperatury w okresie dojrzewania – 0,00386 opadów w czasie zbiorów.

Ale dlaczego jakość win z regionu Bordeaux zależy od tych czynników? Jak moglibyśmy wyjaśnić Pierwsze Prawo Uprawy Winorośli? Istnieje przynajmniej częściowe wytłumaczenie dla wzoru Ashenfeltera na dobre wino – wysoka temperatura i wilgotność gleby na wczesnym etapie wzrostu są niezbędne, by winogrona odpowiednio dojrzały.

Szczegóły tego predykcyjnego wzoru wykraczają jednak znacznie poza jakąkolwiek teorię i prawdopodobnie nie zostaną nigdy w pełni zrozumiane nawet przez znawców przedmiotu.

Dlaczego jeden centymetr zimowego deszczu zwiększa przeciętnie cenę butelki dojrzałego czerwonego wina o jedną dziesiątą centa? Dlaczego nie o dwie dziesiąte? Albo nie o pięć? Na te pytania nikt nie potrafi na razie odpowiedzieć. Wiadomo tylko, że jeśli w zimie spadnie dodatkowo tysiąc centymetrów deszczu, będziesz musiał zapłacić dodatkowego dolara za butelkę.

Ashenfelter nie wiedział zbyt dobrze, dlaczego jego regresja przynosi takie wyniki, ale kierował się nimi w wyborze win. I jak utrzymuje, „rezultaty są świetne”[19]. Jakość wina, które pija dzisiaj, wyraźnie się podniosła.

Jeśli chcesz przewidzieć przyszłość – wiedzieć, które wino będzie smaczne, które produkty będą się dobrze sprzedawać i które konie będą szybko biegać – nie musisz się za bardzo przejmować tym, dlaczego twoja teoria działa tak, jak działa. Powinieneś tylko wszystko poprawnie obliczyć. I to jest druga lekcja, jakiej udzielił nam Jeff Seder na przykładzie swojej przygody z końmi.

Ostatni wniosek, jaki mi się nasuwa na podstawie zakończonych powodzeniem wysiłków Sedera, by wytypować potencjalnego zwycięzcę Potrójnej Korony, brzmi: trzeba być otwartym i elastycznym, jeżeli chodzi o to, co uważamy za dane. Nie było przecież tak, że zanim pojawił się Seder, eksperci końscy starszej daty w ogóle lekceważyli dane analityczne – przeciwnie, pilnie studiowali rodowody koni wyścigowych i ich czasy na torze. Genialność pomysłu Sedera polegała na tym, żeby szukać tych danych tam, gdzie nikt inny jeszcze ich nie szukał, żeby wziąć pod uwagę niekonwencjonalne źródła informacji. Świeże i oryginalne spojrzenie może przynieść analitykowi wyłącznie korzyści.

SŁOWA JAKO DANE

Pewnego dnia w 2004 roku dwóch młodych ekonomistów, specjalistów od mediów, a w tamtym czasie doktorantów Harvardu, czytało doniesienia prasowe o niedawnej decyzji sądu w Massachusetts legalizującej małżeństwa homoseksualne.

Matt Gentzkow i Jesse Shapiro, bo tak nazywali się ci ekonomiści, zauważyli coś interesującego: że dwie gazety napisały o tym samym wydarzeniu uderzająco innym językiem. „Washington Times”, znany jako dziennik konserwatywny, zatytułował artykuł Homoseksualiści „biorą ślub” w Massachusetts, podczas gdy „Washington Post”, mający opinię gazety liberalnej, donosił, że jest to dzień zwycięstwa dla „par jednopłciowych”.

Nie ma się co dziwić, że różne wydawnictwa prasowe mogą mieć różne preferencje i że gazety mogą opisywać to samo wydarzenie z różnych punktów widzenia. Gentzkow i Shapiro zastanawiali się już wcześniej, czy mogliby wykorzystać swoje ekonomiczne wykształcenie do tego, aby zrozumieć światopoglądową stronniczość mediów. Dlaczego niektóre dzienniki i czasopisma prezentują bardziej liberalne, a inne bardziej konserwatywne opinie?

Gentzkow i Shapiro nie wiedzieli jednak, jak podejść do tego pytania. Nie potrafili opracować metody, dzięki której mogliby systematycznie i obiektywnie badać subiektywizm środków masowego przekazu.

W artykule o homoseksualnym ślubie zaciekawiło ich jednak głównie nie to, że dwie gazety przedstawiły tę sprawę inaczej, tylko to, na czym polegała różnica w ich opisie tego wydarzenia – a sprowadzała się ona do wyraźnej odmienności w doborze słów. W 2004 roku słowo „homoseksualiści”, którego użył „Washington Times”, było już w języku angielskim staroświeckim i nieco lekceważącym określeniem gejów, a wyrażenie „para jednopłciowa”, użyte w „Washington Post”, podkreślało fakt, że związki gejowskie to po prostu inna forma relacji uczuciowej.

Młodzi naukowcy zastanawiali się, czy język może być kluczem do zrozumienia stronniczości. Czy liberałowie i konserwatyści konsekwentnie używają różnych sformułowań? Czy słownictwo, stosowane w artykułach prasowych, może stanowić zbiór danych? Czego mogą dowieść takie badania amerykańskiej prasy? Skąd możemy wiedzieć, czy dana gazeta jest liberalna, czy konserwatywna? I czy uda nam się zrozumieć dlaczego? W 2004 roku nie były to pytania bezsensowne. Miliardy słów w amerykańskich gazetach zostały już wtedy uwolnione z więzienia druku albo mikrofilmu. Niektóre portale zapisywały teraz pełne teksty wszystkich artykułów publikowanych w niemal każdym tytule prasowym w Stanach Zjednoczonych, Gentzkow i Shapiro mogli je więc przeglądać i szybko zmierzyć stopień, w jakim język wpływał na stronniczość prasy. Mogli też dzięki temu przyczynić się do lepszego zrozumienia sposobów działania mediów informacyjnych.

Ale zanim powiemy, co zdołali ustalić, zostawmy na moment uczonych oraz ich próbę kwantyfikacji języka prasowego, porozmawiajmy natomiast o tym, w jaki sposób badacze z różnych dyscyplin używają tego nowego dla nich rodzaju danych – słów – po to, aby poszerzyć naszą wiedzę o naturze ludzkiej.

Oczywiście język zawsze interesował przedstawicieli nauk społecznych, badania językoznawcze zwykle wymagały jednak uważnej lektury tekstów, a przekształcanie ich gigantycznych porcji w dane naukowe nie było dawniej możliwe. Dziś dzięki komputerom oraz cyfryzacji wyszukiwanie określonego słownictwa w wielkich bazach tekstowych jest łatwe. W ten sposób język stał się obiektem badań big data. Linki wykorzystywane przez Google’a składają się ze słów, podobnie jak wpisy w tej wyszukiwarce, które analizuję. Niniejsza książka również składa się przede wszystkim ze słów. Język stał się niezwykle istotnym składnikiem rewolucji big data i zasługuje na osobny podrozdział. Wykorzystuje się go w analizach tak często, że powstała nowa poświęcona mu dziedzina badawcza: tekst jako zbiór danych.

Ważnym krokiem na tym polu jest Google Ngrams. Przed kilku laty dwóch młodych biologów, Erez Aiden i Jean-Baptiste Michel, zatrudniło swoich asystentów do tego, żeby liczyli jedno po drugim słowa w starych, zakurzonych tekstach, usiłując odkryć, w jaki sposób rozpowszechnia się znaczenie i sposób zastosowania pewnych wyrazów. Któregoś dnia Aiden i Michel dowiedzieli się o nowym projekcie Google’a, zmierzającym do cyfrowego zapisu znacznej części biblioteki światowej – a językoznawcy niemal od razu pojęli, że dzięki temu będzie im znacznie łatwiej zrozumieć historię języka.

Бесплатный фрагмент закончился. Хотите читать дальше?