Big Data

Tekst
0
Recenzje
Oznacz jako przeczytane
Jak czytać książkę po zakupie
Czcionka:Mniejsze АаWiększe Aa



Tytuł oryginału: Big Data: A Very Short Introduction

Rada Naukowa serii Krótkie Wprowadzenie

Jerzy Gajdka, Ewa Gajewska, Krystyna Kujawińska Courtney Aneta Pawłowska, Piotr Stalmaszczyk

Redaktorzy inicjujący serii Krótkie Wprowadzenie

Urszula Dzieciątkowska, Agnieszka Kałowska

Tłumaczenie

Robert Kowalczyk

Redakcja naukowa

Piotr Fulmański

Opracowanie redakcyjne

Anna Surendra, Sebastian Surendra

Korekta techniczna

Anna Sońta

Skład i łamanie

Munda – Maciej Torz

Projekt typograficzny serii

Tomasz Przybył

Projekt okładki

krzysztof de mianiuk

Zdjęcie wykorzystane na okładce: © Depositphotos.com/stillfx

Big Data: A Very Short Introduction was originally published in English in 2017. This translation is published by arrangement with Oxford University Press. Wydawnictwo Uniwersytetu Łódzkiego is solely responsible for this translation from the original work and Oxford University Press shall have no liability for any errors, omissions or inaccuracies or ambiguities in such translation or for any losses caused by reliance thereon

© Copyright by Dawn E. Holmes 2017

The moral rights of the author have been asserted

© Copyright for this edition by Uniwersytet Łódzki, Łódź 2021

© Copyright for Polish translation by Robert Kowalczyk, Łódź 2021

Publikacja sfinansowana ze środków Wydawnictwa Uniwersytetu Łódzkiego

Wydane przez Wydawnictwo Uniwersytetu Łódzkiego

Wydanie I. W.09310.19.0.M

Ark. wyd. 6,0; ark. druk. 9,75

Paperback ISBN Oxford University Press: 978-0-19-877957-5

ISBN 978-83-8220-061-4

e-ISBN 978-83-8220-062-1

Wydawnictwo Uniwersytetu Łódzkiego

90-131 Łódź, ul. Lindleya 8

www.wydawnictwo.uni.lodz.pl

e-mail: ksiegarnia@uni.lodz.pl

tel. 42 665 58 63

Spis treści

Spis ilustracji

Przedmowa

Podziękowania

1. Eksplozja danych

2. Dlaczego duże zbiory danych są ważne?

3. Przechowywanie dużych zbiorów danych

4. Analityka dużych zbiorów danych

5. Duże zbiory danych i medycyna

6. Duże zbiory danych, duży biznes

7. Bezpieczeństwo dużych zbiorów danych i przypadek Snowdena

8. Duże zbiory danych i społeczeństwo

Tabela wielkości bajtowych

Tabela kodów ASCII dla małych liter alfabetu

Lektura uzupełniająca

Indeks

Spis ilustracji

1. Diagram grupowania

2. Zestaw danych dotyczących oszustw ze znanymi klasyfikacjami

3. Drzewo decyzyjne dla transakcji

4. Uproszczony widok klastra Hadoop HFS

5. Baza danych klucz-wartość

6. Grafowe bazy danych

7. Zakodowany ciąg znaków

8. Drzewo binarne

9. Drzewo binarne z nowym wierzchołkiem

10. Kompletne drzewo binarne

11. Funkcja map

12. Funkcje mieszająca i redukująca

13. 10-bitowa tablica

14. Podsumowanie wyników funkcji mieszającej

15. Filtr Blooma dla złośliwych adresów e-mail

16. Graf skierowany reprezentujący niewielką część sieci

17. Graf skierowany reprezentujący niewielką część sieci z dodanym linkiem

18. Głosy oddane na każdą stronę

19. Książki zakupione przez Smitha, Jonesa i Browna

20. Indeks i odległość Jaccarda

21. Ranking gwiazdek za zakupy

Przedmowa

Książki poświęcone dużym zbiorom danych1 można podzielić na dwie kategorie: takie, które nie wyjaśniają kwestii, czym są duże zbiory danych, i takie, które wymagając usystematyzowanej wiedzy matematycznej, przeznaczone są tylko dla zaawansowanych studentów. Celem tej książki jest przedstawienie innego podejścia do kwestii, czym są duże zbiory danych i jak zmieniają świat; jaki wpływ mają na nasze codzienne życie, jak i na świat biznesu.

Kiedyś przez dane rozumiano kartki papieru, dokumenty, czasem zdjęcia, ale dzisiaj to coś znacznie więcej. Sieci społecznościowe generują duże ilości danych w formie obrazów, zdjęć i filmów. Zakupy przez Internet generują dane, kiedy podajemy nasz adres mailowy czy numer karty kredytowej. Jesteśmy w takim momencie historii, w którym gromadzenie i przechowywanie danych wzrasta w tempie niewyobrażalnym w stosunku do wcześniejszych dziesięcioleci i, jak zobaczymy dalej, nowe techniki analizy danych przekształcają je w użyteczne informacje. Podczas pisania tej książki odkryłam, że duże zbiory danych nie mogą być omawiane bez częstego odwołania się do tego, skąd pochodzą, co przechowują, a także bez ich analizy i użycia przez duże komercyjne firmy. Ponieważ w ośrodkach badawczych takich firm jak Google czy Amazon rozwijały się technologie związane z dużymi zbiorami danych, często będę się do nich odwoływała.

Pierwszy rozdział ogólnie zapoznaje czytelnika z różnorodnością danych, zanim będzie wyjaśnione, jak era cyfrowa doprowadziła do zmian w sposobie ich definiowania. Pojęcie dużych zbiorów danych wprowadzone jest nieformalnie przez ideę eksplozji danych, która obejmuje informatykę, statystykę i ich wzajemne powiązania. W rozdziałach od drugiego do czwartego wielokrotnie używam diagramów, które pozwalają wyjaśnić niektóre nowe metody wymagane w dużych zbiorach danych. Drugi rozdział poszukuje tego, co czyni duże zbiory danych wyjątkowymi, doprowadzając nas do lepszej definicji tego pojęcia. W rozdziale trzecim analizujemy kwestie związane z przechowywaniem i zarządzaniem dużymi zbiorami danych. Większości z nas znana jest konieczność robienia kopii zapasowych na osobistym komputerze. Ale jak tego dokonać w przypadku olbrzymiej ilości danych, które są obecnie generowane? Żeby odpowiedzieć na to pytanie, przyjrzymy się przechowywaniu danych i idei ich rozdzielenia pomiędzy grupy komputerów. Rozdział czwarty pokazuje, że duże zbiory danych są użyteczne tylko wtedy, gdy możemy wydobyć z nich istotne dla nas informacje. Zarys tego, jak dane przekształcane są w użyteczne informacje, podany jest z wykorzystaniem uproszczonych opisów kilku dobrze znanych technik.

Następnie przechodzimy do bardziej szczegółowych dyskusji na temat wykorzystania dużych zbiorów danych, rozpoczynając w rozdziale piątym od ich roli w medycynie. Rozdział szósty wyjaśnia praktyki biznesowe z analizą przypadków firm Amazon i Netflix, za każdym razem podkreślając różne cechy marketingu opartego na dużych zbiorach danych. W rozdziale siódmym przyglądamy się pewnym problemom związanym z bezpieczeństwem dużych zbiorów danych i ważności (konieczności) ich szyfrowania. Kradzież danych staje się dużym problemem i w tym miejscu przyjrzymy się niektórym znanym medialnie wydarzeniom, takim jak przypadek Snowdena i historia WikiLeaks. Na zakończenie rozdziału pokazano, w jaki sposób cyberprzestępczość stanowi problem wymagający brania pod uwagę w przypadku dużych zbiorów danych. W rozdziale ósmym rozważamy, jak duże zbiory danych zmieniają społeczeństwo, w którym żyjemy, poprzez rozwój zaawansowanych technologicznie robotów i ich roli w środowisku pracy. Książka kończy się rozważaniami dotyczącymi inteligentnych domów i miast przyszłości.

W krótkim wprowadzeniu nie jest możliwe poruszenie wszystkich zagadnień, mam więc nadzieję, że czytelnik będzie pogłębiał swoją wiedzę w oparciu o polecane na zakończeniu w części Lektura uzupełniająca materiały.

Podziękowania

Kiedy wspomniałam Peterowi, że chciałam podziękować za jego wkład w powstanie tej książki, zasugerował, abym napisała: „Dziękuję Peterowi Harperowi, bez którego wkładu w sprawdzenie pisowni książki byłaby to zupełnie inna książka”. Dodatkowo chciałabym podziękować mu za wiedzę w zakresie parzenia kawy oraz poczucie humoru! Wsparcie Petera jest nieocenione, zrobił dużo, dużo więcej i prawdą jest to, że bez jego nieustającej zachęty i konstruktywnego wkładu ta książka nie zostałaby napisana.

Dawn E. Holmes

kwiecień 2017 r.

Rozdział 1

Eksplozja danych

Czym są dane?

W 431 r. p.n.e. Sparta wypowiedziała wojnę Atenom. Tukidydes w swoim opisie wojny wyjaśnia, jak oblężone siły platejskie, lojalne w stosunku do Aten, planowały ucieczkę. Cel ten chciano osiągnąć, wspinając się i przechodząc przez mur otaczający Plateje, który został zbudowany przez siły peloponeskie kierowane przez Spartan. Aby to zrobić, potrzebowali wiedzieć, jak wysoki jest mur, po to, żeby skonstruować odpowiedniej wysokości drabiny. Większość muru peloponeskiego była pokryta chropowatym tynkiem z drobnych kamieni, ale znaleziono fragment, gdzie cegły były wyraźnie widoczne. W związku z tym dużej liczbie żołnierzy przydzielono zadanie liczenia warstw odsłoniętych cegieł w murze. Obliczenia były prowadzone w bezpiecznej, ale znacznej odległości od wroga, co wpływało na błędy rachunkowe, ale – jak wyjaśnia Tukidydes – biorąc pod uwagę, że wykonano wiele prób obliczeń, rezultat, który pojawiał się najczęściej, przyjęto za prawidłowy. Najczęściej pojawiający się wynik, który teraz nazwalibyśmy dominantą, został później użyty do obliczenia wysokości muru. Znając wymiary cegieł używanych w tym rejonie, platejanie byli w stanie skonstruować drabiny o wymaganej wysokości muru. To umożliwiło ucieczkę kilkuset ludziom, a ten epizod można uznać za najbardziej imponujący historyczny przykład pozyskiwania i analizy danych. Ale, jak zobaczymy dalej, pozyskiwanie, przechowywanie i analiza danych poprzedzała o stulecia nawet czasy Tukidydesa.

 

Na patykach, kamieniach i kościach odnalezione zostały nacięcia, które sięgają czasów górnego paleolitu. Choć nadal jest to przedmiotem dyskusji akademickiej, to nacięcia te uważane są za przykład danych reprezentujących liczby2. Być może najsłynniejszym tego przykładem jest kość z Ishango znaleziona w Demokratycznej Republice Konga w 1950 r., której wiek szacuje się na ok. 20 000 lat. Nacięcia te były różnie interpretowane, np. jako kalkulator czy kalendarz, choć są również opinie, że służyły do lepszego chwytania. Kość z Lebombo odkryta w latach 70. XX w. w Suazi jest jeszcze starsza i pochodzi z ok. 35 000 r. p.n.e. Z 29 nacięciami w poprzek ten fragment kości strzałkowej pawiana jest uderzająco podobny do kalendarzy umieszczanych na patykach przez Buszmenów w odległej Namibii, co sugeruje, że w rzeczywistości może to być metoda wykorzystywana do zapisu danych ważnych dla ich cywilizacji.

Podczas gdy interpretacja tych naciętych kości jest wciąż przedmiotem spekulacji, wiemy, że jednym z pierwszych dobrze udokumentowanych zastosowań danych jest spis ludności przeprowadzony przez Babilończyków w 3800 r. p.n.e. Ten spis powszechny systematycznie dokumentował liczbę ludności i towarów, takich jak mleko i miód, w celu zapewnienia informacji niezbędnych do obliczenia podatków. Pierwsi Egipcjanie również używali danych w postaci hieroglifów zapisanych na drewnie lub papirusie, w celu notowania dostaw towarów i śledzenia podatków. Wczesne przykłady używania danych w żadnym wypadku nie ograniczają się do Europy i Afryki. Inkowie i ich południowoamerykańscy poprzednicy, prowadząc statystyki do celów podatkowych i handlowych, używali zaawansowanego i złożonego systemu kolorowych sznurków wiązanych w supły, zwanych quipu, jako systemu obliczeń dziesiętnych. Te wiązane sznurki wykonane z jaskrawo barwionej bawełny lub wełny wielbłąda, pochodzą z trzeciego tysiąclecia przed naszą erą, i chociaż mniej niż tysiąc z nich przetrwało hiszpańską inwazję i późniejsze próby pozbycia się ich, należą do pierwszych znanych przykładów systemu do przechowywania dużych zbiorów danych. Obecnie opracowywane są algorytmy komputerowe w celu odkodowania pełnego znaczenia quipu i lepszego zrozumienia tego, w jaki sposób były wykorzystywane.

Pomimo że opisujemy te wczesne systemy liczbowe, używając słowa „dane”, jest ono w zasadzie wyrazem liczby mnogiej pochodzenia łacińskiego, gdzie liczbą pojedynczą jest słowo „datum”. „Datum” jest obecnie rzadko używanym słowem, a słowo „dane” (ang. data) jest używane zarówno w liczbie pojedynczej, jak i mnogiej3. Słownik oksfordzki przypisuje pierwsze znane użycie tego terminu XVII-wiecznemu angielskiemu duchownemu Henry’emu Hammondowi w kontrowersyjnym traktacie religijnym opublikowanym w 1648 r. Hammond użył w nim pojęcia „sterta danych” w znaczeniu teologicznym w nawiązaniu do niepodważalnych prawd religijnych. Ale chociaż ta publikacja wyróżnia się jako ta, która po raz pierwszy wprowadza użycie terminu „dane” w języku angielskim, nie posługuje się nim w nowoczesnym znaczeniu dla oznaczenia faktów i liczb dotyczących interesującej nas populacji. W dzisiejszym rozumieniu termin „dane” wywodzi się z rewolucji naukowej z XVIII w. reprezentowanego przez geniuszy, takich jak Priestley, Newton i Lavoisier. Po 1809 r. pojawiły się prace matematyków, takich jak Gauss i Laplace, którzy dali podwaliny pod współczesną metodologię statystyczną.

Na poziomie bardziej praktycznym dużą ilość danych zebrano w 1854 r. podczas wybuchu epidemii cholery na Broad Street w Londynie, co pozwoliło lekarzowi Johnowi Snowowi na zobrazowanie rozwoju epidemii. W ten sposób był w stanie poprzeć swoją hipotezę, że zanieczyszczona woda rozprzestrzeniała chorobę, co pozwoliło mu udowodnić, że to nie powietrze było przyczyną epidemii, jak wcześniej sądzono. Zbierając dane od lokalnych mieszkańców, ustalił, że wszyscy poszkodowani używają tej samej publicznej pompy wodnej. Następnie przekonał władze miejscowej parafii do jej unieruchomienia, przy czym cel ten osiągnięto poprzez usunięcie uchwytu pompy. Później Snow stworzył mapę pokazującą, że epidemia pojawiła się w skupiskach wokół pompy Broad Street. Kontynuował pracę w tej dziedzinie, zbierając i analizując dane, dzięki czemu obecnie jest znany jako pionier epidemiologii.

Kontynuując pracę Johna Snowa, epidemiolodzy i badacze społeczni coraz częściej uważają dane demograficzne za nieocenione źródło celów badawczych, a przeprowadzony obecnie w wielu krajach spis ludności pokazuje, że jest to cenne źródło informacji. Obecnie gromadzone są np. dane dotyczące urodzeń i zgonów, częstotliwości występowania różnych chorób i statystyki dotyczące dochodów i przestępstw, co nie było stosowane przed XIX w. Spis powszechny, który w większości krajów odbywa się co dziesięć lat, gromadzi coraz większe ilości danych, co doprowadza do sytuacji, w której ilość przetwarzanych danych przekracza możliwości ich rejestracji – ręcznej, prowadzonej za pomocą prostych maszyn liczących używanych wcześniej. Wyzwanie stojące przed przetwarzaniem tych stale rosnących ilości danych spisu powszechnego zostało w pewnym stopniu podjęte przez Hermana Holleritha podczas jego pracy w amerykańskim biurze do spraw spisu ludności.

Do momentu spisu powszechnego w Stanach Zjednoczonych w 1870 r. używano prostej maszyny liczącej, która w niewielkim stopniu ułatwiała pracę biura. Przełom nastąpił w czasie spisu powszechnego w 1890 r., kiedy użyto maszyny analityczno-liczącej4 Hermana Holleritha do przechowywania i przetwarzania danych. Na przetworzenie danych ze spisu powszechnego w Stanach Zjednoczonych potrzebowano zwykle ok. ośmiu lat, natomiast użycie tego wynalazku skróciło czas do jednego roku. Maszyna Holleritha zrewolucjonizowała analizę spisu powszechnego w krajach na całym świecie, w tym w Niemczech, Rosji, Norwegii i na Kubie.

W końcu Hollerith sprzedał swoją maszynę firmie, która przekształciła się w IBM. W konsekwencji maszyna ta została udoskonalona i zaczęto sprzedawać ją na szeroką skalę. W 1969 r. American National Standards Institute (ANSI) ustandaryzował format karty kodów Holleritha (Hollerith Card Code), uznając jego wkład w powstanie karty perforowanej.

Dane w erze cyfrowej

Przed powszechnym użyciem komputerów dane ze spisu powszechnego, eksperymentów naukowych lub starannie zaprojektowane przykładowe ankiety i kwestionariusze były zapisywane na papierze – proces ten był czasochłonny i kosztowny. Zbieranie danych mogło nastąpić dopiero po tym, gdy naukowcy zdecydowali, na które pytania chcieli odpowiedzieć, przeprowadzając eksperymenty i ankiety, a uzyskane w ten sposób, wysoce ustrukturyzowane dane, zapisane na papierze w uporządkowanych wierszach i kolumnach, były następnie poddawane tradycyjnym metodom analizy statystycznej. W pierwszej połowie XX w. niektóre dane były przechowywane na komputerach, co częściowo ułatwiało tę wymagającą wielu nakładów pracę, a było możliwe dzięki powstaniu sieci WWW (w skrócie sieci Web) w 1989 r. oraz jej szybkiemu rozwojowi. W rezultacie coraz bardziej możliwe stało się generowanie, gromadzenie, przechowywanie i analizowanie danych w formie elektronicznej. Nieuchronnym skutkiem tego było pojawienie się problemów powodowanych przez bardzo dużą ilość danych udostępnianych przez Internet, które to problemy musiały zostać rozwiązane. Przyjrzymy się najpierw, jak możemy rozróżniać różne typy danych.

Dane, które uzyskujemy z sieci Web, można sklasyfikować jako: ustrukturyzowane (ang. structured), nieustrukturyzowane (ang. unstructured) lub częściowo ustrukturyzowane (ang. semi-structured).

Dane ustrukturyzowane, w rodzaju tych zapisywanych ręcznie i przechowywanych w notatnikach lub szafkach na dokumenty, obecnie są przechowywane elektronicznie w arkuszach kalkulacyjnych lub bazach danych i składają się z tabel arkusza kalkulacyjnego z wierszami i kolumnami, przy czym każdy wiersz jest rekordem, a każda kolumna dobrze zdefiniowanym polem (np. imię i nazwisko, adres i wiek). Wspomagamy proces gromadzenia tego typu danych, gdy dostarczamy informacje niezbędne do zamówienia towarów przez Internet. Starannie ustrukturyzowane i zestawione w tabelach dane są względnie łatwe w zarządzaniu i podlegają analizie statystycznej, a do niedawna metody analizy statystycznej można było stosować tylko do danych ustrukturyzowanych.

Nieustrukturyzowane dane nie są natomiast tak łatwo kategoryzowane i obejmują zdjęcia, filmy, tweety i dokumenty do edycji tekstu. Gdy korzystanie z sieci stało się powszechne, okazało się, że wiele takich potencjalnych źródeł informacji pozostaje niedostępnych, ponieważ brakuje im strukturyzacji koniecznej do tego, aby zastosowanie istniejących technik analitycznych było możliwe. Identyfikując kluczowe cechy danych, trzeba jednak pamiętać, że te, które na pierwszy rzut oka wydają się nieustrukturyzowane, mogą nie być całkowicie pozbawione struktury. Na przykład wiadomości e-mail zawierają w nagłówku ustrukturyzowane metadane, a także tekst w postaci nieustrukturyzowanej wiadomości i mogą być klasyfikowane jako dane częściowo strukturalne. Znaczniki metadanych, które są zasadniczo opisowymi odniesieniami, mogą służyć do dodawania struktury do niestrukturalnych danych. Dodanie tagu słownego do obrazu w witrynie internetowej ułatwia jego identyfikację i wyszukiwanie. Częściowo ustrukturyzowane dane znajdują się również w serwisach społecznościowych, które używają hashtagów, aby umożliwić identyfikację wiadomości (które są danymi niestrukturalnymi) na określony temat. Radzenie sobie z danymi niestrukturalnymi jest trudne, ponieważ nie można ich przechowywać w tradycyjnych bazach danych lub arkuszach kalkulacyjnych. Konieczne było zatem opracowanie specjalnych narzędzi w celu wydobycia z tych danych przydatnych informacji. W kolejnych rozdziałach przyjrzymy się, jak przechowywane są dane niestrukturalne.

Tytułowy termin „eksplozja danych” odnosi się do coraz większej ilości strukturalnych, niestrukturalnych i częściowo strukturalnych danych generowanych z minuty na minutę. Przyjrzymy się niektórym z wielu różnych źródeł, które generują wszystkie te dane.

Wprowadzenie do dużych zbiorów danych

W czasie gromadzenia materiałów do tej książki zalała mnie ogromna ilość danych dostępnych w sieci – ze stron internetowych, czasopism naukowych oraz e-podręczników. Zgodnie z najnowszymi ogólnoświatowymi badaniami przeprowadzonymi przez firmę IBM każdego dnia generowanych jest ok. 2,5 eksabajtów (EB) danych. Jeden EB to 1018 (1 i po nim 18 zer) bajtów (lub milion terabajtów (TB) – zobacz tabelę wielkości bajtowych dla dużych zbiorów danych znajdującą się na końcu tej książki). Dobry laptop kupiony w momencie pisania tej monografii ma dysk twardy o pojemności zazwyczaj 1 lub 2 TB. Pierwotnie termin „duże zbiory danych” (ang. big data) odnosił się do bardzo dużych ilości danych wytwarzanych w świecie cyfrowym. Te ogromne ilości danych, zarówno strukturalnych, jak i niestrukturalnych, obejmują wszystkie dane w sieci Web generowane przez pocztę elektroniczną, strony internetowe oraz serwisy społecznościowe. Około 80% światowych danych to nieustrukturyzowane dane typu tekst, zdjęcia czy obrazy, więc nie można w odniesieniu do nich stosować tradycyjnych metod analizy danych, tak jak dla danych strukturalnych. Terminu „duże zbiory danych” nie stosuje się obecnie jedynie w odniesieniu do całkowitej ilości danych generowanych i przechowywanych elektronicznie, ale także do specyficznych zbiorów danych, które są duże zarówno pod względem wielkości, jak i złożoności i do których przebadania potrzebne są nowe techniki algorytmiczne w celu wydobycia z nich użytecznych informacji. Te duże zbiory danych pochodzą z różnych źródeł. W dalszej części książki przyjrzyjmy się im bardziej szczegółowo oraz generowanym przez nie danym.

Dane z wyszukiwarek

W 2015 r. wyszukiwarka Google była zdecydowanie najpopularniejszą wyszukiwarką na świecie. Wyszukiwarki Bing firmy Microsoft i Search firmy Yahoo zajmowały, odpowiednio, drugie i trzecie miejsce. Rok 2012 jest ostatnim rokiem, dla którego dostępne są dane mówiące o tym, że dziennie wykonywanych było 3,5 miliarda zapytań w samej tylko wyszukiwarce Google.

Wprowadzenie słowa kluczowego w wyszukiwarce powoduje wygenerowanie listy najbardziej pasujących stron internetowych, ale jednocześnie gromadzona jest znaczna ilość danych. Śledzenie ruchu w sieci generuje duże ilości danych. W ramach ćwiczenia szukałam informacji na temat rasy psów border collie i kliknęłam w link na samej górze listy wyszukiwania. Używając podstawowego oprogramowania śledzącego ruch w sieci, odkryłam, że kliknięcie na link tej jednej strony internetowej wygenerowało ok. 67 połączeń z witrynami stron trzecich. W celu śledzenia zainteresowań osób, które uzyskują dostęp do strony, informacje są w ten sposób udostępniane między przedsiębiorstwami komercyjnymi.

 

Za każdym razem, gdy korzystamy z wyszukiwarki internetowej, tworzone są rejestry zdarzeń, gdzie zapisywane są informacje o tym, które z polecanych witryn odwiedziliśmy. Rejestry te zawierają cenne informacje, takie jak: słowa kluczowe zapytania, adres IP używanego urządzenia, czas wysłania zapytania, czas pozostawania na każdej ze stron oraz kolejność ich odwiedzania – wszystko to bez identyfikacji nas z imienia i nazwiska. Ponadto rejestry kliknięć na stronach zapisują pełną ścieżkę podaną podczas odwiedzania różnych stron internetowych, a także naszą nawigację w obrębie każdej witryny. Gdy surfujemy w Internecie, każde kliknięcie, które wykonujemy, jest rejestrowane w celu wykorzystania w przyszłości. Oprogramowanie dostępne dla firm umożliwia zbieranie danych o kliknięciach generowanych przez ich własną stronę internetową i stanowi cenne narzędzie marketingowe. Na przykład dostarczając dane dotyczące korzystania z systemu, rejestry zdarzeń mogą pomóc w wykryciu złośliwego oprogramowania, które umożliwia kradzież tożsamości. Rejestry zdarzeń są również wykorzystywane do oceny skuteczności reklamy internetowej, przede wszystkim poprzez zliczanie liczby kliknięć na daną reklamę przez użytkownika witryny.

W celu identyfikacji klienta korzystającego z Internetu wykorzystywane są pliki cookie. Gdy pierwszy raz wchodzisz na daną stronę internetową, plik cookie, który jest małym plikiem tekstowym, składającym się najczęściej z identyfikatora witryny oraz identyfikatora użytkownika, zostaje przesłany na twój komputer, o ile nie wyłączysz korzystania z tych plików. Od tej pory za każdym razem, gdy odwiedzasz tę stronę, sprawdzany jest stan pliku cookie i na tej podstawie śledzone są twoje wizyty. Jak zobaczymy w rozdziale szóstym, pliki cookie są często używane do rejestrowania danych pochodzących z „kliknięć na stronie”, tak aby śledzić preferencje użytkownika lub aby dodawać twoją nazwę do reklam spersonalizowanych.

Serwisy społecznościowe również generują ogromne ilości danych. Na szczycie listy są Facebook i Twitter. Do połowy 2016 r. Facebook miał średnio 1,71 miliarda aktywnych użytkowników miesięcznie generujących dane rzędu 1,5 petabajtów (PB lub 1000 TB) logowań internetowych codziennie. Również popularna witryna do udostępniania filmów YouTube od czasu jej powstania w 2005 r. generuje duże ilości danych, a liczba użytkowników tego serwisu to ponad miliard użytkowników na całym świecie5. Wartościowe dane generowane przez wyszukiwarki i serwisy społecznościowe mogą być wykorzystywane w wielu innych obszarach, np. przy rozwiązywaniu problemów zdrowotnych.

Dane dotyczące opieki zdrowotnej

Jeśli spojrzymy na opiekę zdrowotną, to ujrzymy obszar, który obejmuje duży i rosnący odsetek światowej populacji i który jest coraz bardziej skomputeryzowany. Elektroniczna dokumentacja medyczna stopniowo staje się normą obowiązującą w szpitalach i gabinetach lekarskich, a głównym jej celem jest ułatwienie udostępniania danych pacjentów innym szpitalom i lekarzom, a tym samym ułatwienie świadczenia lepszej opieki zdrowotnej. Gromadzenie danych osobowych za pomocą noszonych lub wszczepianych w ciało czujników wzrasta, szczególnie w celu monitorowania zdrowia, a wielu z nas korzysta z osobistych opasek treningowych o różnym stopniu złożoności, które generują coraz więcej danych. Możliwe jest teraz zdalne monitorowanie stanu zdrowia pacjenta w czasie rzeczywistym poprzez gromadzenie danych dotyczących ciśnienia krwi, pulsu i temperatury ciała, co potencjalnie zmniejsza koszty opieki zdrowotnej i poprawia jakość życia. Te urządzenia do zdalnego monitorowania funkcji życiowych organizmu stają się coraz bardziej zaawansowane technologicznie i obecnie ich funkcjonalność wykraczając poza podstawowe pomiary, włącza śledzenie snu i stopnia nasycenia krwi tętniczej tlenem.

Niektóre firmy zachęcają swoich pracowników do skorzystania z noszonego na co dzień urządzenia fitness wyposażonego w odpowiednie czujniki, które np. zmierzą utratę masy ciała lub wykonanie określonej liczby kroków dziennie. W zamian za otrzymane urządzenie pracownik wyraża zgodę na udostępnienie danych pochodzących z pomiarów swojemu pracodawcy. Może się to wydawać rozsądne, ale nieuchronnie będą musiały zostać wzięte pod uwagę kwestie związane z prywatnością danych, a także niepożądaną presją, którą niektórzy ludzie mogą odczuwać, spowodowaną tym, że zdecydowali się na uczestnictwo w tym programie.

Coraz częściej mają miejsce również inne formy monitorowania pracowników, takie jak śledzenie wszystkich ich działań na komputerach i smartfonach dostarczanych przez firmę. Za pomocą spersonalizowanego oprogramowania śledzenie może obejmować wszystko, od monitorowania odwiedzanych stron internetowych po rejestrowanie pojedynczych naciśnięć klawiszy i sprawdzanie, czy komputer jest wykorzystywany do celów prywatnych, takich jak odwiedzanie witryn sieci społecznościowych. W dobie masowych wycieków danych bezpieczeństwo budzi coraz większe obawy, dlatego należy chronić dane firmowe. Monitorowanie wiadomości e-mail i śledzenie odwiedzanych witryn to tylko dwa sposoby ograniczenia kradzieży danych poufnych.

Jak widzieliśmy, dane dotyczące zdrowia osobistego mogą pochodzić z czujników, takich jak opaski treningowe lub urządzenia monitorujące zdrowie. Jednak większość gromadzonych z czujników danych służy do wysoce wyspecjalizowanych celów medycznych. Niektóre z największych istniejących magazynów danych zawierają dane generowane przez naukowców badających geny i sekwencjonujących genomy różnych gatunków. Struktura cząsteczki kwasu dezoksyrybonukleinowego (DNA), doskonale wszystkim znana z genetycznych instrukcji funkcjonowania żywych organizmów, została po raz pierwszy opisana jako podwójna helisa przez Jamesa Watsona i Francisa Cricka w 1953 r. Jeden z najbardziej nagłośnionych w ostatnich latach projektów badawczych to międzynarodowy projekt genomu ludzkiego, który określa sekwencję lub dokładną kolejność 3 miliardów par zasad, które składają się na ludzkie DNA. Ostatecznie dane te pomagają zespołom badawczym w badaniu różnych chorób genetycznych.

Dane czasu rzeczywistego

Niektóre dane są gromadzone, przetwarzane i wykorzystywane w czasie rzeczywistym. Wzrost mocy obliczeniowej komputera umożliwił zwiększenie zdolności przetwarzania, a także szybkiego generowania takich danych. Są to systemy, w których czas reakcji ma kluczowe znaczenie, dlatego dane muszą być przetwarzane w odpowiednim czasie. Wysyłanie ogromnych ilości danych w czasie rzeczywistym charakterystyczne jest np. dla globalnego systemu pozycjonowania (Global Positioning System – GPS), który wykorzystuje system satelitów do określenia położenia danego obiektu. Urządzenie odbiorcze GPS, znajdujące się w samochodzie lub smartfonie, przetwarza sygnały satelitarne i oblicza naszą pozycję, czas i prędkość. „Smart” oznacza, że urządzenie, w tym przypadku telefon, ma dostęp do Internetu i możliwość świadczenia szeregu usług lub aplikacji (ang. apps), które mogą się ze sobą łączyć.

Technologia ta jest obecnie wykorzystywana przy opracowywaniu pojazdów jeżdżących bez kierowcy lub pojazdów autonomicznych. Są one już używane w ograniczonych, wyspecjalizowanych obszarach, takich jak fabryki i gospodarstwa rolne, i są opracowywane przez wielu głównych producentów, takich jak Volvo, Tesla czy Nissan. Czujniki i programy komputerowe muszą przetwarzać dane w czasie rzeczywistym, aby niezawodnie nawigować do miejsca docelowego i kontrolować ruch pojazdu w stosunku do innych użytkowników drogi. Wiąże się to z wcześniejszym utworzeniem map 3D różnych tras do wykorzystania, ponieważ czujniki nie są w stanie poradzić sobie z trasami niezapisanymi. Czujniki radarowe służą do monitorowania innego ruchu, wysyłając dane z powrotem do zewnętrznego centralnego komputera wykonawczego, który steruje samochodem. Należy zaprogramować czujniki tak, aby wykrywały kształty i rozróżniały, np.: dziecko wbiegające na jezdnię od gazety unoszącej się nad drogą; lub wykrycia zmian w poruszaniu pojazdu, który ulega wypadkowi. Jednakże samochody te nie są jeszcze w stanie odpowiednio zareagować na wszystkie problemy związane z ciągle zmieniającym się otoczeniem.