W dzisiejszych czasach coraz więcej urządzeń generuje dane. Zaczynając od klasycznych rozwiązań jak komputer czy telefon, a skończywszy na urządzaniach typu smart np. smart home lub nawet pralka. Co drugi dzień na świecie generujemy więcej informacji niż w całej historii ludzkości przed 2015 rokiem. Wyszukiwarka Google przetwarza ponad 45 tys. zapytań na sekundę każdego dnia. Wielu z nas ma „drugie życie” w mediach społecznościowych, co również tworzy nowe dane jak udostępnianie zdjęć/filmów, tworzenie postów itd... Dane często są nazywane nową ropą naftową cyfrowej transformacji. Taka ilość informacji jest wręcz niemożliwa do przetworzenia za pomocą klasycznych systemów przechowywania danych. Dlatego od kilku lat bardzo ważną rolę odgrywa Big Data. Ale czym w rzeczywistości to jest? W jaki sposób możemy opisać Big Data? Czy sama duża ilość danych definiuje Big Data, ale co oznacza „duża ilość”? W tym celu Big Data musi spełniać kilka cech, które łączy jeden element – zaczynają się na literę V.

Wolumen (Volume)

 

To jest oczywisty punkt, kiedy zaczynamy rozmowę o Big Data. Jednym z filarów Big Data jest duża ilość danych. W tym przypadku nie definiujemy dokładnej ilości. Wszystko zależy od tego, co chcemy zbierać. W 2020 roku ludzkość wygenerowała ponad 40 zetabajtów danych (1ZB to 1021, gdzie 1TB to 1012!). To trzysta razy więcej niż w 2005 roku. Z roku na rok będziemy generować coraz więcej danych. Firmom zależy na przechowywaniu dużych ilości danych – pozwala im to m. in. na lepsze planowanie kolejnych działań.

Przykład bardziej „dokładny”: większość banków generuje każdego dnia kilka terabajtów danych dotyczących transakcji klientów. Te dane muszą być przechowywane, a same informacje niezbędne np. do ustalenia możliwości kredytowych wybranego klienta.

Prędkość (Velocity)

 

Kolejny ważny element systemów Big Data. Poza samym wolumenem danych zależy nam również na odpowiedzi na pytania: jak szybko możemy reagujemy na nowe dane oraz jak szybko musimy przetworzyć otrzymane dane. Wiele danych możemy gromadzić na wiele sposobów: niektóre z nich będziemy przetwarzać w czasie rzeczywistym (ang. real-time), inne będziemy gromadzić tylko w określonej sytuacji (np. archiwizacja danych), a inne będziemy przetwarzać w sposób wsadowy – czyli będziemy je pobierać z jednego miejsca i zapisywać w innym.

Jest to ważny element, który wpływa na całe procesy biznesowe. Wracając do przykładu banku – kiedy płacimy kartą to chcemy, aby potwierdzenie przyszło praktycznie natychmiast niż czekać kilka sekund albo nawet minut.

 

Różnorodność (Variety)

 

Kiedyś mieliśmy pojedyncze źródła danych, które najczęściej były takie same np. eksport bazy danych SQL. Z czasem pula sposobów prezentowania danych rosła: od prostych plików tekstowych, CSV, arkuszy kalkulacyjnych (Excel), a skończywszy na filmach, zdjęciach czy formacie PDF. Chociaż dla nas odczyt tych danych jest niezwykle prosty to w przypadku systemów Big Data wymagają dodatkowej pracy i umiejętności analitycznych. Poza przygotowaniem sposobu wyciągnięcia danych np. z pliku PDF musimy również zastanowić się w jaki sposób dane będą magazynowe. Przykładowo bardzo często dane z plików tekstowych są „przepisywanie” do hurtowni danych. Ponownie przykład banku: dzisiaj możemy założyć konto z pomocą „selfie”, gdzie poza dostarczeniem naszego zdjęcia musimy dostarczyć skany naszego dowodu (ponownie zdjęcie) oraz wypełnić formularz (które wewnątrz systemu będzie prezentowany np. jako JSON). Big Data musi te wszystkie informacje zebrać i utworzyć konto dla nowego klienta. Jak możemy zauważyć, mamy tutaj już co najmniej dwa różne rodzaje danych.

Podsumowując…

 

Pewnie teraz rozumiesz, że Big Data to coś więcej niż „duża ilość danych”. Big Data to złożony proces, którego zadaniem jest zapewnienie możliwości wykorzystywania nowych (oraz istniejących) źródeł danych (VARIETY) oraz implementacjach sposobów na ich elastyczne przechwytywanie oraz przetwarzanie, zależnie od potrzeb biznesowych (VELOCITY). Cyfrowa transformacja powoduje, że coraz więcej urządzeń generuje dane, których ilość możemy liczyć petabajtach na osobę (VOLUME). Możemy łatwo wywnioskować, że Big Data będzie zyskiwać na znaczeniu z każdym rokiem.