sustemy dysków NAS dla chmury firmy Western Digital
Nowoczesna organizacja dysponująca odpowiednim sprzętem i oprogramowaniem generuje podczas swojego funkcjonowania ogromne ilości danych. Danych, które na pierwszy rzut oka mogłyby się wydawać niepotrzebne, ale które tak naprawdę po odpowiednim zorganizowaniu i przeanalizowaniu mogą dostarczyć bezcennych informacji o firmie oraz jej środowisku (np. branży). Warto więc zastanowić się, jak zapanować nad wszystkimi informacjami, jak je chronić i jak optymalnie wykorzystać w codziennej pracy.
autor: Norbert Koziar
Dane wielkoskalowe (ang. big data), jako koncepcja, istnieją od wielu lat. Dawniej były one stosowane wyłącznie w projektach naukowych i badaniach, w których szybko generowano ogromne ilości danych. Termin służy do opisywania ogromnych składów danych - zarówno ustrukturyzowanych, jak i tych bez konkretnej struktury - których rozmiary utrudniają zbieranie, przechowywanie, analizowanie, udostępnianie i powielanie informacji (na przykład w celu utworzenia kopii zapasowych).
Problem z danymi
Systemy obsługujące dane wielkoskalowe są często wyposażone w setki, a nawet tysiące procesorów, a te są podłączone do szerokopasmowej infrastruktury sieciowej oraz pojemnych macierzy magazynowych złożonych z wielu dysków twardych, skalowalnych systemów komputerowych i środowisk chmur. W dzisiejszym świecie dane wielkoskalowe powstają na całym świecie i są generowane przez wiele źródeł. Duże projekty badawcze, takie jak Wielki Zderzacz Hadronów, generują i obsługują petabajty (PB) danych (ok. 15 PB rocznie), a serwisy społecznościowe, na przykład Facebook, obsługują bazy danych zawierające ponad 50 miliardów zdjęć swoich użytkowników.
Mimo problematyczności danych wieloskalowych, mają one ogromny potencjał – w zależności od typu projektu, możemy przeanalizować dane pod konkretnym kątem, uzyskując w ten sposób jednoznaczne wyniki. Wyobraźmy sobie sklep internetowy, który ma dostęp do wielkoskalowych danych na temat własnej działalności. Analizując te dane, firma może na przykład rozpoznać powstające trendy, zachowania klientów, analizować ceny oraz tworzyć skuteczniejsze reklamy. Jedną z takich firm jest Walmart, który ostatnio wykorzystuje dane wielkoskalowe w celu lepszego poznania klientów i zaoferowania im odpowiednich produktów poprzez aplikacje dla systemów iOS/Android.
W przeciwieństwie do tradycyjnych, ustrukturyzowanych informacji zawartych w relacyjnych bazach danych, dane wielkoskalowe często są mniej uporządkowane. To dlatego, że tradycyjna baza danych może obsłużyć ograniczoną liczbę typów danych, takich jak liczby lub daty. Natomiast dane wielkoskalowe mogą obejmować wiele zestawów danych, takich jak tekst, materiały wideo, dźwięk, dane pobrane z czujników, pliki dziennika itp. Analiza wszystkich danych w swoim wzajemnym kontekście pozwala na uzyskanie wartościowych informacji niezbędnych instytucjom do pracy.