Przejdź do głównej sekcji
Analiza dobrej jakości danych sukcesem każdego biznesu
10 min

Analiza dobrej jakości danych sukcesem każdego biznesu

Dane śmiało określić można mianem ropy naftowej XXI wieku. Danymi nazywamy ogromne, często chaotyczne zbiory informacji kryjące w sobie nieocenioną wartość biznesową.

Analiza dobrej jakości danych sukcesem każdego biznesu
Machine Learning

Dane śmiało określić można mianem ropy naftowej XXI wieku. Danymi nazywamy ogromne,  często chaotyczne zbiory informacji kryjące w sobie nieocenioną wartość biznesową. Przedsiębiorcy czerpiący wiedzę z danych prowadzą dochodowe i szybko rozwijające się biznesy. Tylko w przeciągu kilku ostatnich lat wyprodukowaliśmy więcej danych niż od początku istnienia ludzkiej cywilizacji. 

 

Szybki rozwój technologiczny niemal każdego dnia dostarcza biznesowi nowych narzędzi do przetwarzania danych. Mimo postępującej automatyzacji, wciąż potrzebna jest ludzka wiedza, odnośnie tego jak z tym cennym zasobem postępować. Wykwalifikowanych analityków porównać możemy do XIX wiecznych poszukiwaczy złota, gdyż ich praca zależy od umiejętnego odsiewu cennych grudek informacji od bezwartościowego piasku.

 

Technika poszukiwania złota

 

Nie ważne czy prowadzisz jednoosobową działalność gospodarczą czy współtworzysz ogromną korporację. Dane przetwarza dziś każde przedsiębiorstwo i to w oparciu o nie podejmowane są wszelkie decyzje biznesowe. Kluczową dla biznesu kwestię stanowi obecnie technika prawidłowego czyszczenia danych. Najważniejsza jest bowiem jakość tego cennego surowca, który może ulec uszkodzeniu na niemal każdym etapie obróbki: od momentu pozyskiwania, aż po końcową analizę. Dalszą część artykułu poświęcić chciałbym podstawowym zagadnieniom związanym z tematyką czyszczenia danych, aczkolwiek do lektury zapraszam nie tylko programistów.

 

Brakujące wartości

 

Brakującymi wartościami nazywamy wartości w zbiorze danych, których nie znamy. Ich nazewnictwo różni się od środowiska programistycznego. W SQL-u określane są  NULL-em, a w Pythonie None. Często używa się także tekstu bez zawartości (“”) lub zdefiniowanych przez siebie wartości (np. “.”, “brak”). 

 

Skąd biorą się brakujące wartości? Najczęstszą przyczyną jest niekompletności lub błędy w systemie zbierania danych. Aczkolwiek występowanie wartości brakujących spowodowane może być również zewnętrznymi ograniczeniami, takimi jak: zakaz prawny na przechowywanie danych bez pozwolenia ich właścicieli. Niestety nie zawsze można pozwolić sobie na ignorowanie wiersza z wartościami brakującymi. Tym bardziej jeśli brakuje nam całej próbki danych, a nie tylko pojedynczej wartości. Zatem jak odnaleźć wartość brakującą? Zaskoczę was, otóż można ją odgadnąć! 

Zgadywanie – metoda radzenia sobie z wartościami brakującymi


Jest to najpopularniejsza z metod. Polega na podstawianiu w puste miejsce wartości powtarzającej się najczęściej w danej kolumnie. Wartości brakujące zastępować można również średnią. Aczkolwiek obecnie możliwe jest również zgadywanie z wykorzystaniem technologii sztucznej inteligencji.

 

Anomalia

 

Anomalia to wartości, które znamy, lecz stanowczo różnią się one od reszty zbioru, zatem mamy wątpliwości co do ich prawdziwości. Dla lepszego zrozumienia, wyjaśnię to na przykładzie. Otóż, wyobraźmy sobie, że przeprowadziliśmy ankietę i na jednym z arkuszu
w rubryce “wiek” zauważyliśmy liczbę 100. Z pewnością zastanowili byśmy się nad prawdziwością tej informacji, zatem śmiało możemy określić ją mianem anomalii. 

W celu wykrycia anomalii w ogromnych zbiorach danych stosowane są dedykowane modele uczenia maszynowego, takie jak Isolation Forest, który wykorzystuje drzewa decyzyjne wykrywając próbki danych istotnie różniące się od innych. 


Wykryte anomalia są zazwyczaj usuwane, a następnie traktowane jako dane brakujące
i zastępowane najbardziej pasującymi wartościami. Jednakże możliwe jest również pozostawienie anomalii (jeśli wierzymy, że przytoczna wcześniej liczba “100” nie była pomyłką). Aczkolwiek algorytmy uczenia maszynowego stanowią najlepszą z metod nie tylko wykrywania, ale również transformacji anomalii.

 

Transformacja danych

 

Transformacja danych ma bardzo szerokie znaczenie. Może ona oznaczać każdą zmianę kształtu danych, jednakże teraz skupimy się na transformacji w kontekście czyszczenia i przygotowania danych do analizy.

Kluczową kwestią jest utrzymanie równowagi pomiędzy ilością zawartych informacji, a łatwością ich analizy. Co to znaczy? Znowu posłużę się przykładem. Analizując posty z mediów społecznościowych nie możemy ograniczać się do informacji czy są one pozytywne czy negatywne, gdyż stracimy dużo informacji. Z drugiej strony analiza pełnej treści postów okaże się trudna i zbyt czasochłonna.

Przykłady prawidłowych transformacji danych stanowią: zmieniania wieku klienta z dni na lata lub zamiana miejsca urodzenia z miasta na kraj.

 

Mam nadzieję, że udało mi się przybliżyć biznesowy potencjał analizy danych i techniczne aspekty ich czyszczenia. Aby zwiększyć tematykę czyszczenia danych kluczowych dla instytucji finansowych zapraszam do obejrzenia kolejnego odcinka naszej popularnonaukowej serii.

Najnowsze wpisy

Innowator Śląska 2020

Whiteaster otrzymał wyróżnienie w Konkursie Innowator Śląska 2020

Otwarte Dane – otwarte możliwości

W bieżącym roku Polska odnotowała kolejny sukces w zakresie rankingu Open Data Maturity 2020.

PROsystem. Aplikacja wspierająca realizację projektów oraz publikację informacji.

Projekty realizowane przez Miasto to temat budzący żywe zainteresowanie szerokiego grona mieszkańców. Inwestycje i remonty to podstawowe elementy rozwoju infrastruktury miejskiej.

Interfejs mózg-komputer – czym jest i jaki ma potencjał dla biznesu?

Sterowanie umysłem od zawsze stanowiło jedno z kluczowych marzeń ludzkości. Urządzenia umożliwiające komunikację oraz sterowanie za pomocą ludzkich myśli nie należą już tylko do świata science-fiction, ale aktualnej rzeczywistości, kryjącej w sobie olbrzymi, biznesowy potencjał.

Sztuczna inteligencja w przemyśle – to się opłaca!

Myślicie, że przemysł po prostu nie pasuje do świata IT? Wprost przeciwnie! Przekonajcie się jak wiele zyskać może produkcja przemysłowa, gdy otworzy się na sztuczną inteligencję.
PRACUJEMY DLA
APA Group
Urban Lab
UM Krakow
UM Jaworzno
UM Rzeszów
deegitals
Strefa Energii
ZOO Chorzów
Tarnopol

Copyrights © 2021 Whiteaster

crafted by: mastafu design