Higiena i czyszczenie danych - klucz do ich trafnej analizy. Dlaczego to tak ważne w biznesie?
5 min read
Odpowiednia higiena danych to pierwszy krok do skutecznej ich analizy, a w konsekwencji – podjęcia trafnych decyzji biznesowych. Czym jest czyszczenie danych, jak przebiega ten proces i co zyskują firmy, które opierają swoją strategię rozwoju na rzetelnych danych? Zacznijmy od krótkiej definicji, czym jest czyszczenie danych – to proces poprawiania lub usuwania danych nieprawidłowych, niekompletnych, uszkodzonych, nieprawidłowo sformatowanych czy też duplikatów w zbiorze danych. Analiza błędnych danych prowadzi do błędnych wniosków, a jak wspominaliśmy wielokrotnie w poprzednich artykułach, to z kolei prowadzi do podejmowania nietrafionych decyzji biznesowych. Najczęściej wpływają one negatywnie na kondycję przedsiębiorstwa, dlatego tak ważna jest odpowiednia higiena danych. To podstawa całego procesu analizy. Im więcej źródeł danych i samych danych, tym bardziej skomplikowany jest proces ich czyszczenia. W firmach czy startupach konieczne jest łączenie danych z wielu źródeł, aby otrzymać realny obraz przedsiębiorstwa. Ich higiena i późniejsza analiza to zadanie czasochłonne, ale w kontekście rozwoju biznesu – bardzo opłacalne, a w dzisiejszych czasach wręcz niezbędne. Dlaczego czyszczenie i odpowiednia higiena danych w firmach jest opłacalna? Odpowiedź jest bardzo prosta – ponieważ pozwala to zapobiec skutkom nietrafionych decyzji biznesowych. Parafrazując pewne porzekadło, w biznesie lepiej i taniej jest zapobiegać, niż leczyć. Dlaczego zatem warto dbać o “czystość” danych, na których opieramy swoje analizy? Wiesz już, czym jest czyszczenie danych i jakie są jego zalety. Zastanawiasz się jednak, jak wygląda w praktyce i jak wygląda proces ich oczyszczania? Spieszymy z odpowiedzią. Załóżmy, że dane z wielu źródeł zostały już zsumowane w bazie danych. Pierwszym krokiem w celu ich oczyszczenia jest wyeliminowanie nieistotnych danych. Przykładowo, jeśli część danych dotyczy klientów firmy i pochodzi z niezmienionej od lat kopii formularza kontaktowego, wciąż można znaleźć tam numery FAX. W dzisiejszych czasach są one nieużywane, dlatego nie warto marnować czasu na ich oczyszczanie – po prostu lepiej je usunąć. Kolejnym etapem jest eliminacja duplikatów. Wykorzystując poprzedni przykład załóżmy, że ten sam klient skontaktował się zarówno przez formularz kontaktowy, jak i telefonicznie. Dane są sumowane z obu tych źródeł – w drugim przypadku może to być plik wewnętrznie uzupełniany przez dział handlowy. Bez wykonania eliminacji duplikatów, ten sam klient będzie dwa razy widoczny w zestawieniu. Jest to ważne, ponieważ firma analizując efektywność sprzedaży może błędnie obliczyć liczbę klientów, co wpłynie na przykład na kształt KPI. Niemniej istotne jest ujednolicenie danych. Ten sam numer telefonu można zapisać przynajmniej na 3 sposoby: Bez ujednolicenia danych ten sam numer może być widoczny jako 3 zupełnie oddzielne. Podobnie jest w przypadku literówek, błędów ortograficznych, podwójnych spacji czy małych i dużych liter – w przypadku oczyszczania danych najczęściej ważniejszy od pisowni jest kontekst, dlatego zbierając dane z wielu źródeł trzeba je odpowiednio dopasować. Szczególnie w przypadku danych liczbowych ważne jest skalowanie. To proces bardzo podobny do ujednolicenia danych, ale nie są to identyczne pojęcia. Najlepiej przedstawić skalowanie na przykładzie bardzo dużych lub małych liczb: jeśli zawierają one 13, 14 lub 15 miejsc po przecinku, bądź też baza zawiera dane w tysiącach i milionach, ich analiza jest trudna i nieintuicyjna. Skalowanie pozwala na ujednolicenie formatów tak, aby były czytelne i jednoznaczne po zakończonym procesie czyszczenia danych. Jednym z końcowych etapów jest analiza brakujących i błędnych danych. Jeśli brakuje części informacji, należy zbadać powody i ustalić, czy są one istotne dla analizy. Podobnie trzeba przeanalizować błędne dane, które również mogą zaburzać wyniki. Cały proces oczywiście został przedstawiony w dużym skrócie, na tylko wybranych przykładach i w pewnym uproszczeniu – zależnie od wolumenu danych, branży, specyfiki działalności może on być zdecydowanie bardziej rozbudowany i skomplikowany. Z tego względu duże korporacje budują własne zespoły analityczne. Co więcej, “danetycy” (jak zaproponował prof. Przemysław Grzegorzewski z Politechniki Warszawskiej), czyli osoby zatrudnione na stanowiskach Data Scientist i pokrewnych, spędzają aż 80% czasu na czyszczeniu danych, zamiast na tworzeniu algorytmów czy wnioskowaniu (tworzeniu tzw. insightów). Dla większości firm, a w szczególności startupów, małych i średnich firm, zatrudnienie analityków na pełny etat jest zbyt dużym kosztem i niekoniecznie potrzebnym w relacji do skali zapotrzebowania. W takiej sytuacji warto rozważyć outsourcing usług – jeśli poszukujesz wsparcia w obszarze danych i analityki, skontaktuj się z nami!Higiena i czyszczenie danych – klucz do ich trafnej analizy. Dlaczego to tak ważne w biznesie?
Czym jest czyszczenie danych?
Czyszczenie danych i ich higiena w firmach – zalety
Na czym polega czyszczenie danych i jak je wykonać?
Jak dbać o oczyszczanie danych w firmach?
We are increasing company value, for real