Czym jest jakość danych i dlaczego ma tak duże znaczenie dla analityki biznesowej?
5 minuty czytania
Czym jest jakość danych i dlaczego ma tak duże znaczenie dla analityki biznesowej?
“O jakości mówimy wtedy, gdy wraca do nas klient, a nie produkt” – ta popularna sentencja jest mottem wielu firm i zespołów. Zwróćmy uwagę, że klientem może być Zarząd, Dyrektor Finansowy czy Manager (tzw. klient wewnętrzny). Produkt zaś może stanowić raport czy analiza. Poświęćmy zatem chwilę na omówienie niezwykle ważnego w analityce biznesowej tematu, jakim jest jakość danych. O tym, dlaczego jest ona na tyle istotna. Można bowiem polemizować, czy lepszy jest całkowity brak analityki w określonym obszarze, czy zbiór chaotycznych, błędnych, tzw. “brudnych” danych. Od ich prawidłowości zależy efektywność wykorzystywanych narzędzi czy tworzonych raportów, na podstawie których finalnie podejmowane są decyzje biznesowe.
Jakość danych – mniej znaczy więcej
Czym większa lub dynamiczniej rozwijająca się organizacja, tym więcej źródeł danych, których wzajemna i wewnętrzna spójność ma kluczowe znaczenie dla oceny sytuacji w określonych obszarach. Aby więc uniknąć chaosu informacyjnego, a w konsekwencji podejmowania błędnych decyzji, należy zadbać o właściwe zarządzanie całym procesem – czyli Data Quality Management (DQM).
Rozwój technologiczny sprawił, że możliwości zbierania danych są obecnie wręcz nieograniczone. Firmy starają się dowiedzieć jak najwięcej o swoich klientach, aby móc dostosowywać ofertę czy przewidywać popyt. Działania pracowników są monitorowane, aby zlokalizować tzw. “wąskie gardła” i jak najefektywniej wykorzystywać ich czas. Do tego dochodzą przychody, marżowość oraz inne wskaźniki świadczące o efektywności przedsiębiorstwa. Aby wyciągnąć z tych wszystkich danych wskazówki do podjęcia konkretnych działań, konieczne jest spojrzenie na nie całościowo i identyfikacja KPI, które są najistotniejsze w danym obszarze.
Pracownicy marnują do 50% czasu na nieefektywne wykonywanie zadań związanych z jakością danych
(MIT Sloan)
Zanim jednak zaczniemy analizować konkretne wskaźniki, warto zadać sobie pytanie: czy bazują one na wiarygodnych danych? Zobrazowany powyżej znaczący wolumen gromadzonych i przetwarzanych danych wymaga zarządzania ich jakością. Można to zdefiniować jako zestaw praktyk podejmowanych przez analityków i specjalistów w celu utrzymania nie tylko wiarygodności, ale i wysokiej jakości informacji. Praktyki te stosowane są w trakcie procesu przetwarzania danych: od pozyskania, poprzez wdrożenie, dystrybucję i analizę.
Co decyduje o wysokiej jakości danych?
- Wiarygodność – możliwość zweryfikowania, czy analizowane dane są prawdziwe.
- Spójność – synergia poszczególnych elementów, np. analizowanych dwóch zestawów danych z różnych źródeł, ale dotyczących tego samego zagadnienia Spójność może być też rozumiana jako wewnętrzna integralność danych w ramach jednego zestawu (spójność nazewnictwa, sposobu kalkulacji określonych parametrów, etc.)
- Aktualność – analizowane dane nie mogą być przestarzałe lub niezgodne ze stanem faktycznym.
- Dokładność – precyzyjne przedstawienie danych odbiorcy, dostosowane do jego oczekiwań i poziomu wiedzy.
- Kompletność – ujęcie wszystkich elementów składowych oraz brak błędów.
- Relatywność – istotność danych dla odbiorcy, np. gromadzenie informacji, której celem jest wypracowanie rozwiązania będącego odpowiedzią na zadany problem.
Zarządzanie jakością danych – klucz do sukcesu
Jak jednak zapewnić wysoką jakość danych? Zacznijmy od podstaw – monitorowanie, analiza i raportowanie nie będą mieć sensu, lub wręcz mogą prowadzić do błędnych wniosków, jeśli dane wsadowe nie będą zgodne ze stanem faktycznym i tym samym nie będa wiarygodne. Zweryfikowanie ich poprawności oraz opracowanie procedur ich oczyszczania, oceny czy weryfikacji spójności powinno być zadaniem obowiązkowo poprzedzającym dalszą pracę z danymi.
41% ekspertów w zakresie marketingu B2B wskazuje niespójność danych jako największą przeszkodę w maksymalizacji ROI (zwrotu z inwestycji)
(Dun & Bradstreet)
Aby więc skutecznie zarządzać jakością danych, konieczna jest odpowiednia strategia. Najważniejszymi jej elementami są:
- wiedza o źródłach danych (gdzie powstają, kto je dostarcza, kto jest ich “właścicielem”, aspekty technologiczne);
- optymalizacja procedur (automatyzacja, standaryzacja / normalizacja – np. dla zachowania spójności wprowadzanych danych w określonych systemach);
- stały, proaktywny monitoring i eliminacja / naprawa wadliwych danych wsadowych z baz;
- wdrożenie procedur zmierzających do zapewnienia czystości danych;
- sprecyzowanie odpowiedzialności za jakość danych i ich weryfikację.
Higiena baz danych (czystość danych)
Do efektywnego zarządzania danymi w organizacji niezbędne jest zapewnienie czystości danych, do czego nawiązaliśmy w poprzednim akapicie. Teraz rozwiniemy ten wątek o wyjaśnienie, co kryje się pod tym pojęciem oraz jaki jest jego cel.
Jeśli działasz w oparciu o niskiej jakości dane, istnieje duże prawdopodobieństwo, że nie dostarczasz klientom wystarczającej wartości, co może prowadzić do niewykorzystanych szans i utraty przychodów.
Firmy tracą nawet 20% przychodów z powodu złej jakości danych!
(Kissmetrics)
Oczyszczanie danych to wykrywanie i usuwanie lub korekta informacji w bazie danych, w przypadku gdy są one błędne, powielane, niedokładne, nieaktualne, zbędne bądź nieprawidłowo sformatowane. Można robić to ręcznie lub z pomocą algorytmów, a cel tych działań jest ten sam – optymalizacja jakości danych, którym można ufać przy podejmowaniu trafnych decyzji biznesowych. Jest to czasochłonny proces, który analitykom danych zajmuje około 60% czasu pracy! Ważnym elementem jest tu zatem automatyzacja procesów i identyfikacja przyczyny powstawania wadliwych danych. Od dokładnego wykonania tego procesu zależy jednak sukces całej operacji.
Najważniejsze etapy oczyszczania danych to:
- Walidacja – inaczej sprawdzenie, czy surowe dane nie zawierają podstawowych błędów, które mogłyby zachwiać sensownością całego procesu. Z tego powodu koniecznie należy rozpocząć higienę danych właśnie od walidacji.
- Formatowanie do wspólnej wartości (standaryzacja / uspójnienia / słownikowanie) – często zdarza się, że różne sformułowania czy określenia dotyczą tego samego rodzaju rekordu. Przykładem jest wpisanie w wewnętrzną wyszukiwarkę e-commerce trzech fraz kluczowych: buty damskie, kobiece buty i obuwie dla kobiet. Każda fraza oznacza to samo, więc analizując liczbę użytkowniczek zainteresowanych tego typu produktami należy je sprowadzić do wspólnej wartości.
- Czyszczenie duplikatów – segregowanie danych może sprawić, że pojawią się duplikaty niektórych wartości. Aby nie zaburzyły one wyników, trzeba je wyeliminować.
- Uzupełnianie brakujących danych vs. usuwanie danych niepełnych – aby wykonać analizę konieczna jest kompletna baza danych, dlatego należy uzupełnić wszystkie brakujące informacje. Z kolei dane niepełne mogą zaburzać wyniki, dlatego warto je wykluczyć, jeśli nie zaburzy to analizy.
- Wykrywanie konfliktów w bazie danych – ostatnim etapem jest wyeliminowanie wartości wzajemnie wykluczających się. Jeśli analiza wykazała, że w sklepie internetowym zamówiono X sztuk danego produktu, a w tabeli “Wartość zamówień” widnieje kwota 0 zł – gdzieś występuje błąd. Nieprawidłowa jest liczba zamówień bądź ich wartość. Konieczna jest weryfikacja i dodatkowa analiza spornych kwestii.
Inwestycja w profesjonalizację zarządzania danymi
Co zyskasz dzięki zarządzaniu danymi? Przede wszystkich pewność, że podejmujesz decyzje biznesowe w oparciu o wiarygodne dane. Zanim rozpoczniesz szczegółową dyskusję o kształcie raportów analitycznych czy zarządczych, zadbaj o to, by powstawały one w oparciu o dobrze zweryfikowane, spójne, zrozumiałe źródła. Warto również w jak największym stopniu zautomatyzować walidację i przetwarzanie danych, eliminując omylny czynnik ludzki i przyspieszając przygotowanie danych do raportów. Choć opisany proces wydaje się trudny i kosztowny, do sprawnego zarządzania jakością danych wcale nie musisz mieć profesjonalnej hurtowni danych i ogromnego budżetu. Ważne są zoptymalizowane procesy i nastawienie pracowników, a w pozostałych aspektach pomoże odpowiednie know-how i technologia.
Jeśli potrzebujesz wsparcia w obszarze zarządzania danymi w Twojej firmie, skontaktuj się z nami. W Enterium wykorzystujemy odpowiednie narzędzia i techniki ETL (wyodrębniania, przekształcania i ładowania danych). Pracujemy głównie w ekosystemie Microsoft, jednak dużą wagę przywiązujemy do wartości biznesowej docelowego kształtu zestawów danych. Zawsze podstawą naszych działań jest zrozumienie biznesu klienta, aby precyzyjnie określić jego potrzeby i opracować docelowy kształt zestawów danych, które będą najbardziej użyteczne analitycznie na dalszych etapach współpracy.
We are increasing company value, for real