jakość danych

Czym jest jakość danych i dlaczego ma tak duże znaczenie dla analityki biznesowej?

O jakości mówimy wtedy, gdy wraca do nas klient, a nie produkt” – ta popularna sentencja jest mottem wielu firm i zespołów. Zwróćmy uwagę, że klientem może być Zarząd, Dyrektor Finansowy czy Manager (tzw. klient wewnętrzny). Produkt zaś może stanowić raport czy analiza. Poświęćmy zatem chwilę na omówienie niezwykle ważnego w analityce biznesowej tematu, jakim jest jakość danych. O tym, dlaczego jest ona na tyle istotna. Można bowiem polemizować, czy lepszy jest całkowity brak analityki w określonym obszarze, czy zbiór chaotycznych, błędnych, tzw. “brudnych” danych. Od ich prawidłowości zależy efektywność wykorzystywanych narzędzi czy tworzonych raportów, na podstawie których finalnie podejmowane są decyzje biznesowe.

Jakość danych – mniej znaczy więcej

Czym większa lub dynamiczniej rozwijająca się organizacja, tym więcej źródeł danych, których wzajemna i wewnętrzna spójność ma kluczowe znaczenie dla oceny sytuacji w określonych obszarach. Aby więc uniknąć chaosu informacyjnego, a w konsekwencji podejmowania błędnych decyzji, należy zadbać o właściwe zarządzanie całym procesem – czyli Data Quality Management (DQM).

Rozwój technologiczny sprawił, że możliwości zbierania danych są obecnie wręcz nieograniczone. Firmy starają się dowiedzieć jak najwięcej o swoich klientach, aby móc dostosowywać ofertę czy przewidywać popyt. Działania pracowników są monitorowane, aby zlokalizować tzw. “wąskie gardła” i jak najefektywniej wykorzystywać ich czas. Do tego dochodzą przychody, marżowość oraz inne wskaźniki świadczące o efektywności przedsiębiorstwa. Aby wyciągnąć z tych wszystkich danych wskazówki do podjęcia konkretnych działań, konieczne jest spojrzenie na nie całościowo i identyfikacja KPI, które są najistotniejsze w danym obszarze.

Pracownicy marnują do 50% czasu na nieefektywne wykonywanie zadań związanych z jakością danych

(MIT Sloan)

Zanim jednak zaczniemy analizować konkretne wskaźniki, warto zadać sobie pytanie: czy bazują one na wiarygodnych danych? Zobrazowany powyżej znaczący wolumen gromadzonych i przetwarzanych danych wymaga zarządzania ich jakością. Można to zdefiniować jako zestaw praktyk podejmowanych przez analityków i specjalistów w celu utrzymania nie tylko wiarygodności, ale i wysokiej jakości informacji. Praktyki te stosowane są w trakcie procesu przetwarzania danych: od pozyskania, poprzez wdrożenie, dystrybucję i analizę.

Co decyduje o wysokiej jakości danych?

  • Wiarygodność – możliwość zweryfikowania, czy analizowane dane są prawdziwe.
  • Spójność – synergia poszczególnych elementów, np. analizowanych dwóch zestawów danych z różnych źródeł, ale dotyczących tego samego zagadnienia Spójność może być też rozumiana jako wewnętrzna integralność danych w ramach jednego zestawu (spójność nazewnictwa, sposobu kalkulacji określonych parametrów, etc.)
  • Aktualność – analizowane dane nie mogą być przestarzałe lub niezgodne ze stanem faktycznym.
  • Dokładność – precyzyjne przedstawienie danych odbiorcy, dostosowane do jego oczekiwań i poziomu wiedzy.
  • Kompletność – ujęcie wszystkich elementów składowych oraz brak błędów.
  • Relatywność – istotność danych dla odbiorcy, np. gromadzenie informacji, której celem jest wypracowanie rozwiązania będącego odpowiedzią na zadany problem.

Zarządzanie jakością danych – klucz do sukcesu

Jak jednak zapewnić wysoką jakość danych? Zacznijmy od podstaw – monitorowanie, analiza i raportowanie nie będą mieć sensu, lub wręcz mogą prowadzić do błędnych wniosków, jeśli dane wsadowe nie będą zgodne ze stanem faktycznym i tym samym nie będa wiarygodne. Zweryfikowanie ich poprawności oraz opracowanie procedur ich oczyszczania, oceny czy weryfikacji spójności powinno być zadaniem obowiązkowo poprzedzającym dalszą pracę z danymi.

41% ekspertów w zakresie marketingu B2B wskazuje niespójność danych jako największą przeszkodę w maksymalizacji ROI (zwrotu z inwestycji)

(Dun & Bradstreet)

Aby więc skutecznie zarządzać jakością danych, konieczna jest odpowiednia strategia. Najważniejszymi jej elementami są:

  • wiedza o źródłach danych (gdzie powstają, kto je dostarcza, kto jest ich “właścicielem”, aspekty technologiczne);
  • optymalizacja procedur (automatyzacja, standaryzacja / normalizacja – np. dla zachowania spójności wprowadzanych danych w określonych systemach);
  • stały, proaktywny monitoring i eliminacja / naprawa wadliwych danych wsadowych z baz;
  • wdrożenie procedur zmierzających do zapewnienia czystości danych;
  • sprecyzowanie odpowiedzialności za jakość danych i ich weryfikację.

Higiena baz danych (czystość danych)

Do efektywnego zarządzania danymi w organizacji niezbędne jest zapewnienie czystości danych, do czego nawiązaliśmy w poprzednim akapicie. Teraz rozwiniemy ten wątek o wyjaśnienie, co kryje się pod tym pojęciem oraz jaki jest jego cel.

Jeśli działasz w oparciu o niskiej jakości dane, istnieje duże prawdopodobieństwo, że nie dostarczasz klientom wystarczającej wartości, co może prowadzić do niewykorzystanych szans i utraty przychodów.

Firmy tracą nawet 20% przychodów z powodu złej jakości danych!

(Kissmetrics)

Oczyszczanie danych to wykrywanie i usuwanie lub korekta informacji w bazie danych, w przypadku gdy są one błędne, powielane, niedokładne, nieaktualne, zbędne bądź nieprawidłowo sformatowane. Można robić to ręcznie lub z pomocą algorytmów, a cel tych działań jest ten sam – optymalizacja jakości danych, którym można ufać przy podejmowaniu trafnych decyzji biznesowych. Jest to czasochłonny proces, który analitykom danych zajmuje około 60% czasu pracy! Ważnym elementem jest tu zatem automatyzacja procesów i identyfikacja przyczyny powstawania wadliwych danych. Od dokładnego wykonania tego procesu zależy jednak sukces całej operacji.

Najważniejsze etapy oczyszczania danych to:

  • Walidacja – inaczej sprawdzenie, czy surowe dane nie zawierają podstawowych błędów, które mogłyby zachwiać sensownością całego procesu. Z tego powodu koniecznie należy rozpocząć higienę danych właśnie od walidacji.
  • Formatowanie do wspólnej wartości (standaryzacja / uspójnienia / słownikowanie) – często zdarza się, że różne sformułowania czy określenia dotyczą tego samego rodzaju rekordu. Przykładem jest wpisanie w wewnętrzną wyszukiwarkę e-commerce trzech fraz kluczowych: buty damskie, kobiece buty i obuwie dla kobiet. Każda fraza oznacza to samo, więc analizując liczbę użytkowniczek zainteresowanych tego typu produktami należy je sprowadzić do wspólnej wartości.
  • Czyszczenie duplikatów – segregowanie danych może sprawić, że pojawią się duplikaty niektórych wartości. Aby nie zaburzyły one wyników, trzeba je wyeliminować.
  • Uzupełnianie brakujących danych vs. usuwanie danych niepełnych – aby wykonać analizę konieczna jest kompletna baza danych, dlatego należy uzupełnić wszystkie brakujące informacje. Z kolei dane niepełne mogą zaburzać wyniki, dlatego warto je wykluczyć, jeśli nie zaburzy to analizy.
  • Wykrywanie konfliktów w bazie danych – ostatnim etapem jest wyeliminowanie wartości wzajemnie wykluczających się. Jeśli analiza wykazała, że w sklepie internetowym zamówiono X sztuk danego produktu, a w tabeli “Wartość zamówień” widnieje kwota 0 zł – gdzieś występuje błąd. Nieprawidłowa jest liczba zamówień bądź ich wartość. Konieczna jest weryfikacja i dodatkowa analiza spornych kwestii.

Inwestycja w profesjonalizację zarządzania danymi

Co zyskasz dzięki zarządzaniu danymi? Przede wszystkich pewność, że podejmujesz decyzje biznesowe w oparciu o wiarygodne dane. Zanim rozpoczniesz szczegółową dyskusję o kształcie raportów analitycznych czy zarządczych, zadbaj o to, by powstawały one w oparciu o dobrze zweryfikowane, spójne, zrozumiałe źródła. Warto również w jak największym stopniu zautomatyzować walidację i przetwarzanie danych, eliminując omylny czynnik ludzki i przyspieszając przygotowanie danych do raportów. Choć opisany proces wydaje się trudny i kosztowny, do sprawnego zarządzania jakością danych wcale nie musisz mieć profesjonalnej hurtowni danych i ogromnego budżetu. Ważne są zoptymalizowane procesy i nastawienie pracowników, a w pozostałych aspektach pomoże odpowiednie know-how i technologia.

Jeśli potrzebujesz wsparcia w obszarze zarządzania danymi w Twojej firmie, skontaktuj się z nami. W Enterium wykorzystujemy odpowiednie narzędzia i techniki ETL (wyodrębniania, przekształcania i ładowania danych). Pracujemy głównie w ekosystemie Microsoft, jednak dużą wagę przywiązujemy do wartości biznesowej docelowego kształtu zestawów danych. Zawsze podstawą naszych działań jest zrozumienie biznesu klienta, aby precyzyjnie określić jego potrzeby i opracować docelowy kształt zestawów danych, które będą najbardziej użyteczne analitycznie na dalszych etapach współpracy.


Mateusz Kulawik

Mateusz Kulawik

Director

Linkedin

Napisz komentarz