#7 – Profilowanie danych, właściwości i statystyki kolumn

Profilowanie danych

Aby przystąpić do jakiejkolwiek pracy z danymi należy upewnić się, że nie ma z nimi większych problemów, nie ma nieścisłości.

Power BI udostępnia szereg narzędzi, dzięki którym w prosty sposób wyłapiesz występujące w danych anomalie, zbadasz ich strukturę i sprawdzisz właściwości i statystyki kolumn.

Jak rozpoznać anomalie w danych

Doskonałym narzędziem do wykrywania anomalii w danych jest wykres punktowy.

Wykres punktowy

Znajdziesz go w panelu Wizualizacje

Dodajmy ten wykres do naszej kanwy i dodajmy do niego kolumny Metraż na Oś X i Cena do zapłaty na Oś Y.

Możemy przystąpić do analizy tego, co na wykresie widzimy.

Wykres kropkowy z oznaczonymi segmentami zainteresowania

Na screenie powyżej oznaczyłem 3 strefy:

  1. Tutaj mamy dane zgrupowane w jednym miejscu. Możemy z dużym prawdopodobieństwem uznać, że te dane się zgadzają.
  2. Pierwszy wyjątek – widzimy tutaj, że metraż i cena odbiegają od większości pozycji. Spójrzmy na szczegóły tego punktu najeżdżając na niego kursorem. I sprawa staje się bardziej jasna – owszem, odbiega metraż, odbiega cena, ale jeżeli wejdziemy głębiej w analizę tego punktu to okaże się, że jest to dom a nie mieszkanie czyli punkt jak najbardziej może być prawidłowy.
  3. Kolejne wyjątki – i tutaj już robi się ciekawsza sytuacja. Jeżeli sprawdzimy co się pod nimi znajduje, to zobaczymy tam piękne kwiatki jak metraże >800m2. A tutaj wiemy, że deweloper w ofercie nie ma takich nieruchomości. Czyli właśnie zidentyfikowaliśmy niewłaściwe punkty danych – prawdopodobnie podczas wprowadzania danych do systemu CRM ktoś popełnił błąd.

Histogram

W filmie mówię o analizie anomalii korzystając z histogramu. Obecnie ta wizualizacja nie jest dostępna, zamiast niej możesz skorzystać z niestandardowej wizualizacji Histogram with Points.

Badanie struktury danych

Power BI daje nam jeszcze jedną możliwość badania struktury i jakości danych. Przejdźmy do edytora Power Query.

Na potrzeby kursu scaliłem zapytania z tabeli Transakcje z tabelą Lokale.

Ale najpierw spójrzmy na nagłówki naszych kolumn.

Przed nazwą każdej kolumny jest niewielka ikonka – ta ikonka informuje nas o tym jaki typ danych jest w danej kolumnie. Klikając na nią wyświetli się menu z którego możemy zmienić typ danych.

Zróbmy to dla kolumny [ID klienta]. Zmieńmy typ danych na Tekst

I teraz spójrz na ostatnią kolumnę [Lokale].

To są zagnieżdżone dane, które powstały po scaleniu dwóch tabel. Jeżeli klikniesz na ikonę po prawej stronie od nazwy kolumny – będziesz w stanie wybrać kolumny, które chcesz dodać z tabeli [Lokale] do tabeli [Transakcje].

Zaznaczmy tylko kolumnę [Inwestycja]. Kliknij ok i do każdego wiersza w tabeli [Transakcje] została dołączona odpowiednia wartość z nazwą inwestycji w której dany lokal się znajduje z tabeli [Lokale].

Badanie właściwości kolumn

Szybki podgląd jakości kolumn

Pod każdym nagłówkiem kolumny widzisz pasek. Będzie on w różnych kolorach w zależności od jakości danych w danej kolumnie. W naszym przykładzie w większości będzie zielony albo czary, co oznacza, że dane w nim zawarte są prawidłowe albo puste.

Jeżeli najedziesz na niego kursorem myszy – pojawi się szybki, bardziej szczegółowy podgląd w strukturę.

Szybki podgląd jakości danych

Jakość kolumn

Zacznijmy od kliknięcia menu Widok w górnym pasku narzędzi.

Wyświetli Ci się szarfa, dzięki której dostosujesz wygląd edytora PQ. Nas dzisiaj interesuje strefa Podgląd danych.

Kliknij na checkbox przy pozycji Jakość kolumn.

Jakość kolumn Power BI

I jak widzisz – pojawiło się coś nowego w edytorze. Pod nagłówkami każdej z kolumn widać teraz podgląd tego ile w danej kolumnie jest pozycji prawidłowych, pustych i z błędem.

To pierwsza rzecz na którą powinieneś zwrócić uwagę importując dane. Dzięki temu już na samym początku będziesz w stanie zidentyfikować potencjalne błędy.

Rozkład kolumn

Dodajmy do naszego widoku kolejną pozycję, czyli rozkład kolumn.

Rozkład kolumn w Power BI

I otrzymujemy kolejny punkt informacyjny. Znowu na pierwszy rzut oka możesz ocenić strukturę danych w każdej kolumnie wraz z histogramem.

Profil kolumny

Robimy to samo z kolejną pozycją – zaznaczamy Profil kolumny.

Profil kolumny w Power BI

Tym razem wyświetli nam się okno na dole ze szczegółowymi statystykami kolumny, którą akurat mamy zaznaczoną.

Możesz tutaj podejrzeć dystrybucję wartości, minima, maksyma, ile jest wartości odrębnych i unikatowych…

Ale! Uwaga!

Standardowo profilowanie odbywa się w oparciu o 1.000 pierwszych wierszy w kolumnie.

Jeżeli chcesz to zmienić i profilować w oparciu o całą kolumnę to musisz wykonać jeszcze dwa kliknięcia.

W lewym, dolnym rogu edytora PQ znajdziesz pozycję Profilowanie kolumn w oparciu o następującą liczbę pierwszych wierszy:…

Po kliknięciu na nią otrzymasz wybór między 1.000 o całym zestawem.

Czy to było przydante?

Join Us!

Custom Sidebar

You can set categories/tags/taxonomies to use the global sidebar, a specific existing sidebar or create a brand new one.