Profilowanie danych
Aby przystąpić do jakiejkolwiek pracy z danymi należy upewnić się, że nie ma z nimi większych problemów, nie ma nieścisłości.
Power BI udostępnia szereg narzędzi, dzięki którym w prosty sposób wyłapiesz występujące w danych anomalie, zbadasz ich strukturę i sprawdzisz właściwości i statystyki kolumn.
Jak rozpoznać anomalie w danych
Doskonałym narzędziem do wykrywania anomalii w danych jest wykres punktowy.

Znajdziesz go w panelu Wizualizacje
Dodajmy ten wykres do naszej kanwy i dodajmy do niego kolumny Metraż na Oś X i Cena do zapłaty na Oś Y.
Możemy przystąpić do analizy tego, co na wykresie widzimy.

Na screenie powyżej oznaczyłem 3 strefy:
- Tutaj mamy dane zgrupowane w jednym miejscu. Możemy z dużym prawdopodobieństwem uznać, że te dane się zgadzają.
- Pierwszy wyjątek – widzimy tutaj, że metraż i cena odbiegają od większości pozycji. Spójrzmy na szczegóły tego punktu najeżdżając na niego kursorem. I sprawa staje się bardziej jasna – owszem, odbiega metraż, odbiega cena, ale jeżeli wejdziemy głębiej w analizę tego punktu to okaże się, że jest to dom a nie mieszkanie czyli punkt jak najbardziej może być prawidłowy.
- Kolejne wyjątki – i tutaj już robi się ciekawsza sytuacja. Jeżeli sprawdzimy co się pod nimi znajduje, to zobaczymy tam piękne kwiatki jak metraże >800m2. A tutaj wiemy, że deweloper w ofercie nie ma takich nieruchomości. Czyli właśnie zidentyfikowaliśmy niewłaściwe punkty danych – prawdopodobnie podczas wprowadzania danych do systemu CRM ktoś popełnił błąd.
Histogram
W filmie mówię o analizie anomalii korzystając z histogramu. Obecnie ta wizualizacja nie jest dostępna, zamiast niej możesz skorzystać z niestandardowej wizualizacji Histogram with Points.

Badanie struktury danych
Power BI daje nam jeszcze jedną możliwość badania struktury i jakości danych. Przejdźmy do edytora Power Query.
Na potrzeby kursu scaliłem zapytania z tabeli Transakcje z tabelą Lokale.
Ale najpierw spójrzmy na nagłówki naszych kolumn.

Przed nazwą każdej kolumny jest niewielka ikonka – ta ikonka informuje nas o tym jaki typ danych jest w danej kolumnie. Klikając na nią wyświetli się menu z którego możemy zmienić typ danych.
Zróbmy to dla kolumny [ID klienta]. Zmieńmy typ danych na Tekst

I teraz spójrz na ostatnią kolumnę [Lokale].
To są zagnieżdżone dane, które powstały po scaleniu dwóch tabel. Jeżeli klikniesz na ikonę po prawej stronie od nazwy kolumny – będziesz w stanie wybrać kolumny, które chcesz dodać z tabeli [Lokale] do tabeli [Transakcje].

Zaznaczmy tylko kolumnę [Inwestycja]. Kliknij ok i do każdego wiersza w tabeli [Transakcje] została dołączona odpowiednia wartość z nazwą inwestycji w której dany lokal się znajduje z tabeli [Lokale].
Badanie właściwości kolumn
Szybki podgląd jakości kolumn
Pod każdym nagłówkiem kolumny widzisz pasek. Będzie on w różnych kolorach w zależności od jakości danych w danej kolumnie. W naszym przykładzie w większości będzie zielony albo czary, co oznacza, że dane w nim zawarte są prawidłowe albo puste.
Jeżeli najedziesz na niego kursorem myszy – pojawi się szybki, bardziej szczegółowy podgląd w strukturę.

Jakość kolumn
Zacznijmy od kliknięcia menu Widok w górnym pasku narzędzi.
Wyświetli Ci się szarfa, dzięki której dostosujesz wygląd edytora PQ. Nas dzisiaj interesuje strefa Podgląd danych.
Kliknij na checkbox przy pozycji Jakość kolumn.

I jak widzisz – pojawiło się coś nowego w edytorze. Pod nagłówkami każdej z kolumn widać teraz podgląd tego ile w danej kolumnie jest pozycji prawidłowych, pustych i z błędem.
To pierwsza rzecz na którą powinieneś zwrócić uwagę importując dane. Dzięki temu już na samym początku będziesz w stanie zidentyfikować potencjalne błędy.
Rozkład kolumn
Dodajmy do naszego widoku kolejną pozycję, czyli rozkład kolumn.

I otrzymujemy kolejny punkt informacyjny. Znowu na pierwszy rzut oka możesz ocenić strukturę danych w każdej kolumnie wraz z histogramem.
Profil kolumny
Robimy to samo z kolejną pozycją – zaznaczamy Profil kolumny.

Tym razem wyświetli nam się okno na dole ze szczegółowymi statystykami kolumny, którą akurat mamy zaznaczoną.
Możesz tutaj podejrzeć dystrybucję wartości, minima, maksyma, ile jest wartości odrębnych i unikatowych…
Ale! Uwaga!
Standardowo profilowanie odbywa się w oparciu o 1.000 pierwszych wierszy w kolumnie.
Jeżeli chcesz to zmienić i profilować w oparciu o całą kolumnę to musisz wykonać jeszcze dwa kliknięcia.

W lewym, dolnym rogu edytora PQ znajdziesz pozycję Profilowanie kolumn w oparciu o następującą liczbę pierwszych wierszy:…
Po kliknięciu na nią otrzymasz wybór między 1.000 o całym zestawem.
