Jak dobrać najlepszy próg podobieństwa i wykorzystać tabelę transformacji w Power Query?

W Power Query, korzystanie z funkcji dopasowania rozmytego (fuzzy matching) pozwala na łączenie danych z różnych źródeł, nawet jeśli wartości w kolumnach nie są identyczne. Kluczową kwestią jest dobór odpowiedniego progu podobieństwa, który decyduje, czy dwa elementy zostaną uznane za pasujące. Domyślna wartość tego progu to 0,8 i w większości przypadków sprawdza się dobrze. Jednak jej dostosowanie jest niezbędne w zależności od specyfiki zbioru danych. Na przykład, jeśli dane dotyczą nazw miast, które różnią się wyraźnie, wysoki próg nie wymaga korekt. Natomiast w zestawach danych zawierających podobne lub błędnie wpisane wartości, zbyt niski próg może skutkować wieloma błędnymi dopasowaniami – sytuacją, gdy jedna wartość z jednej tabeli pasuje do wielu z drugiej, co zaburza wyniki analizy.

Ważne jest też określenie maksymalnej liczby dopasowań na jeden wiersz. Jeśli interesuje nas tylko najbliższe dopasowanie, warto ustawić tę wartość na 1, co ograniczy wyniki do pojedynczego najlepszego dopasowania. Z kolei wyższa liczba nie wymusi dodatkowych wyników, lecz pozwoli uwzględnić wszystkie spełniające próg podobieństwa.

Gdy mimo to pojawiają się błędy lub braki w dopasowaniach, warto skorzystać z tzw. tabeli transformacji (Transformation Table). Jest to dwukolumnowy zbiór danych, gdzie pierwsza kolumna „From” zawiera błędne lub niepoprawne wartości, a druga „To” – odpowiadające im poprawne. Nazwy kolumn muszą być dokładnie takie, jak podane – wrażliwe na wielkość liter. Tabela ta działa jako słownik zamiany, który Power Query wykorzystuje podczas łączenia, poprawiając jakość wyników i eliminując konieczność ręcznego poprawiania danych po scaleniu.

Proces implementacji tabeli transformacji jest prosty: w opcjach dopasowania rozmytego dodajemy ją jako źródło korekt, pozostawiając pozostałe ustawienia domyślne, następnie zatwierdzamy i rozszerzamy kolumnę z dopasowanymi wartościami, wyciągając oczekiwane dane. Jeśli dalej pojawiają się niedopasowania, wystarczy aktualizować tabelę transformacji, dopisując nowe reguły zamiany.

Techniki te nie tylko poprawiają jakość łączenia danych, ale i podnoszą efektywność analizy, pozwalając przygotować spójny zestaw informacji do dalszej obróbki.

Poza samymi technicznymi ustawieniami progu podobieństwa i tabeli transformacji, ważne jest zrozumienie charakteru danych, z którymi pracujemy. Przed zastosowaniem dopasowania rozmytego warto przeprowadzić wstępną analizę jakości danych, identyfikując typowe błędy i duplikaty. Znajomość kontekstu, w jakim dane zostały zebrane, umożliwi świadome dostosowanie parametrów i uniknięcie niezamierzonych wyników.

Dodatkowo, kontrola wyników powinna obejmować zarówno automatyczne mechanizmy (np. filtrowanie na podstawie wartości progowych), jak i ręczną weryfikację wybranych dopasowań. Może to zapobiec propagacji błędów do kolejnych etapów analizy, gdzie konsekwencje niepoprawnych danych mogą być znacznie poważniejsze.

Wreszcie, tabelę transformacji warto traktować jako dokument żywy – w miarę pojawiania się nowych błędów lub zmian w strukturze danych, powinna być aktualizowana. Dzięki temu proces łączenia będzie stale optymalizowany, a efekty analizy – wiarygodne i precyzyjne.

Jak pracować z Power Query w Excelu 2021: podstawy i przydatne techniki

Po kliknięciu przycisku „Transformuj dane” otworzy się Edytor Power Query, w którym załadowana tabela będzie traktowana jako zapytanie. Zakłada się, że jest to pierwsze użycie Power Query, dlatego na zakładce „Widok” powinna być zaznaczona opcja „Ustawienia zapytania”, dzięki czemu po prawej stronie okna będą wyświetlane kroki zapytania. Należy także upewnić się, że zaznaczone jest pole „Pasek formuły”, aby kod w języku M dla aktywnego lub wybranego kroku zapytania pojawił się nad danymi, jak pokazano na Rysunku 1.6. Od wersji Excel 2021 kod w języku M jest także kolorowany, co ułatwia jego czytanie i zrozumienie. Warto również włączyć pole „Zawsze pozwól na parametry”, które przyda się w dalszych przykładach.

Po załadowaniu danych istotnym elementem, na który warto zwrócić uwagę, jest domyślna nazwa zapytania, która jest zapożyczona z nazwy załadowanej tabeli lub pliku. W przypadku, gdy ta nazwa nie odzwierciedla zawartości danych, zaleca się jej zmianę na bardziej opisową, np. na „Państwa i stolice”. W celu zmiany nazwy wystarczy kliknąć na tekst w polu „Nazwa” i wpisać preferowaną nazwę.

Poniżej nazwy zapytania znajdują się „Zastosowane kroki” (APPLIED STEPS), które wyświetlają wszystkie transformacje, jakie zostały wykonane na danych od momentu ich załadowania (pierwszy krok – Źródło). Klikając na każdy krok, można na bieżąco sprawdzać, jak zmieniają się dane po jego zastosowaniu, a także obserwować, jak zmienia się kod w języku M w pasku formuły. Na tym etapie nie będziemy jeszcze modyfikować kodu M, lecz skupimy się na zapoznaniu się ze strukturą kodu i rozpoznawaniu słów kluczowych, które zazwyczaj są podświetlane na niebiesko i zielono. Niektóre kroki mogą zawierać ikonę koła zębatego po prawej stronie, co oznacza, że dany krok może być zmodyfikowany za pomocą interfejsu użytkownika. Kliknięcie tej ikony otworzy odpowiednie okno ustawień dla tego kroku, jednak w omawianym przykładzie kroki nie będą zmieniane.

Warto wiedzieć, że kliknięcie ikony koła zębatego nie zawsze otworzy to samo okno, które było użyte do stworzenia danego kroku. Po lewej stronie, poza krokiem „Źródło”, znajduje się ikona „x”. Kliknięcie tej ikony usunie dany krok. Należy pamiętać, że usunięcie kroku zapytania nie może zostać cofnięte za pomocą skrótu Ctrl + Z. Usunięty krok można przywrócić tylko poprzez ponowne wykonanie odpowiedniej transformacji ręcznie. Na początku najlepiej usuwać tylko ostatni krok, ponieważ usunięcie kroku w środku zapytania wpłynie na wszystkie kolejne kroki. Bez doświadczenia może być trudno przewidzieć konsekwencje takich zmian. Warto także wiedzieć, że dwukrotne kliknięcie na nazwę kroku jest równoznaczne z kliknięciem ikony koła zębatego. Naciśnięcie klawisza F2, gdy krok jest aktywny lub zaznaczony, pozwala na zmianę nazwy kroku (z wyjątkiem kroku „Źródło”).

W lewym dolnym rogu Edytora Power Query wyświetlana jest liczba kolumn i wierszy w tabeli, która powstała po wybraniu aktualnego kroku. Obok znajduje się opcja „Profilowanie kolumn na podstawie 1000 pierwszych wierszy”. Kliknięcie tej opcji pozwala na przełączenie na profilowanie kolumn na podstawie całego zestawu danych. Te opcje zostaną omówione później (Rysunek 1.28).

Po lewej stronie znajduje się słowo „Zapytania”, które jest wyświetlane pionowo, z symbolem „>”. Kliknięcie tego symbolu rozwija lub zwija (zmieniając go na „<”) listę zapytań w pliku. Na tym etapie istnieje tylko jedno zapytanie, więc nie ma potrzeby wyświetlania listy. Lista ta pozwala na przełączanie między zapytaniami oraz ich zmienianie nazw poprzez dwukrotne kliknięcie na nazwie zapytania.

Najważniejsze sekcje Edytora Power Query zostały omówione, więc teraz skupimy się na analizie poszczególnych kroków zapytania. Pierwszy krok (Źródło) określa miejsce, z którego dane są pobierane. W omawianym przykładzie jest to strona internetowa. Drugi krok (Wyodrębniona tabela z HTML) pozwala na wybór konkretnego elementu lub tabeli ze strony. Trzeci krok (Zmiana typu) zmienia typ danych. Ten krok dodawany jest automatycznie na podstawie ustawień domyślnych Power Query. W tym przypadku jednak nie wnosi nic przydatnego. W obu krokach 2 i 3, nagłówki kolumn pokazują ikony ABC, co oznacza, że przypisany został typ danych tekstowych. Kliknięcie na ikonę w nagłówku kolumny rozwija menu kontekstowe (Rysunek 1.7), które umożliwia wybór innego typu danych, jeśli Power Query nie przypisało go automatycznie (ikona 123ABC) lub przypisało błędny typ.

W omawianym przykładzie, ponieważ odpowiedni typ danych został już przypisany w drugim kroku, ostatni krok można usunąć. Usuwanie niepotrzebnych kroków jest szczególnie ważne przy pracy z danymi wymagającymi wielu transformacji lub zawierającymi dużą ilość informacji. Po dokładnym przyjrzeniu się załadowanym danym w edytorze (Rysunki 1.5 i 1.6) widać, że pierwszy wiersz danych powinien być wierszem nagłówkowym. Aby to zmienić, należy rozwinąć menu opcji tabeli (ikona tabeli), która znajduje się tuż nad numerami wierszy (Rysunek 1.8). Z tego menu należy wybrać opcję „Użyj pierwszego wiersza jako nagłówki”. Można ją również znaleźć na zakładce „Strona główna” (Rysunek 1.9). Rozwinięcie tej opcji pozwala również na wykonanie operacji odwrotnej. W tym przykładzie celem jest jednak promowanie pierwszego wiersza jako nagłówków kolumn dla tej tabeli.

Bez względu na to, gdzie zostanie zastosowana wybrana opcja, Power Query doda krok „Promowane nagłówki” oraz automatycznie wstawi kolejny krok o nazwie „Zmiana typu”. Ponieważ ten krok nie jest potrzebny, należy go ponownie usunąć. Jeśli nie chcemy, aby krok „Zmiana typu” był dodawany automatycznie, należy wykonać następujące kroki:

Kliknąć menu „Plik”.
Rozwinąć „Opcje i ustawienia” i wybrać „Opcje zapytania”.
W oknie, które się pojawi, przejść do zakładki „Załaduj dane” w sekcji „Globalne” (Rysunek 1.10).
Zmienić ustawienia wykrywania typu.

Dzięki tym ustawieniom można łatwo kontrolować sposób wykrywania typu danych. Warto jednak pozostawić tę opcję włączoną, ponieważ usunięcie pojedynczego kroku z zapytania jest łatwiejsze niż ręczne zmienianie typu danych dla wielu kolumn.

W tym przykładzie należy także zmienić wielkość liter w pierwszej i drugiej kolumnie (teraz nazwanych „Kraj” i „Stolica”), tak aby każde słowo zaczynało się od wielkiej litery. Transformację tę można wykonać na kilka sposobów, np. zaznaczając obie kolumny, trzymając wciśnięty klawisz Ctrl (dla kolumn, które nie są przyległe), lub trzymając klawisz Shift (dla kolumn przyległych). Można także zastosować transformację osobno do każdej kolumny. Power Query rozpozna, że ta sama transformacja jest stosowana do wielu kolumn i połączy je w jeden krok o nazwie „Kapitalizuj każde słowo”. Transformację tę można znaleźć na zakładce „Transformacja” po rozwinięciu polecenia „Formatowanie” (Rysunek 1

Jak zrozumieć wyniki analiz porównawczych między laboratoriami na podstawie wykresów statystycznych?
Jak poprawnie tworzyć kolumny i obliczać czas pracy w Power Query?
Jak polaryzacja polityczna i zmiany społeczne zagrażają demokracji?
Jak stworzyć działający prototyp języka programowania: przykłady i zasady