Vizualizace dat je klíčovou součástí procesu analýzy dat, která nám pomáhá chápat složité informace a rychleji identifikovat vzory. Tento proces má nejen technický, ale i umělecký rozměr, protože umožňuje vědcům, analytikům a manažerům prezentovat data tak, aby byla snadno pochopitelná. Různé techniky vizualizace, jako jsou boxploty, histogramy nebo scatterploty, mají své specifické využití a přinášejí různé výhody v závislosti na typu dat a cílech analýzy.
Při práci s vizualizacemi dat je důležité mít na paměti, že samotná grafika může být manipulativní. Grafické prvky, jako jsou velikosti bodů, barvy, či jejich umístění, mohou změnit naše vnímání vztahů mezi daty. Například, i když boxplot poskytuje základní statistické informace o rozdělení dat, přidání jednotlivých bodů může odhalit skrytý vzorec nebo anomálie, které by jinak zůstaly nepovšimnuty. Tato metoda, známá jako jittering, zajišťuje, že jednotlivé hodnoty nebudou překrývat jiné, čímž je vizualizace čitelnější a přehlednější. Použití funkce geom_jitter() v knihovně ggplot2 v R může být efektivní způsob, jak ukázat, kde konkrétní data spadají v rámci širšího rozdělení, aniž by došlo k vizuálnímu zmatení.
Pro správné použití jitteringu je nezbytné pochopit, jaký typ dat máme k dispozici a jaké otázky se pokoušíme zodpovědět. Například u časových řad nebo geografických dat může být jittering neefektivní, protože ztrácí smysl pro pořadí nebo prostorovou orientaci dat. Na druhou stranu, u dat, která jsou distribuována kolem určité hodnoty nebo mají spoustu shlukujících se bodů, může být jittering velmi užitečný při analýze, kde se pohybujeme mezi tím, co je běžné, a tím, co je výjimečné.
Jedním z dalších klíčových aspektů, který by měl čtenář při práci s vizualizacemi dat zvážit, je správné volení grafického typu pro konkrétní analýzu. Například, pokud máme dva numerické sloupce, jako je počet válců v motoru a výkon, scatterplot může být ideálním nástrojem pro zobrazení vztahu mezi těmito dvěma proměnnými. Naopak pro distribuci hodnot by bylo vhodnější použít histogram nebo boxplot. Důležité je rovněž porozumět, co každý graf zobrazuje, a co se z něj dá vyčíst, aby nedošlo k nesprávné interpretaci.
Ve světě datové vědy jde o to, aby vizualizace neukazovala pouze čísla, ale vyprávěla příběh. Příběh, který nám ukáže vzory, anomálie a závislosti, které bychom jinak přehlédli. Při vytváření vizualizací se musíme postarat o to, aby byly nejen přesné, ale i efektivní a přehledné. Jako vědec, jenž pracuje s daty, bychom neměli zapomínat, že data samotná neříkají všechno – to, co zjistíme, závisí na tom, jakým způsobem je představíme ostatním.
S vizualizacemi tedy přichází větší odpovědnost. Ovlivňují naše rozhodování, naše přesvědčení a naše chápání komplexních jevů, a to jak v každodenním životě, tak v podnikání, politice nebo vědeckém výzkumu. Proto je důležité nejen správně číst vizualizace, ale také být schopni je kriticky analyzovat a vytvářet je tak, aby co nejlépe odrážely realitu.
Jak agregovat hodnoty pro získání průměrného hodnocení filmu?
Pro agregaci hodnot s cílem zjistit průměrné hodnocení filmu se využívá příkaz GROUP. Mezi příkazy tohoto typu patří funkce jako MAX(), MIN(), COUNT() nebo AVG(). Příklad zobrazený ve Listing 4-4 ukazuje jeden z možných způsobů, jak agregovat hodnoty a získat průměrné hodnocení pro každý film. Funkce SELECT využívá příkaz AS k přejmenování sloupce, aby bylo zajištěno, že byl správně označen. Tabulky Film a Rating musely být spojeny, a protože film „Dr. Yes“ neměl žádná hodnocení, při použití vnitřního spojení byl tento film vynechán.
Listing 4-4: Použití příkazu GROUP pro agregaci dat
Výstup
| title | avg_rating |
|---|---|
| All About Adam | 3.5 |
| The Even Couple | 4.0 |
| The Fourth Man | 4.5 |
Pokud je potřeba výsledky dále zúžit, přidává se příkaz HAVING, jak ukazuje Listing 4-5. Tento příkaz slouží k filtrování již agregovaných dat.
Listing 4-5: Použití příkazu HAVING pro zúžení výsledků
Výstup
| title | avg_rating |
|---|---|
| The Even Couple | 4.0 |
| The Fourth Man | 4.5 |
Tento kód omezuje vracená data na tituly, které mají průměrné hodnocení vyšší nebo rovno 4. I když SQL může provádět základní těžbu textu, pro složitější analýzu je třeba využít specializované balíčky, jako jsou Python NLTK (Natural Language Toolkit) nebo GATE (General Architecture for Text Engineering). Tyto nástroje slouží k předzpracování dat a extrakci jazykových prvků, jako jsou části řeči nebo syntaktické vztahy, které následně mohou být uloženy v relační databázi pro další dotazování.
Pokud jde o práci s daty, Excel se v datové vědě stále těší velké oblibě. I když byl původně navržen jako jednoduchý tabulkový procesor, s každou novou verzí přidává Microsoft stále pokročilejší nástroje pro analýzu a vizualizaci dat. Díky těmto funkcím se stal jedním z nejoblíbenějších nástrojů pro analýzu dat. V praxi Excel nabízí snadný přístup k datům a jednoduché způsoby jejich zkoumání.
Pro začátečníky může být Excel užitečný k rychlému přehledu dat. Pokud máte k dispozici tabulku s velkým množstvím dat, Excel umožňuje rychle filtrovat záznamy, vyhledávat specifické vzory a zobrazení trendů. Pomocí nástrojů jako jsou filtry, podmíněné formátování a grafy je možné rychle zjistit, jaké hodnoty se v datech objevují, což umožňuje snadnou detekci odlehlých hodnot nebo trendů.
Filtr v Excelu je nástroj, který vám umožní zobrazit pouze ty záznamy, které jsou relevantní pro vaši analýzu. Příklad: pokud máte tabulku s údaji o prodeji několika zaměstnanců a chcete se zaměřit jen na data jednoho konkrétního zaměstnance, stačí použít filtr, který vám umožní zobrazit pouze jeho záznamy.
Podmíněné formátování je užitečné pro rychlé zobrazení odlehlých hodnot v datech. Pokud se například vyskytne nesprávná hodnota, například chybně zadání prodeje za měsíc, Excel ji automaticky zvýrazní, což usnadní její identifikaci a opravu. To se hodí zejména při práci s velkými datovými sadami, kdy je jinak velmi snadné přehlédnout takové chyby.
I když Excel není ideálním nástrojem pro analýzu extrémně velkých souborů (má limit 1 048 576 řádků na list), jeho schopnosti v oblasti vizualizace a základní analýzy dat ho činí velmi silným nástrojem, zvláště pro ty, kteří začínají s datovou vědou. Pro rozsáhlejší a složitější úkoly je samozřejmě potřeba přejít na jiné nástroje, ale Excel zůstává neocenitelným pomocníkem pro rychlou analýzu a porozumění datům.
Přestože Excel má své limity, stále poskytuje rychlé a efektivní řešení pro získání přehledu o datech. Google Sheets, cloudová alternativa k Excelu, nabízí další výhody, zejména pokud jde o spolupráci a sdílení dat v reálném čase. Google Sheets disponuje podobnými funkcemi jako Excel, ale uživatelské rozhraní je často považováno za intuitivnější, což je výhodné zejména pro týmové projekty, kdy více lidí pracuje na stejné datové sadě.
Pokud chcete mít více kontroly nad daty a flexibilitu ve výběru analytických nástrojů, rozhodně stojí za to se podívat na možnosti, které nabízí nástroje jako Python, R, nebo SQL. Tyto nástroje poskytují pokročilejší metody analýzy, ale pro začátečníky může být Excel vynikajícím startovacím bodem pro porozumění základním principům práce s daty.
Jak spravovat nastavení datového zdroje v Power BI a pracovat s místními a sdílenými daty
Nastavení datového zdroje v Power BI se může během času měnit, zejména pokud dojde k přesunu souborů nebo změně jejich umístění. Představme si, že přesunete složku, která obsahuje soubory 611420.xlsx a 54151S.xlsx z C:\Desktop do C:\Documents. Taková změna by vyžadovala úpravu nastavení datového zdroje. Možnosti změny nastavení závisí na tom, zda chcete upravit každý dotaz jednotlivě, nebo hledáte efektivnější přístup.
První způsob je následující: Vyberte každý dotaz v sekci „Dotazy“ na levé straně, přejděte na „Nastavení dotazu“ vpravo a klikněte na „Zdroj“ pod položkou „Použité kroky“. Otevře se okno, kde můžete upravit cestu k souboru nebo jeho typ pro každý dotaz. Tento přístup je jednoduchý, ale může být časově náročný, pokud máte více dotazů, které je třeba aktualizovat. V takovém případě je lepší zvolit alternativní způsob, kdy změníte umístění zdroje ve všech dotazech najednou.
Druhý způsob spočívá v otevření editoru Power Query, kde kliknete na tlačítko „Nastavení datového zdroje“ na hlavní liště. Po otevření nového okna vyberte všechny soubory, které vyžadují změnu umístění, a proveďte požadované změny. Tato metoda vám umožní upravit všechny dotazy ve vší efektivitě, bez potřeby jednotlivých úprav.
Dalším krokem je práce se sdílenými daty. Jakmile je dataset publikován a sdílen s ostatními uživateli, stává se z něj sdílený dataset. Na rozdíl od místních datových sad, které musíte neustále aktualizovat na svém počítači, sdílený dataset je uložen v cloudu. Tato centralizace zajišťuje konzistenci a usnadňuje práci s daty mezi různými uživateli, jelikož změny se projevují všem, kdo dataset používají. Výhodou sdíleného datasetu je i možnost vytvoření nových datových zdrojů na základě již existujících.
Pokud pracujete s Power BI Desktop nebo Power BI Services, můžete připojit sdílený dataset následovně: V Power BI Desktop klikněte na tlačítko „Power BI Datasets“ na hlavní liště, nebo vyberte možnost „Get Data“ a pak „Power BI Datasets“. Tímto způsobem se data přenesou do Power BI Services, kde je můžete dále analyzovat. V Power BI Services přejděte do workspace, kam jste data publikovali, a zvolte „Nový ➪ Report“, abyste vytvořili nový report na základě sdíleného datasetu.
Pokud používáte sdílený dataset, nemusíte se už tolik obávat problémů s aktualizací dat nebo verzování. Můžete například v Power BI Services uložit kopii reportu bez nutnosti znovu vytvářet dataset. Když připojujete sdílený dataset, může se stát, že některé funkce v Power BI Desktop přestanou být aktivní, protože již nemáte přístup k Power Query Editoru, což znamená, že se ztratí možnost provádět úpravy v datovém modelu. Tato změna je indikována v pravém dolním rohu Power BI Desktop, kde je zobrazen název datasetu a uživatel, který má k těmto datům přístup.
Pokud chcete přejít ze sdíleného datasetu na místní, postupujte následovně: Klikněte na „Transform Data“, zvolte „Nastavení datového zdroje“ a upravte nastavení podle nového datasetu. Po dokončení klikněte na tlačítko „Změnit“.
Pokud jde o způsoby připojení a ukládání dat, Power BI nabízí několik možností: nejběžnější metodou je importování dat do datového modelu, což znamená, že data jsou kopírována lokálně, dokud neprovedete jejich obnovu. Databáze však umožňují větší flexibilitu při připojování dat a mohou podporovat alternativy jako DirectQuery nebo Live Connection. DirectQuery znamená, že data nejsou uchovávána v Power BI, ale jsou dotazována přímo ze zdroje každým požadavkem. S tímto způsobem ale přichází určité omezení, protože ne všechny datové zdroje tuto funkci podporují. Live Connection zase umožňuje využívat analytické služby, které jsou integrované s Power BI.
Pokud potřebujete kombinovat jak importovaná data, tak DirectQuery, použijete tzv. „kompozitní model“, který umožňuje propojit různé datové zdroje. Je však důležité zajistit správnou ochranu a kontrolu přístupu k těmto datům, aby nedošlo k úniku informací mezi různými zdroji, pokud by soubor pocházel z nedůvěryhodného zdroje.
Když pracujete s různými způsoby připojení dat, je nutné mít na paměti i možnosti bezpečnosti a správného řízení přístupových práv k těmto datům, protože nesprávně nastavené oprávnění může vést k nechtěnému přístupu k citlivým informacím.
Jak efektivně vizualizovat data pomocí grafů v Tableau: Příklady s bublinovými grafy a kombinovanými grafy
Bublinové grafy jsou vynikajícím nástrojem pro vizualizaci více datových sad, identifikaci trendů a vzorců a hledání odlehlých hodnot v datech. Tyto grafy umožňují zobrazení dat, která mají tři nebo více dimenzí, například když jsou do analýzy zahrnuty další numerické nebo kategorické proměnné. Pomocí dat z usaspending.gov můžeme vytvořit různé varianty bublinových grafů, které porovnávají například Kód státu příjemce, Celkovou hodnotu udělení ocenění a Celkovou povinnou částku.
Pro vytvoření bublinového grafu postupujte podle následujících kroků. Nejprve umístěte dvě měřítka na osu řádků a dimenzi na osu sloupců. Na spodní části stránky si všimnete, že existují hodnoty typu "null". Klikněte na odkaz null a zvolte možnost filtrovat všechny hodnoty. Zobrazí se vyskakovací okno, které vám umožní rozhodnout, zda chcete data filtrovat, nebo je zobrazit v jejich výchozím stavu. Poté klikněte na "Filtr dat". Výsledný graf ukáže, že jeden stát vykazuje neúměrně vysoký objem prodejů ve srovnání s ostatními. Následující krok zahrnuje vytvoření filtru, který umožní lepší zobrazení reálných hodnot.
Přejděte na kartu Filtry a vyberte možnost "SUM(Celkové povinné částky)". Klikněte pravým tlačítkem na "SUM(Celkové povinné částky)" a zvolte možnost "Upravit filtry". Do textového pole zadejte rozsah hodnot od 50 000 do 2 500 000 USD a klikněte na OK. Po těchto krocích budete mít možnost vybrat různá zobrazení bublinového grafu: Zobrazení bublin, Zobrazení bublin vedle sebe nebo Zobrazení bublinového grafu v panelu "Ukázat mi". Bez ohledu na vybraný typ grafu uvidíte tři konzistentní bublinové grafy, které prezentují stejný výstup – hodnoty prodeje podle států, v daném rozmezí od 50 000 do 2 500 000 USD, od roku 2007 do 2022.
Další užitečný typ grafu je čárový graf. Tableau nabízí tři typy čárových grafů: diskrétní, kontinuální a duální čáru. Kontinuální čárový graf využívá na ose x kontinuální numerické nebo datumové pole. Tableau automaticky vytváří kontinuální osu a zobrazuje data pomocí čáry. Naopak diskrétní čárový graf používá diskrétní pole, které obsahuje konečný počet distinctních hodnot, a data jsou zobrazena jako jednotlivé body místo spojité čáry. Duální čárový graf zobrazuje dvě měřítka na jedné ose y a je užitečný pro porovnání měřítek, která mají odlišné měřítka. Například, pokud máte jedno měřítko v rozmezí 0–100 a druhé v rozmezí 200–500, duální osa vám umožní efektivně porovnat obě hodnoty.
Pro vytvoření kontinuálního čárového grafu s daty z usaspending.gov je třeba nejprve vybrat dvě datová pole: "Aktuální období výkonnosti" a "Celková povinná částka". Poté přetáhněte pole "Aktuální období výkonnosti" na osu sloupců a pole "Celková povinná částka" na osu řádků. Výsledkem bude kontinuální čárový graf. Pokud přidáte další pole na osu řádků, například "Potenciální hodnota ocenění", přibude nová čára. Chcete-li vytvořit diskrétní čárový graf, je třeba změnit osu y (na ose sloupců), jak je ukázáno v předchozím příkladu.
K dalšímu zobrazení je možno využít kombinované grafy. Kombinovaný graf v Tableau spojuje dvě různé vizualizace dat na jedné obrazovce, což umožňuje lepší porovnání dvou hodnot v rámci jednoho časového období nebo měření, případně porovnání stejného měřítka v různých obdobích. Pro vytvoření kombinovaného grafu s daty z usaspending.gov přetáhněte pole "Datum zahájení období výkonnosti" na osu sloupců, následně přetáhněte měřítka "Potenciální celková hodnota ocenění" a "Celková povinná částka" na osu řádků. Počáteční výsledek bude zobrazovat kombinaci čáry a sloupce. Můžete také nahradit čáru jinými kombinacemi, například oblastmi nebo bublinami.
V závislosti na typech dat a potřebách analýzy je důležité zvolit správný typ grafu, který nejlépe vyjádří vztahy mezi datovými soubory. Bublinové grafy jsou ideální pro zobrazení vícerozměrných dat a identifikaci neobvyklých hodnot, zatímco čárové grafy a kombinované grafy jsou užitečné pro zobrazení trendů v čase nebo porovnání různých měřítek.
Jak správně používat klauzule GROUP BY, HAVING a ORDER BY v SQL dotazech?
V práci s databázemi jsou klauzule GROUP BY, HAVING a ORDER BY základními nástroji pro manipulaci s daty a jejich seskupování. Tyto klauzule se používají v kontextu SQL dotazů, kdy je potřeba aplikovat různé operace nad souvisejícími daty nebo seřadit výsledky podle určitého kritéria.
Klauzule GROUP BY slouží k seskupení řádků v databázi na základě určitého sloupce nebo sloupců. Je nezbytná pro správnou agregaci dat, například když chcete získat souhrnné hodnoty, jako je počet záznamů, průměr, suma či maximum pro různé kategorie. Seskupením dat podle určitého sloupce například zjistíte počet prodejů pro každý produkt nebo průměrnou cenu v jednotlivých regionech. Klauzule GROUP BY je nezbytná v případě, že v dotazu používáte agregační funkce jako COUNT(), SUM(), AVG(), MAX(), nebo MIN().
Příklad:
Tento dotaz vrátí průměrnou hodnotu prodeje pro každý region.
Je však důležité si uvědomit, že sloupce, které nejsou součástí agregační funkce, musí být zahrnuty v klauzuli GROUP BY. Pokud byste se pokusili vybrat sloupec, který není buď součástí agregační funkce, nebo GROUP BY, SQL server vyvolá chybu.
Klauzule HAVING se často používá v kombinaci s GROUP BY k filtraci seskupených dat. Rozdíl mezi HAVING a WHERE spočívá v tom, že WHERE se používá pro filtraci jednotlivých řádků před jejich seskupením, zatímco HAVING se aplikuje až po seskupení, tedy na již agregované výsledky. Tato klauzule je užitečná například pro vyfiltrování těch skupin, které splňují určitou podmínku, jako je minimální počet prodejů nebo průměrná hodnota.
Příklad:
V tomto případě dotaz vrátí pouze ty regiony, kde je průměrný prodej vyšší než 1000.
Klauzule ORDER BY je určena pro seřazení výsledků dotazu podle jednoho nebo více sloupců. Výsledky mohou být seřazeny vzestupně (ASC) nebo sestupně (DESC). Když chcete zjistit, jak jsou data uspořádána podle určitého kritéria, použijete právě tuto klauzuli. Například v tabulce prodejů můžete seřadit výsledky podle data nebo hodnoty prodeje.
Příklad:
Tento dotaz seřadí produkty podle hodnoty prodeje v sestupném pořadí, což znamená, že nejvyšší prodeje budou na začátku výsledku.
Klauzule GROUP BY, HAVING a ORDER BY jsou základními nástroji pro práci s agregovanými a seřazenými daty, ale je nutné chápat jejich vzájemnou závislost a pořadí použití. Když používáte více těchto klauzulí v jednom dotazu, vždy dodržujte správné pořadí: nejprve GROUP BY, následně HAVING pro filtraci seskupených dat a nakonec ORDER BY pro finální seřazení výsledků.
V praxi může být užitečné také věnovat pozornost optimalizaci výkonu těchto dotazů, zvláště pokud pracujete s velkými datovými sadami. Při práci s velkými tabulkami může správně zvolený index nebo efektivní struktura dotazů výrazně zrychlit dobu vykonání dotazu. Důležité je také nezapomínat, že některé databázové systémy mohou mít specifické vlastnosti nebo optimalizace pro různé typy dotazů, což je dobré mít na paměti při návrhu a ladění složitějších dotazů.
Co představuje "Druhý tým hrdinů" a proč nezanikla jejich role v budování Západu?
Jak rozpoznat lichen sclerosus et atrophicus a chronickou radiační dermatitidu
Jak správně interpretovat intervaly spolehlivosti a p-hodnoty v lékařských studiích?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский