V databázích, kde je potřeba pracovat s daty, je nezbytné správně spravovat časové údaje, zejména pokud je nutné zachovat informaci o časovém pásmu nebo o rozdílu mezi časovými zónami. Tato schopnost může mít klíčový význam pro analýzu a zpracování dat, která jsou vázána na různé časové zóny a historické časové údaje.
Typ TIME WITH TIME ZONE přináší všechno, co nabízí typ TIME WITHOUT TIME ZONE, s přidaným faktorem, který specifikuje časovou zónu, k níž se daný čas vztahuje. Všechny časové zóny na Zemi jsou totiž referencovány k Coordinated Universal Time (UTC), dříve známému jako Greenwich Mean Time (GMT). Tento čas je měřen v Greenwichi, ve Spojeném království, kde byl v minulosti zaveden princip velmi přesného měření času. UTC platí nejen pro Velkou Británii, ale také pro obrovské "plátky melounu", které procházejí po celém světě od severního po jižní pól. Z těchto plátků tvoří celkem 24, každý odpovídá jedné časové zóně. Rozdíly v čase kolem světa mohou být od 11 hodin a 59 minut za UTC až po 12 hodin napřed (kromě letního času). Letní čas může tento rozdíl ještě zvýšit nebo snížit až na -12:59 nebo +13:00 hodin.
Zajímavý je také International Date Line, který teoreticky leží přesně na opačné straně světa od Greenwiche, ale v některých oblastech je posunut, aby se některé země držely ve stejné časové zóně.
Typ TIMESTAMP WITHOUT TIME ZONE je kombinací dvou předchozích typů – DATE a TIME WITHOUT TIME ZONE. Tento typ ukládá nejen čas, ale i datum, přičemž rozdíl oproti typu TIME WITHOUT TIME ZONE spočívá v tom, že výchozí hodnota pro zlomky sekund je šest číslic místo nuly. Například hodnota „1969-07-21 02:56:31“ bude platným záznamem pro událost, kdy Neil Armstrong poprvé vstoupil na Měsíc. Tento zápis obsahuje 10 znaků pro datum, mezeru jako oddělovač a 8 znaků pro čas.
Pokud potřebujeme zaznamenat i časovou zónu, použijeme typ TIMESTAMP WITH TIME ZONE, který přidává informaci o offsetu vůči UTC. Například pro výše uvedený příklad, kdy Armstrong přistál na Měsíci, by to vypadalo jako „1969-07-20 21:56:31-05:00“, což představuje čas v Houstonu. Tento čas je normálně šest hodin za UTC, ale kvůli letnímu času byl offset pouze pět hodin.
V některých případech budete potřebovat uchovávat rozdíl mezi dvěma časovými údaji. K tomu slouží intervaly. Interval je rozdíl mezi dvěma daty, dvěma časy nebo dvěma kombinacemi dat a času. Existují dva základní typy intervalů: rok-měsíc a den-hodina-minuta-sekunda. Hodina má vždy 60 minut a minuta 60 sekund, ale měsíc může mít 28, 29, 30 nebo 31 dní. To znamená, že nelze mísit oba typy intervalů, například nelze vyjádřit interval „2 roky, 7 měsíců, 13 dní, 5 hodin, 6 minut a 45 sekund“ pomocí jediného pole typu INTERVAL.
Dále, s příchodem standardu SQL/XML:2003 bylo do SQL přidáno podporu pro typ XML. Tento typ umožňuje spravovat a dotazovat se na XML data přímo v SQL databázích. Od SQL/XML:2006 byla přidána podpora pro model dat XQuery, což znamená, že jakýkoliv XML hodnoty jsou nyní také sekvencí XQuery. Tento koncept zahrnuje tři hlavní podtypy XML: XML(SEQUENCE), XML(CONTENT) a XML(DOCUMENT). Tyto podtypy tvoří hierarchii, kde každý typ je více specifický než předchozí, přičemž XML(SEQUENCE) představuje základní sekvenci XML uzlů nebo hodnot. XML(CONTENT) je fragment XML, zatímco XML(DOCUMENT) je platný XML dokument.
Typ ROW, přidaný v SQL:1999, představuje první odklon od klasického relačního modelu. Tento typ umožňuje vložit celou řadu dat do jednoho pole, což znamená, že můžete vkládat složené záznamy do jiných záznamů. Tento přístup porušuje první normální formu (1NF) relačních databází, protože umožňuje více hodnot v jednom poli. Příklad zápisu tohoto typu vypadá následovně: definice typu „address_type“, který kombinuje informace o ulici, městě, státu a PSČ do jednoho sloupce.
Databázové systémy, které používají tento typ, umožňují lepší strukturování složitějších datových modelů, ale současně představují výzvu pro některé implementace SQL, které takové typy přímo nepodporují.
Je důležité si uvědomit, že každý typ dat v SQL má svou specifickou roli v závislosti na tom, jaké informace je třeba uchovávat. Zatímco některé datové typy, jako je čas a časová pásma, jsou důležité pro přesné sledování času v mezinárodním měřítku, jiné, jako je XML a ROW, umožňují efektivní práci s komplexními strukturami dat. Pro správné použití těchto typů je nezbytné pochopit jejich výhody a limity v kontextu konkrétní aplikace.
Jak efektivně spravovat a chránit data při jejich analýze a vizualizaci?
Správa a ochrana dat jsou zásadními aspekty každého procesu analýzy a vizualizace dat. Nezáleží na tom, zda se jedná o práci s velkými datovými sadami, nebo s drobnými lokalizovanými soubory, procesy spojené s přípravou, zpracováním a správou dat mají přímý vliv na kvalitu výsledků. Z tohoto důvodu je kladeno velké důraz na strukturu dat, jejich správnou integraci, správu oprávnění a aplikování bezpečnostních opatření.
V kontextu moderních nástrojů pro analýzu dat, jako jsou Microsoft Excel, Power BI nebo Tableau, je ochrana a správa dat prováděna jak na úrovni samotných datových souborů, tak na úrovni jejich vzorců, což zahrnuje strukturu tabulek, vlastnosti sloupců a správu přístupových práv.
Jedním z klíčových prvků v procesu ochrany dat je zajištění správného nastavení ochrany osobních údajů a citlivých informací. To zahrnuje aplikaci citlivostních štítků, které označují úroveň ochrany informací ve všech fázích jejich zpracování. Tyto štítky mohou pomoci zajistit, že data nebudou nesprávně sdílena nebo použita bez patřičného souhlasu.
Dalším významným aspektem je struktura datových toků (dataflows). Je zásadní, aby všechny kroky zpracování dat byly jasně definovány a sledovány. To zahrnuje nejen správu vstupních dat, ale také definování správných transformací, filtrace a načítání dat. Systémy jako Power Query nebo Tableau Prep Builder poskytují nástroje pro automatizované přetváření a transformaci dat, což usnadňuje správu komplexních datových toků. Při práci s těmito nástroji je důležité si uvědomit, že každý krok může ovlivnit konečné výsledky analýzy.
Pokud jde o samotné zpracování dat, je nezbytné pochopit význam správy typů dat, které jsou součástí analýz. Správné mapování datových typů a jejich konzistence ve všech fázích zpracování zajišťuje, že výsledné analýzy budou přesné a správné. Nástroje jako SQL nebo jazyk R, které se používají pro manipulaci s daty, vyžadují správnou syntaxi pro práci s datovými typy, jako jsou řetězce, čísla a data.
Zabezpečení a ochrana dat při práci v prostředích jako Power BI a Tableau spočívá i v práci s datovými modely. V těchto nástrojích je důležité používat vhodné metody pro vytváření vztahů mezi tabulkami, čímž se zajistí správné propojení datových bodů. Využití kombinovaných modelů (composite models), které umožňují připojit různé zdroje dat do jednoho, může výrazně zjednodušit analýzu, ale zároveň zvyšuje nároky na správné řízení přístupu a správu datových práv.
Je důležité si uvědomit, že správné sdílení a přístup k těmto datům musí být řízeno podle zásad ochrany soukromí a politiky organizace. Například, při použití Power BI pro sdílení a publikování reportů, je nutné správně nastavit oprávnění pro uživatele a zajistit, aby bylo možné zpětně sledovat změny a přístupy k těmto datům.
Dalším aspektem, který může ovlivnit efektivitu analýzy, je způsob vizualizace dat. Správné nastavení formátování datových vizualizací je nezbytné nejen pro jejich estetickou hodnotu, ale i pro přehlednost a srozumitelnost pro uživatele. V nástrojích, jako jsou Tableau a Power BI, je k dispozici široká škála grafů a tabulek, které umožňují snadno komunikovat výsledky analýz. Nicméně při jejich výběru je nutné dbát na to, aby byl zachován správný kontext dat, což zahrnuje nejen jejich tvarování, ale i zajištění, že prezentované informace odpovídají původní datové struktuře.
Kromě výše uvedeného je zásadní pochopit, jak jsou data ukládána, transformována a přetvářena během celé své životnosti. To zahrnuje správné načítání dat, jejich validaci a úpravy v průběhu analýzy, což má přímý vliv na přesnost závěrů, které budou z dat odvozeny. Udržování vysoké kvality dat, jejich pravidelná aktualizace a správná synchronizace jsou faktory, které mohou výrazně ovlivnit efektivitu rozhodovacích procesů v rámci organizace.
Jaké výzvy přináší rychlost a rozmanitost dat v oblasti velkých dat?
V technických termínech je rychlost dat definována jako objem dat za jednotku času. V systémech pro práci s velkými daty se rychlost pohybuje od 30 kilobajtů za sekundu až po 30 gigabajtů za sekundu. Latence je vlastnost každého datového systému, která měří zpoždění při přenosu dat – tedy dobu, která uplyne mezi vytvořením dat a jejich zpracováním systémem. Pro mnohé datové inženýrské systémy je kladeno požadavky na latenci pod 100 milisekund od okamžiku vzniku dat až po odpověď systému. Propustnost je vlastnost, která popisuje schopnost systému vykonávat práci za jednotku času. V systémech velkých dat může požadavek na propustnost dosahovat až 1 000 zpráv za sekundu. Vysoká rychlost a reálný čas pohybu dat představují výzvu pro včasné rozhodování. Schopnosti nástrojů pro zpracování a příjem dat často omezují rychlost datového toku. Nástroje pro příjem dat, neboli nástroje pro ingestování dat, jsou k dispozici v různých variantách. Mezi populární nástroje patří:
-
Apache Sqoop: Tento nástroj slouží k rychlému přenosu dat mezi relačními datovými systémy a distribuovaným souborovým systémem Hadoop (HDFS). HDFS využívá clustery levných serverů k uchovávání velkých dat, čímž umožňuje jejich efektivní a cenově dostupné zpracování.
-
Apache Kafka: Tento distribuovaný systém pro zasílání zpráv funguje jako zprostředkovatel, umožňující rychlé odesílání a příjem zpráv mezi systémy a HDFS. Kafka je užitečný nástroj pro konsolidaci datových požadavků uživatelů a jejich odesílání či příjem.
-
Apache Flume: Tento distribuovaný systém je zaměřen především na přenos logů a eventových dat. Využívá se pro přenos obrovských objemů nestrukturovaných dat mezi různými systémy a HDFS.
Výzvou pro správu dat je i jejich různorodost. S přidáním nestrukturovaných a polo-strukturovaných dat se komplexita práce s daty výrazně zvyšuje. Takto rozmanitá data pocházejí z různých zdrojů a obvykle se skládají z kombinace různých typů datových sad s odlišnou strukturou – strukturovaná, nestrukturovaná a polo-strukturovaná data. Tyto heterogenní datové zdroje mohou zahrnovat grafová data, soubory ve formátu JSON, XML, data ze sociálních médií, tabulková data, weblogová data a data generovaná uživatelskými kliknutími na webových stránkách, známá jako click-streams.
Jedním z významných přístupů ke skladování dat je data lake. Tento termín označuje nestrukturovaný úložný systém určený pro uchovávání obrovských objemů více-typových surových dat v ploché struktuře. Data v data lake nejsou vzájemně propojena ani uspořádána hierarchicky. Příklady platforem pro ukládání datového jezera zahrnují HDFS a Azure Synapse, ale také platformu Amazon Web Services (AWS) S3 nebo jiné cloudové služby. Oproti tomu datový sklad (data warehouse) slouží k uchovávání a přístupu pouze ke strukturovaným datům. Tradiční systémy datových skladů jsou často používány v rámci obchodní inteligence, přičemž data mohou být uložena v takzvaných datových mártech, což jsou skladové systémy určené k ukládání specifických dat pro jedno konkrétní oddělení společnosti.
Důležitým konceptem pro pochopení tohoto tématu je samotný pojem data. Data jsou kolekce digitálně uložených jednotek, které představují určité významy, když jsou zpracovány pro člověka nebo počítač. Jednotlivé datové jednotky se nazývají datum (v singuláru), a více jednotek tvoří data (v plurálu). Před zpracováním nemusí data sama o sobě dávat smysl, ani když jsou kombinována s jinými daty. Například slovo "pomeranč" nebo číslo 42 samy o sobě nemají žádný konkrétní význam. Až když jsou data zpracována a umístěna do kontextu, získávají svůj význam. Pokud například řekneme "Pomeranč je chutné ovoce," nebo "T-shirt, který jsem koupil, stál 42 dolarů," tato data již nesou informaci. Tento proces převodu dat na informace je základem celého odvětví, které dnes určuje náš rychlý digitální vývoj.
Žijeme v éře zettabajtů. Když jsme na přelomu tisíciletí začali čelit rychlému růstu objemu dat, stal se pojem zettabajt nezbytným pro popis enormního množství dat, které byly vytvářeny. Zettabajt je číslo s 21 nulami (1 000 000 000 000 000 000 000 byte). Do roku 2020 bylo vytvořeno 44 zettabajtů dat a tento objem stále roste. Odhaduje se, že do roku 2023 dosáhne globální objem dat 100 zettabajtů, přičemž v dalších 3-4 letech může dokonce zdvojnásobit. Pro představu, pokud vlastníte terabajtový disk, potřebovali byste jednu miliardu takových disků, abyste uložili jen jeden zettabajt dat.
Pokud bychom se podívali na zpracování těchto dat na technické úrovni, zjistíme, že data jsou v zásadě ukládána v bitech, což je nejzákladnější jednotka zpracování v počítačích. S rostoucími objemy dat budeme pravděpodobně potřebovat nové termíny pro označení ještě větších objemů, jako jsou yottabajty a brontobajty.
Důležité je si uvědomit, že každý nástroj, technologie nebo platforma pro zpracování velkých dat není univerzální a musí být vybírána na základě specifických potřeb organizace. Rychlost zpracování a různorodost dat představují výzvy, které musí být řešeny s ohledem na konkrétní situace. K tomu, aby data měla skutečný hodnotu, je nezbytné jejich správné zpracování, analýza a kontextualizace, což je dnes klíčovým prvkem v oblasti digitální transformace.
Jak vytvářet a formátovat příběhy v Tableau: Základy vizualizace dat
V Tableau je vytváření příběhů procesem, který je velmi podobný práci s pracovními listy a dashboardy, ale zaměřuje se na prezentaci dat v příběhové formě. Každý příběh je souborem bodů, které slouží k vizualizaci konkrétních datových segmentů a k vyprávění jasné a srozumitelné narace pro uživatele. Abychom lépe porozuměli tomu, jak efektivně využívat tuto funkci v Tableau, je nutné se seznámit s několika základními koncepty.
Příběh v Tableau je tvořen sekvencí vizualizací, přičemž každý bod příběhu představuje konkrétní vizualizaci nebo pracovní list. Prvním krokem při tvorbě příběhu je otevření záložky „Story“, kde můžete vybrat a uspořádat jednotlivé body příběhu. Každý bod je spojen s nějakým pracovním listem nebo dashboardem, který již existuje, a tento pracovní list je do příběhu přidán buď dvojitým kliknutím, nebo jeho přetáhnutím do pracovního prostoru.
V rámci základní konfigurace příběhu můžete upravit jeho velikost a přidat jednotlivé příběhové body, které mohou představovat různé datové pohledy. Po přidání každého bodu příběhu můžete v levém dolním rohu obrazovky upravit velikost rozhraní na základě pixelů, což umožňuje přesně přizpůsobit zobrazení příběhu pro různé platformy. Název příběhu je automaticky odvozen od názvu pracovního listu, ale tento název můžete později upravit podle potřeby. Po nastavení základních parametrů začíná fáze tvorby příběhu, kdy se jednotlivé vizualizace začnou přetvářet do příběhové formy.
Každý příběhový bod, který přidáte, bude odkazovat na konkrétní pracovní list nebo dashboard. Pokud tento list později odstraníte nebo upravíte, příběh se okamžitě aktualizuje. Po přidání příběhových bodů je důležité věnovat se jejich popiskům. Tyto popisky umožňují divákovi lépe pochopit, co je na dané vizualizaci zobrazeno a jaký má daný bod příběhu význam. U každého bodu příběhu můžete snadno změnit jeho pořadí, přidat filtry nebo upravit jeho obsah podle potřeby.
Formátování příběhu je zásadní součástí celkového vzhledu a pocitu z příběhu v Tableau. Úpravy prováděné v panelech Story a Layout mají globální vliv na celý příběh. Mezi klíčové formátovací možnosti patří změna stylu navigátoru, úprava velikosti popisků, či přizpůsobení velikosti dashboardů v rámci příběhu. Resizing popisků a dashboardů je možné pouze v Tableau Desktop, kde můžete rozměry přizpůsobit tak, aby příběh byl vizuálně přehledný a vyvážený.
Navigátor, který se nachází nad samotným zobrazením příběhu, slouží jako centrální prvek pro úpravy a organizování jednotlivých bodů příběhu. Pomocí navigátoru můžete krok za krokem procházet celý příběh a efektivně ukazovat publiku, jakým způsobem se příběh vyvíjí. Můžete také měnit styl navigátoru a přizpůsobovat jeho vzhled dle vlastních preferencí.
Další nezbytnou funkcí je schopnost upravovat formátování jednotlivých bodů příběhu. Tableau poskytuje širokou škálu možností pro úpravu vzhledu grafů a tabulek. Můžete například upravit barvy, písmo nebo rozložení prvků na stránce. Velmi užitečná je i funkce automatického přizpůsobení velikosti vizualizace při změně formátu obrazovky. Pokud máte v příběhu více vizualizací, Tableau automaticky upraví jejich velikost tak, aby byly na obrazovce správně zobrazeny, což šetří čas a zjednodušuje proces přípravy příběhu.
Pokud jde o odstranitelnou funkci, příběhové body mohou být snadno smazány kliknutím na křížek v pravém horním rohu každého bodu. Je však důležité vědět, že samotná data nebudou ztracena, pokud bod příběhu odstraníte. Zůstávají stále k dispozici v původních pracovních listech nebo dashboardech, což znamená, že je lze kdykoli znovu použít.
Při práci s Tableau je nezbytné si uvědomit, že samotný proces tvorby příběhu není pouze o vizualizaci dat, ale také o tom, jak tyto vizualizace dokážou efektivně komunikovat s publikem. Každý bod příběhu by měl být navržen tak, aby divákovi předal konkrétní informaci nebo pohled na data. K tomu, aby příběh byl efektivní, je třeba správně nastavit jak strukturu příběhu, tak i formátování jednotlivých bodů a celkový vizuální dojem.
Jak jednat s úzkostí: Jak překonat strach a začít jednat ve prospěch svých hodnot?
Jak mikrobiální biopolymery přispívají k udržitelnosti v zemědělství a životním prostředí?
Jaké faktory určují stabilitu perovskitových materiálů a jejich potenciál pro solární články?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский