Når man arbejder med moderne analyseværktøjer som Snowflake og Tableau, er det vigtigt at forstå de teknologiske grundprincipper, der gør disse platforme effektive og kraftfulde. I denne proces skal man ikke kun være i stand til at integrere data fra flere kilder, men også skabe modeller, der er lette at navigere for både tekniske og ikke-tekniske brugere.

Matillion, som et ETL-værktøj (Extract, Transform, Load), gør det muligt at opbygge pipeline-arbejdsgange, hvor data kan behandles og flyttes effektivt til Snowflake-datalageret. Når du arbejder med Matillion, er grænsefladen browserbaseret, hvilket giver en brugervenlig oplevelse. På Matillion's interface finder du forskellige sektioner som Pipelines panel, Components panel, og Variables panel, der hjælper med at strukturere og parameterisere dine ETL-processer.

Når et job køres i Matillion, starter processen med at oprette tabeller via Create Table-komponenten, hvorefter data indlæses fra kilder som Amazon S3 til staging-tabeller. Et typisk scenario involverer også transformation af rå data til et struktureret format, før det indlæses i dimensionstabeller. Dette er et grundlæggende eksempel på, hvordan dataflytning fra en ekstern kilde til et datalager fungerer, og hvordan transformationer kan udføres undervejs.

Når Matillion er færdig med at køre et job, er det muligt at se de oprettede objekter i Snowflake's web-interface. Dette kan give et overblik over, hvilke tabeller og dataelementer der er blevet genereret. Det er også her, du kan begynde at overveje, hvordan du organiserer og strukturerer dine data til brug i analyseværktøjer som Tableau.

I en realistisk implementering af et moderne analysetilfælde, f.eks. inden for marketinganalyse, ville det være nødvendigt at integrere data fra sociale medieplatforme som Facebook, Twitter og YouTube. Matillion leverer præbygget forbindelser (connectors), der kan integreres med disse platforme og gøre dataindsamlingen mere effektiv for dataingeniører og udviklere.

For at sikre en god datamodel til analyser bør du overveje at bruge teknikker som Data Vault eller dimensional modellering. Et godt valg for Snowflake-datamodellen er SqlDBM, et værktøj der kan hjælpe med at designe databasens struktur og relationer.

Når datamodellen er på plads, er det næste skridt at forbinde til et BI-værktøj som Tableau, som giver ikke-tekniske brugere mulighed for nemt at interagere med og analysere data. Tableau er kendt for sine drag-and-drop-funktioner og kraftfulde visualiseringsevner, der gør det til et ideelt valg til dataopdagelse og beslutningstagning.

Når Tableau er installeret, skal du forbinde det til Snowflake ved at bruge en ODBC-driver og indtaste de nødvendige legitimationsoplysninger. Tableau tilbyder både desktop- og server-versioner, og der findes også en mobilapplikation. Dette gør det muligt for brugere at få adgang til data på flere platforme.

For at begynde at arbejde med data i Tableau, opretter du en live-forbindelse til din Snowflake-database, hvilket giver mulighed for at hente data direkte fra kilden i realtid. Tableau understøtter både live-forbindelser og extract, som cachelagrer data i et internt kolonnært datalager, kaldet Hyper. Ved at vælge live-forbindelse kan store datamængder behandles effektivt, da det er Snowflake, der gør det tunge løft, mens Tableau blot præsenterer resultaterne.

Når forbindelsen er etableret og data importeret, kan du begynde at oprette visualiseringer. Tableau gør det muligt at trække dimensioner og målinger ind på rapporten og skabe forskellige typer af visualiseringer som f.eks. diagrammer og tabeller. Et simpelt eksempel kunne være at visualisere antallet af kunder baseret på deres fødeland. Tableau's intuitive interface gør det muligt for brugeren at oprette rapporter uden at skulle skrive SQL-forespørgsler.

Det er også nyttigt at kunne se de SQL-forespørgsler, der genereres i baggrunden, når en rapport oprettes. I Snowflake’s web-interface kan man finde den genererede SQL-forespørgsel, som f.eks. kan være en forespørgsel, der gruppere kunder efter fødeland og tæller antallet af unikke kunder. Dette giver en ekstra lag af forståelse og kontrol over, hvordan data behandles og præsenteres i Tableau.

En vigtig overvejelse, som bør inkluderes i enhver moderne analyse løsning, er, at mens teknologi og værktøjer som Matillion, Snowflake og Tableau tilbyder en kraftfuld platform for databehandling og visualisering, er det essentielle for succesfuld dataanalyse at have en ordentlig datamodel, der afspejler den specifikke forretningsbehov og de analysekrav, man ønsker at opfylde. Korrekt dataintegration, en velstruktureret datamodel, samt brugervenlige analyseværktøjer kan gøre en stor forskel i at gøre data til et værdifuldt aktiv for virksomheden.

Hvordan opgraderer man en ældre datalagerløsning til Snowflake?

At migrere en ældre datalagerløsning til en moderne cloudbaseret platform som Snowflake kræver en grundig forståelse af både de tekniske udfordringer og de forretningsmæssige fordele ved cloud computing. Et eksempel på en sådan migration kan give værdifuld indsigt i de beslutninger og processer, der er involveret i at forlade et traditionelt datalager som Oracle for at drage fordel af de fleksibiliteter, der tilbydes af moderne cloud-løsninger.

I det pågældende projekt havde en e-handelsvirksomhed, der sælger brugte bøger online, besluttet at skifte fra en Oracle-baseret datalagerløsning til Snowflake. Dette valg blev drevet af flere udfordringer, som den oprindelige løsning præsenterede. Oracle-løsningen var dyr, både hvad angår licensering og vedligeholdelse. Den ETL (Extract, Transform, Load)-proces, der blev anvendt, var kompliceret og krævede dybdegående viden om Oracle, hvilket resulterede i flaskehalse i teamet, da alle forespørgsler skulle igennem databaseholdet. Derudover led datalageret af opbevarings- og beregningsbegrænsninger, og det krævede konstant DBA-support, hvilket belastede ressourcerne.

Virksomheden ønskede at få mere plads til vækst og at udnytte de fordele, som cloud-infrastrukturer tilbyder, såsom ubegrænset samtidighed til forespørgsler, centralisering af data og store dataløsninger på én platform. Snowflake blev valgt som den nye dataplatform, og det blev besluttet at anvende Matillion ETL, et værktøj der er bygget specielt til Snowflake, hvilket gør det lettere at håndtere de tidligere udfordringer i ETL-processen. Matillion ETL tilbyder en intuitiv brugerflade, der ikke kræver kodningskundskaber, hvilket gør det til et godt valg for virksomheder, der ønsker at lette processen for både udviklere og forretningsbrugere.

En væsentlig beslutning, der blev truffet, var brugen af Tableau som det primære BI-værktøj, hvilket understøttede virksomhedens selvbetjeningsanalyser. Dette valg blev understøttet af den store fordel ved Snowflakes samtidighed, som gør det muligt at køre flere analyser samtidig uden at påvirke ydeevnen. Desuden blev sikkerheden forbedret, da løsningen blev deployeret i et privat subnet i AWS VPC.

Projektet gjorde det også muligt at udnytte de store databehandlings- og streamingmuligheder, som ikke var mulige med den gamle løsning. For eksempel blev weblogs behandlet i Apache Spark, der var implementeret på toppen af Amazon Elastic MapReduce (EMR). Snowflake kunne tilgå Parquet-filer direkte, uden at de behøvede at blive indlæst i systemet, og for streamingbrug blev DynamoDB streams og Kinesis Firehose anvendt. Data blev sendt til en S3-bucket, som Snowflake kunne tilgå i realtid. Dette setup gav mulighed for en langt mere fleksibel og skalerbar databehandling.

Migreringen af det oprindelige datalager tog seks måneder med et team af to ingeniører, mens det tog yderligere tre til fire måneder at designe og implementere løsningerne for streaming og big data. Samtidig blev AWS SageMaker-tjenesten integreret til maskinlæring og avanceret analyse, hvilket nemt kunne kobles sammen med Snowflake til at hente data og skrive modelresultater tilbage.

Arbejdet med Snowflake krævede dog, at teamet opnåede nye færdigheder relateret til cloud computing. For at få succes med Snowflake er det vigtigt at forstå best practices for implementering af cloud analytics-løsninger og holde sig opdateret med de nyeste værktøjer og metoder indenfor databehandling og transformation i skyen. Uanset hvilken cloud-udbyder man vælger, f.eks. AWS, Microsoft Azure eller Google Cloud Platform (GCP), er det nødvendigt at dykke ned i udbyderens læringsmateriale for at opnå en grundlæggende forståelse af cloud computing og datalagring.

Snowflake tilbyder et væld af muligheder for databehandling, men det er vigtigt at forstå, at det ikke kun handler om at migrere data fra et gammeldags system til et moderne cloud-system. En succesfuld migration kræver en dyb forståelse af de forretningskrav, der ligger til grund for datalagerløsningen, og hvordan man kan udnytte de specifikke muligheder, som cloud-baserede platforme som Snowflake tilbyder, for at opnå større skalerbarhed, fleksibilitet og effektivitet.