For at sikre, at de data, der anvendes i virksomheden, er af høj kvalitet, er det nødvendigt at definere og evaluere relevante kvalitetsmålinger. I denne sammenhæng fokuserer vi på centrale data-kvalitetsindikatorer som nøjagtighed, fuldstændighed, konsistens, rettidighed og gyldighed. De præcise målinger, der er relevante for en virksomhed, vil afhænge af den kontekst, hvor virksomheden opererer, og hvad dens mål er. Eksempelvis, hvis en virksomhed har problemer med sine lageroplysninger på grund af datafejl, vil den sandsynligvis prioritere nøjagtighed og gyldighed højere end andre målinger.
Når man skal vurdere dataens kvalitet, starter man med at indsamle et repræsentativt datasæt og analysere det. Dette kan gøres ved hjælp af data profiling værktøjer, som kan afsløre mønstre, sammenhænge eller uregelmæssigheder. Et eksempel på et sådant værktøj er Power Query Editor, som er tilgængeligt i Microsoft Excel (2016 og senere versioner), Power BI og andre Microsoft-produkter. Disse værktøjer gør det muligt at identificere potentielle problemer i dataene og danne et klart billede af, hvordan dataene opfylder kvalitetsmålene.
Når et datasæt er profileret, kan man begynde at anvende de tidligere nævnte data-kvalitetsmålinger til at vurdere, hvorvidt dataene opfylder de ønskede standarder. Det er essentielt at forstå, at ikke alle datafejl nødvendigvis er lige alvorlige. Derfor skal man vurdere effekten af hvert enkelt problem på virksomhedens operationer. Dette betyder, at prioritering af ressourcer til at løse disse problemer skal afstemmes med virksomhedens mål og ressourcer. Der er ikke uendelige ressourcer til rådighed, og derfor skal beslutningstagning være målrettet og informeret.
En effektiv tilgang til data kvalitet kræver, at man udvikler en plan for at løse eventuelle problemer. Dette kan indebære manuel oprydning af data, brug af automatiserede teknologier til at sikre data-kvalitet, samt standardisering af datastyringsprocedurer i organisationen. Over tid skal data kvaliteten konstant overvåges og måles for at sikre, at den forbliver på et højt niveau. Dette kan gøres ved regelmæssigt at opdatere en scorecard, som giver et klart billede af dataens tilstand.
Det er dog vigtigt at understrege, at en data-kvalitetsramme ikke er en universel løsning. Hver virksomhed og industri har sine egne unikke behov og karakteristika, hvilket betyder, at rammen skal tilpasses den kontekst, den anvendes i. Hvad der virker for én virksomhed, vil muligvis ikke være effektivt for en anden. Derudover skal rammen være fleksibel nok til at håndtere forskellige datatyper, samt imødekomme lovgivningsmæssige krav og virksomhedens overordnede mål.
Når man arbejder med data-kvalitet, er det også væsentligt at tage højde for de specifikke KPI'er (Key Performance Indicators), der skal anvendes til at måle dataens kvalitet. Et godt værktøj til dette formål er at oprette en data-kvalitets scorecard i et regneark som Microsoft Excel eller Google Sheets. Dette scorecard kan indeholde KPI'er for fuldstændighed, nøjagtighed, konsistens, rettidighed og gyldighed, og hjælper med at måle, hvor godt dataene opfylder de ønskede standarder.
Scoring af disse KPI'er kan gøres på to måder: kvalitativt eller kvantitativt. Kvalitativ scoring involverer at vurdere dataene som enten "høje", "mellem" eller "lave" ud fra, hvor godt de opfylder de opstillede kvalitetsstandarder. Dette kan suppleres med farvekodning, som gør det lettere at identificere status for hver KPI ved hurtigt at associere en farve med en bestemt score. Dette er en effektiv måde at visualisere dataens tilstand på og giver mulighed for hurtigt at identificere områder, der kræver opmærksomhed.
For dem, der ønsker en mere objektiv vurdering, kan kvantitativ scoring være en bedre løsning. Her tildeles en numerisk værdi eller procentdel til hver KPI ud fra vurderingen af dataens kvalitet. For eksempel kan et datasæt, hvor 80% af oplysningerne er komplette, score 80%. Denne metode giver et mere præcist og målrettet billede af dataens kvalitet, og den kan bruges til at udføre trendanalyser og benchmarking over tid.
Derudover er det nødvendigt at tildele vægte til de forskellige KPI'er afhængigt af deres betydning for virksomhedens mål. For eksempel kan fuldstændighed af data blive vægtet højere, hvis det er en vigtig faktor i den specifikke analyse. Denne vægtning gør det muligt at få en mere nuanceret vurdering af den samlede data-kvalitet og sikre, at de mest relevante områder får den nødvendige opmærksomhed.
En vigtig pointe, som ikke må overses, er, at data-kvalitet altid bør ses som en kontinuerlig proces. Det er ikke nok at vurdere og rette op på dataene én gang. Data ændrer sig over tid, og derfor skal der etableres mekanismer til at sikre, at kvaliteten opretholdes, og at eventuelle nye problemer hurtigt kan identificeres og håndteres.
Hvordan Håndteres Forhold og Datavalidering i Business Intelligence Værktøjer?
Når man arbejder med datamodeller i Business Intelligence (BI) værktøjer som Power BI eller Tableau, er det vigtigt at forstå, hvordan relationer mellem tabeller håndteres korrekt for at sikre dataintegritet. Når man opretter relationer mellem tabeller i Power BI, vises relationsegenskaber i højre panel, som giver mulighed for at redigere disse relationer. Dette åbner et forholdsredigeringsvindue, hvor man kan få en forhåndsvisning af de tabeller, der er forbundet, og den fælles kolonne, der binder tabellerne sammen.
I et eksempel, hvor to tabeller er forbundet gennem en kolonne som "Sales_Manager", kan Power BI automatisk oprette en mange-til-en relation, hvilket er muligt, fordi tabellerne indeholder kolonner med identiske datatyper og korrekt navngivning. Det er netop denne præcision i navngivning og datatyper, der sikrer en korrekt oprettelse af relationer. Hvis man senere ønsker at skabe visualiseringer eller beregninger, f.eks. total salg pr. region, kan disse relationer bruges til at forbinde de nødvendige data. Et andet eksempel kunne være relationen mellem kolonnen "Product_ID", som giver mulighed for at beregne indtægter, omkostninger, bruttofortjeneste og bruttofortjenesteprocent.
Det er derfor essentielt at oprette relationerne korrekt i datamodellen, da disse relationer fungerer som fundamentet for at forbedre dataintegriteten. En veldefineret relation gør det muligt at generere pålidelige analyser og beregninger, og det muliggør konsistente dataoperationer, som f.eks. sammenslutninger, når vi arbejder med flere tabeller.
En god praksis for datavalidering i BI-værktøjer er en af de mest vigtige funktioner for at opretholde datakvaliteten. Når man arbejder med store finansielle datasæt, er det ofte svært at rense dataene til perfektion, og derfor kan der opstå fejl og outliers, som kan påvirke analyser og rapporter. For at håndtere dette problem bør der oprettes retningslinjer for, hvilke værdier der er acceptable i hver kolonne og for hver rekord. Disse retningslinjer kan derefter omsættes til automatiserede regler i BI-værktøjerne. Et konkret eksempel kunne være en regel, der siger, at kolonneværdier ikke kan være negative eller overstige en bestemt tærskel.
I Tableau, som vi ser på i eksemplet, kan data valideres med hjælp af dataroller, der giver mulighed for automatisk at identificere fejl og outliers i datasættet. Når vi har oprettet en reference-liste, som f.eks. en liste over postnumre eller forstæder, kan denne liste anvendes som en datarolle i Tableau Prep for at validere dataene. Når vi lægger dataene ind i Tableau, kan værktøjet automatisk flagge unøjagtige værdier, f.eks. forstæder, der ikke findes i reference-listen. Disse værdier bliver markeret med et rødt udråbstegn, hvilket giver mulighed for at redigere eller udelukke de forkerte data.
Når dataene er valideret, kan vi vælge at gruppere værdierne og erstatte de ugyldige værdier med matchende værdier fra den validerede liste. Tableau Prep giver også mulighed for at vælge at ekskludere de fejlagtige data, hvilket sikrer, at kun de korrekte data bliver inkluderet i den videre analyse. På denne måde kan man automatisk rense store datasæt og hurtigt få overblik over, hvilke data der kræver manuel korrektion.
For større datasæt, som f.eks. økonomiske transaktionsdata, er det essentielt at forstå, hvordan datavalidering kan effektivt anvendes til at identificere fejl, så man undgår at de påvirker de analyser, man ønsker at lave. Datavalidering gør det muligt at sikre, at man arbejder med pålidelige og korrekte data, hvilket i sidste ende giver bedre og mere præcise indsigter.
En vigtig pointe er, at datavalidering ikke blot handler om at fjerne forkerte data, men også om at gøre dataene mere håndterbare ved at sikre, at de følger bestemte mønstre og regler. Når disse valideringsregler er blevet etableret, kan de anvendes automatisk for at forhindre, at fejl opstår i fremtidige datasæt. Dette gør det lettere at arbejde med store datasæt og sikrer, at kvaliteten af dataene opretholdes over tid.
Endelig er det vigtigt at forstå, at datavalidering og oprettelse af relationer i datamodeller ikke er engangshandlinger, men kontinuerlige processer. For at sikre langsigtet dataintegritet er det nødvendigt regelmæssigt at revidere og opdatere både forhold og valideringsregler, især når dataene ændrer sig eller når der tilføjes nye kilder.
Hvordan håndtere dataintegritetsproblemer ved hjælp af BI-værktøjer
Når vi arbejder med store datasæt, især i finansverdenen, er det afgørende at sikre dataintegriteten. Datafejl og inkonsistens kan have alvorlige konsekvenser, da beslutningstagning ofte er afhængig af korrekt dataanalyse. I denne sammenhæng spiller Business Intelligence (BI) værktøjer en vigtig rolle i at rense og validere data. Et af de mest anvendte værktøjer til denne opgave er Microsoft Power BI, Tableau og Alteryx, som giver brugeren muligheder for at rette op på datafejl og sikre dataens pålidelighed.
For at illustrere dette, lad os tage et praktisk eksempel. I mange datasæt findes der steder, hvor stavemåder og udtale af byer kan være inkonsekvente. For eksempel kan en by som "Bateau" være blevet skrevet fejlagtigt, hvilket skaber en dataintegritetsfejl. I BI-værktøjer som Power BI og Tableau kan man nemt filtrere disse problemer ud og korrigere dem ved hjælp af funktioner som "Edit Value" og "Replace with Null". Når værdierne er opdateret, forsvinder de fejlagtige data fra listen over ugyldige poster. Dette er en grundlæggende funktion, som understøtter kvaliteten af dataene og forhindrer fejl i analysen.
Når du arbejder med store datasæt, specielt dem, der involverer finansielle data, er det også vigtigt at kunne identificere udestående data, såsom dubletter eller ufuldstændige oplysninger. Data kan ofte være blandet sammen fra flere kilder, og dette kan føre til inkonsistens i formatet. For eksempel, hvis datoer er skrevet i forskelligt format (mm/dd/yyyy vs. dd/mm/yyyy), kan det skabe alvorlige problemer, når dataene bruges til at generere rapporter eller opgøre finansielle totaler. Derfor er det nødvendigt at udføre datavalidering og sikre, at alle værdier i et datasæt er ensartede og korrekte, før analysen finder sted.
En anden vigtig funktion ved BI-værktøjer er muligheden for at håndtere store finansielle datasæt effektivt. Når man arbejder med store mængder data, er det nemt at overse små fejl, som kan akkumulere og forvride analysens resultater. Ved hjælp af datarensningsteknikker, som fjernelse af tomme felter, duplikering eller håndtering af tomme poster, kan BI-værktøjer hjælpe med at rydde op i datasættet. Disse værktøjer kan også anvende dataprofilering, der giver indsigt i datasættets kvalitet, ved at analysere kolonnens fordeling og værdier.
Når data er blevet renset og valideret, kan værktøjer som Tableau og Power BI hjælpe med at oprette interaktive visualiseringer, som giver mulighed for hurtigt at identificere eventuelle udestående problemer som dataoutliers, hvilket ellers kunne have været svært at fange i et stort datasæt.
En væsentlig del af datarensning er at forstå, hvordan relationerne mellem forskellige datasæt fungerer. En korrekt opbygget datamodel sikrer, at dataene er relateret på en måde, der gør det nemmere at udtrække relevant information og opdage eventuelle fejl. Dette kan være særligt nyttigt i økonomiske analyser, hvor sammenhængen mellem forskellige datakilder er essentiel for at skabe præcise og pålidelige rapporter.
For at forbedre dataintegriteten yderligere bør man også være opmærksom på, hvordan man håndterer “forældede” poster i datasættene, som ikke længere er relevante, men stadig kan findes i systemet. BI-værktøjer giver mulighed for at administrere disse forældede poster ved at identificere og fjerne dem, hvilket bidrager til at reducere støj i dataene.
Når man benytter BI-værktøjer til datarensning og validering, er det vigtigt at forstå, at de ikke blot er et middel til at rette op på fejl. De giver også mulighed for at skabe en robust datainfrastruktur, hvor data er konsistente og pålidelige. Dette skaber et solidt fundament for beslutningstagning og analyse.
Det er også vigtigt at bemærke, at datarensning og validering ikke er en engangsopgave, men en løbende proces. I takt med at nye data tilføjes eller ændres, skal der foretages opdateringer og validitetskontroller for at sikre, at dataene fortsat er af høj kvalitet.
Når man arbejder med BI-værktøjer, er det derfor nødvendigt at have en systematisk tilgang til datarensning, herunder anvendelse af relevante funktioner som datavalidering, profildataanalyse og korrekt håndtering af fejlagtige eller inkonsistente poster. På denne måde kan man sikre, at analysen bygger på pålidelige data, hvilket er fundamentalt i et finansielt miljø.
Hvordan sikre pålidelige data i Tableau Cloud og håndtere orphelinposter
Når dataene er renset, er næste skridt at eksportere dem til Tableau Cloud, så de bliver tilgængelige for Tableau Desktop. På dette tidspunkt kunne man måske overveje, at det ville være nemmere blot at slette de 20.000 enheder direkte fra kildedataene, da de alligevel ville blive sendt til Tableau Desktop. Men når vi bruger Tableau Prep til at ændre dataene, skaber vi et workflow, der viser de ændringer, der er blevet foretaget. At ændre kildedataene direkte indebærer risici, som vi håndterer gennem dette værktøj. Samtidig gør publisering af outputtet som en datakilde i Tableau Cloud dataene tilgængelige for andre brugere, der vil anvende denne information. Dette skridt sikrer ikke kun sporbarhed og transparens i dataændringerne, men gør også dataene lettere at dele og bruge på tværs af forskellige teams.
For at fortsætte med processen skal vi sikre, at vi er forbundet til serveren, så vi effektivt kan ændre og konfigurere vores datakilde til at være tilgængelig for andre brugere. Under "Save output to" vælger vi "Published data source" og vælger den mappe, hvor vi ønsker at gemme dataene. Når vi klikker på "Run Flow", vil filen blive offentliggjort, og Tableau Cloud åbnes. Når eksporten er færdig, vil detaljer om dataene være tilgængelige, herunder "Connections" og "Lineage".
Det er vigtigt at forstå, at publikationen af dataene i Tableau Cloud ikke kun handler om at få filen op på serveren, men også om at sikre, at alle involverede brugere arbejder med den samme version af dataene. Dette skaber en enkelt sandhedskilde, som minimerer risikoen for uoverensstemmelser mellem de data, der anvendes i de forskellige analyser. Med det fuldførte workflow kan vi nu gå tilbage til Tableau Desktop og opdatere vores visualiseringer med den nyeste data.
Når vi har opdateret datakilden i Tableau Desktop, kan vi vælge at opdatere visualiseringerne, som for eksempel vores histogram. Ved at højreklikke på den eksisterende datakilde og vælge "Replace Data Source..." kan vi hurtigt erstatte den gamle datakilde med den nyeste version, uden at skulle gentage alle de tidligere indstillinger og målinger. Det betyder, at vi kan bevare de målinger, vi tidligere har lavet, uden at skulle lave om på hele datasættet.
Desuden er det muligt at justere størrelsen på binne i histogrammet for at finjustere visualiseringen. Vi kan ændre bin-størrelsen, så den passer bedre til den fordeling, vi ønsker at analysere. Hvis vi for eksempel vælger at bruge en bin-størrelse på 100, vil histogrammet justeres, og vi vil kunne se, hvor hyppige værdierne ligger i intervallet fra 0 til 99 enheder, og hvilke intervaller der er mindre hyppige. Disse justeringer kan hjælpe med at identificere mønstre og udslip (outliers) i dataene, hvilket er essentielt for at træffe informerede beslutninger.
En vigtig ting at bemærke er, at ændringer i data kan have utilsigtede konsekvenser. For eksempel, hvis et produkt i tabellen "Product_Details" ved en fejl bliver slettet, kan dette føre til det, man kalder orphelinposter – data, hvor relationen til den oprindelige post er brudt. Dette sker, når der for eksempel slettes et produkt-ID, men de relaterede transaktioner stadig henviser til dette produkt, som nu ikke længere eksisterer i databasen. Det kan skabe problemer i rapporteringen, da de relevante transaktioner ikke kan matches med et eksisterende produkt, hvilket forstyrrer hele analysen.
Det er derfor af stor betydning at kunne identificere orphelinposter tidligt i processen. I Power BI kan man for eksempel bruge en funktion til at sammenflette tabeller og finde ud af, om der er orphelinposter. Hvis et produkt-ID er blevet slettet i "Product_Details", kan vi bruge en venstre anti-sammenfletning (Left Anti Join) til at finde de transaktioner, som ikke længere har et match i produkt-tabellen. Denne proces hjælper os med at sikre, at vi kun arbejder med komplette og sammenhængende datasæt, hvilket er afgørende for at undgå fejl i analyserne.
Det er også muligt at fange orphelinposter i Tableau ved at bruge datavalideringsværktøjer og sikre, at relationerne mellem de forskellige datatabeller altid er intakte. At bruge værktøjer som Tableau Prep og Tableau Cloud giver ikke kun kontrol over datavalidering, men sikrer også, at alle bruger de samme data, hvilket forhindrer inkonsistens og fejlagtige analyser.
Endvidere skal det understreges, at det at arbejde med rene og validerede data er en kontinuerlig proces. Når dataene er blevet opdateret og visualiseret, bør der løbende udføres kvalitetstjek og overvågning for at sikre, at ingen poster bliver efterladt uden ordentlig referens. Denne praksis sikrer, at beslutningstagning baseret på de analyserede data er så præcis og pålidelig som muligt.
Hvordan opbygger man en Ledger Database i QLDB og arbejder med den?
Når ledger-databasen er blevet oprettet, vil en besked dukke op, som indikerer, at oprettelsen er fuldført, og statusen vil ændres til "Aktiv". Det er en enkel proces, og nu hvor både S3-bucketen og QLDB-ledgeren er oprettet, er næste skridt at forstå grundlæggende koncepter som digest, tabeller, PartiQL-editoren og dokumenter for at lægge et solidt fundament for verifikationsprocessen.
En af de vigtigste aspekter ved QLDB er begrebet "digest", som repræsenterer en kryptografisk version af ledgerens fulde historik på et specifikt tidspunkt. Dette element er centralt i verifikationen, som vi senere vil dykke ned i. Et digest er derfor en form for "fingeraftryk" for ledgerens data, som sikrer, at enhver ændring kan spores tilbage til et bestemt tidspunkt i databasen.
Efter oprettelsen af ledgeren er næste skridt at oprette en tabel, hvor vi kan gemme finansielle data. En vigtig forskel ved QLDB-tabeller er, at de ikke kræver en fast skema, hvilket giver mulighed for at gemme semi-strukturerede data. Når du opretter en tabel, kan du give den et navn og tilføje tags til nemt at styre ressourcerne. Tabelstatussen vil, når den er oprettet, vise som "Aktiv". Denne tabel vil være, hvor dine QLDB-dokumenter vil blive opbevaret, og det er her, de faktiske data vil blive indsat via PartiQL-editoren.
PartiQL er et SQL-kompatibelt sprog, der gør det muligt at arbejde med både strukturerede og semi-strukturerede data effektivt. Dette betyder, at du kan skrive forespørgsler på en måde, der ligner SQL, men som også understøtter fleksibiliteten af semi-strukturerede data. For at komme i gang med at indsætte data i tabellen, skal du åbne PartiQL-editoren og vælge den tabel, du vil arbejde med.
Når du indsætter data i QLDB-tabellen, oprettes et dokument-id, som fungerer som en unik identifikator for den specifikke post. Dette dokument-id er essentielt, da det hjælper med at opretholde dataintegriteten og gør det muligt at spore ændringer. Når en post er blevet indsat i tabellen, vil der blive genereret en hashkode for dokumentet, som kan bruges senere under verifikationen.
Ved at gemme forespørgsler i PartiQL-editoren kan du effektivt genbruge de samme forespørgsler, når du arbejder med data i fremtiden. Dette kan være særligt nyttigt, når du har en standardforespørgsel, du ønsker at køre regelmæssigt. Når forespørgslerne er gemt, kan du hurtigt hente dem tilbage for at opdatere eller hente data.
Når du har indsat data, kan du begynde at lave forespørgsler for at få indsigt i dine tabeller. Ved at bruge SELECT-kommandoen kan du trække data ud af tabellen og analysere de poster, der er blevet indsat. Det er også muligt at gemme disse forespørgsler, så du nemt kan hente dem, hvis du har brug for at køre dem igen senere.
Det er også vigtigt at forstå, hvordan dokumenter kan opdateres og ændres i QLDB. Når du arbejder med data, bliver hver ændring logget, og det er muligt at spore, hvornår ændringerne blev foretaget, og af hvem. Dette giver en ekstra sikkerhed for, at dataene i ledgeren er pålidelige og ikke er blevet manipuleret.
Endelig skal man være opmærksom på, hvordan man håndterer dataintegritet i en ledger-database. Selvom QLDB sikrer dataintegriteten gennem sine kryptografiske funktioner, er det stadig vigtigt at forstå, hvordan disse funktioner virker sammen for at forhindre utilsigtede eller ondsindede ændringer i dataene. Dette kræver en grundig forståelse af systemets opbygning og de værktøjer, der er tilgængelige for at validere data.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский