1. Home
  2. Artikelen
  3. Schema first of data first? Maar waar is je data?

Schema first of data first? Maar waar is je data?


Hoe Power BI aan de basis staat om inzicht te krijgen uit al je data.

Schema first of data first? Maar waar is je data?

Een serie blogs over Excel en Power BI.

BLOG – In mijn vorige blog schreef ik over de waarde van Business Intelligence. Ik brak toen een lans om zo snel mogelijk naar de echte waarde van de business te gaan: de vierde en vijfde laag in het vijflagen model voor Business Intelligence (zie afbeelding). Nu neem ik je mee naar de veranderingen in de opslag van data./p>

Door Henk Vlootman, adviseur, trainer, spreker en auteur, en topspecialist op het gebied van Microsoft Power BI en Power Query.

We kennen drie soorten bronnen waarin data is opgeslagen. De eerste bron is een bedrijfsdatabase, zoals een Data warehouse (DWH), vervolgens kwam de persoonlijke bron, zoals Excel en, de nieuwste variant, de externe bron, die niet van het bedrijf of van jou zijn, zoals internetsites of koppelingen naar externe gegevens. Tot voor niet zo lang geleden waren dat redelijk strikt gescheiden bronnen. De huidige technieken staan echter verbindingen tussen de drie verschillende bronnen steeds meer toe. En dat heeft consequenties voor de gebruiker en de opslag van data.

Datageschiedenis

De eerste bron, de gecontroleerde opslag in databases, ontstond commercieel in de Jaren 50. Het opslaan van informatie in een elektronisch medium werd steeds belangrijker voor (de grotere) bedrijven. Mainframes, de centrale computers van die tijd, verwerkten alleen transacties, die volgens een vooraf ingestelde methodiek werden ingevoerd. Zo gebruikten de mainframes van toen daarvoor bijvoorbeeld ponskaarten (“niet vouwen, kreuken of beschadigen”, voor wie de overschrijvingsformulieren van de Postbank nog kennen) of terminals, die echt alleen maar konden verbinden met het mainframe. Werknemers waren gebruikers, want de techneuten – zoals ICT’ers werden genoemd – kende de abracadabra talen om informatie uit het systeem te toveren. Dataopslag in die dagen waren exclusieve “corporate affairs”.

Dat veranderde in een ongelooflijk manier met de introductie van de Personal Computer (PC). In de jaren 80-90 was de IBM XT dé machine. Ik maakte de introductie mee toen ik bij een Ministerie werkte. Voor de prijs van een goede middenklasse auto werden de PC’s met vrachtwagens tegelijk het Ministerie binnen gereden. Hoewel niet voor iedereen, want het DOS-besturingsprogramma was wat spartaans, maar toch, de PC werd snel een onmisbaar business gereedschap. Plotseling kon de business meer doen met de computer, zoals Word, Excel en 10 jaar later, email en internet gebruik.

Excel werd de standaard voor de berekende business vraagstukken en bezit deze positie nog steeds. Maar wat vroeger in papieren dossiers werd opgeslagen komt steeds vaker terecht als een elektronische variant op de harde schijf. De tweede wereld, de wereld van persoonlijke business data, ontstond bijna geluidloos. Binnen de opslag van data ontstonden tussen de beide werelden muren of misschien wel ravijnen.

En een nieuwe derde bron van dataopslag komt op ons af: data vanuit de buitenwereld, het internet bijvoorbeeld. Ik hoef nooit meer in mijn stoffige meterkast te duiken, want mijn energiebedrijf weet allang wat mijn gebruik is. En ach, bankieren doe ik alleen nog maar via internet, naar wens op mijn smartphone of op mijn computer. De data gaat door het grote internet naar de hele (business) wereld. Internet zorgt voor een steeds grotere verspreiding, maar daarnaast ook voor een forse vergroten van de hoeveelheid data.

Word een onmisbare business partner

Als controller kunt u niet stil blijven staan. U wilt uw managers proactief ondersteunen bij het nemen van beslissingen in strategische situaties. Wat is hiervoor de juiste aanpak? Volg de training De Controller als Business Partner.

Bekijk het programma

Te veel data?

Bedrijfsdatabases gebruiken relationele databases waarbij relaties tussen tabellen worden gelegd. Wat steeds vaker gebeurd is het mixen van de drie verschillende databronnen in een rapport. Je model is dan een cocktail van tabellen uit verschillende bronnen, die je verder be- en verwerkt om tot samenhangende inzichten te komen.

En daar ontstaat het probleem, en dat is echt een spagaat voor de databeheerder. Want databases in Datawarehouses (DWH) zijn niet in dag gebouwd. Het is een tijdrovend proces van zorgvuldige analyse, collecteren van de gegevens, gieten in tabellen en koppelen door middel van relaties. In IT-trainingen wordt de nadruk gelegd op het modelleren in een zogenaamd ster model, waar de relaties worden gegroepeerd in de vorm van een ster. Deze methodiek creëert een omvangrijk en robuust, maar lastig en zeer complex DWH. Maar daar zit het probleem niet. Het probleem zit in de andere bronnen. Jarenlang zijn Excel bestanden als niet-professioneel gezien door ICT. Maar met de komst van Power Query en Power Pivot in Excel ontstaan gestructureerde tabellen, die zich goed lenen om toe te voegen aan dashboards.

Het echte probleem is de stortvloed van nieuwe (business) tabellen en verwijzingen naar tabellen. Als je data mixt wil je een centraal systeem waar de tabellen snel en goed te vinden zijn. De vraag is, waar laat je die tabellen en verwijzingen? De strakke regie van de relaties in een DWH geeft weinig ruimte voor het opslaan van andere soorten gegevens dan vooraf ingepland. Daarnaast vraagt de mix van tabellen om het maken van de relaties in de derde laag van het vijflagen model, dus buiten het DWH om. Een bijkomend probleem is dat een DWH niet goed is in het vinden van (de informatie in) de tabellen. Daar is een transactie verwerkende systeem simpelweg niet voor gemaakt.

Power BI voor het Data Lake

Een Data Lake is juist ontworpen om snel data te vinden. Het maakt catalogussen van de metadata van tabellen. Omdat er ook steeds meer tabellen beschikbaar komen en er specifieke tabellen worden gemaakt om de gegevens te koppelen, komt ook steeds meer een snowflake schema tevoorschijn. In een snowflake schema zijn de relaties veel uitgebreider, meer in de vorm van een sneeuwvlok. Dat aspect is lastig te beheren in een traditionele DWH, maar Power BI lijkt ervoor gemaakt te zijn. Dat is dan wel een doorn in het oog van ICT-specialisten, want beheersbaarheid en governance van dit soort relaties is, in de traditionele manier van werken, erg lastig. Daar staat tegenover over dat meer en meer de succesvolle dashboards leunen op meerdere, gemixte bronnen in een snowflake schema.

De personen die werken in de business leren ook meer naar tabellen te kijken vanuit een technisch oogpunt. ICT en business groeien daarmee gelukkig naar elkaar toe. In plaats van een respectloze patstelling komt wederzijdse samenwerking steeds meer voor. Dat het maar een vreugdevolle en respectvolle relatie mag zijn. In succesvolle situaties stelt men de data voorop, boven welk schema dan ook.

Dus de vraag Schema first or Data first is voor mij makkelijk te beantwoorden. Een schema is mooi en soms zeker noodzakelijk, maar geef mij maar de data, dan creëer ik daaruit wel de gewenste inzichten.

Blogs in deze serie:


Gerelateerde artikelen

5 stappen in Power BI (3) Visualisaties

02-06-2020 12:40

Best practices voor visualisaties: webinar van Excel MVP Tony de Jonker.

5 stappen in Power BI (2) Modelleren en berekenen

29-05-2020 11:23

Modelleren en berekenen, Power BI en DAX: webinar van Excel MVP Tony de Jonker.

De echte waarde van Power BI

29-05-2020 11:19

Je wilt bij BI-projecten zo snel mogelijk naar de niveaus delen en visualiseren, waar de waardecreat...

Visualiseren, de kunst van het verleiden (1)

29-05-2020 11:16

Visualiseren in Excel en Power BI, deel 1: de rol van hiërarchieën.

Visualiseren, de kunst van het verleiden (2)

29-05-2020 07:42

Visualiseren in Excel en Power BI, deel 2: schakelen tussen hiërarchieën.

5 stappen in Power BI

15-05-2020 13:00

Webinar van Excel MVP Tony de Jonker ontsluit de geheimen van Power BI (1)

De 8 do's en 8 don'ts bij een doorstart

15-05-2020 12:09

Wordt er in uw bedrijf een doorstart overwogen of voorbereid? Dan is het verstandig onderstaande vui...

Betere rapportages met Excel en Power BI

08-05-2020 10:56

Excel MVP Tony de Jonker's tips om met Excel en Power BI uw financiële rapportages te versnellen en...

Supermarkten in Control

15-04-2020 11:54

Supermarkten zijn het nieuwe rolmodel van de anderhalvemeter economie. Wanneer voor duurzaamheid?

Vergroot uw kennis, online en ook weer klassikaal

15-04-2020 11:54

Uw veiligheid staat voorop. Alle cursussen zijn 100% Coronaproof. Vanaf juni kunt u weer klassikale...

Veel horecabedrijven in de problemen bij terugbeta...

15-04-2020 11:52

Veel bedrijven komen ondanks overheidsmaatregelen in zwaar weer, mede door de terugvallende omzet va...

Coronacrisis mag geen schuldencrisis worden

15-04-2020 11:33

"Alleen samen kunnen we de financiële schade beperken." Michel van Leeuwen, directeur en gerechtsdeu...