<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=266259327823226&amp;ev=PageView&amp;noscript=1">
Skip to content

Tiedon laatu. Ei wow-elämyksiä, vaan how-elämyksiä.

Tiedon laatu aiheena tuskin herättää kovinkaan monella wow-elämyksiä. Enkä tiedä kuinka pahan inflaation se on kärsinyt viimeisimpien hypetermien myllerryksessä. Tekoälyhän tuli ja sen piti tuoda ratkaisu kaikkeen, eikö vain? Totta puhuen, eihän siinä ihan niin käynyt.

Hivenen ironisesti voisi sanoa: tekoälyn opettamiseen tarvitaan yhä enemmän dataa. Jotta sillä datalla voisi tekoälyä opettaa oikein, sen pitäisi olla vielä kunnossakin. Näyttäisi siis siltä, että tiedon laadusta aiheutuvat ongelmat eivät ole lähiaikoina häviämässä mihinkään. Itseasiassa näyttää siltä, että tiedon määrän kasvaessa, myös siitä aiheutuvat ongelmat yleistyvät.

Syväsukellus laadun hallintaan

Mutta mitä tiedon laatu oikeastaan on? Ennen kuin syvennytään siihen, miten tiedon laadusta tulee huolehtia tai miten sitä voi havainnoida ja mitata, niin on ensin hyvä pysähtyä miettimään mistä siinä oikeastaan on kyse. Meillä teknisillä asiantuntijoilla on yleensä laadusta ja sen poikkeamista oma käsityksemme, joka keskittyy tiedon teknisen validiuden ympärille, mutta tiedon laatuun kuuluu paljon muutakin kuin vain se tekninen puoli.

Varsinkin rakennettaessa strategiaa tiedon laadun parantamiseksi, on hyvä ymmärtää mitä kaikkea tiedon laatuun kuuluu. Tiedon laadun määritelmästä on lukuisia versioita, mikä monimutkaistaa aihetta. Pyrin tässä esittelemään kuitenkin siitä keskeisimmät teemat, jotka esiintyvät useimmissa määritelmissä. Mielestäni määritelmänä allaoleva kiteyttää asian varsin hyvin ja toimii hyvin lähtöpisteenä.

”Datan laatu on korkea, mikäli se sopii käyttötarkoitukseensa.”

Määrittely kattaa paljon erilaisia näkökulmia, joten sen ymmärtämiseksi on hyvä sukeltaa vielä hivenen syvemmälle. Tiedon laadun hallinnassa on käytetty pitkään viittä eri pääkohtaa, jotka ovat saaneet rinnalleen lukemattomia muitakin määreitä. Nämä viisi pääkohtaa purkavat aikaisempaa määritelmää riittävän yleisesti ollakseen helposti omaksuttavissa, mutta kuitenkin tarpeeksi tarkasti ollakseen hyödyllisiä laajassa osassa käyttötapauksista.

Nämä viisi pääkohtaa korvan taakse

Eheys

Ensimmäisessä kohdassa kyse on tiedon teknisestä oikeellisuudesta. Siitä, ovatko esimerkiksi päivämäärät oikein tai onko lämpötila reaalimaailman asettamissa rajoissa. Siitä, onko joukossa mukana kaikki vaadittavat tiedot, kuten että minuutin välein tapahtuvia mittauksia on tunnissa 60. Osittain nämä ovat teknisiä tarkistuksia, kuten se, että myyntilaskulla tulee olla aina tunnettu tuote, tai että IoT-mittarin arvo ei voi olla tyhjä. Näiden lisäksi kyse voi olla myös prosessillisten sääntöjen tarkistamisesta, kuten siitä, että laskun loppusumman on oltava sama kuin myytyjen tuotteiden summa. Kyseessä on siis tekninen ja sääntöjen mukainen eheys: jokin asia jonka tiedämme olevan tosi ilman, että tiedämme mihin tietoa aiotaan käyttää.

Kattavuus

Toisessa kohdassa menemme jo syvemmälle siihen, mihin tietoa on tarkoitus käyttää. Eli onko tiedossa kaikki mitä tarvitsemme, jotta se olisi hyödyllinen määriteltyyn käyttötapaukseen. Jos haluamme laskea vaikka miesten ja naisten ikäjakaumaa organisaatiossa, niin tarvitsemme siihen minimissään henkilöiden sukupuolen ja iän/syntymäpäivän. Silloin kun jompikumpi näistä tiedoista ei ole saatavilla, on kyseessä käyttötarkoitukseen kelvoton tallenne. Henkilömäärän laskemiseen tieto kuitenkin olisi täysin käyttökelpoinen ilman kumpaakaan tietoa, ja näin ollen niiden puuttuminen ei ole yksiselitteisesti huonoa, vaan laadun määrittelee käyttötapaus. Esimerkki on toki yksinkertainen ja monimutkaistuu, kun liitämme useiden lähteiden tiedot toisiinsa ja pääsemme attribuutti kattavuudesta tietojoukkojen kattavuuteen. Idea pysyy kuitenkin samana: onko meillä tarjolla riittävän kattavat tiedot lopputuloksen kannalta?

Luotettavuus

Kolmas kohta käsittelee erillisten aineistojen välistä täsmällisyyttä ja luotettavuutta. Kysymys lähteen luotettavuudesta on toki aina validi, mutta usein tärkeämmäksi muodostuu yhden totuuden ylläpitäminen. Tässä tiedonlaadun määritelmän kohdassa voidaan käsittää olevan kaksi kerrosta. Faktuaalisesti oikea tieto on niistä ensimmäinen ja olisi toki aina toivottava lopputulos. Toisena on tietojoukkojen yhdenmukaisuus. On tärkeää saada sama vastaus samaan kysymykseen, huolimatta siitä mistä aineistosta sitä kysytään. Jos esimerkiksi myyntijärjestelmän saatavilla olevien tuotteiden määrä eroaa paljon varastojärjestelmän tuotteiden määrästä, voi kyseessä olla vakava tiedon laadullinen ongelma. Nykyään tähän kysymykseen tuovat vielä uuden perspektiivin ulkoiset lähteet, kuten sosiaalinen media. Päätös siitä, mikä on oikein, on huomattavasti paljon haastavampaa määritellä, kun parhaimmillaankin mitattava suure on jonkinlainen approksimaatio pitkän käsittelysääntösarjan lopussa. Tällöin tärkeämpää onkin saada johdonmukaisia, eli toisiinsa verrattavissa olevia tuloksia.

Merkityksellisyys

Neljäs kohta on puhtaasti käyttökohteeseen liittyvä määritelmä. Merkityksellisyys, eli onko tieto merkityksellistä käyttötapaukselle, tai lievemmin ilmaistuna, onko se paras tapa mitata haluttua asiaa. Kuvitellaan, että järjestelmästä saadaan kaksi lämpötila-arvoa, toinen järjestelmän sisältä ja toinen mitattuna sen ulkopuolelta. Riippuen siitä, haluammeko tarkkailla ympäristön vaikutusta prosessiin vai ennakoida mahdollista virhetilannetta järjestelmässä, määrittää käyttötapaus mittarin merkityksellisyyden. Monimutkaisemmaksi asia menee, jos pyrimme esimerkiksi poimimaan tekstistä tiettyyn asiaan liittyviä avainsanoja. Kirjoitusmuoto, kieli, murre ja vastaavat asiat vaikuttavat tuloksen merkityksellisyyteen. Pelkästään uusi synonyymi, kuten raportoinnin muuttuminen analytiikaksi, muovaa tiedon relevanssia, jos sitä ei ole huomioitu.

Merkityksellisyys on määritelmän viidestä kohdasta teknisesti kaikkein vaikeimmin mitattavissa. Sen huomioiminen ja varmistaminen jää pääsääntöisesti tiedon hallinnan strategian prosessien huoleksi, ja sen ylläpitäminen vaatii monesti jatkuvaa analysointia.

Ajantasaisuus

Viides ja viimeinen kohta käsittelee tiedon laatua ajan funktiona eli karkeasti sitä, päivittyvätkö tiedot riittävän usein. Vaikka tämäkin asia usein määräytyy käyttökohteen tarpeiden pohjalta, on se silti hyvin lähellä tekniikkaa, osittain jopa suoraan lähteen määrittelemä. Jos lämpömittari lähettää arvon 10 sekunnin välein, niin tiedon laatu on puutteellista, mikäli näin ei tapahdu. Käyttötapaukseen saattaa toki riittää tunnin keskiarvo, jolloin yksittäisen arvon puuttuminen ei ole vielä suoranainen ongelma. Marginaalisesti kyseessä olisi siinäkin tapauksessa tiedon laadun heikkeneminen. Perinteisimmin kyseessä on ongelma tietojen eräajopäivityksessä, kuten vaikka siinä, että laskutustiedot päivittyvät vähintään vuorokauden välein. Tietojen latenssivaatimukset kuitenkin kasvavat nopeasti, ja ennen toissijaisesta ongelmasta on tulossa yksi tärkeimmistä tiedon laadun mittauksessa käytettävistä suureista. Kun siirryimme kuukausittaisesta raportoinnista vuorokausitasolle, yhden päivän menettäminen latenssina ei ollut välttämättä suurikaan ongelma. Mitattaessa ja mallinnettaessa reaaliaikaisia prosesseja, kuten tuotantolaitoksen toimintaa, ajantasaisuus on kuitenkin jo paljon kriittisempää.

Tiedon laadun perusmittareina voivat toimia siis eheys, kattavuus, luotettavuus, merkityksellisyys ja ajantasaisuus. Nämä viisi suuretta ovat mukana huolimatta siitä, millaista tietoa käsittelemme. Näiden viiden pääkohdan lisäksi on useita muitakin mittareita, kuten jäljitettävyys ja määräysten mukaisuus, mutta niiden tarpeellisuus on pitkälti kiinni yksittäisen käyttötapauksen vaatimuksista. Esitetty lista toimii mainiosti tiedon laadun strategian ja teknisten toteutusten suunnittelun tukena. Tärkeintä on aina tiedostaa, mihin tietoa käytetään ja mitä laatu siitä näkökulmasta tarkoittaa.

“Datan määrän kasvaessa, myös siitä aiheutuvat ongelmat yleistyvät.”