Marko Oja
Data-arkkitehti, joka auttaa asiakasta ymmärtämään tekniikan mahdollisuudet ja muuntaa innovatiiviset ideat teknisiksi ratkaisuiksi. Ketterät kehitysmenetelmät ja kehitystyötä tukevat prosessit ovat lähellä Markon sydäntä.
Väitän, että monessa yrityksessä tiedon hallinta ei ole osa jokapäiväistä tekemistä, eli tiedon omistajuutta, eikä laadun tarkkailuprosesseja ole selkeästi määritelty. Asiaa sekoittaa uusien lähteiden monimuotoisuus. Kaikella tiedolla ei enää ole vastaavaa teknistä määritelmää siitä, milloin se olisi oikein. Tällaisesta hyvä esimerkki on ulkoiset lähteet, kuten sosiaalinen media, jossa tiedon oikeellisuutta mitataan pikemminkin sen merkityksellisyytenä haluttuihin käyttötapauksiin kuin teknisillä raja-arvoilla.
Näiden haasteiden lisäksi tiedot päivittyvät entistä reaaliaikaisempien prosessien kautta. Modernissa tietoalustassa kerran vuorokaudessa päivittyvät tiedot alkavat olla historiaa, ja tämä aiheuttaa muutospaineita myös siihen, miten laatupoikkeamia tulisi käsitellä.
Uusien datalähteiden aiheuttamat tiedon laadun ongelmat aiheuttavat uusia haasteita myös data-alustoille. Pelkästään aineiston määrän kasvu itsessään on aiheuttanut muutoksen siinä, miten tietoa käsitellään ja tallennetaan. Siirtyminen pilvialustoille on ollut voimakasta osaksi tästä syystä. Tiedon laadun prosessit tulevat kuitenkin tässä muutoksessa jäljessä. Perinteisillä manuaalisesti ylläpidettävillä raja-arvotarkistuksilla ei enää pystytä pitkään vastaamaan kasvavaan laadun hallinnan tarpeeseen. Monissa tapauksissa tiedon laadun tarkkaileminen onkin täysin unohdettu, sillä tekniikka itsessään ei voi ratkaista ongelmaa, ilman muutosta tiedon hallinnan prosesseissa.
“Tiedämme useiden vuosikymmenien kokemuksella, miten käyttöliittymiä tulisi rakentaa niin, että ne eivät mahdollistaisi viallisten tietojen syöttämistä.“
Miten sitten tiedon laadun tarkistusta voisi lähestyä? Millä keinoin voidaan pyrkiä ehkäisemään niitä negatiivisia vaikutuksia, joita huonolla tiedon laadulla tutkitusti on liiketoimintaan? Tähän, kuten useisiin muihinkaan monimutkaisiin kysymyksiin, ei ole yhtä helppoa vastausta. Varmaa on ainoastaan se, että paisuva tiedon määrä vaatii väkisinkin suurempaa panostusta tiedon laatuun. Tämä tulisi huomioida jo lähdejärjestelmiä valittaessa ja kehitettäessä. Tiedämme useiden vuosikymmenien kokemuksella, miten esimerkiksi käyttöliittymiä tulisi rakentaa niin, että ne eivät mahdollistaisi viallisten tietojen syöttämistä.
Lisäksi tiedon syötön prosesseja pitäisi tarkkailla, jotta käyttäjät eivät käytä järjestelmiä "väärin". Ihmiset kun ovat erittäin luovia keksimään tapoja kiertää teknisiä esteitä. Aina paras ratkaisu, etenkään tiedon laadun kannalta, ei kuitenkaan ole kiertää järjestelmän toimintoja. Järjestelmä ja prosessi tulisi sitä vastoin yrittää yhteensovittaa siten, että tiedon laatu ei pääse heikkenemään. Jos lähteen tiedon muodostuminen on sitä hyödyntävän tahon hallinnassa, tulisi lähteen olla ensisijainen paikka siellä tuotettavan tiedon laadun varmistamiselle.
Tiedon laadun hallinta lähtee liikkeelle tiedon hallinnan perusperiaatteista, kuten tiedon omistajuudesta. Tiedon laadun varmistavien prosessien tulee, omasta mielestäni, lähteä liikkeelle mahdollisimman läheltä tiedon muodostavaa prosessia. Lisäksi laadun hallinnan prosessien ensisijaisen päämäärän tulisi olla toiminnan ohjaaminen siten, että ne tuottavat laadukkaampaa tietoa, sen sijaan, että tapahtuneita virheitä pyritään jälkikäteen korjaamaan. Tiedossa tapahtuvien virheiden ratkaisemisen tulisi siis mielestäni olla ensisijaisesti lähdejärjestelmissä tapahtuvaa, koska on varoittavia esimerkkejä, joissa tiedon tekninen korjaaminen hyödyntävissä järjestelmissä on heikontanut tiedon laatua lähteessä entisestään. Syitä tähän on varmasti monia kuten se, että tiedon laadun ongelmista voi tämän jälkeen syyttää teknistä järjestelmää, mutta ennen kaikkea se, että tiedon laadun varmistaminen ei ole enää ollut prioriteetti sitä tuottavalle taholle. Ulkoisten lähteiden kohdalla emme kuitenkaan pysty suoraan vaikuttamaan lähdeaineiston synnystä vastaavaan prosessiin. Tästä syystä onkin tärkeää pyrkiä jo ulkoisia lähteitä valittaessa varmistumaan tiedon luotettavuudesta sekä laadusta ja vasta toissijaisesti reagoimaan sen tuottamiin virheisiin.
Lisäksi on tärkeää, että tiedon laadun hallinnan prosesseissa otetaan huomioon myös tiedon muokkaukseen käytettävät toimenpiteet. Ulkoisten lähteiden osalta tiedon kattavuus ja merkitsevyys ovat laadun mittareina tärkeitä. Nämä mittarit eivät ole kuitenkaan binäärisesti oikeaksi tai vääräksi määriteltävissä. Tämä tarkoittaa, että myös prosessien tulee tukea laadun hallintaa puhtaasti virheiden korjausta laajemmasta näkökulmasta. Tekniikka ei yksinään pysty ratkaisemaan uusista tarpeista ja lähteistä muodostuvia tiedon laadun hallinnan ongelmia, vaan myös prosesseja täytyy kehittää tekniikan tueksi.
Jotta mitään prosessia voitaisiin parantaa, täytyy sen toimintaa pystyä tarkkailemaan, eli mittaamaan. Tiedon laadun mittaaminen onkin mielestäni tärkein asia, mitä sen parantamiseksi voidaan tehdä. Kuitenkin tiedon laatu on vähenevässä määrin enää puhtaasti binäärinen hälytysraja. Yksittäisen datapisteen häiriö ei tee automaattisesti koko erästä käyttökelvotonta. Jos esimerkiksi taloustapahtumissa tietyn tilin lukemat ovat viallisia, saattaa se tehdä koko tuloslaskelmasta virheellisen. IoT-datan kohdalla yksittäinen viallinen laite ei vastaavasti useinkaan aiheuta samaa tilannetta lopputulokselle. Mittarin aiheuttama poikkeama lopputulokseen, jos sitä ylipäätään käytetään ja esimerkiksi koneoppimismallin muuttujana, voi olla prosenttien luokkaa, ja tulos saattaa virheestä huolimatta olla vielä käyttökelpoinen, joskin vähemmän luotettava. Tekstipohjaisessa datassa vastaavaa arviota on jo lähes mahdoton tehdä.
Hälytyspohjainen raportointi pelkästään ei siis ole enää vaihtoehto tulevaisuudessa, vaan tiedon laatua täytyy ruveta analysoimaan suhteellisena arvona. Jotta tämä olisi mahdollista täytyy tiedon käyttötapaukset tuntea aikaisempaa paremmin, sillä muuten merkityksellisyyden määritelmää ei voida muodostaa. Tietojoukon tietyn osan häiriöt eivät lisäksi välttämättä vaikuta kaikkiin käyttötapauksiin, ja osalla käyttötapauksista saattaa olla erilaisia vaatimuksia tiedon laadusta, kuten latenssista. Käyttötapauksien ymmärtämiseksi ja linkittämiseksi lähdetietoihin tarvitaan entistä parempaa data lineagea. Tämän vuoksi tarvitaan tiedonhallinnan prosessien käyttöönottoa ja teknisiä työkaluja, kuten Azure Purview:t¨ä tukemaan monitorointia ja yhdistämään se liiketoiminnalliseen prosessiin.
Viimeiseksi ongelmaksi jää tiedon teknisen laadun varmistaminen nykyisessä muutoksessa. Tarkasteltavan tiedon määrä kasvaa jatkuvasti. Ongelman voi toki yrittää ratkaista lisäämällä siihen käytettävää työmäärää samassa suhteessa. Tiedon määrä näyttää kuitenkin jatkavan nopeaa kasvuaan, joten tämä ei välttämättä ole järkevä pitkän aikavälin strategia. Yhtenä aseena työkalupakissa ovat kuitenkin tilastolliset algoritmit ja koneoppiminen. Näiden tulosten varaan pystytään jo nyt rakentamaan tietyn tyyppistä valvontaa, mutta niiden käyttö vaatii myös jatkuvaa analysointia. Verrattuna puhtaasti manuaaliseen työhön, se on kuitenkin varsin skaalautuva vaihtoehto. Varsinaisen tekoälyn osalta otamme vasta ensimmäisiä askelia, mutta tulevaisuus näyttää onneksi lupaavalta. Jos kehitetty data platform osaa jo nyt hyödyntää kiinteää arvovertailua edistyneempiä matemaattisia algoritmeja tiedon analysoinnissa, on täysin mahdollista vaihtaa käytettävää logiikkaa älykkäämmäksi teknologian mahdollisuuksien varttuessa. Näiden ominaisuuksien käyttö vaatii kuitenkin sitä, että koko tiedonhallinnan prosessi on jo muuten kunnossa. Houkutus hypätä suoraan syvään päähän on suuri, mutta kokemukseni pohjalta tuottaa kovin harvoin haluttuja lopputuloksia.
“Tämän vuoksi tarvitaan tiedonhallinnan prosessien käyttöönottoa ja teknisiä työkaluja, kuten Azure Purview:ietä, tukemaan monitorointia ja yhdistämään se liiketoiminnalliseen prosessiin.“
Kaikissa esitellyissä tapauksissa erottavana tekijänä nykyiseen käytäntöön on kuitenkin yksi asia. Olemme varmasti siirtymässä pois binäärisestä tiedon laadun maailmasta. Tiedon laadun varmistamisen strategian tulee lähteä jostain muusta lähtökohdasta, kuin 100 % laadun varmistamisesta. Jo tiedon laadun määritys itsessään estää näin mustavalkoisen lähestymisen asiaan. Tiedon laadun määrityksen, varmistamisen ja ylläpidon prosesseja on siis kehitettävä. Uusia teknisiä kyvykkyyksiä on lisättävä entisestään. Tiedon laadun mittaamisesta on tultava osa jokapäiväistä toimintaa, vieläpä siten, että mittaamisen prosessi ja tulokset ovat tiedon hyödyntäjille mahdollisimman läpinäkyviä. Näillä toimenpiteillä on mahdollista selvitä käynnissä olevasta muutoksesta. Lisäksi, tiedon merkityksellisyys tiedon laadun mittarina tulee olemaan varmasti kasvava trendi tiedon muodon ja käyttötapojen monipuolistuessa. Uusien lähdetyyppien tiedon laadun ongelmat tulevat olemaan monitasoisempia, ja ne vaativat analysointipainotteisempaa lähestymistä ongelmien havaitsemiseksi ja ratkaisemiseksi.
Data-arkkitehti, joka auttaa asiakasta ymmärtämään tekniikan mahdollisuudet ja muuntaa innovatiiviset ideat teknisiksi ratkaisuiksi. Ketterät kehitysmenetelmät ja kehitystyötä tukevat prosessit ovat lähellä Markon sydäntä.