Matti Grönroos

Mitä mittaat, sitä saat

Tietotekniikan perinteisiin kuuluu insinöörimäinen lähestyminen palveluntason tarkkailuun: Vain numeroilla on väliä.

Toisaalta liiallinen määrä palvelutason indikaattoreita johtaa siihen, että metsä tahtoo kadota puilta. Koska myös johtomme tykkää numeroista, teemme mittariston, jossa kaikista indikaattoreita ja seuraamme niitä. Uskomme, että tällä tavoin syntyy uskottava kuva palvelutasostamme.

Tietotekniikkatuotannon kokonaisuutta hyvin kuvaavaa yhtä mittaria ei vielä ole keksitty. Jos otetaan yksi mittarikandidaateista sellaiseksi, palvelun tuottaja osaoptimoi palvelunsa niin, että tämä yksittäinen asia on aina hyvin. Muut asiat voivatkin sitten olla hunningolla. Kuulostaako tutulta?

Käsittämättömän usein tietotekniikan palvelusopimuksia rakennetaan siten, että koko laajaa toimintakokonaisuutta peilataan muutaman numeerisen SLA-mittarin kautta siten, että mittarin meneminen vihreältä punaiselle johtaa sanktiokassakoneen kilinään.

On selvää, että kokonaisuuden kannalta on mahdotonta toteuttaa kymmeniä mittareita, joista jokaisen heilahdus on rangaistukseen johtava.

Aika moni keksii, että otetaanpa häiriönhallinnan, sen ITILin Incident Managementin, mittarit tuottamaan jos ei nyt aivan kokonaiskuvaa sentään, niin melkoisen laajan kuvan silti. Miksi? No, kun sellaisen saa helposti ulos tiketöintijärjestelmästä. Mutta jos firman järjestelmien ympärillä kuukaudessa syntyvistä vaikkapa sadasta tiketistä tavanomaisen kolmen sijaan menee tässä kuussa pitkäksi viisi, onko kaikki pilalla?

Kun mittari sidotaan sanktioihin, palvelutoimittaja tietysti terästäytyy, sehän on tarkoituskin. Mutta jos sanktiomittareita on vain muutamia, on hyvin suuri vaara ajautua vesimeloni-SLA:han: Toimittaja osaoptimoi muutaman asian teräksenlujaan kuntoon ja muu voikin jäädä hunningolle. Ja käyttäjät huutavat pää ja meloninliha punaisena.

Keskiarvolukemiin perustuvat mittarit varsinkin isompien massojen kyseessä ollen ovat taipuvaisia piilottamaan toistuvia häiriöitä maton reunan alle. Jos sadan palvelimen saatavuuskeskiarvo on se oleellinen asia, ei siinä juuri yksittäiset asiat näy. Vaikka kuinka joka kuussa saatavuuskeskiarvo on 99,5 prosenttia, se rusinanrypistyslinjan tuotannonohjauspalvelin voi olla viidesti nurin joka päivä muutaman minuutin ajan ilman, että tilanne koskaan nousee listoille.

Jos maton alle tomun työntäminen ei miellytä, on vaarana ruveta tekemään asiasta tiedettä mallintamalla arvoketjuja painokertoimien avulla. Tällä lähestymiskannalla on taipumusta paisua yli äyräiden, kunnes tuloksena on monimutkainen ja vaikeasti ylläpidettävissä oleva malli, jonka tulosten mielekkyys ja relevanssi jäävät kyseenalaisiksi.

Tässä fiktiivisessä mallissa ylärivillä ovat järjestelmät, joilla kullakin on painoarvonsa. Numerot kertovat, kuinka iso prosenttiosuus kunkin komponentin huonoudesta vieritetään seuraavalla tasolle. Jos esimerkiksi K:n huonous on 20%, tämä vyöryy sovelluksille suhteessa A: 4,80 %, B: 2,03 %, C: 4,13 %, D: 5,26 %, E: 3,26 % ja F: 0,53 %. Näiden painotettu keskiarvo on 3,85 % ja tulos on siten 96,15-prosenttisen hyvä. Tarkoittaako tulos jotain, onko se hyvä, onko se huono, sitä ei tarina kerro. Mutta työaikaa on saatu kulumaan, todennäköisesti vähintään kiitettävästi.

Jos katsot, että häiriönhallinnan mittarit ovat ehdottoman tärkeitä toiminnallesi, saat häiriönhallintaa. Muuta sitten saat vähemmän. Ja moni palvelutuottaja kyllä tietää, miten häiriönhallintaa manipuloidaan. Tällöin saat manipuloitua häiriönhallintaa, ja muuta vähemmän. Happy now?