perjantai 29. elokuuta 2014

Joukkovoimaa

Kun netissä rekisteröityy johonkin palveluun, tai lähettää vaikka kommentin keskustelupalstalle, joutuu usein kirjoittamaan vastauksen jonkinlaiseen bottivarmistuskysymykseen. Kyseessä voi olla vastaus vaikka yksinkertaiseen päässälaskutehtävään tai jollain sotkuisella fontilla olevan tekstinpätkän kopioiminen vastausruutuun. Näin voidaan erottaa, yrittääkö kommenttia laittaa ruudulle oikea ihminen vai tietokoneohjelma. Ohjelmat eivät osaa tunnistaa vaikeaselkoista, kuvatiedostona olevaa tekstiä, ja näin ne voidaan torjua. Joskus merkkirivit ovat niin oudoilla fonteilla ja viivoilla sotkettu, että hädin tuskin ihminenkään erottaa, mistä kirjaimista on kyse.

Harvempi tietää, etteivät ko. tekstinpätkät aina ole pelkästään sattumanvaraista siansaksaa. Google esimerkiksi käyttää tunnistussanoina oikeista vanhoista kirjoista ja sanomalehdistä otettuja pätkiä. Tekstin tunnistuksessa kyse on Googlen hankkeesta nimeltä reCAPTCHA, jossa netinkäyttäjiä käytetään apuna käännettäessä kirjoja ja sanomalehtiä digitaaliseen muotoon. Tunnistettavat sanat ovat sellaisia, joista kaksi erillistä tekstintunnistussovellusta on antanut erilaisen tuloksen, eikä niille löydy vastinetta sanakirjasta.

Tällaiset sanat lähetetään toisistaan erotettuina reCAPTCHAN kautta www-sivuille rekisteröityjien tunnistettavaksi. Kun tarpeeksi moni ihminen on tulkinnut ne samalla tavalla, tekstit lähetetään takaisin tunnistettuina, hyväksytyksi osaksi alkuperäistä digitoitua tekstiä. Netinkäyttäjät siis tekevät digitointityötä tietämättään. Vaikka jokainen käyttäjä tunnistaa vain yhden sanan kerrallaan, käyttäjien suuri määrä todellakin jouduttaa käännöstyötä: päivässä lähetetään ihmisten tunnistettavaksi yli 100 miljoonaa tekstinpätkää. Todennäköisesti sinäkin olet tietämättäsi digitoinut The New York Timesia. Idea on kieltämättä nerokas.

Vaikka toisaalta reCaPTCHA herättää kysymyksiä siitä, mitä kaikkea muuta tietoa näppäilyistämme minnekin tallentuu ja tietämättämme hyväksi käytetään, on joukkovoiman käyttäminen isoissa projekteissa suuri säästö kaikille. Kukaan ei jaksa yksinään skannata miljoonaa sivua, mutta miljoonalle käyttäjälle kyseessä on minuutin homma. Suuria urakoita saadaan valmiiksi ilman että kukaan huomasi edes tehneensä työtä.

Tietoverkot ovat mahdollistaneet sekä työn että työn tulosten jakamisen. Kirjastoissa yhteiseen aineistotietokantaan siirtyminen on säästänyt suuren määrän työtä ja nopeuttanut aineiston lainauskuntoon saamista. Ennen Satakirjastojen syntyä, oli käytännössä jokaisella kirjastolla oma, suljettu tietokantansa. Jokaisessa kirjastossa oli työntekijöitä, jotka luetteloivat kirjat tietokantaan. Samoja kirjoja luetteloi, periaatteessa samoin, standardoiduin säännöin, satoja työntekijöitä ympäri Suomen. Jotkut kirjastot tilasivat tiedot maksua vastaan yksityiseltä yritykseltä, jotkut luetteloivat ihan perinteisesti käsipelillä itse.

Yhteinen aineistotietokanta merkitsee sitä, että teos tarvitsee luetteloida vain kerran. Sen jälkeen tieto on kaikkien käytettävissä. Hyöty on valtava. Vaikka luettelointi”kieli” ja säännöt ovat standardoituja, poikkesivat saman kirjan luettelointitiedot eri kirjastoissa. Joissain kirjastoissa luetteloitiin vain melko suppeasti, joissain tietoja oli enemmän. Koska luettelointi toimii asiakasliittymän hakujen pohjana, siitä suoraan riippuu, kuinka hyvin joku aineisto tai aihepiiri on tietokannasta löydettävissä. Väärät tai puutteelliset hakusanat antavat vääriä tuloksia. Nyt sama teos löytyy samoilla kriteereillä joka kirjastossa. Kirjat myös ehtivät hyllyyn asiakkaan lainattaviksi nopeammin, kun jokaista ei tarvitse erikseen luetteloida.

Joskus tulevaisuudessa kaikkien Suomen kirjastojen aineistot saattavat olla samassa tietokannassa, ja luettelointitiedot tilataan valmiina yksityiseltä yritykseltä tai kirjastojen luettelointieksperteistä kootulta ryhmältä. Toisin kuin Googlella, kirjastojen asiakkaita tässä työssä tuskin käytetään. Sen sijaan asiakkaiden kirja-arvostelut, suositukset ja muun sisällöntuotannon hyödyntäminen alkaa olla arkea uusimmissa kirjastojärjestelmissä jo nykyisinkin.

Ei kommentteja:

Lähetä kommentti