Što je zajedničko genomu tropske žabe, povijesti bolesti vaše punice/svekrve, evidenciji ulazaka i izlazaka zaposlenika Ministarstva obrane iz strogo čuvanih objekata i virtualnim kolicima za šoping?

Odgovor je jednostavan – sve navedeno dijelom je neke od stotina tisuća baza podataka duboko utkanih u tkivo suvremene civilizacije.

Tko god se ikad bavio bazama podataka ima “omiljeni” popis grešaka koje ih mogu usmjeriti u pravcu katastrofe. Stvari mogu krenuti krivo iz niza razloga – loš dizajn, zanemarivanje normalizacije, nekonzistentnost nazivlja – nije teško nastaviti niz. Ali sve da su i najučinkovitije složeni, glomazni sustavi, a baze podataka to svakako jesu, skloni su tromosti. Slon jednostavno ne može biti gazela. Ili ipak može?

Sveučilište u Michiganu na tragu rješenja

Na Sveučilištu u Michiganu misle da su našli rješenje. Baze podataka od sada će biti učinkovitije – umjesto da se “ubijaju od posla”, pametno će odabirati prioritete, a to će omogućiti da velika, inertna životinja zvana “big data” jednostavno živne. Ogromni sustavi na temelju kojih se provode medicinska istraživanja i donose važne poslovne odluke – da spomenemo samo neke od primjena – mogli bi napokon biti pušteni s lanca vlastite veličine i neprohodnosti, a neselektivno granatiranje podacima zamijenio bi pametan, ciljani pristup.

U podlozi svega je softver koji su istraživači znakovito nazvali Verdict, jer bi trebao presuditi u “sporovima” koje baze podataka često vode same sa sobom, a onda i s korisnicima.

Verdict bi trebao omogućiti bazama podataka da uče.

Verdictom brže do pravih odgovora

Na temelju svakog korisničkog upita sustav bi trebao shvatiti na koji način svaki sljedeći put može sve učinkovitije izbjeći vječno probijanje kroz isti niz podataka. Rezultat je fascinantan. Odgovori stižu čak 200 puta brže, a pritom se zadržava 99-postotna točnost. U istraživačkom okruženju to može značiti sekunde umjesto sati, pa čak i dana.

Ako brzina u pojedinim razdobljima nije prioritet, Verdict bazu podataka može ubaciti u način rada kojim se štedi energija. Konkretno, za isti rezultat sustav potroši 200 puta manje struje nego tradicionalne baze podataka. Ni to nije zanemariva značajka, jer, prema riječima istraživača, središta za pohranu podataka zauzimaju sve veći udio u ukupnoj svjetskoj potrošnji električne energije.

Za Verdict njegovi tvorci kažu da je prvi funkcionalni primjer rješenja u novom području istraživanja, koje se sve češće naziva “učenjem baza podataka”.

– Baze podataka prate istu paradigmu posljednjih 40 godina – žali se Barzan Mozafari, profesor računalnih znanosti i inženjerstva na Fakultetu Morris Wellman Sveučilišta u Michiganu.  – Predate upit, baza nešto radi i isporuči vam odgovor. Svi koraci koje je poduzela kod prethodnih upita – ostaju neiskorištenima.

Kraće i lakše kroz šumu podataka

Upravo to opetovano razbacivanje resursima i računalnim vremenom uz pomoć Verdicta (i njegovih budućih nasljednika) trebalo bi otići u ropotarnicu povijesti. Na temelju naprednih statističkih načela, koristeći se prethodnim parovima pitanja i odgovora kako bi razlučio gdje bi mogli ležati odgovori na buduće upite, Verdict bazi podataka omogućuje da se svaki put sve kraće i sve lakše probija sama sobom.

Istraživači su uvjereni da je ova inovacija stigla doslovno u “zadnji čas” – digitalni svijet nabujao je “debelo” preko milijarde gigabajta uskladištenih podataka.

Bio to mirovinski sustav Republike Albanije, organizirana riznica podataka o potencijalno opasnim nebeskim tijelima koja bi jednog dana mogla ugroziti Zemlju ili rodoslovnici Međunarodnog kinološkog saveza – svi ti podaci negdje moraju biti pohranjeni i nekako im se, prema potrebi, mora moći pristupiti. Štoviše, novi podaci stižu znatno brže nego što ih sustavi uspijevaju “probaviti” – problem se ne može riješiti većom procesorskom snagom jer je stopa rasta nove generacije podataka jednostavno prevelika.

Na baze podataka se sve više oslanjamo ne samo kako bismo pronašli odgovore na pojedina pitanja, već i pri osmišljavanju novih zamisli koja pogone cijela područja ljudskog znanja i istraživanja koje nam pomiče obzore.

Primjerice, način na koji se medicina koristi bazama podataka kako bi pronašla skrivene povezanosti među oboljelim pacijentima vrlo je sličan Amazonovom istraživanju motivacije potrošača, što im omogućava optimizaciju sustava dostave. Takva istraživanja podrazumijevaju stotine tisuća istodobnih upita, a dugo čekanje odgovora donosi mnogo veću štetu od puke nelagode, jer studije pokazuju da i najmanja odgoda u složenim sustavima može suzbiti produktivnost i inovativnost.

Matematički model upita i odgovora

Rješenje je “tanki sloj” – mali, ali vrlo “okretan” komad softvera koji je moguće postaviti pred svaku postojeću bazu podataka. On u početku ne čini mnogo – ograničava se na skladištenje upita i njihovo usustavljivanje u “sinopsis upita”. No, nakon nekog vremena, Verdict se pokreće i razbija svaki upit na sastavne dijelove, takozvane “snippete”, kojima se koristi kako bi izgradio matematički model upita i odgovora. Pri svakom novom upitu, taj model bazu podataka upućuje na točno određeni podskup podataka, u kojemu se najvjerojatnije krije odgovor.

Verdict ponekad do odgovora uspijeva doći već i iz samog modela, a da uopće ne pristupi bazi podataka. Pritom sâm troši minimalne računalne resurse, a istraživači Mozafari i Youngjoo Park uspjeli su dokazati da ne usporava performanse. Štoviše, korisnici mogu balansirati između brzine i točnosti kako bi Verdict prilagodili pojedinačnom upitu.

Od komercijalne primjene dijeli nas nekoliko godina, no priča obećava. – Tek smo zagrebali po površini širokog raspona mogućnosti učenja baza podataka – svjestan je Mozafari. – Važno je to što smo njihovu mehaniku okrenuli naglavce. Novi upiti više nisu samo novi posao, već prilika da se nešto nauči, kako bi baza podataka ubuduće bila učinkovitija.

Za one koji žele znati više, cijeli projekt detaljno je opisan u studiji krajnje intuitivnog naslova: “Učenje baza podataka: korak k bazi podataka koja svaki put postaje pametnijom.”