Stručnjaci Instituta Salk i Kalifornijskog Sveučilišta u San Diegu imaju novi pristup potragama za sličnošću.

Slično se sa sličnim druži. I nije tako samo s ljudima –  da ne ispadne da slijedi kompleksna sociopsihološka analiza. Ne, ništa takvo – ovdje nas zanimaju proizvodi nalik jedni drugima, pjesme koje zvuče poput onih koje smo već slušali, lica slična onima koja smo već uspjeli prepoznati na fotografijama.

Sve to predmet je složene raščlambe kojom se svakodnevno moraju baviti internetske stranice ili aplikacije za pametne telefone, proždirući pritom ogromne skupove podataka u potrazi za poznatim.

Takve zadaće poznate su kao potrage za sličnošću (similarity searches), a sposobnost brzog i točnog izvođenja tih golemih setova operacija u sve nepreglednijoj igri spajanja – s vremenom postaje sve veći izazov za računalnu znanost.

Zanimljiv mozak voćne mušice

Rješenje se možda krije ondje gdje bi ga malo tko tražio – u organizmu kojim se, zbog brzog razmnožavanja, već odavno okoristila genetika.

Stručnjaci Instituta Salk i Kalifornijskog Sveučilišta u San Diegu uvjereni su da voćna mušica nije samo zahvalan poligon za promatranje mutacija, već ima i zanimljiv mozak, ma koliko jednostavan on bio.

Elegantna metoda potrage

Voćna mušica raspolaže elegantnom metodom izvođenja potraga za sličnošću.

Mušice tu sposobnost rabe u vrlo praktične svrhe – kako bi ustanovile koji su mirisi najsličniji onima s kojima su se već susretale, a onda toj informaciji prilagode ponašanje.

Jednostavne, kakve već jesu, odgovor svode uglavnom na pristupanje izvoru mirisa ili njegovo izbjegavanje.

– To je problem koji mora riješiti svaka tehnološka kompanija koja raspolaže ikakvim sustavom prikupljanja informacija. Logično je da se računalni znanstvenici njime bave već dugi niz godina – objašnjava Saket Navlakha, profesor pri Laboratoriju integrativne biologije Instituta Salk. – Sada, zahvaljujući mušici, raspolažemo novim pristupom potragama za sličnošću.

Kako sustavi funkcioniraju

Većina sustava koji operiraju podacima kategorizira stavke – od pjesama do slika – kako bi se optimizirale potrage za sličnošću, reducirajući pritom količinu informacija vezanu uz svaku stavku.

Takvi sustavi dodjeljuju kratke digitalne kratice ili hasheve svakoj stavci, s velikom vjerojatnošću da će slične stavke dobiti isti ili slični hash, za razliku od raznorodnih stavki, kod kojih je ta vjerojatnost gotovo nikakva. Takva dodjela kratica u računalnoj se znanosti naziva lokalno-senzitivnim hashingom.

Kad traži slične stavke, program probire kratice umjesto da se bavi izvornim stavkama, kako bi uz manju potrošnju računalnih resursa brže pronašao sličnosti.

Za sve je kriv neformalni razgovor

No kako je u priču ušla voćna mušica? Jednostavno. Navlakha je jednog dana čavrljao s kolegom Charlesom Stevensom iz Salkova Laboratorija za molekularnu biologiju. Kako to često biva sa znanstvenicima, iz njihova neformalnog razgovora izrodio se potpuno novi pristup problemu.

Naime, u to vrijeme Stevens se baš bio bavio osjetilom njuha kod mušica. Dvojac je vrlo brzo došao do spoznaje da se mušice, kao i sve druge životinje, konstantno bave potragama za sličnošću. Navlakha je odmah počeo češljati literaturu o neuronskim mrežama koje kod mušica reguliraju osjet njuha i procesiraju podatke koje njime prikupe. Zanimalo ga je kako mušice identificiraju slične mirise.

– U prirodi uglavnom nećete susretati potpuno iste mirise. Morate biti spremni na određenu količinu buke u sustavu i razne fluktuacije – prepričava Navlakha rezultate istraživanja koja je konzultirao. – Ipak, ako nanjušite nešto što ste prije vezali uz određeno ponašanje, spremni ste prepoznati sličnost i prizvati to isto ponašanje.

Kako mušice identificiraju slične mirise

Na primjeru voćne mušice, stvar bi izgledala otprilike ovako – ako životinja otprije zna da miris trule banane podrazumijeva gozbu, kod nje će isti bihevioralni odgovor polučiti i neki vrlo sličan miris, iako ga nikad prije, u točno tom obliku, nije imala prilike osjetiti.

Navlakha i njegovi suradnici pregledom znanstvene literature došli su do spoznaje o tome što se točno događa u mozgu voćne mušice u trenutku kad osjeti neki miris. Signal istodobno šalje 50 živčanih stanica, i to u točno određenoj kombinaciji – jedinstvenoj za taj miris.

Ipak, umjesto da reducira broj hasheva koje veže uz taj miris, kao što bi to učinili računalni programi, mušica čini upravo suprotno – širi dimenziju procesa.

Od 50 izvornih neurona input vrlo brzo stiže do njih 2000, a svaki miris na taj način brzo stječe posve poseban “otisak” raspoređen po cijeloj toj neuronskoj bazi. Mozak zatim skladišti reakciju 5 posto od tih 2000 neurona, uzimajući u obzir samo one s najjačom aktivnošću. Takva paradigma pomaže mozgu da locira sličnosti bolje nego što bi to bio slučaj da je izvorno reducirao dimenziju procesa.

– Zamislite gomilu ljudi koje ste odabrali prema njihovim uzajamnim vezama, a onda ih strpali u jednu prostoriju – slikovito će Navlakha. – Zatim iste te ljude i njihove veze razvucite na površinu nogometnog igrališta. Na tom će prostoru biti mnogo lakše razlučiti strukturu njihovih veza i iscrtati granice između raznih skupina, nego unutar prenatrpane sobe.

Brže i učinkovitije potrage

Iako je sam proces kojim se mušice koriste već bio opisan u literaturi, Navlakha i suradnici prvi su analizirali na koji način on maksimalizira brzinu i učinkovitost u potragama za sličnošću.

Primijenili su ga na tri standardna seta podataka kojima se znanstvenici koriste pri testiranju algoritama i otkrili da pristup koji su “ukrali” mušicama postiže bolje rezultate. Uvjereni su da će jednog dana imati značajan upliv u strukturu računalnih programa.

Njihova je studija među prvima koje vuku takve paralele između neuralnih mreža u biološkim mozgovima i algoritama za obradu informacija kojima se koristi računalna znanost.

– Već 20 godina privlače me nasumične projekcije, koje su središnja komponenta lokalno-senzitivnog hashinga pri potragama za sličnošću – kaže Sanjoy Dasgupta, profesor računalnih znanosti na Jacobs School of Engineering pri kalifornijskom Sveučilištu u San Diegu. – Nikad mi nije palo na pamet da bi takav proces mogao postojati u prirodi.

– Neurobiolozi i računalni stručnjaci očito dijele isti san. I jednima i drugima cilj je razumjeti na koji način mozak obrađuje informacije, kako bismo njegove metode uspjeli prilagoditi strojnom računanju – dodaje Stevens. – Naše istraživanje dokazuje da je ostvarenje tog sna načelno moguće.

Tko zna koliko ćemo često u budućnosti dobar rezultat internetske pretrage moći zahvaliti naoko neuglednom organizmu iz roda Drosophila.