ALDI BLOG
Kategorija: Digitalne tehnologije
Kako je „Big data“ promjenila smjer genetičkih istraživanja?
Život u XXI vijeku nosi sa sobom veliki broj turbulencija i noviteta na koje se moramo adaptirati u cilju opstanka. Možda pregruba riječ „opstanka“, ali obzirom da smo mi ništa drugo nego pripadnici carstva Animalia, noviteti koji nam se serviraju predstavljau iskušenja na putu naše adaptacije, a u krajnjoj liniji i opstanka. Tokom evolucije, koja i dan danas traje, mnoge životinjske vrste su upravo izumrle jer su prekasno prepoznale da je zapravo vrijeme za njihovu adaptaciju na nove uslove. Da li i mi želimo da izumremo dok svjesno negiramo ono što nam se dešava u našoj okolini?
Let’s talk about Big Data
U periodu 90tih vladala je era novih naučnih dostignuća, velikih promjena na polju prirodnih nauka. Dolazilo se do enormne količine podataka, ali ono što nikako nije bilo prisutno jeste interdisciplinarnost bioloških nauka sa drugim naukama u cilju dobijanja što boljih, jasnijih zaključaka. Kada kažemo interdisciplinarnost vezujemo se za suradnju biologije kao prirodne nauke i informatike. Analiza dobijenih podataka je tekla dosta sporije i zahtjevala je znatno više vremena u odnosu na današnju situaciju. Ako uzmemo za primjer „Human Genome Project“, koji je trajao u periodu od 1990-2003, danas iste rezultate (sekvenciranje kompletnog ljudskog genoma) možemo dobiti u roku od 24 sata. Pitate se razlog tome? BIG DATA TOOLS, je odgovor na ovo pitanje!
Danas, naučnici dobijaju fascinantne nove perspektive o ljudskom genomu, a sve to zahvaljujući napretku napravljenom u analizi velikih podataka. Godinama su geni proučavani i mapirani, sa možda najvećim uspjehom po završetku Projekta humanog genoma početkom 2000-ih. Tek nedavno su naučnici bili u mogućnosti da bolje sagledaju ljudske gene, a veliki dio tog napretka zapravo dolazi u trenutku primjene big data analize. Postoji lista razloga zašto je primjena „big data analysis“ savršena za genetiku. Geni ne predstavlju ništa drugo no, informacije, ogromne količine informacije koje treba obraditi. Tipični ljudski genom sadrži više od 20.000 gena, od kojih svaki čini milione parova baza. Jednostavno mapiranje genoma zahtijeva stotine gigabajta podataka, a sekvenciranje višestrukih genoma i praćenje interakcija gena množi taj broj mnogo puta - stotine petabajta u nekim slučajevima. Upotrebom analitike „big data“ otvorena su vrata potpuno novog pristupa u analizi gena koja je u potpunosti promjenila način posmatranja gena. Jedan od softvera koji je prepoznao brzinu razvijanja genetike i potrebu za analiziranjem ogromne količine podataka koja proizilazi iz mnogih istraživanja jeste i HADOOP. Apache Hadoop softverska biblioteka je okvir koji omogućava distribuiranu obradu velikih skupova podataka po klasterima računala koristeći jednostavne modele programiranja. Dizajniran je da se poveća od jednog servera do hiljada mašina, od kojih svaka nudi lokalno računanje i skladištenje. Umjesto da se oslanja na hardver za isporuku visoke dostupnosti, sama biblioteka je dizajnirana da detektuje i rukuje greškama na aplikacionom nivou, tako da isporučuje visoko dostupnu uslugu na vrhu klastera računara, od kojih svaki može biti sklon greškama. Postavlja se pitanja kako jedna ovako konstruisana softverska biblioteka je našla primjenu u genetičkim analizama!? Razvojem NGS (Next- generation sequencing), došlo je do potrebe za razvojem ultra brzog softvera koji će da uspije da prati trend brzog dobijanja informacija i analizom istih. NGS predstavlja razbijanje jedne ogromne sekvence na manje fragmente koji se naknadno trebao analizirati. Hadoop je u pravom trenutku prepoznao potrebu i krenuo ka razvoju novog modela koji će u kratkom vremenu davati odlične rezultate analize. Obzirom da danas sekvenciranje znatno kraće traje nego je to bio slučaj prije 15 godina, Hadoop je trebao razviti sistem koji će da prati brzinu dobijanja informacije i istu analizira.
Hadoop rukuje velikim podacima vrlo efikasno. Performanse i brzina računanja su prilično značajne. Tako da Hadoop predstavlja savršen alat za obradu čak i komplicirane oblasti kao što je računska analiza gena koja zahtijeva analizu velikih podataka za istraživačke svrhe. Takva istraživanja otvaraju novi put ka dubljem upoznavanju čuda života i raznih skrivenih činjenica o živim organizmima. Otuda i potreba spajanja ovih istraživanja sa Hadoop-om za brže i pouzdanije računanje. Kako je genom živih bića znatno kompleksan i sastoji se od oko 20 000 gena koji se komplementarno spajaju na strukturalnom nivou preko baza (A,G,C,T,U), usljed tog sparivanja česte su greške koje dovode do nastanka mutacija. Mutacije mogu da budu povoljne, ali i pogubne za organizam. Upravo ovaj problem je uspio riješiti Hadoop, koji je razvio sistem koji će da prepozna prilikom analize sekvence na kojim mjestima je došlo do mutacije i kojeg tipa mutacije.
Predloženi sistem daje detalje o planiranoj oznaci gena i njenim mogućim mutacijama. Svi organizmi ima različite karakteristike te predloženi sistem pomaže u analizi podataka o tome da li gen specifičnog karaktera anotacija je prisutna ili ne, te pomaže u određivanju prisutnosti oznake za dati gen. Anotacija gena daje se kao ulaz i pretražuje se u izvornoj datoteci. Podaci o jednolančanim DNK se koriste kao ulazni podaci. Iscrpna pretraga se postiže pomoću pretraživanja „foward“ i „reverse“ primer-a. Kako DNK lanac može imati potreban uzorak u bilo kojem redoslijedu u HADOOP-u se poslovi izvršavaju paralelno uz pomoć MAP-REDUCE. Ulaz predstavlja upit koji je podjeljen na više zadataka i oni su dodijeljeni funkcijama MAPREDUCE. Drvo operatora MAP-a i Operator REDUCE upravlja njime. Podaci tako izvedeni pohranjeni su u HADDOP datotečnom sistemu (HDFS). HDFS trgovine podaci u obliku serija hashtag, tj. u NAME i DATA čvorovima. Na samom startu analize, korisnik unosi potrebnu sekvencu koju Hadoop počinje da analizira, pregledava svojim alatima. Nakon pregleda generiše se konačni izvještaj koji zadaje daljnu akciju pregleda sekvence. Sekvenca se pregledava po baznim patovi gdje Hadoop za cilj ima prepoznavanja mogućih mutacija koje se javljaju u obliku insercija, delecije i duplikacija. Sistem pretrage sekvence se nastavlja sve do onog trena kada se uoči nepravilnost i u tom trenutku se pretraga obustavlja na taj način da softver izbaciju poziciju greške i opis do koje greške je došlo. Do ovakvih analiza i mogućnosti analiza došlo je nakon projekta ljudskog genoma, koji je svakako poslužio kao dobar template i inspiracija za razvoj alata, softvera koji će dati veliki značaj u biomedicinskim istraživanjima. Ukoliko je Hadoop prepoznao potrebe biomedicinskih istraživanja i svoje resurse dao u tom pogledu, postavlja se jedno opšte pitanje – Zašto ne krenemo sa „iskorištavanjem“ Hadoopa i u druge svrhe, druge nauke i oblasti, ako je to uspijelo u genetici kao nauci u usponu!?
Jedno posebno intrigantno otkriće koje je došlo od primjene analitike big data dolazi od naučnika sa Univerziteta u Haifi. U njihovoj studiji, oni su bili u stanju da posmatraju ono što se naziva “društveni karakter” gena. Ono što naučnici dugo žele da shvate su dešavanja na celularnom nivou, odnosno interakcija gena koja dovodi do nastanka kompleksnih oboljenja. Ovaj cilj je bio posebno težak, jer genetski izrazi određenih bolesti obično potiču od kombinacije nekoliko genetskih markera koji međusobno djeluju. Dakle, pored analize kompletne sekvencirane sekvence, naučnici moraju da ustanove vezu između dejstva pojedinih gena. Nepotrebno je reći da je ovaj kompleksan posao zahtijevao prikupljanje ogromnih količina podataka, ali ova studija je bila u stanju da značajno suzi mogućnosti od 900 miliona na samo 340.000 mogućih varijanti. Do ovakvih rezultata naučnici su mogli doći isključivo koristeći statističke alate u sklopu big data. Konačni rezultat je bio veće razumijevanje načina na koji geni stupaju u interakciju, pokazujući određene efekte (bolest). Prije nego je data analiza postala sastavni dio genetičkih istraživanja, bilo je potrebno rasčlaniti dva tipa genetičkih informacija; porodično vezanih i kompletno sekvencirane sekvence, koji su predstavljali potpuno dva različita podatka za obradu. Postoji mnogo poznatih alata za analizu porodično vezanih podataka koji su dostupni iz ere analize povezivanja i studija interagcija gena na nivou genoma (GWAS). Među njima, S.A.G.E. 6.4 (http://darwin.cwru.edu/sage/) i Merlin (Abecasis et al., 2002) mnogi istraživači još uvijek koriste, dok je PLINK (Purcell et al., 2007) jedan od najpopularnijih alata za GWAS. To je dio mnogih standardnih alata za analizu sekvenci. Svi najbrojani alati imaju prednosti, ali isto tako i mane. Razvojem jedinstvenog alata ONETOOL, omogućeno je da se jednim alatom vrši veliki broj analiza kako na genskom tako i na genomskom nivou. ONETOOL pruža četiri glavne analize: informatiku i kontrolu kvaliteta (InfoQC), analizu osobina, analizu veza i analizu interakcija gena.
InfoQC; analiza interakcije među genima i osobina
Porodično vezani podaci zahtijevaju dodatnu provjeru grešaka i filtriranje. ONETOOL pruža odgovarajuće metode za rješavanje ove složenosti podataka i nizvodnih analiza kao integriranih alata. Štaviše, opcije ONETOOL-a za filtriranje slične su onima u Plink-u, ali se one implementiraju na računski optimiziran način pružajući veću brzinu i efikasnost. On također obezbeđuje vizuelizaciju porodičnih podataka kao što je učinjeno korišćenjem paketa R paketa2 za generisanje.
Analiza interakcije gena
U zavisnosti od vrste podataka o osobinama (binarni ili kontinuirani), porodičnih podataka (slučajnih ili utvrđenih, trio ili opštih) i varijantnih podataka (uobičajenih ili rijetkih), različite analize zasnovane na porodičnoj asocijaciji daju najbolje procjene u smislu greška. Više puta, analize složenih podataka o bolesti ne uključuju samo fenotip, već skup više fenotipova sa različitim karakteristikama. Kombinirajući mnoge različite tipove interakcijskih metoda razvijenih za specifične slučajeve u integrirani alat sa zajedničkim interfejsom, ONETOOL omogućava naizgled usklađenu analizu udruživanja zasnovanu na interakciji gena.
Dodavanje nestalih baza
Na koji način analitka big date doprinosi u genetičkim istraživanjima, najbolje je prezentirati kroz primjer kreiranja algoritma za riješavanje određenog problema prilikom kalsteringa (poravnanja i grupisanja). Prvi korak je stvaranje slučajne populacije koja predstavlja različita rješenja u prostoru pretraživanja. Sljedeće, nekoliko hromozoma se biraju na principu preživljavanja najsposobnijih i svaki od izabranih se dodjeljuje sljedećoj generaciji. Hromozomi u ovom slučaju ne predstavljaju ništa drugo nego binarno kodirane nizove, koji predstavljaju vjerovatno rješenje problema optimizacije. Svaki niz se zatim procjenjuje na funkciji fitnessa (fitnes predstavlja stopu mogućeg preživljavanja, odnosno prelaska u drugu generaciju i mogućnost ostavljanja zdravog potomstva). Nova populacija za rješavanje problema može se stvoriti nakon rekombinacije, za šta se u većini slučajeva koriste mutacije i crosingoveri. Individualna reprezentacija i inicijalizacija populacije, izračunavanje kondicije, selekcija, križanje i mutacije predstavljaju korake pri analizi, odnosno konstrukciji algoritma koji će dovesti do riješenja. Pa tako u startu kao ulaz služi:
Ulaz:
k: broj klastera
d: skup podataka koji sadrži n objekata
p: veličina populacije Tmax: Maksimum br. iteracija
Izlaz: t
Skup K klastera
1) Inicijalizacija svakog hromozoma se vrši tako da se svakom hromosomu dodijeli k slučajnih centroida (segementiran hromosom), izabranih iz skupa podataka.
2) Za T = 1 do Tmax
(i) Za svaki hromozom
a. Dodijeljuju se podaci o hromosmu za klastiranje sa najbližim centroidom, nakon čega se
b. Preračunava k klaster centroida hromozoma i na samom kraju slijedi
c. Izračunavanje fitnes hromosoma.
(ii) Nako inicijalizacije dolazi do koraka formiranja nove grupe hromozoma i to koristeći se GA selekcijom (bazna selekcija, gdje dolazi do komplementarnog sparivanja baze guanina i adenina), crossingover-om (rekombinacija genetičkog materijala od različitog porijekla) i mutacije. Osnova za rad genetskog algoritma je fitness funkcija - F (x). Glavni fokus ove funkcije je davanje uzastopnih rezultata nakon primjene GA poravnjanja. Ova funkcija izvedena je iz osnovne funkcije i danas se koristi u uzastopnim genetičkim operacijama – križanja, mutacije. Fitness znači kvalitetnu vrijednost koja je nivo reproduktivna efikasnost pojedinačnog niza (hromozomi). Bod se daje svakom pojedinačnom hromozomu na osnovu njegovog fitnessa, te se na ovaj način vrši klastiranje. Ovaj tip klastiranja oduzima nešto više vremena, ali cjelokupna produktivnost je velikog značaja. Glavna korist od upotrebe genetskih algoritama je da vrlo lahko stvara paralele između unešenih podataka. Primjena GA poravnjanja kao modela u algoritmu koji se koristi u genetičom istraživanjusvedena je na dva modula: Grubo poravnjanje GA i fino poravnjanje GA. U prvom modelu se odvija grupisanje na osnovu traženih karakteristika, odnosno na osnovu zadatih karakteristika, dok u drugom modelu se dodjeljuju opcije za ocjenu sposobnosti/karakteristika unosa.
Ovaj tip algoritma je u prednosti od K – MEANS algoritma iz jedinstvenog razloga, količine podataka. Naime kod K – MEANS algoritma veličina podataka je dosta ograničena i kao takva nije od velike koristi pri primjeni u big dati. Suština big data analize u genetičkim istraživanjima jeste da se u što manje vremena obradi što više ogomnih podataka i ponudi pouzdano riješenje. Ovim se teži dati na značaju primjene big data u genetičkim istraživanjima i podstaknuti na razvoj većeg broja algoritama koji će da budu u koristi pri genetičkim analizama.
Također, jedan od bitnih zaključaka jeste INTERDISCIPLINARNOST, koja nažalost nije dovoljno vrednovana na našoj teritoriji. Zajedno se može više, više udruženih nauka daju veće i bolje rezultate!
Jesmo li spremni za novo doba, doba digitalizacije, doba interdisciplinarnosti ili se ipak spremamo za nestanak kao neprilagođene jedinke u biosistemu!