Projekt zberu údajov ENCODE

ENCODE, v úplnej encyklopédii DNA prvkov, sa začal v roku 2003 projekt spoločného zberu údajov zameraný na inventarizáciu všetkých funkčných prvkov ľudského genómu. ENCODE boli vedcami Národného výskumného ústavu pre ľudský genóm (NHGRI) koncipované ako pokračovanie projektu Human Genome Project (HGP; 1990-2003), ktorý poskytol obrovské množstvo údajov o sekvencii DNA, ale nezahŕňal komplexnú analýzu. špecifických genomických prvkov.

Informácie, ktoré zhromaždili vedci ENCODE, mali slúžiť ako sprievodca, ktorý uľahčuje štúdium komponentov ľudského genómu, ktoré prispievajú k fungovaniu buniek a tkanív, a ktoré majú preto dôsledky na ľudské zdravie a choroby. Poskytlo tiež dôležitý pohľad na štúdium evolúcie a genetiky ľudí a nakoniec generovalo údaje, ktoré nielen naznačovali, že rozsiahle oblasti genómu, ktoré boli kedysi považované za nefunkčné, boli skutočne funkčne dôležité, ale tiež spochybnili základnú koncepciu génu.

Hľadanie funkčných prvkov

Funkčné prvky ľudského genómu, ako sú definované v projekte ENCODE, zahŕňajú tie segmenty DNA, ktoré kódujú molekuly RNA procesom transkripcie, ktoré viažu regulačné proteíny známe ako transkripčné faktory alebo ktoré majú väzobné miesta pre metylové skupiny, ktoré sú schopné modifikácie štruktúry chromatínu (kompaktné vlákna DNA-proteín, ktoré kondenzujú za vzniku chromozómov). Tieto prvky patria do genómovej regulačnej siete (alebo regulomu), ktorej znakom je produkcia RNA transkriptov z génov, ktoré nesú informácie na produkciu proteínov. Bielkoviny nakoniec vytvárajú bunky a tkanivá a regulujú chemické procesy, ktoré sú nevyhnutné pre život.

Keď sa však HGP v roku 2003 uzavrel, nebolo jasné, do akej miery sa ľudský genóm aktívne transkriboval do RNA kódujúcej proteín, a komplexnosť a funkcia transkriptov RNA sa do značnej miery nepreskúmala. Podobne nebola objasnená funkčná relevantnosť iných genomických znakov, od vzťahov medzi génovou expresiou a modifikáciou histónových proteínov v chromatíne po transkripčný význam pseudogénov (reliktné sekvencie DNA, o ktorých sa predpokladá, že boli v dôsledku vývoja zaniknuté). V dôsledku toho existuje značná potreba systematického prístupu k identifikácii a mapovaniu umiestnenia funkčných prvkov ak charakterizácii fyzikálnych vzťahov prvkov v regulome. Tieto ciele prijali vedci ENCODE a očakávalo sa, že ich splnenie povedie k dôkladnejšiemu pochopeniu mechanizmov, ktoré kontrolujú gény a ich aktivity.

Štruktúra projektu ENCODE

ENCODE bol rozdelený na dve fázy: pilotnú fázu a fázu technologického vývoja a fázu výroby. Pilotná zložka sa zamerala na výber súboru experimentálnych a výpočtových metód, ktoré by vedci ENCODE mohli použiť na identifikáciu funkčných prvkov v rámci zhruba troch miliárd párov báz, ktoré tvoria ľudský genóm. Aby sa uľahčilo porovnávanie účinnosti a účinnosti, testovali sa rôzne metódy v rovnakých cieľových oblastiach pokrývajúcich celkom 30 miliónov párov báz (30 Mb; približne 1 percento ľudského genómu) v rôznych typoch ľudských buniek. Medzi skúmanými metódami boli niektoré technológie budúcej generácie DNA a genómové obkladové polia (nástroje na skenovanie celých genómov pre regióny s danými vlastnosťami) a ďalšie výpočtové prístupy (napríklad analýza chromatínovej štruktúry). Základom technologického vývojového komponentu ENCODE bolo zdokonalenie technológií schopných generovať údaje s vysokou priepustnosťou (automatizovanou) kapacitou. Metódy identifikované ako najužitočnejšie sa potom škálovali na analýzu úplného genómu.

Fáza výroby ENCODE v plnom rozsahu, v ktorej vedci rozšírili hľadanie funkčných prvkov na zvyšných 99% ľudského genómu, sa začala v roku 2007 a bola ukončená v roku 2012. Viac ako 400 vedcov, ktorí sú najviac financovaní z NHGRI, sa zúčastnilo fáza v plnom rozsahu. Títo vedci tvorili väčšinu konzorcia ENCODE a inštitúcie so sídlom v USA, v ktorých vykonávali svoj výskum, boli označené ako výrobné centrá ENCODE. Konzorcium ENCODE okrem vykonania práce na vytvorení súpisu funkčných prvkov tiež vypracovalo určité pracovné usmernenia, ako napríklad používanie určených bunkových línií a štandardizovaných nástrojov na analýzu údajov a podávanie správ o údajoch, ktoré boli nevyhnutné na umožnenie porovnávania údaje generované rôznymi zúčastnenými laboratóriami.

Výrobné centrá ENCODE boli podporované dátovým koordinačným centrom (DCC) so sídlom na Kalifornskej univerzite v Santa Cruz. DCC slúžil ako hlavné úložisko údajov projektu, poskytoval účastníkom štúdie spoločný portál, prostredníctvom ktorého mohli predkladať svoje údaje, zaznamenával metadáta spojené s experimentmi a súbormi údajov a vypracoval protokoly štandardizácie a overovania údajov. DCC tiež vypracovalo návody na pomoc výskumným pracovníkom, ktorí sa zaujímali o použitie údajov po ich zverejnení. Neskôr bolo do projektu pridané samostatné centrum pre analýzu údajov (DAC) so sídlom na Zdravotníckej fakulte Univerzity v Massachusetts. Výbor DAC pomáhal s integračnou analýzou údajov ENCODE.

Inventár ENCODE

Počiatočné zistenia z pilotnej fázy ENCODE boli uverejnené v roku 2007. Hoci sa táto fáza projektu týkala predovšetkým vymenovania funkčných prvkov nájdených v rámci 30 Mb cieľových sekvencií, proces identifikácie spôsobov integrácie a analýzy súborov údajov viedol na zaujímavé pozorovania, najmä čo sa týka štruktúry a správania génov. Tieto skoré závery boli podporené dodatočnými údajmi získanými počas výrobnej fázy programu ENCODE, ktorých výsledky boli uverejnené v roku 2012. Zistenia z výrobnej fázy tiež obnovili diskusiu o funkčnom význame nekódujúcej DNA.

Predefinovanie génu

Údaje ENCODE zverejnené v roku 2007 odhalili, že ľudský genóm je vo veľkej miere pokrytý transkripciami RNA, z ktorých niektoré sú produkované alternatívnym zostrihom (úprava primárneho transkriptu, ktorého výsledkom je produkcia proteínu odlišného od toho, ktorý transkript normálne kóduje). Zistenia potvrdili predchádzajúce správy, v ktorých vedci tvrdia, že ľudský genóm pozostáva z rozsiahlych transkripčných sietí. Existencia týchto sietí však rozmazala tradičné predstavy o hraniciach medzi génmi a intergénnymi oblasťami (medzery medzi génmi), a tak napadla základný koncept génu ako diskrétnej proteínovej kódovacej jednotky. Tento koncept bol znovu spochybnený v roku 2012, keď vedci ENCODE uviedli, že až 75 percent ľudského genómu môže byť pokrytých primárnymi transkripciami RNA. Toto rozsiahle pokrytie RNA znamenalo významné prekrývanie medzi susednými génmi.

Funkčná rola pre nekódujúcu DNA

Údaje z fázy výroby ďalej odhalili, že 80 percent ľudského genómu je biochemicky funkčných v dôsledku asociácie s aktivitami RNA alebo chromatínu. Pretože väčšina ľudského genómu je tvorená nekódujúcou DNA (čo predtým niektorí považovali za „nezdravú“), z údajov vyplýva, že tieto regióny, ktoré neprodukujú proteín, a preto sa predpokladá, že sú nefunkčné, sú v skutočnosti funkčne relevantné. Hoci vedci mimo projektu ENCODE dospeli k rovnakému záveru už skôr, údaje ENCODE zdôraznili jeho význam. Výskum, ktorý sa uskutočnil nezávisle a ako súčasť ENCODE, naznačil, že nekódujúce regióny môžu hrať dôležitú úlohu pri regulácii produkcie proteínu, ako aj pri udržiavaní štrukturálnej integrity genómu.