AI又立功了。
這次,來(lái)自芬蘭赫爾辛基大學(xué)的最新研究借助機(jī)器學(xué)習(xí),破解了人類(lèi)基因調(diào)控背后的“語(yǔ)法”。
而在此之前,科學(xué)家單單是知道DNA可以決定基因在某時(shí)某處進(jìn)行表達(dá),現(xiàn)在終于對(duì)它背后的邏輯有了深刻的理解。
這項(xiàng)成果將給癌癥和遺傳病研究帶來(lái)新啟發(fā),現(xiàn)已登上Nature子刊(自然·遺傳學(xué))。
破解基因調(diào)控背后的“語(yǔ)法”
正式開(kāi)始之前,先來(lái)一點(diǎn)背景知識(shí)。
基因調(diào)控(Gene regulation)是控制細(xì)胞內(nèi)基因活性的重要過(guò)程,不正確的調(diào)控會(huì)導(dǎo)致疾病產(chǎn)生,譬如癌癥。
人類(lèi)基因組的DNA包含為蛋白質(zhì)編碼的基因,這些蛋白質(zhì)序列可賦予肌肉細(xì)胞力量,賦予腦細(xì)胞處理信息的能力等。
DNA中還包含調(diào)控基因的元素,決定基因何時(shí)何地表達(dá),譬如確保肌肉基因只在肌肉里表達(dá),大腦基因在大腦中表達(dá)。
我們一直對(duì)決定基因調(diào)控的編碼邏輯知之甚少,這是因?yàn)椋?/p>
雖然人類(lèi)基因組包含近30億個(gè)堿基對(duì),但基因組序列(genomic sequence)太短,無(wú)法用來(lái)學(xué)習(xí)背后的邏輯。
現(xiàn)在,芬蘭科學(xué)院腫瘤遺傳學(xué)高級(jí)研究中心的科學(xué)家們,采用了一種創(chuàng)新方法——不使用自然基因組序列,而是將隨機(jī)合成的DNA序列引入人類(lèi)細(xì)胞。
這些細(xì)胞讀取新的DNA后,突出顯出作為活性調(diào)控元素(active regulatory elements)的序列。
這些序列就是要研究的對(duì)象。
作者介紹,它們的空間加起來(lái)是整個(gè)人類(lèi)基因組的100倍。
有了足夠規(guī)模的數(shù)據(jù)集,就能利用機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)分析了。
都有哪些發(fā)現(xiàn)?
我們知道,基因表達(dá)受可結(jié)合DNA的轉(zhuǎn)錄因子( 一種蛋白質(zhì)的總稱(chēng))調(diào)控。
這個(gè)機(jī)器學(xué)習(xí)模型則顯示,單個(gè)轉(zhuǎn)錄因子以“加性”方式參與基因調(diào)控,且語(yǔ)法較弱(with weak grammar)。
在兩個(gè)主要調(diào)控元件——增強(qiáng)子(增強(qiáng)轉(zhuǎn)錄作用)和啟動(dòng)子(定義轉(zhuǎn)錄的起始)之中,增強(qiáng)子會(huì)以一種不在轉(zhuǎn)錄因子之間產(chǎn)生相互作用的機(jī)制增加啟動(dòng)子的表達(dá)。
隨后,研究人員比較了三種不同的人類(lèi)細(xì)胞:結(jié)腸癌細(xì)胞、肝癌細(xì)胞以及來(lái)自視網(wǎng)膜的正常細(xì)胞。
他們發(fā)現(xiàn)只有少數(shù)轉(zhuǎn)錄因子在細(xì)胞中保持高度活性,但它們的活性與細(xì)胞類(lèi)型無(wú)關(guān),在哪里都是相似的。
這一結(jié)果表明,人類(lèi)細(xì)胞中的基因調(diào)控元件可以根據(jù)染色質(zhì)環(huán)境(context)分為兩種:
要么位于DNA密集的封閉染色質(zhì)區(qū)域,要么位于DNA沒(méi)有緊密?chē)@組蛋白的更開(kāi)放的染色質(zhì)環(huán)境中。
染色質(zhì)和染色體是同一種物質(zhì)的兩種形態(tài)。染色質(zhì)是伸展的狀態(tài)。有利于DNA信息的表達(dá)。
傳統(tǒng)觀點(diǎn)則認(rèn)為,活性調(diào)控元件只位于開(kāi)放的染色質(zhì)區(qū)域內(nèi),在這里轉(zhuǎn)錄因子很容易接觸到DNA。
故此,在封閉染色質(zhì)區(qū)域內(nèi)發(fā)現(xiàn)起作用的活性調(diào)節(jié)元件是該研究的核心新觀察結(jié)果之一。
另外,研究人員還發(fā)現(xiàn)了依賴(lài)于染色質(zhì)的調(diào)控元件。
這些元件在基因組中的正常位點(diǎn)具有活性,但假如將它們從原始位置移出并轉(zhuǎn)移到另一個(gè)基因附近,它們的活性就會(huì)大大降低。