【ZiDongHua 之 創(chuàng)新自科文:生物信息學(xué)  清華大學(xué) 、清華大學(xué)自動(dòng)化系、人工智能 、神經(jīng)網(wǎng)絡(luò)、 深度神經(jīng)網(wǎng)絡(luò)模型、 多面神經(jīng)元 】

 

 

清華大學(xué)自動(dòng)化系汪小我團(tuán)隊(duì)合作提出自動(dòng)歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法

 

 

近日,清華大學(xué)自動(dòng)化系汪小我團(tuán)隊(duì)與美國(guó)斯坦福大學(xué)統(tǒng)計(jì)系王永雄團(tuán)隊(duì)合作提出自動(dòng)歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法。該方法針對(duì)廣泛應(yīng)用于基因調(diào)控序列研究的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,通過剖析神經(jīng)網(wǎng)絡(luò)中的多面神經(jīng)元機(jī)制(multifaceted neuron),開發(fā)了神經(jīng)網(wǎng)絡(luò)解釋算法(NeuronMotif),實(shí)現(xiàn)了從神經(jīng)元中自動(dòng)歸納和提取轉(zhuǎn)錄因子結(jié)合位點(diǎn)等關(guān)鍵序列模式(Motif)及其組合、次序、間距等基因調(diào)控序列編碼規(guī)則。該方法能夠幫助研究者更加深入地理解基因調(diào)控編碼規(guī)律,同時(shí)為神經(jīng)網(wǎng)絡(luò)模型的解釋提供了新手段。

 

 

該研究發(fā)現(xiàn),CNN解釋困難的一個(gè)主要原因在于深層神經(jīng)元大多都是“多面神經(jīng)元”(multifaceted neuron)。這種神經(jīng)元能夠同時(shí)被多種不同序列模式激活,直接對(duì)這些混合模式進(jìn)行可視化往往只能獲得難以被人理解的結(jié)果。通過深入分析,該研究發(fā)現(xiàn)CNN中的最大池化結(jié)構(gòu)是導(dǎo)致深層神經(jīng)元識(shí)別多種序列模式的關(guān)鍵原因。具有不同模式的序列特征在被輸入到神經(jīng)網(wǎng)絡(luò)以后,會(huì)逐層計(jì)算得到每一層網(wǎng)絡(luò)對(duì)應(yīng)的特征圖(feature map),這些特征圖在通過最大池化層后會(huì)丟失單堿基精度空間分辨率,導(dǎo)致輸出的特征圖變得高度相似,難以對(duì)這些混合模式進(jìn)行解耦。

 

針對(duì)多面神經(jīng)元問題及其形成機(jī)制,研究團(tuán)隊(duì)提出了Neuron Motif方法,該方法首先基于蒙特卡洛采樣和遺傳算法得到大量能充分激活神經(jīng)元的序列集合,然后計(jì)算這些序列在神經(jīng)網(wǎng)絡(luò)各層的特征圖,并通過反向逐層聚類的方式分離不同序列模式所對(duì)應(yīng)的特征圖,將具有不同模式的序列劃分到不同的子集中,最終通過對(duì)每個(gè)子集的可視化獲得易于理解的序列模式特征。在此基礎(chǔ)上,該方法構(gòu)建了基于結(jié)構(gòu)化語(yǔ)法樹的自動(dòng)化知識(shí)提取方法,從數(shù)據(jù)中自動(dòng)歸納轉(zhuǎn)錄因子結(jié)合位點(diǎn)序列模式、組合模式、間距、次序等調(diào)控序列語(yǔ)法規(guī)則。

 

NeuronMotif歸納提取的調(diào)控序列語(yǔ)法規(guī)則能夠得到文獻(xiàn)和多種生物組學(xué)數(shù)據(jù)的支撐和驗(yàn)證。通過對(duì)人類基因組數(shù)據(jù)的學(xué)習(xí),NeuronMotif發(fā)現(xiàn)了數(shù)百種序列模式,與JASPAR數(shù)據(jù)庫(kù)中的已知轉(zhuǎn)錄因子motif序列模式高度匹配;通過NeuronMotif獲取的深層神經(jīng)元語(yǔ)法規(guī)則與多種細(xì)胞/組織中的ATAC-seqfootprinting模式高度匹配,并得到了基因表達(dá)數(shù)據(jù)(RNA-seq)的支持;序列模式的組合和排布等規(guī)律在跨物種基因組序列上具有顯著的序列保守性。

 

綜上所述,NeuronMotif為我們提供了一種解讀深度神經(jīng)網(wǎng)絡(luò)模型中深層神經(jīng)元識(shí)別模式的新方法。此外,NeuronMotif的解釋結(jié)果還可用于人工神經(jīng)網(wǎng)絡(luò)的診斷和改進(jìn),幫助降低神經(jīng)網(wǎng)絡(luò)調(diào)參的困難。借助該方法,我們可以通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和解釋,從數(shù)據(jù)中獲取可供人類專家理解的知識(shí),幫助我們更加深入地理解胚胎發(fā)育、疾病發(fā)生等生物過程中的基因調(diào)控規(guī)律,并為基因治療等應(yīng)用中定制化逆向構(gòu)造人工基因調(diào)控序列提供支撐。

 

研究成果以“NeuronMotif: 通過深度神經(jīng)網(wǎng)絡(luò)的逐層解耦破譯基因順式調(diào)控編碼”(NeuronMotif: Deciphering cis-regulatory codes by -wise demixing of deep neural networks)為題發(fā)表在《美國(guó)科學(xué)院院刊》(PNAS)上。

清華大學(xué)自動(dòng)化系博士后魏征為本文的第一作者,清華大學(xué)自動(dòng)化系汪小我教授和美國(guó)斯坦福大學(xué)統(tǒng)計(jì)系王永雄教授為本文的共同通訊作者。清華大學(xué)李衍達(dá)教授、張學(xué)工教授、江瑞教授、魏磊助理研究員、花奎博士,斯坦福大學(xué)博士后馬士寧也對(duì)本文作出了重要貢獻(xiàn)。該研究得到了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、清華大學(xué)國(guó)強(qiáng)研究院、北京智源人工智能研究院等的資助。

 

 

論文鏈接(點(diǎn)擊文末“閱讀原文”):

https://www.pnas.org/doi/10.1073/pnas.2216698120