生命科學(xué)領(lǐng)域|首個知識與數(shù)據(jù)聯(lián)合驅(qū)動的多物種生命基礎(chǔ)大模型
【ZiDongHua 之自動化學(xué)院派收錄關(guān)鍵詞:中國科學(xué)院自動化研究所 生命科學(xué)領(lǐng)域 大語言模型 計算機視覺 自然語言處理 】
首個知識與數(shù)據(jù)聯(lián)合驅(qū)動的多物種生命基礎(chǔ)大模型GeneCompass
近年來,大語言模型(LLMs)已在自然語言處理、計算機視覺等通用領(lǐng)域引發(fā)了新一輪技術(shù)革命,進而通過與不同自然學(xué)科分支的融合形成了人工智能驅(qū)動的科學(xué)研究新范式。在生命科學(xué)領(lǐng)域,單細胞組學(xué)技術(shù)的突破產(chǎn)生了大量不同物種細胞的基因表達譜數(shù)據(jù),形成了海量的生命“語料”。如果把基因表達值看作單詞,它們組合在一起就構(gòu)成了細胞“句子”,進而形成了組織“段落”和器官“文章”,而不同物種可以看作生命“語種”。利用LLMs相關(guān)技術(shù)學(xué)習(xí)和理解這些生命“語料”,有望構(gòu)建系統(tǒng)精準破解基因密碼的生命基礎(chǔ)大模型,探索生命普遍存在的基因調(diào)控機制,增進理解生命底層共性規(guī)律并創(chuàng)新各種重大疾病的診療手段。
中國科學(xué)院動物研究所、中國科學(xué)院自動化研究所、中國科學(xué)院計算技術(shù)研究所、中國科學(xué)院計算機網(wǎng)絡(luò)信息中心、中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院等組成多學(xué)科交叉研究團隊在生命科學(xué)人工智能(AI for Life Science)研究方面取得了重要突破,于2024年10月發(fā)表在生命科學(xué)領(lǐng)域頂級期刊Cell Research上。

論文建立了世界首個知識與數(shù)據(jù)聯(lián)合驅(qū)動的多物種生命基礎(chǔ)大模型GeneCompass,同時處理了人類和小鼠兩個物種的轉(zhuǎn)錄組數(shù)據(jù),包含了超過1.26億個單細胞并覆蓋3.6萬個基因,融合了啟動子序列、基因共表達關(guān)系、基因家族標注和基因調(diào)控關(guān)系等四種先驗知識。GeneCompass的參數(shù)量超過1.3億,實現(xiàn)了對基因表達調(diào)控規(guī)律的全景式學(xué)習(xí)理解,同時支持細胞狀態(tài)變化預(yù)測及多種生命過程的精準分析,展示了人工智能賦能生命科學(xué)研究的強大能力和巨大潛力。
模型架構(gòu):知識嵌入的生命基礎(chǔ)大模型GeneCompass
GeneCompass是國際上首個融入先驗知識的預(yù)訓(xùn)練基礎(chǔ)大模型,發(fā)展了知識與數(shù)據(jù)聯(lián)合驅(qū)動的新范式。GeneCompass采用gene2vec、DNABert等工具將啟動子序列、已知基因調(diào)控網(wǎng)絡(luò)、基因家族信息和基因共表達關(guān)系等四種生物學(xué)先驗知識進行編碼,在單細胞轉(zhuǎn)錄組的基因ID和表達值基礎(chǔ)上加入人類注釋信息編碼,提高了對生物數(shù)據(jù)間復(fù)雜特征關(guān)聯(lián)關(guān)系的理解。通過訓(xùn)練整合了不同物種的數(shù)據(jù)信息及先驗知識,GeneCompass顯著提升了多種下游任務(wù)的性能,有望進一步提高傳統(tǒng)生物學(xué)研究的效率和精準性,為尚無法突破的復(fù)雜生命科學(xué)難題帶來新的切入點。
GeneCompass采用基于Transformer的深度學(xué)習(xí)架構(gòu),通過擴展傳統(tǒng)的掩碼語言模型Masked Auto Encoder(MAE)方式進行預(yù)訓(xùn)練,根據(jù)單細胞轉(zhuǎn)錄組的上下文同時預(yù)測掩碼的基因ID及其表達值,捕獲不同基因之間在不同細胞背景下的長程動態(tài)關(guān)聯(lián),通過多任務(wù)聯(lián)合預(yù)訓(xùn)練形成更加細粒度的生命基礎(chǔ)大模型。預(yù)訓(xùn)練完成后,GeneCompass進一步應(yīng)用于多種下游任務(wù),對單細胞轉(zhuǎn)錄組數(shù)據(jù)進行編碼,支撐細胞類型標注、基因擾動預(yù)測、藥物反應(yīng)預(yù)測和基因調(diào)控關(guān)系預(yù)測等多種任務(wù)。

GeneCompass模型架構(gòu)
規(guī)模效應(yīng):多物種聯(lián)合訓(xùn)練捕獲生物共性進化保守規(guī)律
研究人員發(fā)現(xiàn)基于大規(guī)模跨物種數(shù)據(jù)的預(yù)訓(xùn)練模型對于單物種的子任務(wù)符合尺度定律(scaling law):即較大規(guī)模的多物種預(yù)訓(xùn)練數(shù)據(jù)量較單一物種數(shù)據(jù)量產(chǎn)生更優(yōu)異的預(yù)訓(xùn)練表征,并進一步提高下游任務(wù)的性能。這一發(fā)現(xiàn)顯示了物種間存在保守的基因調(diào)控規(guī)律,并且這些規(guī)律能夠被預(yù)訓(xùn)練模型學(xué)習(xí)理解。這同時預(yù)示著隨物種和數(shù)據(jù)的擴展,模型性能有望進一步提升。
研究結(jié)果:GeneCompass具有跨物種表征能力
研究人員對人類和小鼠同一細胞類型(心肌細胞)中同源基因和非同源基因的GeneCompass編碼進行了相似性分析,可以看出相較于非同源基因,不同物種的同源基因具有更相似的編碼,同源基因在人類和小鼠之間也具有相似的基因調(diào)控關(guān)系。
研究人員將GeneCompass編碼后的基因嵌入與跨物種細胞類型標注的當前最優(yōu)方法CAME進行結(jié)合,發(fā)現(xiàn)在多種細胞尤其是視網(wǎng)膜細胞中,GeneCompass能夠顯著提升跨物種細胞類型標注的精度。這些結(jié)果都展示了GeneCompass通過多物種聯(lián)合預(yù)訓(xùn)練獲得了生命底層的共性規(guī)律,增強了基因表征的能力。
在基因擾動預(yù)測、藥物反應(yīng)預(yù)測、基因調(diào)控預(yù)測、藥物劑量反應(yīng)預(yù)測、劑量敏感基因預(yù)測等多種下游任務(wù)中GeneCompass模型均展現(xiàn)出強大的功能。
綜上所述,作為迄今為止最大規(guī)模的、具有知識嵌入的跨物種預(yù)訓(xùn)練生命基礎(chǔ)大模型,GeneCompass可實現(xiàn)多個跨物種下游任務(wù)的遷移學(xué)習(xí),并在細胞類型注釋、定量基因擾動預(yù)測、藥物敏感性分析等多個任務(wù)中取得比現(xiàn)有方法更優(yōu)的性能。這充分展示了基于多物種無標注大數(shù)據(jù)預(yù)訓(xùn)練,再利用不同子任務(wù)數(shù)據(jù)進行模型微調(diào)的策略優(yōu)勢,有望成為實現(xiàn)基因-細胞特征相關(guān)聯(lián)的各種生物問題分析預(yù)測的通用解決方案。
中國科學(xué)院自動化所劉國樂和江潔與合作單位的楊曉東、馮桂海、卜德超、王鵬飛、陳述白、楊沁蒙等為文章共同第一作者。自動化所楊戈研究員,劉靜研究員與合作單位李鑫研究員、陳益強研究員、李非研究員、周元春研究員、趙屹研究員為共同通訊作者。
論文鏈接:
https://www.nature.com/articles/s41422-024-01034-y
代碼鏈接:
https://github.com/xCompass-AI/geneCompass
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:生命科學(xué)領(lǐng)域微信群、大語言模型微信群、計算機視覺微信群、自然語言處理微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語
微信聯(lián)盟:生命科學(xué)領(lǐng)域微信群、大語言模型微信群、計算機視覺微信群、自然語言處理微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語


評論排行