中國金宝搏入口188跨學科團隊合作實現多項單細胞多組學分析算法的系統性評估
近日,188bet足球生命科學與醫學部瞿昆教授課題組、北京生命188bet金宝搏在线所黎斌研究員課題組,以及188bet足球數學科學學院陳發來教授課題組聯合完成了一項大規模研究。他們通過對百萬量級單細胞多組學數據進行分析,系統評估了14種單細胞模態預測算法和18種單細胞多組學整合算法的性能。該研究成果以題為“Benchmarking algorithms for single-cell multi-omics prediction and integration”的論文,于2024年9月25日在線發表于國際知名學術期刊《Nature Methods》。

單(dan)細(xi)(xi)(xi)胞多組學技(ji)術(如CITE-seq、REAP-seq、SHARE-seq和(he)(he)10x Multiome等(deng))的(de)發展(zhan),為(wei)深(shen)入理解細(xi)(xi)(xi)胞功(gong)能(neng)和(he)(he)復雜的(de)基(ji)因調控(kong)機制提(ti)供了前所未有的(de)機遇。然而(er),濕實驗方法(fa)通常伴隨高成(cheng)本、數(shu)據(ju)(ju)質(zhi)量(liang)有限以及批(pi)次效(xiao)應等(deng)挑戰。為(wei)克服這些局限,生物信息學家基(ji)于統(tong)計模型和(he)(he)人(ren)(ren)工智能(neng)技(ji)術,開發了多種(zhong)算(suan)法(fa)。這些算(suan)法(fa)不僅能(neng)夠利用單(dan)細(xi)(xi)(xi)胞轉錄組數(shu)據(ju)(ju)推斷同(tong)一(yi)細(xi)(xi)(xi)胞內的(de)蛋白質(zhi)豐(feng)度和(he)(he)染(ran)色(se)質(zhi)可及性信息,還通過(guo)將不同(tong)模態(tai)的(de)數(shu)據(ju)(ju)映射到統(tong)一(yi)的(de)特征空間實現數(shu)據(ju)(ju)整(zheng)合(he)(he),去除批(pi)次效(xiao)應。這些工具大大提(ti)升(sheng)了現有單(dan)細(xi)(xi)(xi)胞數(shu)據(ju)(ju)的(de)解析能(neng)力。然而(er),面對(dui)海量(liang)數(shu)據(ju)(ju)和(he)(he)眾多算(suan)法(fa),研究(jiu)人(ren)(ren)員往(wang)往(wang)難(nan)以判斷哪(na)些工具最適(shi)合(he)(he)他們(men)的(de)研究(jiu),因此(ci),對(dui)這些算(suan)法(fa)進(jin)行基(ji)準(zhun)測試(benchmarking)尤(you)為(wei)重要(yao)。
在本次研究中,團隊收集了來自47個數據集的上百萬個單細胞多組學數據,涵蓋多個生物樣本和實驗平臺。他們設計了一套全面的評估流程,結合算法的準確性、魯棒性和計算資源消耗等多維度指標,系統評估了領域內最常用的算法。結果顯示,在蛋白質豐度預測方面,totalVI和scArches表現最為優異;在染色質可及性預測中,LS_Lab算法排名領先。在多組學整合分析中,Seurat、MOJITOO和scAI在垂直整合上表現突出,而totalVI和UINMF在水平整合和(he)(he)馬(ma)賽克(ke)整合任務(wu)中展現了卓越性能(neng)。這一(yi)研究不(bu)僅(jin)為算法設計提供了新(xin)思(si)路(lu),還為未來多(duo)組學數據(ju)的分(fen)(fen)析和(he)(he)應用(yong)奠定(ding)了重要基礎。為幫(bang)助科研人員選擇合適的分(fen)(fen)析工具,研究團隊(dui)在GitHub上發布了完整的分(fen)(fen)析流程、代碼(ma)和(he)(he)測試數據(ju)集(ji),供同行使用(yong)和(he)(he)改進。
研究團隊還通過深入探討這些算法的數學原理,發現降噪處理是提高單細胞數據預測精度的關鍵。在性能評估中,機器學習算法(如基于奇異值分解的LS_Lab和Guanlab-dengkw)以及基于概率模型的深度學習算法(如totalVI)均表現(xian)出顯著優(you)勢。然而,研(yan)究還指出,現(xian)有模態預測(ce)算(suan)法在某些關鍵(jian)蛋白的預測(ce)性能上(shang)仍有待提升,染色(se)質可及性預測(ce)的準確性也需進一(yi)步優(you)化。

圖.評估流程示意圖
該(gai)研(yan)究(jiu)由瞿昆教授(shou)、黎斌研(yan)究(jiu)員和陳發(fa)來(lai)教授(shou)共同指(zhi)導并擔任通訊(xun)作者(zhe),博(bo)士后胡(hu)銀雷、博(bo)士生(sheng)萬(wan)思遠和羅袁涵宇為(wei)共同第一作者(zhe)。該(gai)研(yan)究(jiu)得到了國家自然科學基金、科技部重點(dian)研(yan)發(fa)專項等多項資(zi)助,188bet足球超級(ji)計(ji)(ji)算中(zhong)(zhong)心及生(sheng)命(ming)科學學院生(sheng)物信息學中(zhong)(zhong)心為(wei)項目提供(gong)了關鍵計(ji)(ji)算資(zi)源(yuan)支(zhi)持。
在組學(xue)(xue)大數據時代,對復雜數據的精(jing)確解(jie)析需要依賴生物學(xue)(xue)與數學(xue)(xue)、計算機科學(xue)(xue)的深度(du)融合(he)。跨學(xue)(xue)科合(he)作(zuo)不僅推動了(le)(le)生物醫學(xue)(xue)領域的創新(xin)發展(zhan),也(ye)為未(wei)來研(yan)究提(ti)供了(le)(le)新(xin)的可能性。此次研(yan)究的成(cheng)功正是多學(xue)(xue)科背景團隊密切合(he)作(zuo)的結果(guo),充(chong)分(fen)展(zhan)示了(le)(le)學(xue)(xue)科交叉(cha)在現代生物學(xue)(xue)研(yan)究中的重要性。通過這樣的合(he)作(zuo),研(yan)究團隊期望進一(yi)步推動單細胞多組學(xue)(xue)技術(shu)在188bet金宝搏在线中的廣泛應(ying)用,為基礎研(yan)究和臨床應(ying)用提(ti)供新(xin)的洞見。
論文鏈接://www.nature.com/articles/s41592-024-02429-w
(生命科學(xue)與醫學(xue)部、數學(xue)科學(xue)學(xue)院、科研部)