實時熒光定量pcr儀,國產品牌性能優越,歡迎在線選購!
PCR儀 > 技術原理

技術原理

百度的AI也能設計mRNA新冠疫苗了,一秒計算海量mRNA序列

作者:騰訊???發布時間:2020-08-06

    百度的AI也能設計mRNA新冠疫苗了。

    2020年5月,百度研究院推出全球首個mRNA疫苗基因序列設計算法 LinearDesign,是專門用于設計優化mRNA序列的高效算法。針對新型冠狀病毒mRNA疫苗,LinearDesign能在11分鐘內完成序列設計。計算模擬表明該設計能大大提升疫苗設計的穩定性和蛋白質表達水平。

    此次跨界合作緣起何處?百度的AI未來給醫療行業帶來哪些新變化?對此,百度美國研究院副總經理李幸女士、百度美研深度學習實驗室主任黃亮博士接受了生輝的采訪,并表達了他們的看法。

    百度已有布局生物計算上游打算

    生輝:是什么契機,讓百度研究院產生了展開本項研究的想法?

    黃亮:百度研究院對于本項研究的想法并不是一蹴而就的。我們在幾年前即預見到計算生物學和生物信息學的重要性,并于 2018 年前瞻性的開展了 RNA 二級結構領域的研究。在這兩年的時間內,百度研究院先后推出了全世界最快速的 RNA 結構預測算法 LinearFold,以及全世界最快速的 RNA 配分方程和堿基對概率預測算法 LinearPartition 等。這些研究成果在業內受到廣泛重視,并相繼被計算生物學領域頂級會議 ISMB 接收。

    正是因為長期的、前瞻性的研究積累,百度研究院才能在疫情爆發后,迅速響應、在短短兩個月內即完成了 LinearDesign 這一重大成果。

    同時,百度研究院非常重視跨機構、跨學科的高水平合作。我們與斯坦福大學生物化學系 Rhiju Das 教授、羅徹斯特大學 RNA 生物中心主任 David Mathews 教授等世界頂級的 RNA 研究專家早在幾年前就開始合作。充分的、高水平的合作也是 LinearDesign 產生的催化劑。

    具體而言,在疫情發生后,Das 教授和我們關注到現有的 mRNA 疫苗研發存在一個巨大的挑戰,即 mRNA 疫苗的穩定性問題。穩定性低的 mRNA 疫苗非常“脆弱”,很容易在保存和運輸過程中因為降解而失效,并導致蛋白質表達效率的大幅降低。

    針對這一問題 Das 教授提議一種解決方案:通過人海戰術,使用我們的 LinearFold 算法為結構分析引擎, 發起疫苗設計的公開競賽(OpenVaccine Challenge),找到適合疫苗生產的比較穩定的 mRNA 序列。百度則提出了一種更為直接和高效的解決方案,即通過算法直接設計 mRNA 序列。也就是我們所說的 LinearDesign。

    生輝:AI 在生物計算領域的應用近年來一直備受關注,百度未來有提供技術上游服務的計劃嗎?如果有,您覺得百度入局生物計算市場,最大的優勢將是什么?又有哪些方面需要重點布局?

    李幸:非常高興您提到這個問題。百度不僅僅有提供技術上游服務的計劃,而且已經全面的實施了這一計劃。

    正如剛才所介紹的,百度研究院已經先后推出 LinearFold 和 LinearPartition 兩個 RNA 分析算法。這些算法現已被多家研究機構和公司關注,并得到非常積極的反饋。在疫情期間,我們百度研究院力推 LinearDesign 這一 mRNA 疫苗設計算法,并已與多家中外學術機構和業內領先的生物制藥企業就疫苗研發開展交流和合作。同時,百度已與中國疾病預防控制中心病毒病預防控制所簽署戰略合作協議,聯合設立“中國 CDC 應急技術中心 - 百度基因測序工作站”。這一聯合工作站在 6 月北京新發地疫情中第一時間測出了病毒全基因組序列,發揮了重要作用。

    我們擁有杰出的科學家和算法工程師,在 AI 算法設計領域具備無可比擬的優勢。而這種算法設計能力,正是其他生物制藥企業所不具備且急需的,這一領域是一片值得深耕細作的藍海。實際上,在生物計算領域布局,百度研究院借助自身算法和工程方面的特長,并結合分子生物和醫藥領域專家的經驗,逐步摸索形成了 “專家提問題,百度想算法,專家給反饋” 這樣一套行之有效的合作模式。

    未來,百度將在深度和廣度兩個維度上,繼續依托我們在 AI 算法領域的深耕優勢,深化與學術界和生物制藥企業的合作。

    “一個傾宇宙‘洪荒之力’也無法完成的任務”

    生輝:您能簡述一下算法開發的整個過程和您的主體思路嗎?整套系統工具從研發到落地一共經歷多長時間?

    黃亮:兩個月。具體細節是,疫情爆發后,百度研究院組織 AI 科學家們討論如何能將我們的技術實力,轉化為社會所需。在此期間,我們關注到在疫苗研發領域,mRNA 疫苗具有研發、生產周期快,無感染風險的優點。

    然而,mRNA 疫苗與傳統疫苗相比,存在穩定性低的問題。為了解決 mRNA 穩定性這一棘手問題,很多知名學術機構和疫苗研發企業嘗試了很多不同的手段。如斯坦福大學使用百度研究院此前開源的 LinearFold 和 LinearPartition 算法,搭建了一個疫苗設計競賽平臺。讓人類設計者以參與游戲的方式設計穩定的 mRNA 序列。

    斯坦福大學之所以想到讓人類設計者進行 mRNA 疫苗設計,是因為解決這一問題所需要的計算量實在是太大了。舉個例子,如果我們要從可能的新冠病毒刺突蛋白 mRNA 序列中找到最穩定的那個序列,潛在的可能序列有2.4 乘以10 的 632 次方個之多。這是什么概念?如果我們使用一臺超級計算機,每秒鐘計算一個可能的序列,那么自宇宙誕生之日起到現在的 130 億年的時間里,我們連這些可能的序列的億萬分之一都沒有計算完成。

    那么,除了使用人類設計者設計 mRNA 序列的 “人海戰術” 之外,使用計算機 AI 技術是否可以更高效的解決這個問題?

    答案是肯定的。經過百度研究院科學家們的共同努力,我們在短短兩個月時間內即研發出了一套設計最優 mRNA 序列的新算法——LinearDesign。這個算法將原來使用宇宙 “洪荒之力” 也無法完成的任務,在短短的十幾分鐘就能完成設計。

    生輝:期間有哪些技術難題,又是如何克服的?

    黃亮:這一問題的技術難點,一個是我們如何能將原本需要萬億年的海量搜索、計算,壓縮到可以在十幾分鐘內就完成。另一個是它的解決需要分子生物學、免疫學、生物信息學和計算理論等多個學科的領域知識,需要算法設計、軟件開發、生物醫藥等多個技術領域的綜合能力。

    針對搜索空間大這個難點,我們使用動態規劃算法成功解決了這一問題。這一算法也用于我們之前的 LinearFold 和 LinearPartition 算法。

    具體而言,首先,我們使用確定有限狀態機(DFA)來表達氨基酸和蛋白質,這樣不同位置上的密碼子的選擇就可以被抽象為計算理論中經典的 DFA 圖;同時,我們借助計算語言學中的另一個常用工具,隨機上下文無關語法(SCFG)。使用 SCFG 構建語法樹來表示 RNA 二級結構。

    在我們用 DFA 抽象表示多個 RNA 序列后,我們通過取 DFA 與 SCFG 的交集,利用動態規劃算法將原先 2.4 乘以 10 的 632 次方級別的搜索空間,壓縮到多項式級別的 mRNA 序列搜索空間。這樣我們的算法就可以在很短的時間內找到最穩定的 mRNA 序列。

    具體來說,我們用 DFA 來表達氨基酸和蛋白質,這樣不同位置上密碼子的選擇就可以抽象為計算理論中常用的 DFA 圖。如下圖,我們分別把三種氨基酸(A: methionine, B: valine, C: serine)以及終止密碼子(D)抽象為 DFA 圖。

    (來源:受訪對象提供)

    下一步,我們將氨基酸的 DFA 串聯起來,從而得到一段蛋白質序列的DFA圖。下圖是蛋白質序列 “methionine leucine stop” 對應的 DFA 圖。

    圖丨蛋白質序列 “methionine leucine stop” 對應的 DFA 圖(來源:受訪對象提供)

    接下來,在有了 DFA 圖后,我們如何通過 DFA 找出二級結構最穩定的 mRNA 序列呢?在這里我們借用了隨機上下文無關語法(SCFG),這個計算語言學中的工具。RNA 二級結構可以通過SCFG構建語法樹來表示。

    概括而言,mRNA 疫苗序列設計優化問題實際上是將單個 RNA 序列的二級結構計算(RNA folding)推廣到多個 RNA 序列。在用 DFA 抽象表示多個 RNA 序列后,我們就可以借助上文所說的,通過 DFA 與 SCFG 的交集,來從多個 mRNA 序列中找到具有最穩定二級結構的序列。

    下面是一個例子。我們通過 DFA 和 SCFG 相交,生成出序列 “methionine leucine stop” 最優的 mRNA 序列為 “AUGCUGUGA”。

    (來源:受訪對象提供)

    在將搜索空間壓縮到多項式級別后,我們借用之前 LinearFold 的思想,將計算復雜度從三次方降低到線性,進一步壓縮設計 mRNA 序列所需要的時間到十幾分鐘。

    除此之外,我們的算法還將衡量mRNA序列蛋白質表達效率的指標,密碼子適應指數(CAI),與序列穩定性進行聯合優化。這樣我們就可以設計出理論上既穩定,密碼子適應指數又好的疫苗序列。

    這個算法提出后,引起了世界頂級 RNA 專家、美國羅切斯特大學 David Mathews 教授的興趣。他已加入到這個研究項目當中,在我們的算法研發過程中提出了很多寶貴的意見,并擔任論文的共同作者。David Mathews 教授高度評價這個算法:“LinearDesign 是一種算法,它設計了一組結構更穩定的序列,并使用優化的密碼子。此算法高效的運行速度是優化序列設計的關鍵,可以通過實驗檢驗這些序列作為疫苗的效果。”

    生輝:目前這一工具是否有 mRNA 藥物企業正在使用?對方的反饋如何?

    黃亮:LinearDesign 上線之后,立刻吸引了多家疫苗公司和研究機構的關注。目前我們正在驗證 LinearDesign 設計的序列在生物實驗條件下的穩定性和蛋白質表達水平,如果進展順利,相信在未來的mRNA疫苗研發中將會廣泛使用LinearDesign 技術。

    生輝:我看了關于 LinearDesign 算法相關報道,報道指出針對新冠 mRNA 疫苗序列,LinearDesign 能在 11 分鐘內大大提升疫苗設計的穩定性和蛋白質表達水平,在不同的人體環境內,蛋白質表達是一個十分復雜的過程,存在較大的不確定性,請問 LinearDesign 利用哪些方式、又如何解決這一不確定性問題?

    黃亮:您提到體內蛋白質表達,的確比較復雜且存在較大不確定性,它仍是生物學和制藥領域的一個重要的研究課題。

    目前業內一個新的研究成果來自于世界 mRNA 疫苗研發的領頭羊,美國Moderna 公司。他們最新的研究表明,mRNA序列的能量越低,即二級結構越多,其基因序列越穩定,蛋白質表達水平越高。剛才我們已經介紹了LinearDesign如何在較短的時間內找到二級結構多的,同時密碼子適應指數高的序列,這是我們算法的精髓。

    當然,能提升 mRNA 蛋白質表達水平的指標還包括密碼子適應指數(CAI),非翻譯區(UTR)序列的選取等因素。

    值得重點強調的一點是,我們的 LinearDesign 算法可以將這些影響因素綜合考慮,

    設計出二級結構多、密碼子適應指數好,并且符合各種不同優化條件組合的 mRNA 序列。

    生輝:LinearDesign 算法的衡量指標如何?

    黃亮:在這里我就舉一個最重要的衡量指標,mRNA 序列所對應二級結構的能量穩定性。剛才我們提到,根據 Moderna 的最新研究成果,能量低的、穩定的二級結構將直接提升 mRNA 的蛋白質表達水平。

    請參看下圖中的幾個 mRNA 序列例子,
    mRNA

    圖丨mRNA序列結構(來源:受訪對象提供)

    從上面的對比圖可以看出,在新冠病毒的刺突蛋白序列上的實驗表明,LinearDesign 算法可以設計出比天然序列(Wildtype,圖 A)穩定得多的結構(能量分數越低越穩定)。其中全局最優序列(圖 C,三次方時間算法)設計時間只需要 1 小時 ,而如果進一步應用近似算法,則只需要 11 分鐘就可得到與全局最優序列能量相差僅 0.6% 的近似最優序列(圖 B,線性時間算法)。同時,如果進一步考慮到 5‘ 端前 15 個核苷酸在與 Ribosome 結合時,需要保持相對較少的二級結構,我們也可以定制化的設計出 5’ 端結構松散的序列(圖 E、F) 。

    “AI 技術未來將對生命科學發揮更大的價值”

    生輝:未來 LinearDesign 會應用于其他疾病藥物 / 疫苗的研發嗎?有計劃正在推進中嗎?有深耕生命科學領域的初步意向及計劃嗎?

    李幸:我們的算法是一個優化序列的算法。凡涉及到序列設計的,各種疾病的藥物/ 疫苗研發,我們的算法都將有用武之地。

    因此,LinearDesign 不僅能用于新冠病毒 mRNA 疫苗的研發,還能用于個性化腫瘤藥物等其他 mRNA 藥物、抗體和疫苗的研發。

    目前已經有幾家公司和機構在和百度洽談構建 mRNA 生物計算平臺的計劃,百度研究院長期致力于推動 AI 算法技術與生物制藥行業的深度結合,將 LinearFold,LinearPartition,以及 LinearDesign 等優秀算法推廣到藥物 / 疫苗研發等廣泛的應用場景中。

    未來在生命科學領域,我們相信人工智能、生物計算技術還是大有可為的,它可以縮短新藥研發的周期、降低新藥的研發成本,提高醫療診斷的準確性和效率,這些將使人類在面對健康問題時更加主動。

    生輝:百度研究院近幾年的規劃,以及未來的愿景是什么?

    李幸:百度研究院擁有行業內最優秀的科學家團隊,并與業內最優秀的科研學術機構和相關企業保持長期和高效的合作。

    我們將繼續以構建國際級領先水平研究院為使命,持續保持在 AI 算法領域的長期競爭力。通過與優秀的科研機構和業內領跑企業的合作,保持高效率的研發狀態,并持續將所研發出的最新成果通過與業內機構的合作進行落地。

    同時我們會不斷拓寬百度研究院的領域,將 AI 能夠驅動的新的行業和研究機會納入進來。

和小姪女做很舒服_久久精品国产网红主播_中文字幕人成乱码熟女免费_成人a毛片免费播放_午夜五级a片 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>