【ZiDongHua 之創(chuàng)新自科文收錄關(guān)鍵詞:自動化科技 人工智能  化學(xué)合成  數(shù)據(jù)科學(xué)  化學(xué) 】

化學(xué)合成領(lǐng)域的數(shù)據(jù)科學(xué)革命正在加速,自動化、實時分析和 AI 是「催化劑」

將 ScienceAI 設(shè)為星標(biāo)

第一時間掌握

新鮮的 AI for Science 資訊

編輯 | 綠蘿

自動化和實時反應(yīng)監(jiān)測使數(shù)據(jù)豐富的實驗成為可能,這對于駕馭化學(xué)合成的復(fù)雜性至關(guān)重要。將實時分析與機器學(xué)習(xí)和人工智能工具相結(jié)合,可以加速最佳反應(yīng)條件的識別并促進(jìn)無差錯的自主合成。

不列顛哥倫比亞大學(xué)的研究人員在《Nature Synthesis》發(fā)表題為「Automation, analytics and artificial intelligence for chemical synthesis」的評論,強調(diào)了數(shù)據(jù)豐富的實驗和跨學(xué)科方法在推動合成化學(xué)未來發(fā)展方面的重要性越來越大。

自動化在合成「迷宮」中的作用

合成大多數(shù)分子需要進(jìn)行多步轉(zhuǎn)化、平衡輸入材料(溶劑、試劑、催化劑)、反應(yīng)參數(shù)(溫度、添加順序、時間)以及后處理和純化策略。穿越這個多因素挑戰(zhàn)類似于在資源有限的迷宮中搜索。

從歷史上看,化學(xué)家必須借鑒以前的經(jīng)驗,制定謹(jǐn)慎的策略并根據(jù)有限的數(shù)據(jù)做出決定。實驗室自動化等使能技術(shù)(Enabling technology)從根本上改變了現(xiàn)狀,提高了分析反應(yīng)數(shù)據(jù)的數(shù)量和準(zhǔn)確性,從而可以在更短的時間內(nèi)做出更好的決策。可以部署諸如高通量實驗 (HTE) 之類的技術(shù)來快速調(diào)查可能的反應(yīng)條件,但這些技術(shù)通常只能提供固定反應(yīng)時間的分析產(chǎn)率百分比,而放棄與反應(yīng)機制或動力學(xué)有關(guān)的關(guān)鍵細(xì)節(jié)。

圖 1:通過超高效液相色譜分析的 Suzuki–Miyaura 交叉偶聯(lián)顯示了起始材料以及產(chǎn)物和常見副產(chǎn)物的不同峰面積與時間的關(guān)系。(來源:論文)

推論策略,稱為數(shù)據(jù)豐富的實驗 (DRE),側(cè)重于提取實時反應(yīng)進(jìn)程數(shù)據(jù),量化所有可測量的物種或參數(shù),并為單個反應(yīng)提供全面的逐個播放。使用實時監(jiān)控進(jìn)行路線偵察和優(yōu)化可提供反應(yīng)動力學(xué)的詳細(xì)圖片,揭示反應(yīng)中間體、速率常數(shù)和副產(chǎn)物反應(yīng)途徑等關(guān)鍵信息。

自動化是使 DRE 方法成為可管理和富有成效的努力的關(guān)鍵使能工具。首先,需要硬件和儀器自動化來準(zhǔn)確地協(xié)調(diào)整個反應(yīng)過程中反應(yīng)等分試樣的捕獲和分析。這取決于選擇的分析技術(shù)(高效液相色譜-質(zhì)譜、核磁共振光譜、高分辨率質(zhì)譜)在不同程度上適用,但在所有情況下,反應(yīng)過程測量所需的頻率,精度和延長的持續(xù)時間都不利于人工操作。其次,反應(yīng)分析數(shù)據(jù)的龐大數(shù)量和復(fù)雜性需要軟件自動化技術(shù)來幫助注釋、處理原始數(shù)據(jù)并將其轉(zhuǎn)換為代表每個反應(yīng)組分的濃度與時間陣列的趨勢。最后,復(fù)雜的反應(yīng)操作可以自動化執(zhí)行,例如溫度或催化劑劑量的精確變化,允許從單個反應(yīng)中提取數(shù)據(jù),這通常需要多次實驗。

用「規(guī)則」和「目標(biāo)」代替發(fā)條式執(zhí)行

當(dāng)前的數(shù)據(jù)驅(qū)動反應(yīng)研究范式幾乎完全側(cè)重于使用人在回路中的步驟將數(shù)據(jù)轉(zhuǎn)換為信息。這意味著分析工具創(chuàng)建實時反應(yīng)趨勢,然后由操作員解釋以計劃或指導(dǎo)實驗活動。固定的多變量統(tǒng)計工具,例如實驗設(shè)計或優(yōu)化策略(例如批處理貝葉斯優(yōu)化)利用自動化來獲取大型數(shù)據(jù)集,但最終的解釋和腳本編寫是手動的。

現(xiàn)在存在一個緊急機會,實時監(jiān)控的遙測技術(shù)可用于顯著加速過程優(yōu)化和反應(yīng)發(fā)現(xiàn)??梢岳脤崟r數(shù)據(jù),使自動化系統(tǒng)能夠接收有關(guān)流程的關(guān)鍵反饋。這既確保了預(yù)期實驗的準(zhǔn)確執(zhí)行,又增強了自動合成協(xié)議的可轉(zhuǎn)移性和可重復(fù)性??梢允褂孟嗤臄?shù)據(jù)集來允許自動反應(yīng)硬件適應(yīng)變化的環(huán)境。這在嘗試執(zhí)行多步轉(zhuǎn)換時具有令人難以置信的影響,因為必須在合成進(jìn)行之前形成前體。代替在設(shè)定時間添加固定數(shù)量材料的硬編碼腳本,可以訓(xùn)練反應(yīng)器在第一個反應(yīng)完成時添加足夠的試劑。這些條件參數(shù)允許進(jìn)行更典型的傳統(tǒng)研發(fā)工作流程的即時更正,并通過提供遵循實驗「規(guī)則」實現(xiàn)的合成「目標(biāo)」,為無差錯自主合成打開大門。

人工智能和機器學(xué)習(xí)增強反應(yīng)設(shè)計的潛力

機器學(xué)習(xí) (ML) 和人工智能 (AI) 工具是實驗數(shù)據(jù)驅(qū)動工作流程的強大補充,可加速反應(yīng)條件的識別。預(yù)測模型是根據(jù)從 HTE 或文獻(xiàn)來源獲得的實驗數(shù)據(jù)建立的,這些數(shù)據(jù)可以建議執(zhí)行未知轉(zhuǎn)化的反應(yīng)條件。此外,通過將機器人反應(yīng)執(zhí)行、端點采樣和數(shù)據(jù)提取與 ML 優(yōu)化算法相融合,創(chuàng)建了自主優(yōu)化平臺。使用這些方法,可以減少確定理想條件所需的實驗次數(shù),但是,這兩個示例都將實驗結(jié)果減少到單個數(shù)量分?jǐn)?shù),例如產(chǎn)率百分比或立體選擇性百分比。這些策略有其優(yōu)點,但減少到固定時間的單一測量掩蓋了化學(xué)反應(yīng)固有的復(fù)雜性。

許多研究表明,從現(xiàn)有文獻(xiàn)中提取反應(yīng)性能數(shù)據(jù)(產(chǎn)率)會導(dǎo)致混合結(jié)果。數(shù)據(jù)偏向于最常發(fā)布的條件,導(dǎo)致提取流行的反應(yīng)參數(shù)而不是最佳條件。更糟糕的是,定量測量以及應(yīng)用的條件或技術(shù)的異質(zhì)性使得無法區(qū)分報告的產(chǎn)量是實驗失敗還是分離困難的結(jié)果。對報告的合成數(shù)據(jù)進(jìn)行同質(zhì)化和系統(tǒng)化的嘗試正在出現(xiàn),但是,它們?nèi)蕴幱谄鸩诫A段。

HTE 自動化系統(tǒng)生成的數(shù)據(jù)集更加一致,但仍可能存在系統(tǒng)性偏差,限制了它們的廣泛適用性。特別是,選擇用于分析所選分析指標(biāo)的時間點可能會提供假陽性或假陰性數(shù)據(jù)。例如,記錄的低產(chǎn)品收率可能是由于反應(yīng)組合啟動延遲,或者所需產(chǎn)品在反應(yīng)條件下不穩(wěn)定。因此,選擇錯誤的時間窗口來詢問反應(yīng)可能會導(dǎo)致被詢問的系統(tǒng)過于簡單化或誤解。雖然來自 HTE 的稀疏數(shù)據(jù)可以作為路標(biāo),但許多真正有趣和意想不到的突破被遺漏了。

實時反應(yīng)監(jiān)測具有關(guān)鍵優(yōu)勢,預(yù)測模型可以使用完整的動力學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練。這些全面的數(shù)據(jù)解決了與數(shù)據(jù)完整性、偏差和過度簡化相關(guān)的所有問題。首先,通過記錄整個反應(yīng)曲線,可以捕獲和解釋不同研究人員的反應(yīng)性能差異。不匹配將有助于集中精力糾正協(xié)議傳輸失敗的問題。其次,將捕獲反應(yīng)物種的全部演變,從而描繪出目標(biāo)材料以及副產(chǎn)品和中間體的演變。這些趨勢將作為未來反應(yīng)發(fā)現(xiàn)的有用元數(shù)據(jù),因為它們捕獲了可能的轉(zhuǎn)化,即使它們不是研究的重點。最后,使用經(jīng)過適當(dāng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),可能需要很少的反應(yīng)趨勢才能明確地對基礎(chǔ)機制進(jìn)行分類。一般來說,ML 方法的模式識別能力非常適合訓(xùn)練整個反應(yīng)的復(fù)雜模式。

總的來說,合成化學(xué)領(lǐng)域的數(shù)據(jù)科學(xué)革命正在加速,增強了對強大的、數(shù)據(jù)豐富的實驗的需求。實時反應(yīng)分析已被用于顯著減少達(dá)到分子目標(biāo)所需的時間。通過進(jìn)一步將這些自動化數(shù)據(jù)收集方法與新的 ML 和 AI 工具聯(lián)系起來,預(yù)測最佳條件和發(fā)現(xiàn)新合成路線的能力將呈指數(shù)級增長。