123,123

說到最近網(wǎng)上最火的科技名詞，非“ChatGPT”莫屬。ChatGPT(Chat Generative Pre-trained Transformer)是美國一家人工智能研究公司研發(fā)的聊天機器人程序，不僅能與人有問有答，文章也寫得有模有樣，因此有些人稱之為史上最強AI(人工智能)，甚至還有人聯(lián)想到科幻片中人工智能最終取代人類的情節(jié)。記得上一輪掀起輿論熱潮的人工智能事件，還是2016闍lphaGo以4∶1戰(zhàn)勝世界頂級圍棋棋手李世石。今天我們就來說說以ChatGPT為代表的人工智能對當前社會發(fā)展的影響，以及其現(xiàn)有成果在生物科學領(lǐng)域的作用。

(資料圖)

接受強化訓練的生成式AI：

對接用戶需求創(chuàng)造新內(nèi)容

現(xiàn)在全世界都在談?wù)摰腃hatGPT是一個人工智能撰稿和聊天工具，去年11月一經(jīng)推出，便在社交媒體上迅速走紅，至今月活躍用戶已過億。ChatGPT能夠通過學習和理解人類的語言來進行對話、回答各種問題，還能根據(jù)要求完成視頻腳本、文案、論文、代碼等寫作任務(wù)。它的成功，源于以深度學習為代表的人工智能技術(shù)的長期積累。從屬性上看，ChatGPT其實是一個大型語言模型(LLM)，接受過大量文本數(shù)據(jù)的訓練，能夠?qū)Ω鞣N各樣的問題輸入生成類似人類的應答結(jié)果和反應，因此，也可以稱它為容生成器。

AI需要具備3個要素：數(shù)據(jù)、算力及算法。數(shù)據(jù)是知識原料，算力及算法則提供“計算智能”以學習知識并實現(xiàn)特定目標。人們對AI有多種分類，以AI“能做什么工作”和“完成什么任務(wù)”作為標準，可以簡單將其分為反應式AI(分析型AI)和生成式AI。

反應式AI根據(jù)預編程規(guī)則對不同類型的刺激做出反應，由于不使用內(nèi)存，所以無法通過新數(shù)據(jù)進行學習。1997年擊敗國際象棋冠軍加里·卡斯帕羅夫的IBM深藍超級計算機就是反應式AI。

而生成式AI獲得了大量數(shù)據(jù)、信息，并且經(jīng)過強化訓練和深度學習，以及類似于神經(jīng)網(wǎng)絡(luò)的反饋糾錯機制，所以能完成很多工作，產(chǎn)生很多產(chǎn)品。用一句話概括其本質(zhì)：根據(jù)用戶的具體需求創(chuàng)造新內(nèi)容。

從ChatGPT的全稱“Chat Generative Pre-trained Transformer(生成式預訓練轉(zhuǎn)換器)”就能看出，它是一款可以自行生成許多內(nèi)容的AI，包括各類文本、文章、與人對話、翻譯、編寫代碼、繪畫、制作視頻等。

由于受各種因素的制約，ChatGPT生成的內(nèi)容也有不少錯誤，尤其是關(guān)于社會、文化、人文、哲學、政治、經(jīng)濟和歷史方面的內(nèi)容。但是在自然科學領(lǐng)域，由于有公認的定律和共同的認知，如“原子是由帶正電的原子核和核外帶負電的電子構(gòu)成的”，ChatGPT生成的內(nèi)容出錯率相對較少。

正因如此，雖然生成式AI在所有領(lǐng)域都有用武之地，但類似ChatGPT的生成式AI在自然科學領(lǐng)域的應用更受青睞。生物醫(yī)學研究、醫(yī)療和生命科學都需要生成式AI，ChatGPT只是其中一種。

準確預測蛋白質(zhì)結(jié)構(gòu)：

可加快新藥和疫苗研發(fā)

目前，生成式AI在生物醫(yī)學領(lǐng)域的用途方興未艾。生成式AI不僅能分析成千上萬種蛋白質(zhì)，還可以生成新的蛋白質(zhì)，甚至是自然界從未出現(xiàn)過的蛋白質(zhì)。

過去，認識和精確測定蛋白質(zhì)的構(gòu)型需要耗費大量的時間和精力，還未必能測得準，給藥物、疫苗研發(fā)和疾病治療造成了阻礙。如果生成式AI的結(jié)果既準確又快速，就可以知道一些病毒變異后的蛋白質(zhì)結(jié)構(gòu)，如新冠病毒的S蛋白變異，從而加快研發(fā)新藥和疫苗的速度。

2020年，英國深度思考公司研發(fā)的阿爾法折疊2(Alpha Fold-2)有了驚人成就。這款生成式AI在2020年舉行的第14屆“蛋白質(zhì)結(jié)構(gòu)預測關(guān)鍵評估”大賽中大放異彩。它測定的大部分蛋白質(zhì)結(jié)構(gòu)非常準確，不僅與實驗方法測得的蛋白質(zhì)結(jié)構(gòu)的精確度相同，還遠超解析新蛋白質(zhì)結(jié)構(gòu)的其他方法。具體來說，阿爾法折疊2能在幾分鐘內(nèi)預測出一個典型蛋白質(zhì)的結(jié)構(gòu)，并能夠在幾天內(nèi)生成高精度的結(jié)構(gòu)。2022年初，阿爾法折疊2又測出了2.2億個蛋白質(zhì)的結(jié)構(gòu)，幾乎涵蓋了DNA數(shù)據(jù)庫中已知生物的所有蛋白質(zhì)。

2022年11月，Meta公司(前身為Facebook)奮起直追，其名為ESMFold的生成式AI軟件預測了約6億個蛋白質(zhì)的結(jié)構(gòu)，這些蛋白質(zhì)來自細菌、病毒和其他尚未命名的微生鎩Ｋ淙桓萌砑？淖既沸圓蝗綈⒍？ㄕ鄣 2，但在預測結(jié)構(gòu)方面速度要快約60倍。

ESMFold的原理與ChatGPT基本相似，也是一種大型語言模型，只不過，訓練它的內(nèi)容不是自然語言，而是生物基因語言，也就是通過堿基排列的順序和規(guī)律來檢測蛋白質(zhì)。

舉例來說，對于ESMFold的訓練，是把已知蛋白質(zhì)的氨基酸序列“投喂”給它們，正如訓練ChatGPT要把自然語言的詞語根據(jù)語法進行“投喂”一樣。自然界的蛋白質(zhì)可以用20個不同的氨基酸鏈表示，每個氨基酸鏈由一個字母表示，這種訓練使ESMFold對蛋白質(zhì)序列有直觀理解，并能理解蛋白質(zhì)序列包含的蛋白質(zhì)形狀信息。在這樣的深度學習之后，ESMFold學會了在氨基酸比例模糊的情況下“自動補全”信息。

研究團隊把ESMFold應用于大規(guī)模測序的“宏基因組”DNA數(shù)據(jù)庫，這些DNA來自于環(huán)境，包括土壤、海水、人類腸道、皮膚和其他微生物棲息地。ESMFold通過算法，能結(jié)合蛋白質(zhì)結(jié)構(gòu)和序列之間關(guān)系的信息生成預測結(jié)構(gòu)。它總共預測了超過6.17億個蛋白質(zhì)的結(jié)構(gòu)，只花了兩周時間。而且，在6.17億個蛋白質(zhì)測試中，超過1/3的預測是高質(zhì)量的，有數(shù)以百萬計的蛋白質(zhì)結(jié)構(gòu)是全新的。

自然界酶類從無到有：

人工酶氨基酸序列變化也無損活性

生成式AI的強大還體現(xiàn)在可以生成自然界中沒有的蛋白質(zhì)和物質(zhì)，為人類的衣食住行生產(chǎn)、提供新原料和產(chǎn)品。

美國一家人工智能研究企業(yè)研發(fā)了另一種生成式AI，稱為人工酶人工智能系統(tǒng)ProGen。這是一種專門檢測酶(由活體細胞產(chǎn)生的一種特殊蛋白質(zhì)，人體內(nèi)幾乎所有生化反應都必須有酶參與才能完成)和生成酶的AI軟件。在實驗室測試中，ProGen設(shè)計的一些人工酶與自然界中發(fā)現(xiàn)的酶一樣有效，即使其氨基酸序列與任何已知的天然蛋白質(zhì)存在顯著差異，也仍然有生物活性。

特定的蛋白質(zhì)各有其單獨的氨基酸排列順序。研究人員把1.9萬個酶家族的2.8億種不同蛋白質(zhì)的氨基酸序列輸入ProGen機器學習模型中，同時提供相關(guān)蛋白質(zhì)特性作為控制標簽，然后讓系統(tǒng)花費數(shù)周時間來“消化”這些信息。此后，研究人員再把信息收窄，使用來自5個溶菌酶家族的5.6萬種蛋白質(zhì)氨基酸序列，以及有關(guān)這些蛋白質(zhì)的一些信息來對模型進行微調(diào)。

根據(jù)學習的內(nèi)容，ProGen迅速生成了100萬個蛋白質(zhì)序列，研究團隊在其中選擇了100個進行測試后發(fā)現(xiàn)：來自5個溶菌酶家族的所有人工蛋白質(zhì)均顯示出活性，且73%具有抗菌功能，而在天然蛋白質(zhì)中僅59%具有抗菌功能。

更令人驚訝的是，在另一輪篩選中研究團隊發(fā)現(xiàn)，即使只有31.4%的序列與目前已知的天然蛋白質(zhì)相似，生成式AI設(shè)計的酶類依然顯示出了生物活性。與之相反的是，天然蛋白質(zhì)如果發(fā)生任何一個突變，都有可能失去生物活性。

這些研究結(jié)果總結(jié)起來，彰顯了三方面的意義：一是ProGen生成的人工蛋白質(zhì)不僅可以正確表達，還展示出與蛋白質(zhì)天然折疊相類似的結(jié)構(gòu)；二是AI生成的蛋白質(zhì)即便只有部分氨基酸序列與天然蛋白質(zhì)的序列相似，也具有生物活性，但天然蛋白沒有這個優(yōu)勢；三是人工智能可以設(shè)計出在自然界從未有過的新物質(zhì)和新產(chǎn)品。

這意味著，如果采用生成式AI設(shè)計和生產(chǎn)蛋白藥物、食品及生物產(chǎn)品(如降解塑料的產(chǎn)品)，會更快更有效，當然其安全性還需通過進一步的研究來檢驗。換句話說，如果人工智能生成的蛋白質(zhì)能夠像自然生成的蛋白質(zhì)一樣，也意味著未來人工智能可以設(shè)計人類所需要的各類產(chǎn)品，首要的就是滿足人類生存的食物和藥品。

幫助診斷疾病和優(yōu)生：

最終結(jié)果仍需人類審核決定

現(xiàn)在，生成式AI已經(jīng)發(fā)展到通過圖像、血液、組織掃描結(jié)果，來檢測、診斷和預測心血管病、眼部疾病、糖尿病，以及結(jié)直腸癌、肺癌、乳腺癌、前列腺癌等多種癌癥。

心臟病是一類嚴重的心血管疾病。心電圖信號最常被用作篩查心臟病的工具。新加坡南洋理工大學等機構(gòu)的研究人員利用一種名為Gabor-CNN的人工智能機器學習算法設(shè)計出了一種生成式AI診斷工具，能模仿人類大腦的結(jié)構(gòu)和功能，使用心電圖診斷冠狀動脈疾病、心肌梗死和充血性心力衰竭。試驗結(jié)果顯示，這種人工智能有助于自動識別健康人群和不同心血管疾病患者相關(guān)的心電圖信號，其準確率能超過98.5%。

癌癥同樣可以利用AI來診斷和治療。對于結(jié)直腸癌和乳腺癌，現(xiàn)在一般是通過觀察CT照片和組織切片來進行診斷。中國中南大學等機構(gòu)的研究人員從中國、德國和美國的8803名受試者和13個獨立的癌癥研究中心收集了超過1.3萬張結(jié)直腸癌圖像，利用這些隨機選擇的圖像，研究人員構(gòu)建了一種AI軟件來識別結(jié)直腸癌的圖像。初步測試結(jié)果顯示，AI軟件能檢測出大部分結(jié)直腸癌圖片，堪比真正的病理學家，甚至在很多情況下表現(xiàn)得更好。當然，最后的診斷還需經(jīng)過病理學家的把關(guān)和審查。

還有一個受到醫(yī)學關(guān)注的領(lǐng)域是不孕不育?，F(xiàn)代生活方式和環(huán)境變化造成約有15%的夫婦不育，其中精子質(zhì)量差是重要的原因之一。傳統(tǒng)的做法是對精子活檢來檢測質(zhì)量，但這個任務(wù)如果由AI來完成會更出色。

最近上海市第一婦嬰保健院研發(fā)了一種AI軟件，通過深度學習和算法，可以識別精子的“面部”和不同運動形態(tài)(類似于人臉識別)，操作者只需通過電腦屏幕觀察即可。這套AI系統(tǒng)對3家醫(yī)院共1000份樣本進行檢測的結(jié)果顯示，其準確性與傳統(tǒng)方法相同。AI軟件大大縮短了整個檢查過程，僅需一個半小時，而使用傳統(tǒng)方法需要大約一周時間才能拿到報告。

這樣的“智能”例子舉不勝舉?？梢灶A想，人工智能的快速發(fā)展將會對許多領(lǐng)域造成沖擊，尤其是那些創(chuàng)造性較低且基于行業(yè)知識或訓練就可以完成的工作，如客服、動畫建模、美工、翻譯、低級代碼開發(fā)人員等。此次風靡全球的ChatGPT讓我們看到，人工智能的發(fā)展有了質(zhì)的飛躍，預示了更多可能，但這種技術(shù)革新目前還只限于語言維度，并非主動意識，也不具備真正的創(chuàng)新能力，與科幻片中“人工智能取代人”的幻想相去甚遠。

總之，無論AI應用到了什么領(lǐng)域，最終所獲得的成果或生成的產(chǎn)品仍需由人來審核和決定，這才是對待AI的科學態(tài)度。

《北京日報》2023年2月22日第9版

關(guān)鍵詞： chatgpt 蛋白質(zhì)結(jié)構(gòu)預測心電圖診斷 Gabor-CNN

責任編輯：Rex_22

消息！ChatGPT爆火是AI的“狂飆”嗎

消息！ChatGPT爆火是AI的“狂飆”嗎

第五批專精特新“小巨人”企業(yè)培育啟動

顧家家居控股子公司被罰生產(chǎn)銷售不合格電動晾衣機

【世界熱聞】國家郵政局：1月快遞業(yè)務(wù)量完成72.3億件同比下降17.6%

全球速遞！東北制藥被罰1.33億背后：左卡尼汀原料藥銷售價曾高達8000—10000元/公斤

“麥”好開局第一步農(nóng)機助力春耕跑出“加速度”

全球熱資訊！德邦快遞丟失電腦只賠運費三倍遭投訴

【環(huán)球時快訊】去年股價跌逾35% 亞馬遜員工今年薪酬最高縮水一半

復旦復華漲停：公司與復旦團隊研發(fā)的類ChatGPT模型無關(guān) 未參與研發(fā)

每日熱門：北京市曝光8起醫(yī)美典型案例 “國衛(wèi)醫(yī)院”“正德堂醫(yī)療器械”發(fā)布違法廣告被罰

公募基金三季報陸續(xù)披露基金經(jīng)理最新持倉動向曝光

世界熱點評！今日起至8月20日！包茂高速安川段實行交通管制

世界熱訊:彬州市常態(tài)化高質(zhì)量推進全國文明城市建設(shè)工作

全球訊息：神舟十三號航天員乘組的“高光時刻”

當前速遞！人民教育出版社：魯迅是中小學語文教材入選作品最多作家

熱點在線丨教育部高校學生資助熱線電話暑期集中受理時段開始

今日熱門!江蘇一19歲女孩因?qū)嵙暼肼汅w檢，拍胸透時被醫(yī)生要求脫光上衣，警方：未發(fā)現(xiàn)違法行為

天天觀天下！山西姑娘戀愛3個月后疑不堪辱罵自殺，生前曾給男友轉(zhuǎn)賬16萬

當前聚焦：兩只車輪只剩輪轂還在高速上飛馳，交警一查司機醉駕了

每日焦點！高速發(fā)生車輛追尾1人被困駕駛室奉賢消防緊急救援

消息！ChatGPT爆火 是AI的“狂飆”嗎

消息！ChatGPT爆火是AI的“狂飆”嗎