首頁 >國際 >

局中人談大模型:海選結(jié)束 正賽開始

這可能是人工智能概念提出70年來,最魔幻的半年——上半段各路大神下場卡位,互聯(lián)網(wǎng)傳奇回歸,廣發(fā)英雄帖“搶人”;下半段潮水漸退,人們迅速意識到,大模型不是神,落地才是它的終極歸宿。

華為輪值董事長胡厚崑概括出了當(dāng)下入局大模型的企業(yè)在做的兩件大事,做大模型以及做大模型在不同行業(yè)的應(yīng)用,所謂“AI for science,AI for industry”。拓爾思總裁施水才直言,大模型的較量已經(jīng)從比參數(shù)、拼算力、秀牛人過渡到了講落地、謀收入、求價值。

“局中人”那些分享里,有對大模型帶來革命性變革的興奮,也有對技術(shù)、安全、基礎(chǔ)設(shè)施等的冷靜思考。但這些并不妨礙諸多共識的達(dá)成,比如大模型絕不是一場華麗的煙花秀,它可能會重塑每一個行業(yè),未來基礎(chǔ)大模型和行業(yè)大模型將實現(xiàn)錯位互補。


(資料圖片僅供參考)

找行業(yè),找場景,找價值,圍觀為期三天的世界人工智能大會,這一點變得越發(fā)明確。北京商報記者通過各種機會各種場合“對話局中人”,既為近距離觀察大模型提供了一個切口,也足以意識到,大模型“落入俗套”的開始,或許也正是人工智能真正賦能生產(chǎn)力的開始。

百度集團科技與社會研究中心主任余歡

做大模型不是為了“打榜”

ChatGPT剛推出的前幾個月,包括文心一言與大家見面的時候,人們確實存在各種各樣的甚至有些不切實際的期待。但經(jīng)歷了一段時期的發(fā)展,人們在嘗試將其落地的過程中,也發(fā)現(xiàn)一些原本認(rèn)為大有可為的事情可能短期內(nèi)很難實現(xiàn),于是逐漸放棄了一些不合理的幻想。這就回到了最現(xiàn)實也最原始的問題,即我們要拿大模型做什么以及能不能做成,這個過程自然“擠掉”了一些新技術(shù)剛出現(xiàn)時帶出的泡沫。

至于“買預(yù)期”的資本市場,本身就會存在一定的泡沫。任何一種新技術(shù)的出現(xiàn)都會伴隨泡沫的產(chǎn)生。泡沫代表著期待與未來,我們與其關(guān)注泡沫的大小,不如關(guān)注泡沫是會砰地一下爆炸,還是會逐漸收縮后實現(xiàn)良性發(fā)展。

從長期來看,這一波AI的確定性非常高,只是無法一蹴而就的跨越式發(fā)展,一些場景的落地可能還需要更長時間的打磨。事實上,大模型的to B產(chǎn)業(yè)落地并不是那么功利性的,也不像C端應(yīng)用,會在極短時間內(nèi)膨脹成一個“爆款”。最重要的是,我們要給大模型更多的耐心,給它一定的時間去發(fā)展。

雖然現(xiàn)在看起來大模型發(fā)展飛速,但整體上來說還處于剛剛通過“預(yù)賽”階段。也就是說我們要在全球范圍內(nèi)參與競爭,首先要有上牌桌的能力,當(dāng)下只能說是第一波海選結(jié)束了,一些選手突圍,可以參與后面更見實力的競爭了。

從這個意義上說,正賽階段可能也只是剛開始。以ChatGPT、文心一言為代表的大模型,只是通用人工智能這個大方向的一個起點,讓大家看到了一些可能性,即便是“中點”也相去甚遠(yuǎn),畢竟全球范圍內(nèi)AI原生應(yīng)用都尚未大規(guī)模落地。

下一個階段,拼的就是體系化的實力了。未來,作出千億級參數(shù)的模型可能并沒有那么高的門檻,但做大模型不只是為了比賽“打榜”,最終的目的仍然是要與產(chǎn)業(yè)相結(jié)合,這樣才能體現(xiàn)出價值。實現(xiàn)這一目標(biāo),要拼技術(shù),但也不能只拼技術(shù),更需要看行業(yè)理解、服務(wù)能力和生態(tài)繁榮度。

九章云極DataCanvas聯(lián)合創(chuàng)始人尚明棟

未來會有更多垂類模型落地并形成標(biāo)桿示范

大模型的行業(yè)應(yīng)用落地正處于起步階段,這個階段既充滿了挑戰(zhàn),又充滿了機遇。一方面,企業(yè)需要準(zhǔn)備算力、數(shù)據(jù)以及基礎(chǔ)軟件設(shè)施的升級,以適應(yīng)大模型的需求;另一方面,大模型作為一種新事物,需要找到最容易體現(xiàn)其價值的業(yè)務(wù)場景結(jié)合點。

目前,大模型仍然面臨著算力成本高的問題。通識模型至少需要擁有千億參數(shù)規(guī)模以上,而垂類大模型的參數(shù)規(guī)模在70億-300億之間已經(jīng)足夠勝任。同時,隨著AI基礎(chǔ)軟件的算力調(diào)度和優(yōu)化以及訓(xùn)練數(shù)據(jù)集質(zhì)量的提升,大模型的訓(xùn)練、推理和管理成本正在逐步降低。

當(dāng)我們真正將大模型的能力應(yīng)用于各行各業(yè)時,大模型必然已經(jīng)具備了低成本、便攜性以及自主可控等條件。垂類模型的行業(yè)落地需要一個快速嘗試、驗證、調(diào)整、再迭代的過程。未來的半年將會有更多與行業(yè)結(jié)合的場景落地,從而形成行業(yè)的標(biāo)桿示范。

這些先行行業(yè)往往是那些已經(jīng)具備了一定小模型基礎(chǔ)的企業(yè),因此在大模型時代可以更加緊湊地將模型與業(yè)務(wù)結(jié)合起來,加速迭代過程。如果說0-1階段是像小馬過河般的探索階段,那么基于現(xiàn)有的數(shù)據(jù)、算力以及AI基礎(chǔ)軟件等基礎(chǔ)設(shè)施,1-10階段將會是一個更加快速的普及過程。

云天勵飛副總裁、AI技術(shù)平臺總經(jīng)理肖嶸

可以考慮制定評測標(biāo)準(zhǔn)考驗大模型“三觀”

傳統(tǒng)的模型是訓(xùn)練一個模型只能做一件事,但生成式模型的特點是可以做通用性的應(yīng)用,優(yōu)點是通用,缺點就是準(zhǔn)確性偏低,所以也就造成了生成式模型“幻覺”等情況的出現(xiàn)。

而且大模型的邏輯性也很弱,這就導(dǎo)致大模型在文生圖、翻譯、會議摘要等對準(zhǔn)確性要求不高的場景中展現(xiàn)的能力還不錯,但在一些對精度要求比較高的場景,如決策等方面的能力,依然還比較有限。

這就需要解決四個問題。首先是事實確認(rèn)和引用,需要確保事實能夠有效溯源。第二是工具的使用和外部知識整合,讓語言模型知道什么時候調(diào)用什么樣的工具、怎樣調(diào)用工具、返回結(jié)果后又怎樣整合到回復(fù)中。第三是邏輯推理,我們需要研究是否有更系統(tǒng)性的方法針對性地提升這方面能力。

第四就是持續(xù)學(xué)習(xí),現(xiàn)在大模型結(jié)束一輪對話后,再開啟新的對話,可能就會遺忘之前的內(nèi)容。這種遺忘更多不是技術(shù)上要求的必須遺忘,而是我們并沒有很好地解決這種學(xué)習(xí)問題,仍要擔(dān)心大模型被“帶跑偏”。但其實學(xué)習(xí)能力是很重要的一件事,如果在一個新的問題上,通用智能的能力與人類還差一大截,那一定不能稱為真正的智能。所以大模型就需要擁有持續(xù)學(xué)習(xí)的能力,并且能夠在場景中提升這種能力,最終趕上人類或者超過人類,才能使模型真正具有價值。

而且大模型也會存在一定的安全問題,我們在訓(xùn)練模型后,這些數(shù)據(jù)都有泄露的風(fēng)險。而且大模型在學(xué)習(xí)的過程中,如果“喂”的數(shù)據(jù)帶有偏見,大模型也會對此進(jìn)行吸收,進(jìn)而形成自己的世界觀、價值觀,如果數(shù)據(jù)有問題的話,學(xué)出來的東西自然就是有問題的。為了解決這種安全問題,可以考慮通過制定評測標(biāo)準(zhǔn)、設(shè)置準(zhǔn)入機制等,去考驗大模型的“三觀”是否有害。

英偉達(dá)中國區(qū)首席技術(shù)官賴俊杰

整體能耗將節(jié)省更多

過去6-10個月,我們觀察到全球數(shù)據(jù)中心在計算問題上呈現(xiàn)出了兩個重要的趨勢,第一是以ChatGPT為代表的應(yīng)用大大提升了人們對人機交互能達(dá)到的高度的期待,并在全球產(chǎn)學(xué)研等領(lǐng)域引發(fā)了巨大浪潮,也引發(fā)了人們對于通用人工智能更多的思考和討論。

第二點就是很多大型公司,特別是大型互聯(lián)網(wǎng)公司,在面對越來越多的業(yè)務(wù)需求、用戶請求時,逐漸遭遇功耗瓶頸。也就是說數(shù)據(jù)中心計算任務(wù)里面,人工智能大模型、AIGC應(yīng)用占比越來越高,對算力的要求也日漸提升,而算力也在一定程度上意味著更多能耗的投入。

針對第二個趨勢,英偉達(dá)認(rèn)為,在支撐同樣多用戶請求的前提下,如果能夠?qū)⒏嗳蝿?wù)負(fù)載從CPU移植到GPU上,整體能耗將會節(jié)省很多。

當(dāng)然這也不意味著GPU適合所有類型的工作負(fù)載。GPU設(shè)計之初主要面向并發(fā)度比較高或者計算密集度比較高的并行類應(yīng)用程序,我們?nèi)匀恍枰肅PU去進(jìn)行一般問題的解決。而且最近還出現(xiàn)一種趨勢,即為了能夠讓CPU、GPU不同類型處理器之間高效且安全地傳輸數(shù)據(jù),數(shù)據(jù)中心內(nèi)部還需要一類新的處理器DPU。

以前程序員在程序設(shè)計的時候,大多數(shù)時候只是抽象出一臺計算機,擴充編程目標(biāo)更多面向的一個CPU。但隨著人工智能、機器學(xué)習(xí),特別是大模型在不同行業(yè)的應(yīng)用,程序員在做分布式訓(xùn)練等任務(wù)的時候,要考慮的就不僅僅是一臺計算機或者一顆CPU那么簡單,而是要考慮整個數(shù)據(jù)中心如何高效利用起來,也就是說,數(shù)據(jù)中心越來越成為新的計算單元。

螞蟻集團機器智能部副總經(jīng)理、螞蟻安全天筭實驗室主任張?zhí)煲?/b>

大模型的風(fēng)險解決沒有靈丹妙藥

大模型帶來的長遠(yuǎn)價值已經(jīng)成為一種共識,在算力、數(shù)據(jù)等方面,一些大公司可能會有先發(fā)優(yōu)勢,但大模型同時帶來的也是全生態(tài)的機會,一些很小的企業(yè)也可能在下游應(yīng)用上迅速打開局面。在這種背景下,未來做大模型的門檻可能更需要從風(fēng)險和風(fēng)控的角度來理解。

大模型更廣泛的應(yīng)用帶來了很多風(fēng)險隱患,比如內(nèi)容安全、隱私、合規(guī)、倫理等難以界定的問題,一旦一個廠商提供這樣深層次的內(nèi)容服務(wù)時,必然會在行業(yè)自律或者監(jiān)管角度面臨更高要求,也就是說風(fēng)險自律及本身可控生成的能力,會成為未來大模型實力水平很重要的門檻。

具體而言,大模型的風(fēng)險可以劃分為三類,第一是技術(shù)類風(fēng)險,模型本身是否會被攻擊、突破和劫持;第二是產(chǎn)業(yè)風(fēng)險,是否會帶來壟斷和勞動替代;第三是社會內(nèi)容類風(fēng)險。

大模型的風(fēng)險要如何解決,這不是一顆靈丹妙藥就能立刻解決的問題,而是一個長期對抗和博弈發(fā)展的過程。一個例子是,現(xiàn)在安全行業(yè)有一個很直接的應(yīng)用,就是利用大模型來對抗更多大模型當(dāng)中的風(fēng)險,這可能也會是一個用魔法打敗魔法的必然方向。

關(guān)鍵詞:

責(zé)任編輯:Rex_11

推薦閱讀