我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
近日,上海交通大學(xué)長(zhǎng)聘教授、通用人工智能研究所所長(zhǎng)趙海收到兩個(gè)好消息:一是他帶領(lǐng)團(tuán)隊(duì)研發(fā)的“腦啟發(fā)大語言模型”入選了“交大2030”計(jì)劃B類,獲得500萬元經(jīng)費(fèi)支持;二是他的研究方向列入了上海市科委“類腦智能”項(xiàng)目申報(bào)指南,這份指南設(shè)立“顛覆性技術(shù)研究”專題,支持科學(xué)家探索腦啟發(fā)類腦智能的新原理和新方法,研究新型非Transformer架構(gòu)的類腦大模型通用架構(gòu)。
Transformer是谷歌在2017年提出的一種深度學(xué)習(xí)架構(gòu),此后經(jīng)OpenAI持續(xù)開發(fā),徹底改變了自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域的技術(shù)格局,成為人工智能大模型普遍采用的架構(gòu)。那么,上海為何要布局顛覆這種架構(gòu)的科技項(xiàng)目?類腦大模型的研發(fā)進(jìn)展如何?記者在采訪中了解到值得關(guān)注的階段性成果。
從腦科學(xué)成果中獲得靈感
ChatGPT風(fēng)靡全球后不久,就有一些人工智能知名專家質(zhì)疑Transformer架構(gòu)的發(fā)展?jié)摿Α1热纾瑘D靈獎(jiǎng)得主楊立昆認(rèn)為,這種架構(gòu)面臨計(jì)算成本高、缺乏對(duì)復(fù)雜世界的理解、決策過程“黑箱化”等瓶頸,未來無法實(shí)現(xiàn)科學(xué)家夢(mèng)寐以求的通用人工智能——智能體具有高效的學(xué)習(xí)和泛化能力,能根據(jù)所處的復(fù)雜環(huán)境自主提出并完成任務(wù),且符合人類倫理規(guī)范。
今年1月,諾貝爾化學(xué)獎(jiǎng)得主哈薩比斯談及通用人工智能時(shí)說:“也許我們還需要1—2個(gè)類似Transformer的突破。”這意味著,Transformer很可能不是大模型架構(gòu)的最終方案,在探索通用人工智能的道路上,還需要有大的創(chuàng)新突破。
Transformer很可能不是實(shí)現(xiàn)通用人工智能(AGI)的最終方案。
模擬人腦,是創(chuàng)新大模型架構(gòu)的一條路徑,因?yàn)樽鳛榇笞匀贿M(jìn)化的產(chǎn)物,人腦就是一種通用人工智能體。“2016年,加州大學(xué)伯克利分校團(tuán)隊(duì)在《自然》雜志發(fā)表了一篇論文,他們發(fā)現(xiàn),大腦皮層的不同區(qū)域可編碼特定的語義內(nèi)容。”趙海向記者介紹了這項(xiàng)腦科學(xué)成果。大模型架構(gòu)可否模擬大腦的語義編碼機(jī)制?2023年9月,這位交大教授有了創(chuàng)新靈感,打算顛覆Transformer架構(gòu),研發(fā)一種“腦啟發(fā)大語言模型”。
于是,他自籌科研經(jīng)費(fèi),租借GPU服務(wù)器,帶領(lǐng)團(tuán)隊(duì)走進(jìn)了類腦智能領(lǐng)域的“無人區(qū)”。當(dāng)時(shí),用于訓(xùn)練大模型的GPU服務(wù)器處于價(jià)格高位,趙海團(tuán)隊(duì)每月要花18萬元租金。至于研發(fā)能否成功,完全是個(gè)未知數(shù)。面對(duì)雙重壓力,他選擇了堅(jiān)持,因?yàn)樗嘈牛和ㄓ萌斯ぶ悄艿恼嬲[藏在人類大腦中。
新范式模擬人腦全局機(jī)制
今年3月,150億參數(shù)的“腦啟發(fā)大語言模型”(BriLLM)問世,交大團(tuán)隊(duì)開源發(fā)布了這個(gè)中文大模型的代碼和模型權(quán)重。5月,他們發(fā)布了“腦啟發(fā)大語言模型”中文、英文壓縮版,其大小分別為20億和10億參數(shù),但性能與150億參數(shù)大模型相當(dāng)。測(cè)試顯示,這3個(gè)非Transformer架構(gòu)類腦大模型的生成能力達(dá)到GPT-1水平,引起了華為公司Fellow蔡華等專家的關(guān)注。
“BriLLM是首個(gè)在宏觀尺度上模擬人腦全局機(jī)制的大語言模型,對(duì)機(jī)器學(xué)習(xí)范式做了顛覆性創(chuàng)新。”趙海介紹,它采用“信號(hào)全連接流動(dòng)”機(jī)制,以取代Transformer架構(gòu)的自注意力機(jī)制。這種新的機(jī)器學(xué)習(xí)范式模擬大腦皮層編碼特定語義的方式,將詞元(token)直接映射為“有向全連接圖”模型架構(gòu)上的一個(gè)個(gè)節(jié)點(diǎn),讓每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)語義單元。它還模擬腦電波的傳播方式,讓信號(hào)沿著“最小阻力”路徑,在“有向全連接圖”上不斷傳播,選擇性地激活一些語義單元節(jié)點(diǎn),使大模型生成準(zhǔn)確的文字內(nèi)容。
“信號(hào)全連接流動(dòng)”機(jī)制示意圖
與Transformer架構(gòu)大模型相比,“腦啟發(fā)大語言模型”有四大潛在優(yōu)勢(shì):通過模擬人腦的語義編碼和信號(hào)傳播機(jī)制,獲得人腦的低能耗優(yōu)勢(shì),大模型計(jì)算成本有望大幅降低;每個(gè)節(jié)點(diǎn)都對(duì)應(yīng)明確語義,決策過程透明可解釋,消除了大模型決策的“黑箱”問題,有利于確保人工智能安全可控;由于信號(hào)可在各個(gè)節(jié)點(diǎn)間無限制傳播,它有望支持無限長(zhǎng)的上下文輸入,且無須增加模型規(guī)模;與多模態(tài)天然適配,在學(xué)習(xí)圖像和視頻時(shí)更接近人類學(xué)習(xí)方式,不依賴大數(shù)據(jù)。
憑借這些優(yōu)勢(shì),趙海團(tuán)隊(duì)經(jīng)過4輪評(píng)審,獲得了“交大2030”計(jì)劃B類立項(xiàng)支持。B類項(xiàng)目倡導(dǎo)“從 0 到 1”的原始創(chuàng)新,瞄準(zhǔn)世界級(jí)基礎(chǔ)科學(xué)問題。它不設(shè)論文指標(biāo),允許項(xiàng)目團(tuán)隊(duì)在科研領(lǐng)域自由使用經(jīng)費(fèi)。“我們打算把500萬元主要用于購(gòu)買算力,未來兩年開發(fā)出像ChatGPT那樣的對(duì)話式大模型,與Transformer架構(gòu)大模型展開競(jìng)爭(zhēng)。”得到項(xiàng)目支持后,趙海對(duì)這一顛覆性創(chuàng)新的前景更有信心了。
瞄準(zhǔn)百億參數(shù)大模型目標(biāo)
在類腦大模型這一前沿領(lǐng)域,趙海并不是獨(dú)行者。記者從中國(guó)科學(xué)院腦智卓越中心了解到,腦認(rèn)知與類腦智能全國(guó)重點(diǎn)實(shí)驗(yàn)室研究員李國(guó)齊在研發(fā)“類腦通用智能大模型”。他的技術(shù)路線與趙海不同,主要在微觀尺度上模擬大腦神經(jīng)元的激活方式。
李國(guó)齊認(rèn)為,Transformer架構(gòu)大模型的基礎(chǔ)是“點(diǎn)神經(jīng)元模型+自注意力機(jī)制”,而人腦的基本計(jì)算單位是樹突神經(jīng)元模型。它比點(diǎn)神經(jīng)元模型復(fù)雜得多,呈樹狀結(jié)構(gòu),包含多個(gè)分支和房室,每個(gè)分支和房室都存在不同參數(shù)的動(dòng)力學(xué)過程,使樹突神經(jīng)元模型擁有多尺度的記憶能力。“我們的目標(biāo)是研究可否將這種人腦機(jī)制融入現(xiàn)有大模型,構(gòu)建一個(gè)通用的類腦智能大模型架構(gòu)。”
為此,他帶領(lǐng)團(tuán)隊(duì)開展了一系列探索:在理論層面,發(fā)表了關(guān)于脈沖神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的多篇論文,將脈沖神經(jīng)網(wǎng)絡(luò)從過去的5—10層拓展到50—500層;在神經(jīng)元模型層面,提出了多房室、多分支的并行脈沖神經(jīng)元模型,在解決長(zhǎng)序列建模問題上取得進(jìn)展;在架構(gòu)層面,提出了“樹突脈沖神經(jīng)網(wǎng)絡(luò)”這個(gè)概念,將源自人腦的神經(jīng)元模型納入機(jī)器學(xué)習(xí)框架。
談及未來研發(fā)計(jì)劃,李國(guó)齊說:“我們希望通過跨學(xué)科合作,推動(dòng)算法、訓(xùn)練平臺(tái)和芯片的深度整合,構(gòu)建百億至千億參數(shù)規(guī)模的通用類腦大模型。”
趙海也打算開發(fā)百億參數(shù)規(guī)模的類腦大模型。未來兩年,他將帶領(lǐng)團(tuán)隊(duì)完成中文和英文預(yù)訓(xùn)練、指令微調(diào)能力構(gòu)建、高效推理部署三項(xiàng)任務(wù),開發(fā)出規(guī)模不低于300億參數(shù)的中文和英文“腦啟發(fā)大語言模型”,讓用戶體驗(yàn)到非Transformer架構(gòu)大模型的優(yōu)勢(shì)。
“我們團(tuán)隊(duì)已走通‘從0到1’的原始創(chuàng)新,接下來要做的是‘從1到10’的升級(jí)突破。希望得到政府部門更多的算力支持,讓我們加快迭代類腦大模型。”趙海說。
原標(biāo)題:《上海布局“類腦大模型”顛覆性創(chuàng)新項(xiàng)目,交大教授挑戰(zhàn)大模型主流架構(gòu)》
欄目主編:黃海華
來源:作者:解放日?qǐng)?bào) 俞陶然
上海布局“類腦大模型”顛覆性創(chuàng)新項(xiàng)目,交大教授挑戰(zhàn)大模型主流架構(gòu) 09:13:51
智譜發(fā)布首個(gè)手機(jī)智能體:一句話點(diǎn)外賣訂機(jī)票,手表、眼鏡、家電等均能接入 09:03:25
可控的、低能量的電化學(xué)方法能夠提升核聚變效率 09:01:41
Labubu炸場(chǎng)泡泡瑪特2025年中期業(yè)績(jī)發(fā)布會(huì) 09:38:42
從導(dǎo)航工具到空間智能體,高德用AI尋找出路 09:35:28
SpaceX 星艦 9 號(hào)飛行事故調(diào)查結(jié)束,第十次試飛箭在弦上 09:31:51