上海布局“類腦大模型”顛覆性創(chuàng)新項(xiàng)目，交大教授挑戰(zhàn)大模型主流架構(gòu)

發(fā)布時(shí)間：2025-08-21 09:13:51來源：上觀新聞

　　近日，上海交通大學(xué)長(zhǎng)聘教授、通用人工智能研究所所長(zhǎng)趙海收到兩個(gè)好消息：一是他帶領(lǐng)團(tuán)隊(duì)研發(fā)的“腦啟發(fā)大語言模型”入選了“交大2030”計(jì)劃B類，獲得500萬元經(jīng)費(fèi)支持;二是他的研究方向列入了上海市科委“類腦智能”項(xiàng)目申報(bào)指南，這份指南設(shè)立“顛覆性技術(shù)研究”專題，支持科學(xué)家探索腦啟發(fā)類腦智能的新原理和新方法，研究新型非Transformer架構(gòu)的類腦大模型通用架構(gòu)。

　　Transformer是谷歌在2017年提出的一種深度學(xué)習(xí)架構(gòu)，此后經(jīng)OpenAI持續(xù)開發(fā)，徹底改變了自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域的技術(shù)格局，成為人工智能大模型普遍采用的架構(gòu)。那么，上海為何要布局顛覆這種架構(gòu)的科技項(xiàng)目?類腦大模型的研發(fā)進(jìn)展如何?記者在采訪中了解到值得關(guān)注的階段性成果。

　　從腦科學(xué)成果中獲得靈感

　　ChatGPT風(fēng)靡全球后不久，就有一些人工智能知名專家質(zhì)疑Transformer架構(gòu)的發(fā)展?jié)摿Α１热纾瑘D靈獎(jiǎng)得主楊立昆認(rèn)為，這種架構(gòu)面臨計(jì)算成本高、缺乏對(duì)復(fù)雜世界的理解、決策過程“黑箱化”等瓶頸，未來無法實(shí)現(xiàn)科學(xué)家夢(mèng)寐以求的通用人工智能——智能體具有高效的學(xué)習(xí)和泛化能力，能根據(jù)所處的復(fù)雜環(huán)境自主提出并完成任務(wù)，且符合人類倫理規(guī)范。

　　今年1月，諾貝爾化學(xué)獎(jiǎng)得主哈薩比斯談及通用人工智能時(shí)說：“也許我們還需要1—2個(gè)類似Transformer的突破。”這意味著，Transformer很可能不是大模型架構(gòu)的最終方案，在探索通用人工智能的道路上，還需要有大的創(chuàng)新突破。

　　Transformer很可能不是實(shí)現(xiàn)通用人工智能(AGI)的最終方案。

　　模擬人腦，是創(chuàng)新大模型架構(gòu)的一條路徑，因?yàn)樽鳛榇笞匀贿M(jìn)化的產(chǎn)物，人腦就是一種通用人工智能體。“2016年，加州大學(xué)伯克利分校團(tuán)隊(duì)在《自然》雜志發(fā)表了一篇論文，他們發(fā)現(xiàn)，大腦皮層的不同區(qū)域可編碼特定的語義內(nèi)容。”趙海向記者介紹了這項(xiàng)腦科學(xué)成果。大模型架構(gòu)可否模擬大腦的語義編碼機(jī)制?2023年9月，這位交大教授有了創(chuàng)新靈感，打算顛覆Transformer架構(gòu)，研發(fā)一種“腦啟發(fā)大語言模型”。

　　于是，他自籌科研經(jīng)費(fèi)，租借GPU服務(wù)器，帶領(lǐng)團(tuán)隊(duì)走進(jìn)了類腦智能領(lǐng)域的“無人區(qū)”。當(dāng)時(shí)，用于訓(xùn)練大模型的GPU服務(wù)器處于價(jià)格高位，趙海團(tuán)隊(duì)每月要花18萬元租金。至于研發(fā)能否成功，完全是個(gè)未知數(shù)。面對(duì)雙重壓力，他選擇了堅(jiān)持，因?yàn)樗嘈牛和ㄓ萌斯ぶ悄艿恼嬲[藏在人類大腦中。

　　新范式模擬人腦全局機(jī)制

　　今年3月，150億參數(shù)的“腦啟發(fā)大語言模型”(BriLLM)問世，交大團(tuán)隊(duì)開源發(fā)布了這個(gè)中文大模型的代碼和模型權(quán)重。5月，他們發(fā)布了“腦啟發(fā)大語言模型”中文、英文壓縮版，其大小分別為20億和10億參數(shù)，但性能與150億參數(shù)大模型相當(dāng)。測(cè)試顯示，這3個(gè)非Transformer架構(gòu)類腦大模型的生成能力達(dá)到GPT-1水平，引起了華為公司Fellow蔡華等專家的關(guān)注。

　　“BriLLM是首個(gè)在宏觀尺度上模擬人腦全局機(jī)制的大語言模型，對(duì)機(jī)器學(xué)習(xí)范式做了顛覆性創(chuàng)新。”趙海介紹，它采用“信號(hào)全連接流動(dòng)”機(jī)制，以取代Transformer架構(gòu)的自注意力機(jī)制。這種新的機(jī)器學(xué)習(xí)范式模擬大腦皮層編碼特定語義的方式，將詞元(token)直接映射為“有向全連接圖”模型架構(gòu)上的一個(gè)個(gè)節(jié)點(diǎn)，讓每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)語義單元。它還模擬腦電波的傳播方式，讓信號(hào)沿著“最小阻力”路徑，在“有向全連接圖”上不斷傳播，選擇性地激活一些語義單元節(jié)點(diǎn)，使大模型生成準(zhǔn)確的文字內(nèi)容。

　　“信號(hào)全連接流動(dòng)”機(jī)制示意圖

　　與Transformer架構(gòu)大模型相比，“腦啟發(fā)大語言模型”有四大潛在優(yōu)勢(shì)：通過模擬人腦的語義編碼和信號(hào)傳播機(jī)制，獲得人腦的低能耗優(yōu)勢(shì)，大模型計(jì)算成本有望大幅降低;每個(gè)節(jié)點(diǎn)都對(duì)應(yīng)明確語義，決策過程透明可解釋，消除了大模型決策的“黑箱”問題，有利于確保人工智能安全可控;由于信號(hào)可在各個(gè)節(jié)點(diǎn)間無限制傳播，它有望支持無限長(zhǎng)的上下文輸入，且無須增加模型規(guī)模;與多模態(tài)天然適配，在學(xué)習(xí)圖像和視頻時(shí)更接近人類學(xué)習(xí)方式，不依賴大數(shù)據(jù)。

　　憑借這些優(yōu)勢(shì)，趙海團(tuán)隊(duì)經(jīng)過4輪評(píng)審，獲得了“交大2030”計(jì)劃B類立項(xiàng)支持。B類項(xiàng)目倡導(dǎo)“從 0 到 1”的原始創(chuàng)新，瞄準(zhǔn)世界級(jí)基礎(chǔ)科學(xué)問題。它不設(shè)論文指標(biāo)，允許項(xiàng)目團(tuán)隊(duì)在科研領(lǐng)域自由使用經(jīng)費(fèi)。“我們打算把500萬元主要用于購(gòu)買算力，未來兩年開發(fā)出像ChatGPT那樣的對(duì)話式大模型，與Transformer架構(gòu)大模型展開競(jìng)爭(zhēng)。”得到項(xiàng)目支持后，趙海對(duì)這一顛覆性創(chuàng)新的前景更有信心了。

　　瞄準(zhǔn)百億參數(shù)大模型目標(biāo)

　　在類腦大模型這一前沿領(lǐng)域，趙海并不是獨(dú)行者。記者從中國(guó)科學(xué)院腦智卓越中心了解到，腦認(rèn)知與類腦智能全國(guó)重點(diǎn)實(shí)驗(yàn)室研究員李國(guó)齊在研發(fā)“類腦通用智能大模型”。他的技術(shù)路線與趙海不同，主要在微觀尺度上模擬大腦神經(jīng)元的激活方式。

　　李國(guó)齊認(rèn)為，Transformer架構(gòu)大模型的基礎(chǔ)是“點(diǎn)神經(jīng)元模型+自注意力機(jī)制”，而人腦的基本計(jì)算單位是樹突神經(jīng)元模型。它比點(diǎn)神經(jīng)元模型復(fù)雜得多，呈樹狀結(jié)構(gòu)，包含多個(gè)分支和房室，每個(gè)分支和房室都存在不同參數(shù)的動(dòng)力學(xué)過程，使樹突神經(jīng)元模型擁有多尺度的記憶能力。“我們的目標(biāo)是研究可否將這種人腦機(jī)制融入現(xiàn)有大模型，構(gòu)建一個(gè)通用的類腦智能大模型架構(gòu)。”

　　為此，他帶領(lǐng)團(tuán)隊(duì)開展了一系列探索：在理論層面，發(fā)表了關(guān)于脈沖神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的多篇論文，將脈沖神經(jīng)網(wǎng)絡(luò)從過去的5—10層拓展到50—500層;在神經(jīng)元模型層面，提出了多房室、多分支的并行脈沖神經(jīng)元模型，在解決長(zhǎng)序列建模問題上取得進(jìn)展;在架構(gòu)層面，提出了“樹突脈沖神經(jīng)網(wǎng)絡(luò)”這個(gè)概念，將源自人腦的神經(jīng)元模型納入機(jī)器學(xué)習(xí)框架。

　　談及未來研發(fā)計(jì)劃，李國(guó)齊說：“我們希望通過跨學(xué)科合作，推動(dòng)算法、訓(xùn)練平臺(tái)和芯片的深度整合，構(gòu)建百億至千億參數(shù)規(guī)模的通用類腦大模型。”

　　趙海也打算開發(fā)百億參數(shù)規(guī)模的類腦大模型。未來兩年，他將帶領(lǐng)團(tuán)隊(duì)完成中文和英文預(yù)訓(xùn)練、指令微調(diào)能力構(gòu)建、高效推理部署三項(xiàng)任務(wù)，開發(fā)出規(guī)模不低于300億參數(shù)的中文和英文“腦啟發(fā)大語言模型”，讓用戶體驗(yàn)到非Transformer架構(gòu)大模型的優(yōu)勢(shì)。

　　“我們團(tuán)隊(duì)已走通‘從0到1’的原始創(chuàng)新，接下來要做的是‘從1到10’的升級(jí)突破。希望得到政府部門更多的算力支持，讓我們加快迭代類腦大模型。”趙海說。

　　原標(biāo)題：《上海布局“類腦大模型”顛覆性創(chuàng)新項(xiàng)目，交大教授挑戰(zhàn)大模型主流架構(gòu)》

　　欄目主編：黃海華

　　來源：作者：解放日?qǐng)?bào) 俞陶然

智譜發(fā)布首個(gè)手機(jī)智能體...

最后一頁

熱點(diǎn)推薦

久草av在线播放_精品综合99久久久久久www_性猛交xxxx乱大交孕妇印度_精品理论片_蜜臀91丨九色丨蝌蚪中文_欧美日韩亚洲综合

上海布局“類腦大模型”顛覆性創(chuàng)新項(xiàng)目，交大教授挑戰(zhàn)大模型主流架構(gòu)