(文/陳濟深 編輯/張廣凱)
8月20日,智譜在iOS安卓,PC三端同步推出AutoGLM 2.0,并首次面向公眾全面開放,無需邀請碼即可使用。
作為一款純國產智能體,AutoGLM的發布也給了中國用戶一個在Manus退出中國后可以合規便利體驗智能體的選擇。
不同于Manus等網頁端原生的智能體產品,智譜AutoGLM 2.0作為全球首個手機通用Agent,被定位為“執行型助手”。相比目前主流AI產品和智能體助手多停留在“對話”層面,只能實現信息查詢和整理回答,AutoGLM則實現了質的飛躍——它不再只是“說”,而是真正能夠“做”。
3月AutoGLM1.0發布時,AI盡管也可以操作手機,但是在AI做事期間人不能切屏,不能打斷,只能看著干瞪眼。本次AutoGLM2.0則給每個用戶預制了一臺虛擬手機和電腦,直接解決了AI和人搶屏幕的操作痛點,讓AI從只能在人眼皮子底下干活變成了“你干你的,我干我的”的異步處理模式。
在實際測試中,盡管部分功能的執行效率和優化程度依然有待提升,但目前AutoGLM已經可以較好地執行包括購物、訂餐、買機票、自動寫文案等大眾場景,智能體不再是極客們的工具,開始步入了更加大眾的群體。
作為全球首個通用手機智能體,AutoGLM的發布也代表著AI從能說會道到真能干活的技術躍遷,而AI不再需要和人類爭搶手機開啟“自動駕駛模式”,不僅有效地解放了真人諸多日常繁瑣操作的時間,能夠24小時執行任務的數字“牛馬”也直接打開了Agent發展的無數可能性。
用嘴真能操作手機
Agent毫無疑問是AI行業2025年最炙手可熱的關鍵詞,Manus的出現一度讓Linux底座+調用外部API“套殼”成為了行業的主流選擇。但隨著Claude加緊對中國的限制,Manus“跑路”新加坡退出中國后,“套殼”智能體模式在中國顯然難以為繼。
同時,中國用戶側重移動端的特點也和傳統Agent重PC端輕移動端的思路有所沖突,對于AI智能體到底應該是什么產品形態,顯然需要更加了解中國用戶的中國公司去探索開發。
智譜總裁張鵬對觀察者網表示:“早在2023年底,(智譜)就決定一定要讓Agent有能力去使用手機,有能力去使用電腦,有能力去使用設備。”
他表示,一方面目前互聯網上,很多基礎設施都隱藏在各種網站和數據庫中,如果不采用類似人工點擊瀏覽器登錄的模式,也沒有辦法充分發揮個人所擁有的生產資料和數據帶給你的價值。
另一方面,如果AI不能自己操作設備,那么很多定時任務就需要人工點擊開始,而不能類似鬧鐘一般自動執行,也難言智能。
相比傳統的問答式和信息輔助式的手機智能助手主要通過AI輸出文本答案讓用戶自己根據指示操作,本次新發布的AutoGLM內置了智譜GLM4.5模型,不僅全部國產還實現了端到端操作設備的能力,讓AI真的長出了“手”,替用戶自動操作設備。
在我們的測試任務中,諸如在趙露思微博超話打卡,點開B站熱門視頻發布彈幕,美團下單奶茶等單一任務,AutoGLM都能迅速在無需干預的情況下一氣呵成,而傳統多模態模型的任務更是信手拈來。
AI生成莫奈風格雨中路人圖
面對稍微復雜一點的單一APP全鏈路操作,AutoGLM也能勝任。
在向AI提出“搜索知乎今日最熱門的話題,總結一下高贊評論的核心觀點,然后關注點贊數前三的博主”的需求后,AutoGLM直接登陸了知乎并看到了今日最熱門的話題《黑神話:鐘馗》的官宣,隨后整理了高贊內容的核心并順利的關注點贊了前三的答主。
而隨著任務進一步復雜涉及長鏈路,多應用交互的行為,AutoGLM也能做到常用場景下基礎操作層面的游刃有余。
再給出“播放QQ音樂,搜索今日熱門歌曲播放,然后搜索B站東方明珠大戰蜜雪冰城熱門視頻播放并一鍵三連”的提示后,AutoGLM成功播放了排行榜第一的熱門歌曲時代少年團“I Like U Like”,然后打開了B站搜索并播放了“在上海隨便喝蜜雪冰城,故鄉會保護你”的視頻
值得注意的是,AutoGLM并沒有在搜索結果中選擇標題中明確帶有東方明珠和蜜雪冰城字樣的內容,而是似乎理解了這個主題,選擇了播放量最高的相關內容。
不過在測試過程中,在支付、發布帖子等環節,依然需要人類接管確認,我們不止一次遇到在自動發布文案時觸發風控/系統連接限制等情況無法發帖的情況。
而想要使用云手機和云電腦,用戶需要提前在虛擬設備上登錄賬號。對于用戶安全和隱私問題,智譜表示,其云服務與阿里云合作,智譜并不會讀取用戶的登錄信息。但是如何贏得用戶的信任顯然并不是一個簡單的問題,也不是智譜一家企業能夠自行解決的痛點。本次智譜沒有在默認程序中內置微信這個國民應用的理由,恐怕也是出于這方面的用戶顧慮。
在初步體驗后,可以發現AutoGLM除了讓普通用戶也能體驗到AI智能體的便捷外,它的出現也顯著的幫助了另一個很容易被忽視的群體——中老年用戶。
互聯網時代,隨著數字化和智能化的發展,無論是銀行,醫院,還是政務類業務,在線或者掃碼辦理成為了司空見慣的日常,而很多APP的交互設計對于老年人群體來說難度顯而易見。
另一方面,中老年群體在自主學習如何下載APP時,也很容易在安裝各類APP軟件的過程中無意間下載廣告乃至詐騙軟件而不自知。
AutoGLM的出現給出了一個可行的解決方案,讓人適應APP轉變成了AI代人操作APP,用嘴操作手機,讓AI來實現萬物互聯的愿景,方便各類人群使用。
Agent“云端執行”的戰略拐點
相比Manus等Agent采用Linux+VSCode的配置范式,智譜本次采用了云端手機+電腦的技術新范式。
對于為何選擇云端執行的戰略,智譜總裁張鵬分享了AutoGLM的「3A 原則」:
Around-the-clock(全時),是指AI 必須能夠 24 小時待命并持續執行任務。無論用戶是在工作、睡覺還是娛樂,AI 都應在云端持續產出價值。
Autonomy without interference(自運轉、零干擾),官方也稱之為 Asynchronous (異步),其核心是 Agent 在云端設備的獨立運行,不占用用戶的本地屏幕和算力。
Affinity(全域連接),則意味著Agent 的能力不能局限于瀏覽器對話框,必須能連接手機、電腦、手表、眼鏡等多種設備與服務,打通數字世界與物理世界。這三大原則,共同構成了 AutoGLM 對一個成熟 Agent 形態的定義,也解釋了其當前產品架構。
而為了實現這個愿景,選擇云手機和電腦不僅能解決用戶和AI搶屏幕的痛點,也解決了軟件適配的難度,成為了順理成章的選擇。
AutoGLM技術負責人、算法研究員劉瀟對觀察者網解釋道:“如果智能體為滿足用戶需求諸如點外賣,發微信都需要搶占手機屏幕,AI在做事時真人就不能插手,這種讓人類二選一的情況既不智能也不合理,因此通過本地調用APP搶占用戶屏幕并不是一個合適的解決方案。”
搶屏幕帶來的一個副作用便是執行中斷的可能,鎖屏、網絡波動、切換應用等任何用戶行為都可能中斷 Agent 的長任務流。AI難以在用戶非關注時段(如睡眠、娛樂時)持續工作,其價值被大打折扣。
采用云手機/電腦的另一個動機則在于減少適配難度,尤其是安卓設備的適配難度,盡管每家基于安卓廠商的系統看著大差不差,實際上底層可謂大相徑庭,在這個系統生態下,自家的軟件能在哪個系統跑已經屬于玄學范疇,存在巨大的適配成本門檻。
具體到技術細節,過去,許多 Agent 的訓練依賴于監督微調(SFT),即學習人類專家的操作軌跡。這種方法的弊端是「泛化能力差」——AI 只會模仿它見過的操作,對于未見過的場景或界面改動,往往束手無策。
為了讓 Agent 在復雜多變的真實環境中(數千個并發的手機、電腦、瀏覽器環境)真正具備完成任務的能力,AutoGLM 團隊選擇了端到端在線強化學習的技術路線。
其核心思想是,在經過少量專家數據「冷啟動」后,讓模型在數千個并行的真實云環境中,像人類一樣去「試錯」。系統不再告訴模型「下一步該點哪里」,而是只在任務最終完成時給予一個「成功」的獎勵信號(Reward)。模型必須自己探索出最優的決策路徑。
從底層開始的原生設計,使得 AutoGLM 在多個公開基準測試中表現出色。比如,在考察電腦操作能力的 OSWorld Benchmark 中,AutoGLM 獲得 48.1 分,超越了 ChatGPT Agent 和 Anthropic 的模型。
而在跑分之外,智譜模型即Agent的模式也帶來了巨大的成本優化空間。
傳統基于第三方大模型API構建的Agent,單次復雜任務(如 Deep Research)的成本高達 3-5 美元。而 AutoGLM 借助自研模型和一體化架構,將包含模型調用和虛擬機資源的單次任務成本,壓縮到了約 0.2 美元(約 1.5 元人民幣)。這已經與谷歌單次搜索約 0.02 美元的成本相差不到一個數量級。
這種數量級的成本降低,讓智譜有底氣在此次發布中不用邀請碼,直接向所有 C 端用戶開放。
智能體背后的生態布局
除了在手機端布局,智譜對于AutoGLM的定位超越了單一的效率工具,開始構建一個連接多設備和服務的生態,這也是其將AutoGLM從智譜清言中獨立出來單獨做一個APP的理由之一。
智譜透露,除了已經展示的跨應用操作,AutoGLM的云電腦目標是支持 Office、Photoshop 等更專業的生產力工具。
而在后續的更新中AutoGLM將添加定時任務功能,即AI從被動接受命令執行響應轉變成半主動規劃,從每天早上根據自己的消費記錄買一杯合適口味的咖啡,到辦公室自動總結未讀郵件,也將從夢想走進現實。
而對智能硬件生態的賦能才是智譜真正的殺手锏。
目前的智能設備中,存在明顯的算力、續航和交互的不可能三角,如蘋果的Vision Pro存在續航短板,Meta Quest 2則存在顯著的算力短板,蘋果即將發布的桌面機器人更是在預告公布后因為糟糕的交互能力飽受詬病。
對于很多智能設備,堆大電池和復雜系統的解決方案并不合適,如何在性能合格情況下控制成本也成為了制約硬件廠商的痛點。
智譜AutoGLM對此提出的一個解法——讓這些端側硬件「輕量化」,只負責感知和發起指令,而將復雜的應用操作和任務執行全部交由云端的Agent完成。
智譜對觀察者網展示了若干案例,如體重秤接入智能體后,在檢測體重超標后自動下單減肥代餐,而氣體傳感器在接入了智能體后,一旦檢測到鞋柜發愁就會下單除臭腳墊。
打印機接入Agent實現缺墨自動購買
這條物理傳感器—云端 Agent—現實世界服務的鏈路,打開了智能體實現對物理世界的連接和操作的可能性。
對于AI和智能體發展的未來時,AutoGLM技術負責人劉瀟提出了一個關于 AGI(通用人工智能)的階段性定義,他稱之為“AGI 的下限”——當一個 Agent 能自主穩定地運行一整天(24小時),作為你的同事或秘書,協同完成工作與生活任務,使你的綜合效率提升超過 2 倍時,AGI 的曙光初現。
AutoGLM 的這次進化,或許離這個下限還有距離。它仍處于早期形態,對指令的理解還很初級,也存在一些Bug。但通過構建云端分身這一核心架構,它確實開始在為Agent的獨立行走鋪平道路。
從同步操作轉變為異步委托,或許是人機協作范式的轉變的開始,未來的個人競爭力可能取決于自身能力+N 個 AI 智能體模式,用戶通過下達指令,讓多個 AI 并行完成任務,從而根本性地改變個人處理日常與工作事務的方式。
而當智譜與一些手機廠商達成更系統級的合作后,這個Agent的想象空間將徹底打開,成為我們真正期待的數字助理。