2025 年幾乎被一致包裝成 AI Agent之年。從大模型到Agent轉(zhuǎn)向,行業(yè)講述的故事是,AI 不再只是一個會聊天、會生成文本的工具,而要變成能理解目標(biāo)、拆解任務(wù)、自動調(diào)用各種服務(wù)的“數(shù)字執(zhí)行者”。在 PPT 和發(fā)布會上,這聽起來是一次從會說話到會干活的范式轉(zhuǎn)變。
但第一批把這一愿景裝進硬件里的產(chǎn)品,很快給了現(xiàn)實的一記耳光。Rabbit R1 帶著 “Large Action Model” 的敘事亮相,號稱能像真人一樣在各類 App 里訂機票、點外賣、完成整條流程。然而真正到用戶手里,它更多像是一臺性能有限、響應(yīng)遲緩、依賴云端的一部功能不完善的手機,宣傳中的自動化場景要么不可用,要么極不穩(wěn)定,交互體驗也并未跳出傳統(tǒng)語音助手的框架,最終被普遍視為一場高調(diào)開局、低質(zhì)量收場的失敗實驗。
這并不意味著Agent本身是偽命題,而是提醒我們把Agent做成一臺獨立硬件,可能一開始就選錯了戰(zhàn)場。與其再造一塊昂貴卻雞肋的設(shè)備,不如把“能看、能想、能行動”的能力壓縮成一個可以嵌入任意應(yīng)用的輕量模型。
在這一背景下,昆侖萬維最新發(fā)布的Skywork R1V4-Lite(以下簡稱“R1V4-Lite”),試圖成為那個“能行動”的Agent。它不標(biāo)榜自己是巨無霸,反而強調(diào)“輕量級”(Lite),其核心定位是,首次在輕量級架構(gòu)下,統(tǒng)一了主動圖像操作、外部工具調(diào)用和多模態(tài)深度研究三大能力。
拋開噱頭,只討論感知—推理—行動這條鏈路本身時,今天的技術(shù)到底已經(jīng)走到了哪一步。
我們設(shè)計了一系列高難度的真實場景,來看看R1V4-Lite的表現(xiàn)。