在 AI 邁入多模態(tài)時代的當下," 讓大模型上手機 "成為產業(yè)落地的焦點。
現(xiàn)有 MLLM 在手機端部署時常面臨兩大難題:
1、純語言任務性能下降:現(xiàn)有的端側 MLLM 在純文本的任務上表現(xiàn)不盡人意;
2、手機 NPU 不支持 MoE 架構:而 MoE 架構恰恰是多模態(tài)訓練中保持語言能力的常用手段(比如 CogVLM,Wings)。
vivo AI 研究院聯(lián)合港中文以及上交團隊為了攻克這些難題,從訓練數(shù)據(jù)和模型結構兩方面,系統(tǒng)性地分析了如何在 MLLM 訓練中維持純語言能力,并基于此提出了 GenieBlue ——專為移動端手機 NPU 設計的高效 MLLM 結構方案。目前已被 ICCV 2025 接收。
1、現(xiàn)有端側 LLM 在支持多模態(tài)功能后,純語言任務準確率下降超 10%。GenieBlue 通過凍結原始 LLM 參數(shù),并引入復制的 Transformer 層和輕量化的 LoRA 模塊,在多模態(tài)訓練的過程中保留原始的語言能力。
2、通過大規(guī)模微調,GenieBlue 達到與主流 MLLM 相媲美的多模態(tài)能力,并完全保留原始純語言性能。
3、避開當前 NPU 不支持的 MoE 架構,采用不共享基座的推理策略。在搭載高通驍龍 8 Elite(第四代)芯片的手機上實現(xiàn)流暢運行。
技術背景
1、當前的端側 MLLM 無法取得令人滿意的純語言能力
在 MATH(客觀難題)、AlignBench 和 MT-Bench(主觀題)上測試主流開源 MLLM 的純語言能力,并與原始 LLM 進行了對比。
其中,Wings 是 NeurIPS 2024 提出的多模態(tài)訓練中保持語言能力的方案。測試結果表明,當前多模態(tài)大模型雖然在圖文任務上表現(xiàn)優(yōu)異,但在純語言任務上普遍存在顯著性能下降,降幅大多超過 10%。相比之下,GenieBlue 在保持多模態(tài)能力的同時,未出現(xiàn)任何純語言能力的損失。
由于 MoE 架構對內存帶寬和容量要求較高,主流移動端 NPU 平臺尚未提供支持。測試顯示,包括聯(lián)發(fā)科天璣 9400 和高通驍龍 8 Elite 在內的旗艦 SoC,其 NPU 均無法有效部署標準 MoE 模型。
基于上述兩個發(fā)現(xiàn),團隊從訓練數(shù)據(jù)和模型結構兩個方面詳細探討了多模態(tài)訓練過程中保持純語言性能的方法。
語言性能維持 - 數(shù)據(jù)角度
在 MLLM 訓練過程中,保持純語言能力最直接常用的方法是在訓練數(shù)據(jù)中加入純文本數(shù)據(jù)。目前 InternVL2.5 和 Qwen2.5-VL 都采用了這種方法。但這種方法存在兩個主要問題:一是難以收集大量高質量的純文本指令微調數(shù)據(jù),特別是針對主觀性 NLP 任務的數(shù)據(jù);二是在 MLLM 訓練中加入大量純文本數(shù)據(jù)會顯著增加訓練時間。
為了驗證該方法的有效性,從 ViT 與 LLM 開始全量微調一個 MLLM。具體地,模型基于面向手機端部署的 BlueLM-V-3B 架構,ViT 部分使用 SigLIP,LLM 部分使用 BlueLM-3B 或 Qwen2.5-3B。訓練流程參考 Cambrian-1,先用提供的 250 萬對齊數(shù)據(jù)預訓練,再用 700 萬數(shù)據(jù)進行微調。為對比,在微調階段額外加入 200 萬純文本數(shù)據(jù),主要來自 InternVL2.5,如下表所示。
在訓練中引入了包含 200 萬樣本的額外純語言數(shù)據(jù),發(fā)現(xiàn)模型的多模態(tài)能力幾乎未受影響。這一現(xiàn)象表明,在多模態(tài)大模型訓練過程中,適量加入純文本數(shù)據(jù)對模型的多模態(tài)表現(xiàn)并無顯著影響。
2、純文本數(shù)據(jù)對客觀類 NLP 任務有一定提升,但對主觀類任務幫助不大
引入 700 萬多模態(tài)數(shù)據(jù)后,原始語言模型在客觀與主觀語言任務上的表現(xiàn)均出現(xiàn)明顯下降。為緩解這一問題,團隊借鑒 InternVL2.5 的方法,額外加入了 200 萬條純文本數(shù)據(jù)進行訓練。然而由于目前缺乏足夠高質量的人類對齊數(shù)據(jù),這部分純文本僅在客觀 NLP 任務上帶來部分性能恢復,對主觀任務幾乎無幫助。這表明,當前通過添加純文本來維持語言模型原有能力仍面臨較大挑戰(zhàn)。
語言性能維持 - 模型結構角度
上述實驗表明,僅靠增加純文本數(shù)據(jù)來維持多模態(tài)大模型的語言能力效果有限。為此,另一類方法嘗試通過架構設計來增強語言表現(xiàn),例如 CogVLM 和 Wings 采用 MoE 結構來提升模型性能。
然而在實際部署中發(fā)現(xiàn),Wings 雖然設計復雜,但純語言任務性能平均下降超過 20%,無法滿足實際應用需求;而 CogVLM 在每個 Transformer 層旁邊加上視覺專家模塊,并凍結原始語言模型,從而在多模態(tài)輸入下保持其純語言能力不變。
盡管這一方式在精度上更穩(wěn)定,但也存在兩大問題:
其一,部署時需同時加載 LLM 和視覺專家模塊,顯著增加內存開銷;
其二,當前手機 NPU 尚不支持 MoE 模型運行,導致模型難以在移動端真正落地。
這些挑戰(zhàn)說明,提升語言能力與實現(xiàn)高效部署之間仍需更好的權衡策略。
為完整評估 CogVLM 方法在多模態(tài)訓練中的效果,基于 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型進行實驗。為緩解部署中的內存壓力,僅在 1/4 的 Transformer 層中加入視覺專家模塊,分別嘗試插入在前 1/4(Pre)、后 1/4(Post)和每隔 1/4(Skip)的位置。同時,對其余層的注意力和前饋模塊加入 LoRA 權重。在此基礎上,將三種 CogVLM 策略與全量微調和全 LoRA 訓練進行對比,并列出訓練中涉及的可學習參數(shù)量(包括 ViT 和投影層)。
這一實驗有助于理解不同多模態(tài)訓練策略在性能和參數(shù)效率之間的權衡。得到兩個主要結論:
由于可訓練參數(shù)數(shù)量受限,LoRA 和 CogVLM 的多模態(tài)性能仍略低于全量微調,但整體已可達 90% 以上。其中,CogVLM 在多模態(tài)表現(xiàn)上優(yōu)于 LoRA。值得注意的是,全量微調雖然多模態(tài)能力最強,但會顯著削弱純文本任務的效果;相比之下,LoRA 和 CogVLM 采用不共享基座模型的部署策略,在提升多模態(tài)能力的同時,能夠保持純文本性能不受影響。
2、對于 CogVLM,將視覺專家模塊均勻插入至整個模型的 1/4 層位置,能夠實現(xiàn)最佳的 MLLM 性能表現(xiàn)。
在 CogVLM 方法中,將視覺專家模塊添加到每 1/4 層的位置(即每隔若干層插入一次,覆蓋總層數(shù)的 1/4),能使多模態(tài)大模型的性能達到全量微調的 96% 以上。同時,CogVLM 的訓練方式不會影響純文本任務表現(xiàn),基于此,團隊選擇以此方法為基礎設計了 GenieBlue。
GenieBlue 的設計
1、模型結構
基于 CogVLM 結構進行改進,重點考慮了當前手機 NPU 對 MoE 架構的限制。CogVLM 的核心思想是將文本和多模態(tài)信息分開處理,采用 MoE 架構由不同專家分別負責文本和視覺 Token。而設計原則則繞開 MoE,通過為 LLM 和多模態(tài)模型部署選擇不同權重,保持原始 LLM 架構在多模態(tài)推理時不變。
在多模態(tài)訓練階段,凍結原始 LLM,僅對 ViT、投影層、復制的 Transformer 塊和新增的 LoRA 參數(shù)進行訓練。
推理時采用不共基座的部署策略。純文本任務使用未修改的原始 LLM 計算;多模態(tài)任務則用訓練好的復制 Transformer 塊替換對應層,同時在其余層添加 LoRA 參數(shù)。這種不共基座策略有效避免了 MoE 架構,將 LLM 和多模態(tài)模型推理解耦。實際 NPU 部署時,只需替換權重并加載 LoRA 模塊,簡化了部署流程,提高了效率。
基于 250 萬預訓練數(shù)據(jù)和 900 萬微調數(shù)據(jù),使用 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型,將提出的 GenieBlue 與全量微調和 CogVLM 方法進行了對比評測。
2、不共基座部署方案
通過將 LLM 和 MLLM 的推理過程分離,采用 GenieBlue 的不共基座部署策略可以有效保持原始 LLM 的純語言能力。
為驗證該策略的重要性,在 LLM 基準測試中對比了共基座和不共基座兩種部署方式。共基座表示將 LLM 和多模態(tài)模型推理流程合并,純文本任務推理時也使用全訓練的 Transformer 層和 LoRA 模塊。此外還展示了 BlueLM-3B 和 Qwen2.5-3B 在全量微調和全 LoRA 訓練下的 NLP 性能。
訓練和部署方案
基于對訓練數(shù)據(jù)和模型結構的分析,最終確定了 GenieBlue-Skip 模型結構及不共基座部署策略。
1、訓練方案
采用 GenieBlue-Skip 結構,嚴格按照 BlueLM-V-3B 的訓練方案和數(shù)據(jù)進行訓練。訓練分兩階段:第一階段使用 250 萬預訓練數(shù)據(jù),僅訓練 MLP 投影層,凍結 ViT 和 LLM;第二階段用 6.45 億微調數(shù)據(jù),微調 ViT、投影層、復制的 Transformer 塊及新增的 LoRA 參數(shù),保持原始 LLM 凍結。訓練中,ViT 采用 SigLIP,LLM 為 BlueLM-3B,LoRA 秩設置為 8。
2、部署方案
將 GenieBlue 部署在搭載高通驍龍 8 Elite(第四代)SoC 的 iQOO 13 手機 NPU 上,采用高通 QNN SDK 進行模型部署。ViT 和投影層采用 W8A16 量化,LLM 采用 W4A16 量化,新增的 LoRA 參數(shù)同樣使用 W8A16 量化。目前支持單 Patch 的 ViT 推理。需要特別說明的是,驍龍 8 Elite 的 NPU 平臺暫不支持 MoE 架構的部署。
GenieBlue 的準確率和部署效果
團隊驗證了 GenieBlue 的多模態(tài)、純語言準確率以及在手機 NPU 上的部署效率。
1、多模態(tài)準確率
GenieBlue 與參數(shù)量小于 40 億的其他 MLLM 進行了對比。GenieBlue 的多模態(tài)準確率略低于 Qwen2.5-VL-3B,但保留了 BlueLM-V-3B 約 97% 的性能。此外,GenieBlue 在平均表現(xiàn)上略優(yōu)于 InternVL2-8B。
GenieBlue 最大特點是采用不共基座部署策略,能夠保持原始語言模型性能不受影響。在多個代表性基準測試上對其語言能力進行了評測。作為對比,選擇了通過加入純文本數(shù)據(jù)保持語言性能的 Qwen2.5VL-3B。GenieBlue 在語言能力上無任何下降,而 Qwen2.5VL-3B 尤其在主觀任務中存在一定程度的性能退化。這表明,與單純增加純文本數(shù)據(jù)相比,目前探索模型結構設計更有助于維持語言模型的純文本能力。
在搭載高通驍龍 8 Elite(第四代)SoC 的設備上,采用不共基座部署策略實現(xiàn)了 GenieBlue,支持單 Patch 的 ViT 推理,并展示了 BlueLM-V-3B 與 GenieBlue 的部署效率對比。由于增加了 LoRA 參數(shù),GenieBlue 的模型加載時間稍長,存儲和內存需求略增,輸出速度略有下降,但 30token/s 的速度完全滿足移動設備的日常使用需求。
本文從移動設備實際部署出發(fā),聚焦如何保持純語言能力,深入分析了訓練數(shù)據(jù)和模型結構兩方面的影響,探索有效策略。基于這些分析提出 GenieBlue ——專為移動端打造的高效且硬件友好的多模態(tài)大模型,能夠融合語言理解與多模態(tài)能力。GenieBlue 在訓練時凍結原始語言模型參數(shù),利用復制的 Transformer 層和輕量的 LoRA 模塊獲得多模態(tài)能力,既保持了語言性能,又實現(xiàn)了有競爭力的多模態(tài)表現(xiàn)。在智能手機 NPU 上的部署驗證了其實際可行性和高效性,是移動端邊緣計算的有力解決方案。團隊期待此項工作為該領域未來研究帶來有益啟示。
論文地址:
https://arxiv.org/pdf/2503.06019
一鍵三連「點贊」「轉發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見