国产专区一va亚洲v天堂,久久黄色影片,三级国产在线

在 AI 邁入多模態(tài)時代的當下，" 讓大模型上手機 "成為產業(yè)落地的焦點。

現(xiàn)有 MLLM 在手機端部署時常面臨兩大難題：

1、純語言任務性能下降：現(xiàn)有的端側 MLLM 在純文本的任務上表現(xiàn)不盡人意；

2、手機 NPU 不支持 MoE 架構：而 MoE 架構恰恰是多模態(tài)訓練中保持語言能力的常用手段（比如 CogVLM，Wings）。

vivo AI 研究院聯(lián)合港中文以及上交團隊為了攻克這些難題，從訓練數(shù)據(jù)和模型結構兩方面，系統(tǒng)性地分析了如何在 MLLM 訓練中維持純語言能力，并基于此提出了 GenieBlue ——專為移動端手機 NPU 設計的高效 MLLM 結構方案。目前已被 ICCV 2025 接收。

主要貢獻和技術亮點

1、現(xiàn)有端側 LLM 在支持多模態(tài)功能后，純語言任務準確率下降超 10%。GenieBlue 通過凍結原始 LLM 參數(shù)，并引入復制的 Transformer 層和輕量化的 LoRA 模塊，在多模態(tài)訓練的過程中保留原始的語言能力。

2、通過大規(guī)模微調，GenieBlue 達到與主流 MLLM 相媲美的多模態(tài)能力，并完全保留原始純語言性能。

3、避開當前 NPU 不支持的 MoE 架構，采用不共享基座的推理策略。在搭載高通驍龍 8 Elite（第四代）芯片的手機上實現(xiàn)流暢運行。

技術背景

1、當前的端側 MLLM 無法取得令人滿意的純語言能力

在 MATH（客觀難題）、AlignBench 和 MT-Bench（主觀題）上測試主流開源 MLLM 的純語言能力，并與原始 LLM 進行了對比。

其中，Wings 是 NeurIPS 2024 提出的多模態(tài)訓練中保持語言能力的方案。測試結果表明，當前多模態(tài)大模型雖然在圖文任務上表現(xiàn)優(yōu)異，但在純語言任務上普遍存在顯著性能下降，降幅大多超過 10%。相比之下，GenieBlue 在保持多模態(tài)能力的同時，未出現(xiàn)任何純語言能力的損失。

2、目前主流的手機 NPU 平臺尚不支持部署 MoE 結構

由于 MoE 架構對內存帶寬和容量要求較高，主流移動端 NPU 平臺尚未提供支持。測試顯示，包括聯(lián)發(fā)科天璣 9400 和高通驍龍 8 Elite 在內的旗艦 SoC，其 NPU 均無法有效部署標準 MoE 模型。

基于上述兩個發(fā)現(xiàn)，團隊從訓練數(shù)據(jù)和模型結構兩個方面詳細探討了多模態(tài)訓練過程中保持純語言性能的方法。

語言性能維持 - 數(shù)據(jù)角度

在 MLLM 訓練過程中，保持純語言能力最直接常用的方法是在訓練數(shù)據(jù)中加入純文本數(shù)據(jù)。目前 InternVL2.5 和 Qwen2.5-VL 都采用了這種方法。但這種方法存在兩個主要問題：一是難以收集大量高質量的純文本指令微調數(shù)據(jù)，特別是針對主觀性 NLP 任務的數(shù)據(jù)；二是在 MLLM 訓練中加入大量純文本數(shù)據(jù)會顯著增加訓練時間。

為了驗證該方法的有效性，從 ViT 與 LLM 開始全量微調一個 MLLM。具體地，模型基于面向手機端部署的 BlueLM-V-3B 架構，ViT 部分使用 SigLIP，LLM 部分使用 BlueLM-3B 或 Qwen2.5-3B。訓練流程參考 Cambrian-1，先用提供的 250 萬對齊數(shù)據(jù)預訓練，再用 700 萬數(shù)據(jù)進行微調。為對比，在微調階段額外加入 200 萬純文本數(shù)據(jù)，主要來自 InternVL2.5，如下表所示。

在 7 個常見 LLM 測評集和 7 個常見 MLLM 測評集上測試了模型的訓練效果，得到兩個主要結論：

1、加入純文本數(shù)據(jù)對多模態(tài)能力影響有限

在訓練中引入了包含 200 萬樣本的額外純語言數(shù)據(jù)，發(fā)現(xiàn)模型的多模態(tài)能力幾乎未受影響。這一現(xiàn)象表明，在多模態(tài)大模型訓練過程中，適量加入純文本數(shù)據(jù)對模型的多模態(tài)表現(xiàn)并無顯著影響。

2、純文本數(shù)據(jù)對客觀類 NLP 任務有一定提升，但對主觀類任務幫助不大

引入 700 萬多模態(tài)數(shù)據(jù)后，原始語言模型在客觀與主觀語言任務上的表現(xiàn)均出現(xiàn)明顯下降。為緩解這一問題，團隊借鑒 InternVL2.5 的方法，額外加入了 200 萬條純文本數(shù)據(jù)進行訓練。然而由于目前缺乏足夠高質量的人類對齊數(shù)據(jù)，這部分純文本僅在客觀 NLP 任務上帶來部分性能恢復，對主觀任務幾乎無幫助。這表明，當前通過添加純文本來維持語言模型原有能力仍面臨較大挑戰(zhàn)。

語言性能維持 - 模型結構角度

上述實驗表明，僅靠增加純文本數(shù)據(jù)來維持多模態(tài)大模型的語言能力效果有限。為此，另一類方法嘗試通過架構設計來增強語言表現(xiàn)，例如 CogVLM 和 Wings 采用 MoE 結構來提升模型性能。

然而在實際部署中發(fā)現(xiàn)，Wings 雖然設計復雜，但純語言任務性能平均下降超過 20%，無法滿足實際應用需求；而 CogVLM 在每個 Transformer 層旁邊加上視覺專家模塊，并凍結原始語言模型，從而在多模態(tài)輸入下保持其純語言能力不變。

盡管這一方式在精度上更穩(wěn)定，但也存在兩大問題：

其一，部署時需同時加載 LLM 和視覺專家模塊，顯著增加內存開銷；

其二，當前手機 NPU 尚不支持 MoE 模型運行，導致模型難以在移動端真正落地。

這些挑戰(zhàn)說明，提升語言能力與實現(xiàn)高效部署之間仍需更好的權衡策略。

為完整評估 CogVLM 方法在多模態(tài)訓練中的效果，基于 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型進行實驗。為緩解部署中的內存壓力，僅在 1/4 的 Transformer 層中加入視覺專家模塊，分別嘗試插入在前 1/4（Pre）、后 1/4（Post）和每隔 1/4（Skip）的位置。同時，對其余層的注意力和前饋模塊加入 LoRA 權重。在此基礎上，將三種 CogVLM 策略與全量微調和全 LoRA 訓練進行對比，并列出訓練中涉及的可學習參數(shù)量（包括 ViT 和投影層）。

這一實驗有助于理解不同多模態(tài)訓練策略在性能和參數(shù)效率之間的權衡。得到兩個主要結論：

1、與全量微調相比，LoRA 和 CogVLM 方法都會不同程度地削弱多模態(tài)大模型的性能。

由于可訓練參數(shù)數(shù)量受限，LoRA 和 CogVLM 的多模態(tài)性能仍略低于全量微調，但整體已可達 90% 以上。其中，CogVLM 在多模態(tài)表現(xiàn)上優(yōu)于 LoRA。值得注意的是，全量微調雖然多模態(tài)能力最強，但會顯著削弱純文本任務的效果；相比之下，LoRA 和 CogVLM 采用不共享基座模型的部署策略，在提升多模態(tài)能力的同時，能夠保持純文本性能不受影響。

2、對于 CogVLM，將視覺專家模塊均勻插入至整個模型的 1/4 層位置，能夠實現(xiàn)最佳的 MLLM 性能表現(xiàn)。

在 CogVLM 方法中，將視覺專家模塊添加到每 1/4 層的位置（即每隔若干層插入一次，覆蓋總層數(shù)的 1/4），能使多模態(tài)大模型的性能達到全量微調的 96% 以上。同時，CogVLM 的訓練方式不會影響純文本任務表現(xiàn)，基于此，團隊選擇以此方法為基礎設計了 GenieBlue。

GenieBlue 的設計

1、模型結構

基于 CogVLM 結構進行改進，重點考慮了當前手機 NPU 對 MoE 架構的限制。CogVLM 的核心思想是將文本和多模態(tài)信息分開處理，采用 MoE 架構由不同專家分別負責文本和視覺 Token。而設計原則則繞開 MoE，通過為 LLM 和多模態(tài)模型部署選擇不同權重，保持原始 LLM 架構在多模態(tài)推理時不變。

GenieBlue 框架如上圖所示。為節(jié)省手機端模型存儲和部署內存，在 LLM 中每 1/4 的位置復制一組 Transformer 層，其余層加入 LoRA 模塊。

在多模態(tài)訓練階段，凍結原始 LLM，僅對 ViT、投影層、復制的 Transformer 塊和新增的 LoRA 參數(shù)進行訓練。

推理時采用不共基座的部署策略。純文本任務使用未修改的原始 LLM 計算；多模態(tài)任務則用訓練好的復制 Transformer 塊替換對應層，同時在其余層添加 LoRA 參數(shù)。這種不共基座策略有效避免了 MoE 架構，將 LLM 和多模態(tài)模型推理解耦。實際 NPU 部署時，只需替換權重并加載 LoRA 模塊，簡化了部署流程，提高了效率。

基于 250 萬預訓練數(shù)據(jù)和 900 萬微調數(shù)據(jù)，使用 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型，將提出的 GenieBlue 與全量微調和 CogVLM 方法進行了對比評測。

GenieBlue-Skip 實現(xiàn)了最佳的多模態(tài)性能表現(xiàn)，且優(yōu)于 CogVLM-Skip 方法。

2、不共基座部署方案

通過將 LLM 和 MLLM 的推理過程分離，采用 GenieBlue 的不共基座部署策略可以有效保持原始 LLM 的純語言能力。

為驗證該策略的重要性，在 LLM 基準測試中對比了共基座和不共基座兩種部署方式。共基座表示將 LLM 和多模態(tài)模型推理流程合并，純文本任務推理時也使用全訓練的 Transformer 層和 LoRA 模塊。此外還展示了 BlueLM-3B 和 Qwen2.5-3B 在全量微調和全 LoRA 訓練下的 NLP 性能。

采用不共基座的部署策略，在純文本任務上表現(xiàn)出顯著優(yōu)于共基座部署的語言能力。

訓練和部署方案

基于對訓練數(shù)據(jù)和模型結構的分析，最終確定了 GenieBlue-Skip 模型結構及不共基座部署策略。

1、訓練方案

采用 GenieBlue-Skip 結構，嚴格按照 BlueLM-V-3B 的訓練方案和數(shù)據(jù)進行訓練。訓練分兩階段：第一階段使用 250 萬預訓練數(shù)據(jù)，僅訓練 MLP 投影層，凍結 ViT 和 LLM；第二階段用 6.45 億微調數(shù)據(jù)，微調 ViT、投影層、復制的 Transformer 塊及新增的 LoRA 參數(shù)，保持原始 LLM 凍結。訓練中，ViT 采用 SigLIP，LLM 為 BlueLM-3B，LoRA 秩設置為 8。

2、部署方案

將 GenieBlue 部署在搭載高通驍龍 8 Elite（第四代）SoC 的 iQOO 13 手機 NPU 上，采用高通 QNN SDK 進行模型部署。ViT 和投影層采用 W8A16 量化，LLM 采用 W4A16 量化，新增的 LoRA 參數(shù)同樣使用 W8A16 量化。目前支持單 Patch 的 ViT 推理。需要特別說明的是，驍龍 8 Elite 的 NPU 平臺暫不支持 MoE 架構的部署。

GenieBlue 的準確率和部署效果

團隊驗證了 GenieBlue 的多模態(tài)、純語言準確率以及在手機 NPU 上的部署效率。

1、多模態(tài)準確率

GenieBlue 與參數(shù)量小于 40 億的其他 MLLM 進行了對比。GenieBlue 的多模態(tài)準確率略低于 Qwen2.5-VL-3B，但保留了 BlueLM-V-3B 約 97% 的性能。此外，GenieBlue 在平均表現(xiàn)上略優(yōu)于 InternVL2-8B。

2、純語言準確率

GenieBlue 最大特點是采用不共基座部署策略，能夠保持原始語言模型性能不受影響。在多個代表性基準測試上對其語言能力進行了評測。作為對比，選擇了通過加入純文本數(shù)據(jù)保持語言性能的 Qwen2.5VL-3B。GenieBlue 在語言能力上無任何下降，而 Qwen2.5VL-3B 尤其在主觀任務中存在一定程度的性能退化。這表明，與單純增加純文本數(shù)據(jù)相比，目前探索模型結構設計更有助于維持語言模型的純文本能力。

3、部署效率

在搭載高通驍龍 8 Elite（第四代）SoC 的設備上，采用不共基座部署策略實現(xiàn)了 GenieBlue，支持單 Patch 的 ViT 推理，并展示了 BlueLM-V-3B 與 GenieBlue 的部署效率對比。由于增加了 LoRA 參數(shù)，GenieBlue 的模型加載時間稍長，存儲和內存需求略增，輸出速度略有下降，但 30token/s 的速度完全滿足移動設備的日常使用需求。

總結

本文從移動設備實際部署出發(fā)，聚焦如何保持純語言能力，深入分析了訓練數(shù)據(jù)和模型結構兩方面的影響，探索有效策略。基于這些分析提出 GenieBlue ——專為移動端打造的高效且硬件友好的多模態(tài)大模型，能夠融合語言理解與多模態(tài)能力。GenieBlue 在訓練時凍結原始語言模型參數(shù)，利用復制的 Transformer 層和輕量的 LoRA 模塊獲得多模態(tài)能力，既保持了語言性能，又實現(xiàn)了有競爭力的多模態(tài)表現(xiàn)。在智能手機 NPU 上的部署驗證了其實際可行性和高效性，是移動端邊緣計算的有力解決方案。團隊期待此項工作為該領域未來研究帶來有益啟示。

論文地址：

https://arxiv.org/pdf/2503.06019

一鍵三連「點贊」「轉發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

點亮星標

科技前沿進展每日見

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

vivo 突破手機 AI 部署難題，繞開 MoE 架構限制，驍龍 8 Elite 流暢運行

宙世代

一起剪

相關閱讀

索尼手機撤出芬蘭：昔日手機巨頭走向衰落

美國最大的100個廣告主名單：亞馬遜等電商零售行業(yè)廣告費最高

卸任釘釘CEO不足兩月：阿里副總裁葉軍離職！本人回應

扎克伯格挖角蘋果，集齊9大華裔AI天才

安卓迎來大變化：ChromeOS將跟安卓合并

電商平臺出現(xiàn)涉詐店鋪：故意發(fā)錯商品 補償引誘詐騙

寧德時代曾毓群點贊樂道L90“這么大” 李斌哈哈大笑 ：感謝曾總點贊

我去配了一副 AI 眼鏡，發(fā)現(xiàn)近視不配用 AI 眼鏡？

滿屏都是外賣補貼 網友：外賣戰(zhàn)再不停就要喝出糖尿病了

沖刺上市的Momenta，需要讓“兩條腿”跑得更快

停工停產后 羅馬仕重啟天貓旗艦店 客服稱正在慢慢恢復

這是學廢了！AI也存在性別偏見：同條件下建議女性薪資遠低于男性

PlayStation參展BW 小島秀夫攜《死亡擱淺2》中配陣容亮相舞臺

半年專利200+，解碼“愛優(yōu)騰芒B”的AI野心

蘋果手機充電突然爆炸起火 辦公椅被燒壞了 員工果斷拽掉插座拿水澆滅

最新評論

量子位

熱門推薦

電商平臺出現(xiàn)涉詐店鋪：故意發(fā)錯商品補償引誘詐騙

寧德時代曾毓群點贊樂道L90“這么大” 李斌哈哈大笑：感謝曾總點贊

滿屏都是外賣補貼網友：外賣戰(zhàn)再不停就要喝出糖尿病了

停工停產后羅馬仕重啟天貓旗艦店客服稱正在慢慢恢復

蘋果手機充電突然爆炸起火辦公椅被燒壞了員工果斷拽掉插座拿水澆滅