ollama v0.19.0 發(fā)布！Web 搜索插件上線、多模型兼容修復(fù)、MLX 與 KV 緩存全面優(yōu)化，本地大模型體驗(yàn)再升級

2026-03-31 00:14:03　來源: moonfdd

北京舉報

分享至

ollama v0.19.0于2026年3月30日正式發(fā)布，作為本地大模型部署與運(yùn)行的核心工具，本次更新聚焦用戶體驗(yàn)優(yōu)化、功能增強(qiáng)與底層問題修復(fù)，覆蓋應(yīng)用交互、插件能力、API性能、模型兼容、MLX運(yùn)行器、注意力機(jī)制等多個核心維度，同時包含26次提交、58個文件改動，全面提升ollama的穩(wěn)定性、兼容性與實(shí)用性。

一、核心功能更新

1.應(yīng)用體驗(yàn)優(yōu)化
ollama應(yīng)用將不再錯誤顯示“模型已過時”提示，徹底解決此前版本中模型狀態(tài)判斷異常的問題，避免用戶被無效提示干擾，提升使用流暢度。
2.Web搜索插件集成
ollama launch pi功能新增內(nèi)置Web搜索插件，該插件直接使用ollama官方Web搜索能力，無需額外配置即可讓本地模型具備聯(lián)網(wǎng)搜索能力，拓展本地大模型的信息獲取邊界，支持實(shí)時檢索最新數(shù)據(jù)。
3.Anthropic兼容API性能提升
優(yōu)化使用Anthropic兼容API時的KV緩存命中率，減少重復(fù)計算與資源消耗，提升API調(diào)用的響應(yīng)速度與效率，尤其在高頻、長對話場景下效果顯著。
4.Qwen3.5模型工具調(diào)用修復(fù)
修復(fù)Qwen3.5模型工具調(diào)用解析問題，解決此前版本中工具調(diào)用內(nèi)容被錯誤輸出在思考模塊的問題，確保工具調(diào)用邏輯清晰、結(jié)果準(zhǔn)確，保障Qwen3.5模型的函數(shù)調(diào)用能力正常生效。
5.MLX運(yùn)行器增強(qiáng)

? MLX運(yùn)行器在提示詞處理過程中會創(chuàng)建周期性快照，實(shí)現(xiàn)狀態(tài)的持續(xù)備份，避免處理中斷導(dǎo)致的進(jìn)度丟失；
? 修復(fù)MLX運(yùn)行器中KV緩存快照的內(nèi)存泄漏問題，優(yōu)化內(nèi)存資源占用，提升長時間運(yùn)行的穩(wěn)定性；
? 優(yōu)化MLX運(yùn)行器的緩存驅(qū)逐與LRU跟蹤邏輯，提升緩存管理效率；
? 合并setStateRaw與setStateDetached為setState，簡化API調(diào)用邏輯，降低開發(fā)與使用復(fù)雜度。

6.模型兼容與機(jī)制修復(fù)

? 修復(fù)Grok模型的Flash Attention錯誤啟用問題，確保Grok模型在ollama中運(yùn)行時，注意力機(jī)制配置符合模型特性，避免性能異常或兼容性問題；
? 解決qwen3-next:80b模型無法在ollama中加載的問題，完善對該大參數(shù)模型的支持，拓展ollama可運(yùn)行的模型范圍。

二、提交與改動詳情（按時間梳理） 2026年3月25日

? ggml模塊：強(qiáng)制關(guān)閉Grok模型的Flash Attention，從底層解決Grok模型注意力機(jī)制配置錯誤問題。

2026年3月26日

? MLX模塊：修復(fù)KV緩存快照內(nèi)存泄漏，優(yōu)化內(nèi)存管理；
? MLX運(yùn)行器：改進(jìn)緩存驅(qū)逐與LRU跟蹤邏輯，提升緩存效率；
? MLX運(yùn)行器：在預(yù)填充階段調(diào)度周期性快照，實(shí)現(xiàn)狀態(tài)自動備份；
? MLX運(yùn)行器：合并setState相關(guān)接口，簡化調(diào)用邏輯；
? 文檔：更新VS Code相關(guān)文檔，完善開發(fā)工具集成說明；
? launch模塊：隱藏VS Code集成入口、Cline集成入口；
? launch/vscode模塊：優(yōu)先使用已知VS Code路徑，而非PATH中的code命令，提升工具調(diào)用準(zhǔn)確性。

2026年3月27日

? TUI模塊：更新聊天標(biāo)題，優(yōu)化交互界面展示；
? CI模塊：在Linux系統(tǒng)中包含MLX JIT頭文件，完善編譯依賴；
? launch模塊：對本地模型，當(dāng)服務(wù)器上下文長度低于64k時發(fā)出警告，幫助用戶提前規(guī)避長文本處理問題；
? CI模塊：強(qiáng)化CUDA包含路徑處理，提升GPU環(huán)境兼容性；
? 模型解析器：修復(fù)Qwen3.5工具塊在思考塊中啟動時的關(guān)閉邏輯，解決工具調(diào)用解析異常；
? 解析器：優(yōu)化Qwen3.5流式工具調(diào)用解析，并添加回歸測試，保障功能穩(wěn)定性；
? 應(yīng)用模塊：修復(fù)模型“過時”錯誤提示，優(yōu)化用戶體驗(yàn)；
? Anthropic模塊：修復(fù)因工具調(diào)用參數(shù)重排序?qū)е碌腒V緩存復(fù)用降級問題，提升API性能；
? launch模塊：跳過MLX模型的上下文長度警告，并顯示模型名稱，優(yōu)化提示邏輯；
? Anthropic模塊：修復(fù)內(nèi)容塊中的空輸入問題，避免API調(diào)用異常；
? 服務(wù)器模塊：拉取模型時保留原始清單字節(jié)，保障模型完整性。

2026年3月28日

? MLX模塊：修復(fù)視覺能力與最低版本兼容問題，完善多模態(tài)支持；
? launch模塊：自動安裝pi并管理Web搜索生命周期，簡化插件使用流程；
? launch模塊：優(yōu)化已添加模型的多選功能，提升操作便捷性；
? 回滾上下文長度警告變更，調(diào)整提示策略。

2026年3月29日

? 模型模塊：為qwen3-next添加對傳統(tǒng)ssm_in投影的兼容性，解決模型加載失敗問題；
? 命令模塊：在配置中設(shè)置OpenCode默認(rèn)模型，優(yōu)化模型調(diào)用默認(rèn)配置。

三、更新總結(jié)

代碼地址：bgithub.xyz/ollama/ollama

ollama v0.19.0版本從用戶體驗(yàn)、功能拓展、底層性能、模型兼容四大方向發(fā)力，新增Web搜索插件拓展本地模型能力，修復(fù)多模型（Qwen3.5、Grok、qwen3-next:80b）的核心問題，優(yōu)化MLX運(yùn)行器與KV緩存機(jī)制，同時完善API、CI、工具集成等模塊的細(xì)節(jié)，全面提升ollama的穩(wěn)定性、兼容性與易用性，為本地大模型開發(fā)者與用戶提供更優(yōu)質(zhì)的運(yùn)行環(huán)境。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.