網易首頁 > 網易號 > 正文申請入駐

Gemini Embedding 2：首個原生五模態 embedding 模型

2026-03-11 14:04:26　來源: 賽博禪心

北京舉報

分享至

Google DeepMind 今天發了Gemini Embedding 2，第一個原生五模態 embedding 模型
文本、圖片、視頻、音頻、PDF，五種東西，首次編碼進同一個向量空間

https://x.com/OfficialLoganK/status/2031411916489298156 它能處理什么

五種模態，支持 100+ 語言：

? 文本：最多 8192 個 input tokens
? 圖片：每次最多 6 張，PNG / JPEG
? 視頻：最長 128 秒，MP4 / MOV
? 音頻：最長 80 秒，MP3 / WAV（不支持 AAC、FLAC）
? PDF：最多 6 頁

這五種東西可以混著傳。一次 API 調用里同時丟一段文字、三張圖、一段錄音進去，模型返回一個向量，這個向量理解的是它們之間的關系

以前要做類似的事（比如用一句話搜到相關的視頻片段），得給每種模態各跑一個模型，各建一個索引，再寫代碼把結果拼起來。現在一個模型、一個索引就夠了

Google 給了這樣的例子：

from google import genai
from google.genai import types

 client = genai.Client()

 result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

在這里，三種模態，一次調用，一個向量

belike 跑分

默認輸出 3072 維向量。支持靈活縮維（Matryoshka Representation Learning），縮小之后跑分幾乎不掉：

?3072 維：MTEB 68.17
?2048 維：MTEB 68.16
?1536 維：MTEB 68.17（比 2048 還高 0.01）
?768 維：MTEB 67.99

768 維的存儲成本是 3072 維的四分之一，跑分只掉了 0.18

有個反直覺的細節：1536 維的分數比 2048 維略高。Google 建議開發者優先用 3072、1536、768 三個檔位

補個背景。前代gemini-embedding-001目前仍然排在 MTEB English 榜第一，均分 68.32，領先第二名 5 分多。Embedding 2 在純文本上沒拉開明顯差距，核心增量在多模態

Gemini Embedding 2 benchmarks 定價

? 文本：$0.20 / 百萬 tokens
? Batch API：半價，$0.10 / 百萬 tokens
? 圖片、音頻、視頻：按 Gemini API 標準媒體 token 費率

做個對比：

? 前代gemini-embedding-001（純文本）：$0.15 / 百萬 tokens
? OpenAItext-embedding-3-large（純文本）：$0.13 / 百萬 tokens
? CohereEmbed v4（文本 + 圖片）：$0.12 / 百萬 tokens

多了音頻、視頻、PDF 三種模態，價格比前代漲了 33%。考慮到能力的增量，這個溢價不高

競品

多模態 embedding 不是沒人做過：

? Cohere Embed v4：文本 + 圖片，不支持音頻和視頻，128K tokens 長上下文
? CLIP 系列 / Jina CLIP v2：圖片 + 文本
? Nomic：圖片 + 文本

Gemini Embedding 2 是第一個在一個商用 API 里覆蓋五種模態 + 100 語言的

開源側追得快。NVIDIA 的Llama-Embed-Nemotron-8B領跑多語言 MTEB，Qwen3-Embedding-8B 拿到 70.58 分，支持 32 到 4096 靈活維度。但這些目前都還是純文本

幾個明確的問題：

向量空間不兼容
gemini-embedding-001和gemini-embedding-2-preview的向量空間完全不同。想升級，只能把整個數據集全部重新編碼一遍，重建索引。沒有漸進遷移的辦法

音頻限制緊
80 秒上限，只支持 MP3 和 WAV。30 分鐘的會議錄音要切成 20 多段

視頻 128 秒
超過兩分鐘就要自己分片

PDF 最多 6 頁
合同、研報、論文基本都超

還在 Public Preview
API 容量可能有限，規格在正式發布前可能還會變。做原型沒問題，上生產要掂量

早期反饋

Google 引用了法律科技公司 Everlaw 的 CTO Max Christoff 的說法。他們用 Gemini 多模態 embedding 做訴訟發現（從海量證據里找關鍵信息），百萬級記錄上精確率和召回率都有提升，圖片和視頻搜索是之前完全沒有的能力

Everlaw CTO 反饋接入方式

模型名gemini-embedding-2-preview，通過 Gemini API 或 Vertex AI 調用

已支持：LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Pinecone、Vector Search

Google 做了個多模態語義搜索的 demo，可以直接試看這里：https://findmemedia.lmm.ai/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.