Google DeepMind 今天發了Gemini Embedding 2,第一個原生五模態 embedding 模型文本、圖片、視頻、音頻、PDF,五種東西,首次編碼進同一個向量空間
![]()
https://x.com/OfficialLoganK/status/2031411916489298156 它能處理什么
五種模態,支持 100+ 語言:
? 文本:最多 8192 個 input tokens
? 圖片:每次最多 6 張,PNG / JPEG
? 視頻:最長 128 秒,MP4 / MOV
? 音頻:最長 80 秒,MP3 / WAV(不支持 AAC、FLAC)
? PDF:最多 6 頁
這五種東西可以混著傳。一次 API 調用里同時丟一段文字、三張圖、一段錄音進去,模型返回一個向量,這個向量理解的是它們之間的關系
以前要做類似的事(比如用一句話搜到相關的視頻片段),得給每種模態各跑一個模型,各建一個索引,再寫代碼把結果拼起來。現在一個模型、一個索引就夠了
Google 給了這樣的例子:
from google import genai
from google.genai import types
client = genai.Client()result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)
在這里,三種模態,一次調用,一個向量
![]()
belike 跑分
默認輸出 3072 維向量。支持靈活縮維(Matryoshka Representation Learning),縮小之后跑分幾乎不掉:
?3072 維:MTEB 68.17
?2048 維:MTEB 68.16
?1536 維:MTEB 68.17(比 2048 還高 0.01)
?768 維:MTEB 67.99
768 維的存儲成本是 3072 維的四分之一,跑分只掉了 0.18
有個反直覺的細節:1536 維的分數比 2048 維略高。Google 建議開發者優先用 3072、1536、768 三個檔位
補個背景。前代gemini-embedding-001目前仍然排在 MTEB English 榜第一,均分 68.32,領先第二名 5 分多。Embedding 2 在純文本上沒拉開明顯差距,核心增量在多模態
![]()
Gemini Embedding 2 benchmarks 定價
? 文本:$0.20 / 百萬 tokens
? Batch API:半價,$0.10 / 百萬 tokens
? 圖片、音頻、視頻:按 Gemini API 標準媒體 token 費率
做個對比:
? 前代
gemini-embedding-001(純文本):$0.15 / 百萬 tokens? OpenAI
text-embedding-3-large(純文本):$0.13 / 百萬 tokens? Cohere
Embed v4(文本 + 圖片):$0.12 / 百萬 tokens
多了音頻、視頻、PDF 三種模態,價格比前代漲了 33%。考慮到能力的增量,這個溢價不高
競品
多模態 embedding 不是沒人做過:
? Cohere Embed v4:文本 + 圖片,不支持音頻和視頻,128K tokens 長上下文
? CLIP 系列 / Jina CLIP v2:圖片 + 文本
? Nomic:圖片 + 文本
Gemini Embedding 2 是第一個在一個商用 API 里覆蓋五種模態 + 100 語言的
開源側追得快。NVIDIA 的Llama-Embed-Nemotron-8B領跑多語言 MTEB,Qwen3-Embedding-8B 拿到 70.58 分,支持 32 到 4096 靈活維度。但這些目前都還是純文本
幾個明確的問題:
向量空間不兼容gemini-embedding-001和gemini-embedding-2-preview的向量空間完全不同。想升級,只能把整個數據集全部重新編碼一遍,重建索引。沒有漸進遷移的辦法
音頻限制緊
80 秒上限,只支持 MP3 和 WAV。30 分鐘的會議錄音要切成 20 多段
視頻 128 秒
超過兩分鐘就要自己分片
PDF 最多 6 頁
合同、研報、論文基本都超
還在 Public Preview
API 容量可能有限,規格在正式發布前可能還會變。做原型沒問題,上生產要掂量
早期反饋
Google 引用了法律科技公司 Everlaw 的 CTO Max Christoff 的說法。他們用 Gemini 多模態 embedding 做訴訟發現(從海量證據里找關鍵信息),百萬級記錄上精確率和召回率都有提升,圖片和視頻搜索是之前完全沒有的能力
![]()
Everlaw CTO 反饋 接入方式
模型名gemini-embedding-2-preview,通過 Gemini API 或 Vertex AI 調用
已支持:LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Pinecone、Vector Search
Google 做了個多模態語義搜索的 demo,可以直接試看這里:https://findmemedia.lmm.ai/
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.