谷歌AGI底座降临，首个原生全模态嵌入模型上线，已实现全模态SOTA

作者 · 新智元来源 · 36kr浏览 · 3次2026-03-12

谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2！它将文本、图、音视频及 PDF 无损融于统一向量空间，实现跨越五大模态的直接检索。这极大降低了架构成本，赋予了 AI 真正连贯的「记忆」，是重塑 AI 基建的里程碑。如果说 ChatGPT 等生成式 AI 大模型是 AI 用来表达的「嘴」，那么 Embedding（嵌入）模型就是负责理解与检索的「记忆神经」。长期以来，这条记忆神经处于割裂状态。昨天，Gemini API 上线首个多模态 Embedding 模型预览版 gemini-embedding-2-preview。作为首个原生全模态 Embedding 模型，它将文本、图像、音视频乃至 PDF 文档，悉数融合进了一个统一的向量空间。拆解「原生全模态」的颠覆性价值要真正理解这项技术的战略分量，我们需要看清过去 AI 检索系统面临的「数据巴别塔」困境。以往，视觉模态、音频模态和文本处理模态仿佛说着截然不同的语言，每次调度全局信息都需要极其繁琐的翻译对齐。 Gemini Embed...