谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2!它将文本、图、音视频及 PDF 无损融于统一向量空间,实现跨越五大模态的直接检索。这极大降低了架构成本,赋予了 AI 真正连贯的「记忆」,是重塑 AI 基建的里程碑。 如果说 ChatGPT 等生成式 AI 大模型是 AI 用来表达的「嘴」,那么 Embedding(嵌入)模型就是负责理解与检索的「记忆神经」。 长期以来,这条记忆神经处于割裂状态。 昨天,Gemini API 上线首个多模态 Embedding 模型预览版 gemini-embedding-2-preview。 作为首个原生全模态 Embedding 模型,它将文本、图像、音视频乃至 PDF 文档,悉数融合进了一个统一的向量空间。 拆解「原生全模态」的颠覆性价值 要真正理解这项技术的战略分量,我们需要看清过去 AI 检索系统面临的「数据巴别塔」困境。 以往,视觉模态、音频模态和文本处理模态仿佛说着截然不同的语言,每次调度全局信息都需要极其繁琐的翻译对齐。 Gemini Embed...
