谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息

IT之家 3 月 11 日消息,北京时间今天凌晨,谷歌发布了全新 Gemini Embedding 2 模型。这是谷歌首个原生多模态嵌入模型,可以把文本、图像、视频和文档映射到同一个嵌入空间。嵌入模型与生成式模型不同。Gemini 3 等生成式模型主要用于生成内容,而嵌入模型用于理解数据。嵌入模型会把文本、图像或视频转换为向量等数学形式,方便机器读取和分析。通过语义搜索、分类和聚类等方式,此类模型可以理解语义关系,因此往往比传统关键词检索提供更准确、更具上下文的信息。据IT之家了解,谷歌最早推出的 Embedding 模型只支持文本。Gemini Embedding 2 则支持文本、图像、视频、音频和文档,并能在 100 种语言中识别语义意图。不同数据类型的处理限制如下:文本:上下文窗口最高 8192tokens图像:每次请求最多 6 张,支持 PNG 和 JPEG 格式视频:最多 120 秒输入,支持 MP4 和 MOV 格式音频:可直接处理音频数据,无需先进行转录文档:支持最多 6 页 PDF谷歌在博客中表示,新模型可以简化复杂的数据处理流程,同时增强多模态应用能力。应用场景包括检...

查看原文 →