Vibe Coding 过时了?谷歌开始卷Vibe Searching

AI能根据你的文字生成图片,也能生成视频。 可当我们人类想要的东西是一段画面、一种氛围、一个模糊的印象,机器就没啥办法了。 你没法在搜索框里输入“那种很孤独的感觉”然后得到一张完美的剧照,也没法对着监控系统说“帮我找打架的片段”。 文字是文字,图片是图片,视频是视频,音频是音频,它们各自封闭,互不相通。 2026年一季度,当其他大模型厂商还在卷agent、卷内容生成的时候,谷歌悄悄发布了Gemini Embedding 2模型。 它把文本、图片、视频、音频和文档,全部拉进了同一个语义空间。 这意味着你可以用一句话找到一张图,用一张图找到一段视频,用一段音频找到一份文档。 五种模态之间的壁垒被打通了,机器第一次拥有了类似人类“通感”的能力。 它不再把世界看成割裂的文件格式,而是像你一样,把一段旋律、一个画面、一句话理解为同一件事的不同表达。 有网友评论道:“人工智能不再把世界看得支离破碎,它和你一样看待它。” 01 谷歌的战略深意:不在应用层肉搏,而是去定标准 谷歌选择在这个时间点发布这个模型可以说是耐人寻味。 在OpenClaw狂热的当下...

查看原文 →