Vibe Coding 过时了？谷歌开始卷Vibe Searching - AI资讯

AI能根据你的文字生成图片，也能生成视频。可当我们人类想要的东西是一段画面、一种氛围、一个模糊的印象，机器就没啥办法了。你没法在搜索框里输入“那种很孤独的感觉”然后得到一张完美的剧照，也没法对着监控系统说“帮我找打架的片段”。文字是文字，图片是图片，视频是视频，音频是音频，它们各自封闭，互不相通。 2026年一季度，当其他大模型厂商还在卷agent、卷内容生成的时候，谷歌悄悄发布了Gemini Embedding 2模型。它把文本、图片、视频、音频和文档，全部拉进了同一个语义空间。这意味着你可以用一句话找到一张图，用一张图找到一段视频，用一段音频找到一份文档。五种模态之间的壁垒被打通了，机器第一次拥有了类似人类“通感”的能力。它不再把世界看成割裂的文件格式，而是像你一样，把一段旋律、一个画面、一句话理解为同一件事的不同表达。有网友评论道：“人工智能不再把世界看得支离破碎，它和你一样看待它。” 01 谷歌的战略深意：不在应用层肉搏，而是去定标准谷歌选择在这个时间点发布这个模型可以说是耐人寻味。在OpenClaw狂热的当下...