苹果联合打造 RubiCap 框架：让 AI 描述图像每个细节，性能击败 10 倍体量对手 - AI资讯

IT之家 3 月 26 日消息，科技媒体 9to5Mac 昨日（3 月 25 日）发布博文，报道称苹果公司携手威斯康星大学麦迪逊分校，联合发布名为 RubiCap 的全新 AI 训练框架，主要用于优化“密集图像描述”模型的训练流程。IT之家注：密集图像描述（Dense Image Captioning）是一种先进的计算机视觉技术。与只给出一句整体描述不同，该技术能识别图片中的各个局部区域（如“桌子上的红苹果”、“远处的行人”），并为每个细节生成精准的文字说明。这项技术在训练视觉语言模型、文本生成图像以及改善无障碍工具等领域具有核心价值。研究人员指出，传统的训练方法面临着人工标注成本过高的问题；而利用现有大模型生成合成数据的替代方案，则容易导致模型输出缺乏多样性且泛化能力较弱。苹果研究团队为了攻克上述难题，创新设计全新强化学习机制。系统首先从数据集中抽取 5 万张图像，并调用 GPT-5、Gemini 2.5 Pro 等前沿大模型生成候选描述。随后，系统利用 Gemini 2.5 Pro 分析候选内容，提炼共识与遗漏点，进而将其转化为清晰的评分标准。最后，由 Qwen2.5 模型担任“裁...