1个Token测出模型降级调包,成本砍到千分之一,API供应商的小伎俩全曝光了

版本号没变,API供应商却悄悄偷换模型?现在这种小伎俩可以轻松被戳穿了。 来自法国的研究人员,开发出了新的检测技术,为识别云端模型的隐秘变动提供了“照妖镜”。 仅需极短的提示词,通过1个输出token,就能实现持续监控,成本只有传统方式的千分之一。 而且这种高度灵敏的方法,能捕捉到仅经过一个训练步数微调的模型差异。 这样一来,供应商出于成本考量而私自替换量化版本或降级模型的行为,将无所遁形。 灰盒环境下的对数概率追踪 第一种检测手段名为对数概率追踪,它主要针对灰盒访问环境进行设计。 所谓灰盒环境,是指供应商虽然不公开核心模型权重,但允许用户通过API获取每个输出Token对应的对数概率,这种权限介于白盒与黑盒之间。 在透明度最高的白盒环境中,审计者可以获取模型的全部内部权重、嵌入向量和梯度数据,但这在受商业机密保护的云端服务中几乎不可能实现。 而用户最常面对的是完全的黑盒环境,此时只能提交提示词并接收生成的最终文本,无法窥视任何中间运算逻辑。 回到灰盒环境,对数概率揭示了模型在生成Token时对整个词汇表空间的信心分布,对数概率追踪技术正是...

查看原文 →