昨天,小米发布了Mimo-V2 Pro大模型,又一次把混合注意力架构推到了行业的聚光灯下。 这款万亿参数的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同时,API定价仅为后者的1/5。 实际上,小米的混合注意力架构探索,延续了国内大模型头部厂商在效率优化上的技术共识。过去一段时间里,国内多个大模型头部玩家都展示了他们在混合注意力方面的突破性进展。 今年2月,蚂蚁推出全球首个混合线性注意力架构的万亿参数思考模型;去年9月,阿里则在下一代模型架构Qwen-Next中采用混合线性注意力。与此同时,月之暗面、MiniMax等玩家也在各自的模型迭代中引入了类似的架构优化方案。 混合注意力架构的探索,已经几乎成为大模型厂商的必答题。不同的只是技术路径的选择,相同的是对效率与性能平衡点的共同追求。 01.头部玩家押注混合注意力,多条技术路径并行 在深度学习中,注意力机制让模型能够有选择地关注输入信息中的重要部分,而Softmax一直是主流架构的核心注意力计算机制。 ...
