苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型,但速度令人抓狂

IT之家 3 月 23 日消息,拥有 4000 亿参数的大语言模型只能在配备大容量内存、性能强劲的硬件上运行,因为即使是量化或压缩版本,也至少需要 200GB 内存。从这些苛刻的配置要求来看,iPhone 17 Pro 绝对不会是运行 4000 亿参数大模型的首选,但有人已经证明,苹果这一代旗舰机型完成了这件看似不可能的事。不过IT之家需要说明的是,这离不开一些巧妙的技术手段。一个名为 Flash‑MoE 的开源项目已在 iPhone 17 Pro 上成功运行,据网友 @anemll 展示,这款旗舰机虽然能运行这个算力需求极高的模型,但也存在明显短板,其 Token 生成速度慢得惊人,仅 0.6 个 Token / 秒,大约每 1.5 到 2 秒才能生成一个单词。不过话又说回来,无论速度如何,一部智能手机能跑起来 4000 亿参数的大语言模型,这一事实本身就说明:只要再做一些优化,未来在手机端本地运行大语言模型完全是有可能实现的。至于实现原理:iPhone 17 Pro 仅配备 12GB LPDDR5X 内存,根本不可能把整个大模型全部载入内存,而 Flash‑MoE 则利用了设备的固...

查看原文 →