英伟达最强B200算力浪费60%，普林斯顿团队出手，利用率升至71%

作者 · 量子位来源 · 36kr浏览 · 3次2026-03-18

所有用英伟达Blackwell B200的人，都在花冤枉钱？？普林斯顿大学等联合团队指出，这款GPU居然因为软硬件适配问题白白浪费了60%的计算资源。算力浪费了，咋办呢——FlashAttention-4给出了答案。这款专为Blackwell架构GPU量身打造的注意力算法，一举将利用率从行业普遍的20%-30%推至71%。 FlashAttention-4由Tri Dao领衔、携手Meta、Together AI等团队共同研发。嗯，英伟达自己也参与其中了…… Blackwell B200有力使不出英伟达Blackwell B200作为新一代数据中心GPU，其tensor core张量核心算力达到2.25 PFLOPS，是上一代Hopper H100的2倍。理论上能让注意力计算的速度实现跨越式提升。但理想很丰满…… 这款GPU发生了严重的偏科。核心算力猛增的同时，关键的配套计算单元却原地踏步。其中，负责指数运算的MUFU单元吞吐量与Hopper架构完全一致，没有任何提升；共享内存的带宽也保持原样，并未跟随...