所有用英伟达Blackwell B200的人,都在花冤枉钱?? 普林斯顿大学等联合团队指出,这款GPU居然因为软硬件适配问题白白浪费了60%的计算资源。 算力浪费了,咋办呢——FlashAttention-4给出了答案。 这款专为Blackwell架构GPU量身打造的注意力算法,一举将利用率从行业普遍的20%-30%推至71%。 FlashAttention-4由Tri Dao领衔、携手Meta、Together AI等团队共同研发。 嗯,英伟达自己也参与其中了…… Blackwell B200有力使不出 英伟达Blackwell B200作为新一代数据中心GPU,其tensor core张量核心算力达到2.25 PFLOPS,是上一代Hopper H100的2倍。 理论上能让注意力计算的速度实现跨越式提升。 但理想很丰满…… 这款GPU发生了严重的偏科。 核心算力猛增的同时,关键的配套计算单元却原地踏步。 其中,负责指数运算的MUFU单元吞吐量与Hopper架构完全一致,没有任何提升; 共享内存的带宽也保持原样,并未跟随...
