Agent类型的AI应用,在2025年和2026年迎来了爆发,典型的产品是Claude Code和OpenClaw。它们分别服务的是程序员群体和知识工作者群体,其中Claude Code的年化收入在今年2月已突破25亿美元。 尽管ChatGPT已经拥有近10亿月活用户,但以ChatGPT为代表的ChatBot范式,用户平均每日的token消耗量大概在十万到百万量级。而在Agent范式下,用户每日token消耗量可达到千万甚至上亿,直接提升了一个数量级。 单用户token消耗量的指数级提升,对于推理计算系统提出了新要求。 对于NVIDIA,以往它们的GPU是针对模型训练计算需求优化的,对于推理计算需求,它有精度冗余(训练要求FP32,推理只需要INT8),能耗高,延迟高的问题,其实并不适用。 此后,NVIDIA通过在硬件上引入Tensor Core,在软件上加入TensorRT,一定程度上缓解了在推理算力上的不足,但是直到2026年的NVIDIA GTC大会,它才真正解决了这个问题。 Groq LPU的加入,平衡了推理算力的高吞吐、低延迟需求 先分析下推理算力对于...
