刚刚,老黄又高调向全世界秀了一把:已经量产的Blackwell,8年内将把1.8万亿参数GPT-4的训练能耗狂砍到1/350;英伟达惊人的产品迭代,直接原地冲破摩尔定律;Blackwell的后三代路线图,也一口气被放出。
眼前的这块产品,凝聚着数量惊人的技术
如果用老黄的话说,它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」
而如今,我们将再一次见证历史。老黄表示,「有两个最基础的事情正发生」。
首先是处理器,性能扩展已经大大放缓,而我们所需的计算量、需要处理的数据都在呈指数级增长。
按老黄的话来说,我们正经历着「计算通货膨胀」。
过去的20年里,英伟达一直在研究加速计算。比如,CUDA的出现加速了CPU负载。事实上,专用的GPU效果会更好。
接下来就让我们看看,英伟达是如何将一颗颗地表最强的Blackwell芯片,变成一座座超级「AI工厂」的。
注意看,下面这块是搭载了Blackwell GPU的量产级主板。
老黄手指的这里是Grace CPU。而在这里,我们可以清晰地看到,两个连在一起的Blackwell芯片。
在8年里,每一代英伟达芯片的Flops,都增长了1000倍。
与此同时,摩尔定律在这8年里,却似乎逐渐失效了。
即使和摩尔定律最好的时刻相比,Blackwell算力的提升也是惊人的。
这将直接导致的结果,就是成本的显著下降。
比如,训练一个1.8万亿参数、8万亿token的GPT-4所用的能耗,直接降至1/350!
Pascal需要消耗的,是1000吉瓦时,这就意味着,它需要一个1000吉瓦的数据中心。(1吉瓦=1000兆瓦)
而且如果这样的数据中心真的存在的话,训练也GPT-4也需要整整一个月的时间。
而100兆瓦的数据中心,大概需要一年。
这也就是为什么,ChatGPT这样的LLM, 在八年前是