AI计算，为什么要用GPU？

2024年1月2日 19:18 • 未来科技

时钟模块负责管理CPU的时间，为CPU提供稳定的时基。

GPU（图形处理器）

再来看看GPU。

根据形态，GPU可分为独立GPU（dGPU，discrete/dedicated。

但是，因为GPU主要负责图形处理任务，所以，它的内部架构和CPU存在很大的不同。

GPGPU在传统GPU的基础上，进行了进一步的优化设计，使之更适合高性能并行计算。

今天这篇文章，我们继续来聊聊芯片。

在之前的《写给小白的芯片半导体科普》一文里，小枣君说过，行业里通常会把半导体芯片分为数字芯片和模拟芯片。其中，数字芯片的市场规模占比较大，达到70%左右。

数字芯片，还可以进一步细分，分为：逻辑芯片、存储芯片以及微控制单元（MCU）。

存储芯片和MCU以后再介绍，今天小枣君重点讲讲逻辑芯片。

逻辑芯片，其实说白了就是计算芯片。它包含了各种逻辑门电路，可以实现运算与逻辑判断功能，是最常见的芯片之一。

大家经常听说的CPU、GPU、FPGA、ASIC，全部都属于逻辑芯片。而现在特别火爆的AI，用到的所谓“AI芯片”，也主要是指它们。

CPU（中央处理器）

先说说大家最熟悉的CPU，英文全称Central Processing Unit，中央处理器。

但凡是个人都知道，CPU是计算机的心脏。

现代计算机，都是基于1940年代诞生的冯·诺依曼架构。在这个架构中，包括了运算器（也叫逻辑运算单元，ALU）、控制器（CU）、存储器、输入设备、输出设备等组成部分。

冯·诺依曼架构

数据来了，会先放到存储器。然后，控制器会从存储器拿到相应数据，再交给运算器进行运算。运算完成后，再把结果返回到存储器。

这个流程，还有一种更有格调的叫法：“Fetch（取指）-Decode（译码）– Execute（执行）-Memory Access（访存）-Write Back（写回）”。

大家看到了，运算器和控制器这两个核心功能，都是由CPU负责承担的。

具体来说，运算器（包括加法器、减法器、乘法器、除法器），负责执行算术和逻辑运算，是真正干活的。控制器，负责从内存中读取指令、解码指令、执行指令，是指手画脚的。

除了运算器和控制器之外，CPU还包括时钟模块和寄存器（高速缓存）等组件。

时钟模块负责管理CPU的时间，为CPU提供稳定的时基。它通过周期性地发出信号，驱动CPU中的所有操作，调度各个模块的工作。

寄存器是CPU中的高速存储器，用于暂时保存指令和数据。它的CPU与内存（RAM）之间的“缓冲”，速度比一般的内存更快，避免内存“拖累”CPU的工作。

寄存器的容量和存取性能，可以影响CPU对内存的访问次数，进而影响整个系统的效率。后面我们讲存储芯片的时候，还会提到它。

CPU一般会基于指令集架构进行分类，包括x86架构和非x86架构。x86基本上都是复杂指令集（CISC），而非x86基本为精简指令集（RISC）。

PC和大部分服务器用的是x86架构，英特尔和AMD公司占据主导地位。非x86架构的类型比较多，这些年崛起速度很快，主要有ARM、MIPS、Power、RISC-V、Alpha等。以后会专门介绍。

GPU（图形处理器）

再来看看GPU。

GPU是显卡的核心部件，英文全名叫Graphics Processing Unit，图形处理单元（图形处理器）。

GPU并不能和显卡划等号。显卡除了GPU之外，还包括显存、VRM稳压模块、MRAM芯片、总线、风扇、外围设备接口等。

1999年，英伟达（NVIDIA）公司率先提出了GPU的概念。

之所以要提出GPU，是因为90年代游戏和多媒体业务高速发展。这些业务给计算机的3D图形处理和渲染能力提出了更高的要求。传统CPU搞不定，所以引入了GPU，分担这方面的工作。

根据形态，GPU可分为独立GPU（dGPU，discrete/dedicated GPU）和集成GPU（iGPU，integrated GPU），也就是常说的独显、集显。

GPU也是计算芯片。所以，它和CPU一样，包括了运算器、控制器和寄存器等组件。

但是，因为GPU主要负责图形处理任务，所以，它的内部架构和CPU存在很大的不同。

如上图所示，CPU的内核（包括了ALU）数量比较少，最多只有几十个。但是，CPU有大量的缓存（Cache）和复杂的控制器（CU）。

这样设计，是因为CPU是一个通用处理器。作为计算机的主核心，它的任务非常复杂，既要应对不同类型的数据计算，还要响应人机交互。

复杂的条件和分支，还有任务之间的同步协调，会带来大量的分支跳转和中断处理工作。它需要更大的缓存，保存各种任务状态，以降低任务切换时的时延。它也需要更复杂的控制器，进行逻辑控制和调度。

CPU的强项是管理和调度。真正干活的功能，反而不强（ALU占比大约5%~20%）。

如果我们把处理器看成是一个餐厅的话，CPU就像一个拥有几十名高级厨师的全能型餐厅。这个餐厅什么菜系都能做，但是，因为菜系多，所以需要花费大量的时间协调、配菜，上菜的速度相对比较慢。

而GPU则完全不同。

GPU为图形处理而生，任务非常明确且单一。它要做的，就是图形渲染。图形是由海量像素点组成的，属于类型高度统一、相互无依赖的大规模数据。

所以，GPU的任务，是在最短的时间里，完成大量同质化数据的并行运算。所谓调度和协调的“杂活”，反而很少。

并行计算，当然需要更多的核啊。

如前图所示，GPU的内核数，远远超过CPU，可以达到几千个甚至上万个（也因此被称为“众核”）。

GPU的核，称为流式多处理器（Stream Multi-processor，SM），是一个独立的任务处理单元。

在整个GPU中，会划分为多个流式处理区。每个处理区，包含数百个内核。每个内核，相当于一颗简化版的CPU，具备整数运算和浮点运算的功能，以及排队和结果收集功能。

GPU的控制器功能简单，缓存也比较少。它的ALU占比，可以达到80%以上。

虽然GPU单核的处理能力弱于CPU，但是数量庞大，非常适合高强度并行计算。同等晶体管规模条件下，它的算力反而比CPU更强。

还是以餐厅为例。GPU就像一个拥有成千上万名初级厨师的单一型餐厅。它只适合做某种指定菜系。但是，因为厨师多，配菜简单，所以大家一起炒，上菜速度反而快。

CPU vs GPU

GPU与AI计算

大家都知道，现在的AI计算，都在抢购GPU。英伟达也因此赚得盆满钵满。为什么会这样呢？

原因很简单，因为AI计算和图形计算一样，也包含了大量的高强度并行计算任务。

深度学习是目前最主流的人工智能算法。从过程来看，包括训练（training）和推理（inference）两个环节。

在训练环节，通过投喂大量的数据，训练出一个复杂的神经网络模型。在推理环节，利用训练好的模型，使用大量数据推理出各种结论。

训练环节由于涉及海量的训练数据，以及复杂的深度神经网络结构，所以需要的计算规模非常庞大，对芯片的算力性能要求比较高。而推理环节，对简单指定的重复计算和低延迟的要求很高。

它们所采用的具体算法，包括矩阵相乘、卷积、循环层、梯度运算等，分解为大量并行任务，可以有效缩短任务完成的时间。

GPU凭借自身强悍的并行计算能力以及内存带宽，可以很好地应对训练和推理任务，已经成为业界在深度学习领域的首选解决方案。

目前，大部分企业的AI训练，采用的是英伟达的GPU集群。如果进行合理优化，一块GPU卡，可以提供相当于数十台甚至上百台CPU服务器的算力。

不过，在推理环节，GPU的市场份额占比并没有那么高。具体原因我们后面会讲。

将GPU应用于图形之外的计算，最早源于2003年。

那一年，GPGPU（General Purpose computing on GPU，基于GPU的通用计算）的概念首次被提出。意指利用GPU的计算能力，在非图形处理领域进行更通用、更广泛的科学计算。

GPGPU在传统GPU的基础上，进行了进一步的优化设计，使之更适合高性能并行计算。

2009年，斯坦福的几位学者，首次展示了利用GPU训练深度神经网络的成果，引起了轰动。

几年后，2012年，神经网络之父杰弗里·辛顿（Geoffrey Hinton）的两个学生——亚历克斯·克里切夫斯基（Alex Krizhevsky）、伊利亚·苏茨克沃（Ilya Sutskever），利用“深度学习+GPU”的方案，提出了深度神经网络AlexNet，将识别成功率从74%提升到85%，一举赢得Image Net挑战赛的冠军。

这彻底引爆了“AI+GPU”的浪潮。英伟达公司迅速跟进，砸了大量的资源，在三年时间里，将GPU性能提升了65倍。

除了硬刚算力之外，他们还积极构建围绕GPU的开发生态。他们建立了基于自家GPU的CUDA（Compute Unified Device Architecture）生态系统，提供完善的开发环境和方案，帮助开发人员更容易地使用GPU进行深度学习开发或高性能运算。

这些早期的精心布局，最终帮助英伟达在AIGC爆发时收获了巨大的红利。目前，他们市值高达1.22万亿美元（英特尔的近6倍）。

那么，AI时代的计算，是不是GPU一家通吃呢？我们经常听说的FPGA和ASIC，好像也是不错的计算芯片。它们的区别和优势在哪里呢？敬请期待下集：《到底什么是ASIC和FPGA？》。

参考文献：

1.《一文搞懂GPU的概念、工作原理》，开源LINUX；

2.《AI芯片架构体系综述》，知乎，Garvin Li；

3.《GPU、FPGA、ASIC加速器有什么区别？》，知乎，胡说漫谈；

4.《带你深入了解GPU、FPGA和ASIC》，汽车产业前线观察；

5.《为什么GPU是AI时代的算力核心》，沐曦集成电路；

6.《一文通览自动驾驶三大主流芯片架构》，数字化转型；

7.《AIGC算力全景与趋势报告》，量子位；

8.百度百科、维基百科。

本文来自微信公众号：鲜枣课堂（ID：xzclasscom），作者：小枣君

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (1)

2024年小家电去“有风”的地方——咖啡机篇

Previous 2024年1月2日 18:59

“2元面包店，月入14万”，低价时代的新商机？

Next 2024年1月2日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

AI计算，为什么要用GPU？

相关推荐