还得是英特尔！科技企业 All in AI，但这些创新真正引领时代

智能相对论

2023/12/12 17:02:00

来源 | IT之家

作者 | 汐元

今年以来，chatGPT 的火热出圈让生成式 AI 掀起了全球人工智能新浪潮，AI，正成为变革千行百业的新动力，也是各大科技公司共同押注的未来。

比如 AMD 最近就在 Advancing AI 活动中推出了数据中心 AI 芯片 AMD Instinct MI300X GPU，还有结合最新 AMD CDNA 3 架构和“Zen 4”CPU 的 MI300A 加速处理单元 APU 等等，引发了外界广泛关注。

而在“AI 改变世界”的探索之路上，其实有一家企业早早就展开了布局，就是英特尔。2018 年，英特尔就提出要在 PC 上引入 AI，还推出了“AI on PC Developer Program”的 AI PC 开发者计划。在此之后，英特尔持续将 AI 能力融入到旗下酷睿处理器产品中，从第 10 代酷睿-X 开始，英特尔就已经在其 CPU 中添加了 AI、深度学习相关的加速指令，包括在架构层面提升 AI 的性能，SoC 中内置 Intel GNA 以加速低功耗 AI 在 PC 上的应用等等，并且还将 AI 加速单元引入到 Xe、ARC 架构的 GPU 中。

英特尔多年的探索成果也将在最近迎来一次集中释放。12 月 15 日，英特尔就将在国内正式发布基于全新 Meteor Lake 架构的酷睿 Ultra 处理器，而在 Meteor Lake 处理器中，英特尔最重要的举措，就是将 Al 引入客户端 PC，并在 Meteor Lake 处理器架构中集成了独立的 NPU 单元，带来独立的低功耗 AI 加速能力。

具体到 Meteor Lake 中加入的集成式 NPU 单元，它实现更高效能的 AI 计算，包含了 2 个神经计算引擎，能够更好地支持包括生成式 AI、计算机视觉、图像增强和协作 AI 方面的内容。而且，这枚 NPU 不是单一孤岛式的架构，除了 NPU，CPU 和 GPU 也都可以进行 AI 运算，不同场景下会用不同的 AI 单元去应对，彼此协调，如此一来，其整体能耗比相比前代最多可以提升 8 倍之多。

而当生成式 AI 基本本确定为 AI 2.0 时代后，为了让 AIGC 能够更好地在 PC 本地端运行，英特尔也做了很多努力。

在我们传统的认知里，运行类似 ChatGPT 这种大语言模型必须要有大显存的显卡支持，比如前面我们讲到的 AMD 推出的 Instinct MI300X GPU，但是这距离广大消费者确实有点远，而英特尔为了让面向消费端的 12、13 代酷睿平台也能够顺利运行各种大语言模型并提供流畅的使用体验，他们构建了 BigDL-LLM 库，这个库专门针对 Intel 硬件的低比特量化设计，支持 INT3、INT4、INT5、INT8 等各种低比特数据精度，性能更好，内存占用也更少。

通过这个库，英特尔对各种大语言模型进行了优化和支持，包括一些开源的、可以在本地运行的大语言模型。这个库甚至可以在一台搭载 16GB 内存的英特尔轻薄本的机器上运行参数量高达 160 亿的大语言模型。此外还支持 LLaMA / LLaMA2、ChatGLM / ChatGLM2 等多个大语言模型。

且不说即将发布的酷睿 Ultra 系列，如今以第 12 代、第 13 代英特尔酷睿处理器和英特尔锐炫 A 系列显卡为代表的英特尔多款客户端芯片，均能提供强劲性能，以满足生成式 AI 对于高算力的需求。对此IT之家也做了实际的测试。

测试中，小编选择了一台通过英特尔 Evo 平台认证的轻薄本：华硕破晓 Air，这款轻薄本搭载英特尔 13 代酷睿 i7-1355U 处理器，16GB LPDDR5 内存。

小编在这台华硕破晓 Air 上装好英特尔推出的大语言模型 Demo。这个 Demo 集成了三个大语言模型，包括 ChatGLM2、LLaMA2 和 StarCoder。它们均通过英特尔的语料库进行了优化。

测试过程中，小编先在故事创作模式中让大模型 Demo 帮我先一个公司年会的主持人开场白，它很快就将一段完整得体的开场文案呈现了出来，并且整个过程的 First Latency 只有 1249.8ms。如果是自己思考、编辑，得花很久，在 PC 上使用 AI 大模型，分分钟就搞定了。

在大语言模型写文案的时候，小编看了一下华硕破晓 Air 性能资源的调度情况，13 代酷睿 i7-1355U 处理器占用率达到了 100%，内存占用达到了 9.7GB（62%），Xe 核显占用也达到了 39%。看来这个运算过程确实是在本地进行的。在英特尔不断的优化和 13 代酷睿处理器算力的提升下，确实能够在轻薄本上实现 AIGC 的落地。

接着小编又测试了一个问题，让它提取一篇新闻的核心信息，它也能很快很准确地将新闻内容给“摘要”出来。这对于我们日常查询资料、整理报告等都非常有用，可以大大提高我们完成这些工作的效率。

最后，小编让大模型帮自己写一篇朱自清《背影》的教学大纲，它同样很快就列出了一套逻辑清晰完整，内容详尽的大纲出来。对于工作有提炼、撰写大纲需求的人，比如说老师，即便在没有网络的情况下，也能利用 AI 辅助教学工作，非常方便。

除了 CPU，英特尔也十分注重对 GPU 核显性能的优化，让 GPU 也能在终端侧 AIGC 任务中扮演更重要的角色。例如针对广为人知的开源图像生成模型 Stable Diffusion，英特尔就启用了 OpenVINO 的加速，他们开发了一套 AI 框架，通过一行代码的安装，就可以加速 PyTorch 模型的运行。通过 Stable Diffusion 的 WebUI，可以在锐炬集成显卡和 Arc 独立显卡上运行 Stable Diffusion Automatic1111。

通过实际测试，可以看到在华硕破晓 Air 轻薄本上，Stable Diffusion 在集成显卡上的表现效果。96EU 版本的英特尔锐炬 Xe 显卡强大的算力，可以支持 Stable Diffusion 软件上运行 FP16 精度的模型，快速生成高质量图片。小编让它生成一张“正在看电视的男人”，在华硕破晓 Air 上，只用了 1 分多钟，就“顺利出片”了。

而在生成过程中，IT之家也通过性能资源管理器看到，GPU 的占用到了 100%，同时 CPU 也有 15% 的占用，可见这张图片确实是在本地利用 GPU 进行渲染的。

在过去，我们很难想象轻薄本可以拥有这样的性能，但随着 13 代酷睿处理器在性能、功耗比方面的进步，以及锐炬 Xe Graphics (96EU) 在 FP16、FP32 浮点性能的大幅提升，同时加入了 INT8 整数计算能力，这些都大大增强了 GPU 整体的 AI 图形计算能力。这也就是华硕破晓 Air 这样的轻薄本也能在本地侧很好地运行 Stable Diffusion 的重要因素。

并且在我们开头说到的英特尔 Meteor Lake 处理器中，GPU 核显性能还会得到进一步提升，将拥有 8 个 Xe GPU 核心 128 个渲染引擎，更增加了 8 个硬件的光追单元，还会引入 Arc 显卡的异步拷贝，乱序采样等功能，也对 DX12U 做了优化。

从 AI 变革世界的发展角度来说，英特尔将 AI 广泛引入 PC、带领数亿 PC 进入 AI 时代的努力是有着重要意义的，因为至少在可预见的未来，PC 都是人类最重要的生产力工具之一，英特尔的这些创新技术，让 AIGC 能够稳定、流畅地部署在 PC 终端侧，这是一种来自于底层的、根本性的赋能，让 PC 的生产力属性能够有脱胎换骨的变革，而个人计算的变革，进一步也会演化成全社会生产力变革。