发布时间:2024-07-31 来源:电子工程专辑
任何行业内,某个子领域发展到高级成熟阶段,市场玩家就基本固定了——通常新晋参与者很难入局。典型的比如手机、PC这类生态壁垒极高的市场。
这个时候还愿意投入PC处理器的新玩家,绝对称得上是勇者了。比如说刚刚发布了AI PC处理器的此芯科技。此芯科技创始人&CEO孙文剑说,此芯要聚焦的四大计算平台涵盖个人计算、车载计算、元宇宙计算和工业计算,而近3年研发成果的首个切入点、首先聚焦的就是个人计算。
于是AI PC处理器“此芯P1”应运而生。
孙文剑表示:P1经过严格测试、达到量产要求,将正式进入产品化阶段
这在我们看来,不得不说是个相当大胆的决定。因为PC处理器市场的高度成熟,场内近些年的高度内卷,以及天然的高生态壁垒,都让这片红海的竞争显得如此不易。所幸以生成式AI崛起为契机的新时代刚刚起步,PC市场有了新的价值提升空间。
虽然发布会上,此芯公开有关P1的细节信息不多,这颗基于Arm架构,集合CPU+GPU+NPU、采用6nm的AI PC芯片还是值得我们细说一番。
此芯P1处理器规格概览
按照惯例,先看看这颗P1芯片的主要参数配置。基于此芯公布的信息,总结如下:
· 工艺:6nm
· CPU:Arm架构(Armv9.2-A),12核心(8大核+4小核),主频最高3.2GHz;
· GPU:“旗舰系列10核GPU”,疑似Immortalis G720;
· NPU:30TOPS AI算力(结合CPU+GPU+NPU,AI总算力45TOPS);
· 内存支持:LPDDR5-6400;
· 显示与媒体引擎:4K120显示 最多10路,支持8K60解码/8K30编码;
· DSP与ISP:PC HDA音频,专用DSP;ISP支持4K30拍摄、支持多摄;
· 扩展:16x PCIe 4.0——支持外接AI加速卡,4x USB-C,2x GMAC等;
· 其他:统一固件支持多桌面操作系统,全方位安全引擎等...
此芯在发布会上实则并未详细介绍CPU, GPU, NPU的具体IP。基于已公开信息,从Armv9.2-A架构和DSU-120互联大致可判断,如果是Arm的CPU IP,则应该也是相当新的Cortex-A或Cortex-X系列。
介绍中提到“领先的Arm架构多核CPU”包含针对PC场景优化的多级缓存设计;“高效的机器学习指令增强”“集成2个SVE2向量加速单元”——即作为AI PC处理器,P1的CPU也在指令集扩展上强调AI性能;以及硬件级安全特性保障。
GPU部分,孙文剑透露的几个关键信息有:10核心,支持光线追踪,几何图形处理流程功耗节省40%以上,VRS(可变速率着色)性能提升50%以上,以及后文会谈到的“面向多场景的此芯GO图形引擎”。
虽然此芯没有公开GPU IP,但这些特性基本与Arm第五代(5th Gen)图形架构相吻合,10核心的配置,则可冠以Immortalis产品线称谓,所以猜测这颗GPU是Immortalis-G720。Arm终端事业部产品管理副总裁James McNiven在发言中也提到了P1采用了Arm Immortalis GPU。
NPU作为更专用的AI加速引擎,IP来源未知。不过活动现场,安谋科技作为合作伙伴出席,不禁让人联想到30TOPS算力的周易X2。当然这些仅为猜测。
配置相关比较值得一提的有几则关键信息。其一是此芯科技强调P1的可扩展异构计算,所以基于此芯P1的平台,通过PCIe Gen 4可以扩展独立显卡或独立AI加速卡,作为AI PC平台,这还是相当有意义的;其二在于IO的丰富性,详细的接口情况可参见下图:
此芯科技联合创始人、系统工程副总裁褚染洲谈到,其中的很多接口支持都旨在“普惠AI”。比如说视频I/O的多路MIPI接口,令ISP+NPU结合,也就能达成AI视频特性;GMAC/以太网高速网联则强调云边AI协同的重要性;HDA/I2S多路音频codec接口,便于自然语言交互。
另外,此芯强调“一芯多用”的发展战略:(1)一方面是指处理器的异构;(2)要支持包括Windows、Android、麒麟、统信OS等在内的“全球生态+本土生态”;(3)文首已经提到的未来还会有PC以外的芯片产品发布。
单就AI PC设备,“一芯多用”还体现在P1会有多种配置和规格,面向笔记本、miniPC、一体机、台式机、家庭娱乐主机、企业边缘侧主机等,“包括且不限于上述列举的设备形态。”展区内,我们也看到了台式机、笔记本的展示。
在面向多产品形态时,有个关键设计亮点值得一提——“弹性化电源设计方案”。包括结合x86 PC产品设计中常见的VR(Voltage Regulator) + DrMOS方案,以及移动领域常见采用PMIC的方案。
“此芯独创混合模式,提供更大的弹性,做到供电、性能、散热和空间要求的极致平衡。”褚染洲表示,“这三种组合设计都已经在平台上充分验证过。这些都离不开此芯自主研发、集成在P1芯片内的系统管理单元和优秀的电源管理架构。”
性能怎么样?AI能力如何?
此芯目前尚未披露P1处理器的性能数据,不过如前所述基于Armv9.2-A,以及我们对于其GPU, NPU的IP猜想,对PC与移动领域较多关注的读者应当大致能估测P1在不做性能扩展的情况下,定位如何。
从演示画面来看,这应该是移动平台版本的《原神》
此芯倒是有在现场展示P1的图形渲染和IO能力,包括可运行桌面平台的某些图形基准测试(如3DMark06)、运行工程建模渲染软件、跑3D游戏——典型如《原神》,以及多路输出能力——不同的屏幕执行不同的负载工作(网页浏览、在线与本地视频播放、办公、游戏),甚至三路并发极高画质《原神》也很流畅,但没有公开量化数字——如游戏帧数。
可能与性能比较相关的量化数据,本场发布会上提到的主要体现在AI相关的能力上。除了NPU本身达成30TOPS算力,GPU则支持借助OpenCL和Vulkan来做AI加速,结合CPU+GPU+NPU的AI算力总共45TOPS之外;生成式AI支持上,公开的数字是“支持100亿参数以内大模型”,“运行LLM可达30tokens/s以上”,和“支持Stable Diffusion文生图”。
上面这张PPT右边的两张柱状图对比的,实际上是CPU部分的SVE2和更常见的Neon扩展指令集。“针对SVE2向量扩展,我们已经完成了多种开源大模型的适配优化,包括Llama、通义千问等端侧大模型。”孙文剑介绍说,“在Prefill阶段,SVE2带来了32%-2.2倍的性能提升;在Decode阶段,SVE2可带来27%-42%的性能提升。”
“后续我们也将引入Arm的AI加速库,结合GPU和NPU的异构算力,进一步加强端侧大模型的支持。”
此处尤为值得一提的是此芯NeuralOne AI软件栈,用以实现异构调度。针对包括CPU、GPU、NPU在内不同硬件处理单元协同,此芯做了专门的异构AI加速器支持,满足不同场景下的性能和功耗需求。
“我们期望最大化P1芯片不同硬件模块的能力,但不同硬件单元有着不同的编程接口和技术细节。”此芯科技联合创始人软件工程副总裁刘刚说,“我们推出了面向不同硬件单元统一的NeuralOne API,隐藏硬件细节、降低开发难度。”如上图中的CIX NeuralOne API层级。
“端侧需要面对不同类型的主流模型和推理框架,NeuralOne SDK提供了广泛支持。”可见在“AI PC”这个主要议题上,此芯还是做了相当充分的生态准备工作的。
P1处理器在AI方向上的努力,另外还包括平台解决方案上前文已经提到的“可扩展异构计算”——可扩展PCIe加速卡、“全模态人机交互”——对各类不同输入方式和数据类型的支持、高带宽存储——LPDDR5 RAM和NVMe SSD支持,以及“平台级安全盾”——从上电开始的全链路数据安全等。
这些大概都可以体现此芯“融通AI世界”的基本思路:也是现在业界普遍强调边缘与端侧AI的价值,在保证个人数据隐私安全、成本可控的前提下,快速响应用户需求、提供个性化AI服务,并且与云AI结合互补。而“融通AI世界”实际上是褚染洲总结此芯科技“三融策略”的一部分。
想融入PC生态圈,真的不简单
要真正走进PC生态圈,芯片造出来、有Arm生态资源还是远远不够的。所以“三融策略”包括融合x86与Arm两大架构优势、融入PC产业朋友圈,以及融通AI世界。
这里的“融入PC产业朋友圈”,就要求此芯理解并融入PC产业独特的生态圈、供应链,契合PC行业合作模式。“此芯作为初创AI PC芯片供应商,希望能够尽快融入产业链。”所以我们在发布会现场,也看到了芯片IP企业、PC OEM厂商、操作系统厂商、AI大模型厂商等不同参与者的身影。
“我们将以你们非常熟悉的合作模式,来支持AI PC产品的研发、量产和销售。”褚染洲在面向产业链合作伙伴时说,尤其要利用好中国在PC与移动设备领域多年来积累的产业优势。
具体到行动上,(1)此芯科技与主流ODM厂商、IBV(独立BIOS供应商)、IHV(独立硬件供应商)合作;(2)和Arm一起推动UEFI+ACPI标准——以支持UEFI体系下的主流操作系统,并且“和Arm一起探讨SystemReady系统认证在PC方向上的落地”,“基于统一标准认证体系,帮助所有合作伙伴快速产生产品化”;
(3)在PC供应链中,与其他硬件供应商合作,包括存储、网络、SPI ROM、显示等领域的企业;(4)支持通用PC PCB制程,而不需要特挑PCB供应商或产品。
这个过程说起来寥寥两页PPT,做起来却一点都不容易。这些据说主要是得益于此芯科技内部集合了众多PC产业的研发老兵+移动设备领域的佼佼者,最终得以“吸纳各方之长”,“快速实现此芯Arm架构CPU芯片在PC领域的普及和应用”。
在面向客户时,“我向大家承诺,此芯P1平台的技术文档全面性、调试开发工具的完整程度、参考设计的严谨性、固件驱动的可靠性,可以媲美甚至超过Intel, AMD这些芯片大厂。”
褚染洲总结道,“现在客户项目支持体系既要满足产品定义的规格,又要考虑不同层级用户的潜在需求,还要兼顾AI时代新产品的前瞻性,这是对此芯客户项目支持体系的考验。”所以“此芯以市场、支持、研发各团队联动为基础,搭建两级快速响应战队,快速高效地响应客户”。
此芯构建PC生态的两个亮点
刘刚在谈此芯全栈软件方案加速AI PC行业创新时总结了4大创新:UEFI统一固件——解决多桌面操作系统的启动支持问题;统一内核支持Device Tree/ACPI——拉通移动端和PC段;此芯GO图形引擎;此芯NeuralOne AI软件栈。前文已经对NeuralOne AI软件栈做过解释。而另外三个,也是在我们看来此芯科技构建AI PC生态过程中的创举和难点。
对PC标准结构熟悉的读者应该知道,UEFI + ACPI在PC世界内达成的标准化,已经过多年发展。而以Android为主的移动端,我们最常听到的应该是Bootloader,对应到Device Tree接口。
这和PC更追求通用、兼容性、互操作性有关。UEFI的标准化令其相对uboot更适合PC。它完成硬件初始化,并通过ACPI来描述硬件,提供一个硬件抽象表述。
而嵌入式设备和手机是高度定制化产品,一般软硬件出厂以后就不会再轻易改变。“移动端的Android更强调垂直整合。”刘刚解释说,“PC强调设备通用性,比如DIY玩家可以用自己喜欢的方式来搭建系统,所以PC操作系统需要对底层芯片和设备之间做一层更强大的抽象,UEFI和ACPI为此而生。”
“这项工作也是我们绕不开的。”“通过此芯各团队工程师的创新,我们用一套固件支持了多个桌面操作系统的启动,以及一套Linux内核就同时支持ACPI与Device Tree两个规范。”这显然是个关键性突破。刘刚还在现场给出了基于P1的PC启动演示,BIOS启动过程中出现多操作系统选择画面。
“通过一套固件和内核支持多操作系统的意义很大。一方面我们在兼顾多个生态优点的同时,实现了研发的最大化资源复用;另一方面,它能够帮助我们解决行业痛点,降低合作伙伴产品化的难度。我们也会和上下游一起,用UEFI + ACPI解决方案,推进AI PC系统底座的标准化建设。”并且“和Arm及众多生态合作伙伴一起拥抱标准,真正赋能原生应用开发。”
除此之外,还有个没谈的亮点就是此芯GO图形引擎了。“Arm的GPU IP在移动端体验很卓越,但在PC领域面临着生态挑战。”包括兼容各类桌面环境、支持OpenGL和适配传统应用、与不同的多媒体框架协同等。“以前很多解决方案靠国际大厂的独立显卡解决问题。但如果我们迈不过这道坎,就无法真正达到从能用到好用的跨越。”
“在合作伙伴的大力支持下,我们自主设计的此芯GO图形引擎,引入了中间的应用兼容层;也在核心驱动层实现了我们原创的优化。”刘刚谈到,“我们的目标是一站式解决行业痛点。”“希望通过我们的优化,在支持外接独立显卡的同时,也能够以更高效、更自主可控的方式,为客户创造价值。”
所以此芯GO图形引擎也因此成为前述图形渲染应用得以流畅运行的关键。“GO图形引擎带来的优化,有些是从0到1的突破,有些是几十倍的性能提升。”最终“更好地适配、优化AI PC领域内的主流桌面环境、兼容丰富的传统应用、加速各类3D应用,繁荣应用生态。”
现场展示的笔记本PC
不出意料的是,生态建设作为发布会的重磅构成,此芯科技AI PC产业链战略合作启动仪式也成为本次发布会的一环。包括联想集团、安谋科技、同方鼎欣、万莫斯、统信软件、麒麟软件、江波龙、百敖软件、无问芯穹在内的上下游产业链合作伙伴都参与其中。
对任何想要入驻PC这类高生态门槛的市场参与者而言,融入PC生态圈、进行开发生态构建的难度,或许比设计芯片本身还要高。刘刚很有自信地说:“我们非常期待将基于P1芯片的Arm原生开发平台交到开发者手中,让更多开发者和我们一起进行原生应用开发。”
或许AI PC芯片这条路的确不容易走,但此芯P1的发布及配套的生态完善工作在我们看来,已经是个很好的开始。就像安谋科技销售及商务执行副总裁徐亚涛在会上说的:此芯P1发布的意义,在于真正在AI PC这一领域内,为中国的开发者及产业提供了最基础的算力底座。
麒麟软件副总经理朱晨在圆桌环节说,生成式AI这波浪潮给PC产业应用生态打开了一扇窗,AI算力成为处理器基础、操作系统出现AI子系统,未来的PC应用都可能附带AI能力,“PC产业会迎来新浪潮”。这对此芯科技而言无疑是发展的良机,后续更进一步的AI PC生态建设会成为踏上这波浪潮的重头戏。