快科技德国柏林现场报道——
6月初的台北电脑展上,Intel公布了新一代低功耗处理器Lunar Lake的架构、技术细节,并披露了部分性能指标。
北京时间9月4日,Lunar Lake终于正式发布了!它命名为酷睿Ultra 200V系列,是二代酷睿Ultra家族(Core Ultra Series 2)的一部分。
这也是 Intel处理器首次以“V”结尾。
这一次,Intel不但公布了酷睿Ultra 200V系列的具体型号、规格,还进一步讲解了架构技术、公布了大量官方性能、能效指标,各家OEM厂商也纷纷展示了新一代轻薄笔记本。
迄今为止,代号Meteor Lake的第一代酷睿Ultra处理器已经出货超过2亿颗,100多家ISV软件厂商陆续开发了300多项AI功能,支持的AI模型也超过了500种。
酷睿Ultra 200V系列能否更进一步,让AI PC真正发扬光大呢?
PS:高性能的Arrow Lake将在稍后推出,也是隶属于酷睿Ultra 200系列,覆盖桌面和笔记本。
全球限量325颗的Lunar Lake处理器纪念品,每一颗都有独立编号,我这颗是212号。
【型号规格:统一4+4核心、峰值功耗37W】
这就是酷睿Ultra 200V系列的全家福,一共九款,包括一款酷睿Ultra 9、四款酷睿Ultra 7、四款酷睿Ultra 5。
总的来说,它们全都是4个Lion Cove架构的P核、4个Skymont架构的E核,组成了8核心8线程。
对比酷睿Ultra 100系列最高6+8+2 16核心22线程的设计少了2个P核、4个E核、2个LPE核,加上还不支持超线程,总计少了8个核心14个线程。
三级缓存分为12MB、8MB两个版本,对比少了足足一半,毕竟核心少多了。
P核、E核加速频率最高分别5.1为GHz、3.7GHz,对比前者高了100MHz,后者少了100MHz,基本在同一档次。
锐炫核显升级为第二代Xe2架构,确切地说是Xe2-LPG低功耗版本,分为锐炫140V、锐炫130V两个版本。
最多还是8个Xe核心,而最高频率降低了250MHz而只有2.05GHz,AI算力最高为67 TOPS。
NPU AI引擎大幅升级,从两个PCIe 3.0引擎来到了六个PCIe 4.0引擎,最高算力大48 TOPS,只是稍稍低于AMD锐龙AI 300系列的50 TOPS,高于高通骁龙X系列的45 TOPS——总的来说三家都差不太多。
CPU+GPU+NPU三者合力,酷睿Ultra 200V系列的总算力已经达到120 TOPS,目测是各家中最强悍的。
酷睿Ultra 200V系列还首次整合封装了两颗LPDDR5X内存,频率统一为8533MHz,总容量16GB或者32GB——型号编号结尾6的16GB、结尾8的32GB。
功耗方面,所有型号的最大睿频功耗都是37W,其中酷睿Ultra 9 288V作为旗舰型号,是唯一的9系列,也是唯一一个最低功耗17W、PL1基准功耗30W、峰值功耗37W。
是不是想起了酷睿Ultra 9 185H?两代旗舰的划分方式确实如出一辙,但功耗低得多了,基准功耗降低15W也就是三分之一,峰值功耗降低78W也就是68%!
酷睿Ultra 7/5系列都是最低功耗8W、基准功耗17W,峰值功耗同样37W,对比上代同样大幅降低。
酷睿Ultra 7系列包括四款型号268V、266V、258V、256V。
它们都是12MB三级缓存、3.7GHz E核频率、锐炫140V核显(8个单元)、6个NPU单元。
268V、266V都是5.0GHz P核频率、2.0GHz核显频率、48 TOPS NPU算力、66 TOPS GPU算力。
258V、256V则都是4.8GHz P核频率、1.95GHz核显频率、47 TOPS NPU算力、64 TOPS GPU算力。
酷睿Ultra 5系列也是四款型号238V、236V、228V、226V。
它们的规格非常接近,都是8MB三级缓存、3.5GHz E核频率、锐炫130V 1.85GHz核显(7个核心)、5个NPU单元、40 TOPS NPU算力、53T OPS GPU算力。
区别在于,238V、236V P核心频率最高4.7GHz,228V、226V则都是4.5GHz。
酷睿Ultra 200V系列笔记本目前已有20多家OEM厂商的80多款产品设计,宏碁、华硕、戴尔、惠普、联想、LG、微星、三星等一线品牌,自然是一个都不少。
新本即日起开始接受预定,9月24日起通过全球30多家零售商陆续上市。
以下是新本现场展示:
宏碁:
华硕:
戴尔:
LG:
微星:
三星:
【CPU性能:P核号称最强、E核暴涨68%】
如开篇所述,关于Lunar Lake的架构技术之前已经讲得非常详细了,不过这一次,Intel依然提供了不少新的技术点,以及大量的官方数据。
首先,Intel抛出了一个非常有道理的论点:“一台优秀的AI PC,必须首先是一台优秀的PC。”
诚然,AI PC的概念眼下极为火热,但是归根到底,它是一台PC,需要首先做好本职工作,性能、能效都合格,才能进一步让AI锦上添花。
这次的P核、E核架构都是全面翻新的设计,其中P核号称最强性能的轻薄本CPU核心。
它拥有更宽的调度执行、18个执行端口、8倍预测精度、增强内存子系统、PPA(性能功耗与面积)优化、16.67MHz精细频率区间等等,最多12MB共享三级缓存。
E核号称在能效上与P核基本持平,拥有增强指令预测、更深队列和更佳并行、26个分派端口、更宽的指令分派与引退、4个128位FP浮点单元和SIMD矢量单元带来2倍矢量性能和AI吞吐量,以及4MB的共享二级缓存。
P核不支持超线程技术,但这并非退步,而是经过对比考量之后,为了更高PPA而采取的设计。
根据Intel官方的数据,即便没有超线程技术,但是经过能效优化后的核心,可以提升15%的性能功耗比、10%的性能面积比、30%的性能功耗面积比(单位面积和功耗的性能)。
而如果加上超线程,性能功耗面积比可以再提升15%,但是性能功耗比会下降5%,性能面积比会下降15%。
综合考量,为了更好的性能与能效,超线程被取消了。
同时,大小核之间的沟通效率也更高了,这得益于全新的低延迟Fabric互连通道。
官方数据显示E核之间的延迟仅为23ns左右,P核之间只有26ns左右,而P、E核之间通信约为55ns。
另外,内存延迟约为90ns,对比上代下降40%,对比竞品锐龙AI 300系列也低了90%。
12代酷睿开始引入的线程调度器也再次优化,使用更加灵活的动态调度策略。
其中很关键的一点是,随着E核性能的大幅提升,可以承担更繁重的工作,因此只要工作负载合适,会尽可能长时间地使用第一个E核,而且只用它。
如果工作负载增多、加重,会适时启动其他E核,获得更好的多线程性能。
如果还是不够,就会根据需要继续扩展到P核。
简单地说,Lunar Lake的核心调度策略就是:一个E核、多个E核、一个P核、多个P核。
对于笔记本来说,这可以最大程度地提高能效。
Lion Cove P核被称为迄今最快的核心,甚至没有之一!
官方称,它的单核性能可以轻松超过AMD最新旗舰锐龙AI 9 HX 370,以及高通骁龙X Elite。
不过注意,骁龙X Elite有四个版本,骁龙X Plus也有两个版本,Intel这一次在不同地方对比的版本是不一样的,记住这个表。
比如这里对比的80、78版本,CPU频率就比满血的00版本低了不少,后者甚至不支持双核心动态加速。
当然从高通的规格划分来看,酷睿Ultra 200V面对满血版骁龙X Elite,应该也不会落于下风。
不管怎么样,就像我们在规格参数部分说的,Lunar Lake的核心、线程数量比上一代少了很多,性能上会怎么样呢?
至少根据官方给出的数据,9W功耗设定下,8核心8线程的Lunar Lake对比2+8+2 12核心14核心的Meteor Lake,每线程性能可以领先多达2.1倍,整体性能领先多达22%。
17W功耗释放下,对比6+8+2 16核心22线程,每线程性能优势高达惊人的3.0倍,整体性能依然领先10%。
23W功耗的时候,每线程性能优势也有2.6倍,但是整体性能会稍稍落后6%。
总的来说,Lunar Lake虽然核心数更少了,没有了超线程,频率也没有显著提升,但是凭借更高效的架构设计、更好的单核性能,以及更高的能效,尤其是在低功耗状态下,仍有明显的代际提升,只是在功耗下的多核性能必然会受到很大的影响。
尤其是,考虑到很多笔记本、迷你机、掌机厂商经常会将功耗释放尽可能地拉高,Lunar Lake的性能提升可能会不太明显,但能以这么少的核心线程数达到这样的性能,能效是令人赞叹的,也更适合这些对功耗发热敏感的领域。
事实上对于轻薄本来说,太多的核心线程其实并没有真正的必要,8核心8线程可以说是一个比较好的平衡点。
酷睿Ultra 200V系列在9-37W的功耗范围内,性能曲线还是很理想的,特别是对比骁龙X Elite,能够以60%的功耗达到同样的性能水准。
办公生产力性能对比,酷睿Ultra 200V系列不能说完胜,但也可圈可点,只是注意对比的骁龙X Elite依然不是满血版。
经过新的架构设计,Lunar Lake P核、E核的IPC比上代分别提升了14%、68%,尤其是E核终于不再孱弱,可以承担那更多重任了。
【CPU能效:史诗级提升、续航可超20小时】
我们之前也说了,Lunar Lake的核心追求就是尽可能提高能效,最终效果也号称史诗级的(historic),含内存的整体封装功耗降低了多达50%!
这得益于它采用了一系列创新设计,包括整合封装内存以降低40% PHY物理层功耗、最多8MB MSC内存测缓存以满足部分IP需求、新的供电架构以更好地提高利用效率、电源管理单元增强与整合、E核集群改进。
Lunar Lake没有了Meteor Lake上的超低功耗LP E核,升级为全新的低功耗岛(Low Power Island),统一管理所有模块。
尤其是E核集群,Meteor Lake上是每两个核心一组,共享2MB二级缓存,Lunar Lake升级为全部四个核心为一组,共享4MB二级缓存。
酷睿Ultra 9 288V对比酷睿Ultra 7 165H(上代次旗舰),利用E核加线程调度,办公应用能效比居然提升了多达2.29倍,也就是说即便对比上代旗舰酷睿Ultra 9 185H,提升也会是相当大的。
而对比高通骁龙X Elite,能效比也领先1.2倍。
得益于新的Xe2架构,核显性能最多可提升68%,功耗可降低最多35%,综合能效翻了足足一番。
通过将内存整合封装在一起,Lunar Lake不仅提高了内存性能、降低了内存延迟,还可以节省大量的功耗,最多能节省50%,少的话也有33%。
只是,想扩展升级内存就不可能了,万一内存部分出现故障也有点麻烦。
续航是最能直接反应能效情况的。虽然高通一再强调超长续航是骁龙X Elite的独特优势,但是无论从实际体验,还是根据Intel的最新数据,x86阵营并不弱。
酷睿Ultra 7 268V在办公场景中最长能坚持超过20个小时,就是多人视频会议场景会输给骁龙X Elite一点点。
酷睿Ultra 9 288V办公、视频会议分别能有14小时、10个小时,号称全面领先高通、AMD。
接下来看看Intel官方的几个演示,当然实际如何还要等后续的评测。
Meteor Lake(左)、Lunar Lake(右)肩并肩测试Procyon办公性能,注意两侧的实时功耗曲线,可以看到Lunar Lake要低得多。
4K AV1网络视频播放功耗对比:Meteor Lake一般在10-13W,Lunar Lake一般只需6W左右,低了足足一半。
游戏性能与系统功耗对比:酷睿Ultra 9 288V可以达到55-60FPS的流畅帧率,功耗一般在40W出头,而骁龙X Elite帧率在50FPS上下,功耗则是40W上下。
另外,酷睿Ultra 7 258V的帧率略微高于骁龙X Elite,但是功耗低得多一般在35W左右。
【GPU核显:Xe2架构首秀 反超AMD】
接下来说说核显,这次升级了全新的Xe2架构,独立显卡也要到今年底或明年初才能用上,号称是世界上最好的集成GPU。
这个说法不一定百分百准确,但是这几年Intel、AMD核显的进步都是有目共睹,已经可以在1080p中低画质下搞定大多数3A游戏,彼此之间的差距也并不是特别明显。
新一代锐炫140V/130V架构主要亮点回顾,包括8个第二代Xe2核心、全新的XMX引擎、8个更强的光追单元、更大的XeSS内核、优化能效和AI性能的Xe2矢量引擎、更深的8MB二级缓存、eDP 1.5视频输出、完整支持DX12 Ultimate,等等。
来自官方的游戏性能对比,酷睿Ultra 9 288V对比酷睿Ultra 7 155H平均提升了多达31%,不过把30FPS作为流畅基准线略微有点低了。
酷睿Ultra 9 288V对比次一级的骁龙X Elite,不但可以做到性能遥遥领先,综合优势多达68%,更是有着没法比的兼容性,后者有多达23款游戏无法运行。
对比RDNA 3.5新架构的AMD Radeon 890M,号称平均领先16%。
不过按照惯例,AMD核显的性能会随着驱动更新逐步释放,可以等一段再看看双方的差异。
NVIDIA DLSS一路领先,AMD FSR有点跟不上,Intel XeSS也在努力追赶,现已支持超过120款游戏,尤其是随着新的Xe2 XMX引擎的到来,性能还会得到进一步提升。
酷睿Ultra 9 288V打开XeSS之后,游戏性能可以再提升30-60%的样子,非常可观。
配合XeSS,光追游戏也能搞定一些,对比FSR同样在性能模式下号称可以领先大约30%,而且99%的帧都能超过30FPS。
至于骁龙X Elite,这就有点欺负人家了啊。
媒体引擎也是全新的,新增支持VVC(H.266)硬件解码,但不支持硬件编码,同时继续支持AV1、HEVC(H.265)、AVC、VP9的硬件编解码。
显示引擎支持HDMI 2.1、DP 2.1、eDP 1.5,最多三屏。
锐炫100V系列性能提升平均30%、最高80%,不过对比的只是上代主流型号酷睿Ultra 7 155H,另外AI算力最高可达67 TOPS。
3DMark Solar Bay跑分,平均刚刚超过60FPS,只有压力较大的第三个场景不足55FPS。
《古墓丽影》在1080p、中等细节、XeSS性能模式下,可以跑出74FPS的帧率。
《赛博朋克2077》在类似设置下也能跑到60FPS。
《F1 24》可以稳定在80FPS以上(中间),AMD不到70FPS(左侧),骁龙X Elite只能跑上一代的《F1 23》,新版本还不支持。
AMD(左)、Intel(右)肩并肩跑《F1 24》。
【三位一体最强AI:1843%的提升是什么概念】
Intel可以说是AI PC的第一推手,这一次不但硬件性能全面飞升,CPU、GPU、NPU齐头并进,更是凭借广泛的业界影响力,让越来越多的软硬件厂商加入到AI PC的世界。
Intel(以及AMD、高通)打造的AI PC,是三位一体的组合,尤其是新兴的NPU,正在得到越来越广泛的应用。
Intel预计,到2025年,大约30%的AI应用都会用到NPU,一年提升5个百分点,同时CPU的占比会从35%降至30%,GPU则稳定在40%左右。
当然,也会有很多AI应用使用不止一种引擎,可能GPU、NPU都在用,可能CPU、GPU、NPU都在用。
而且,并不是只有使用NPU的才叫AI,关键是用最合适的引擎,做最合适的事。
Lunar Lake NPU单元的AI算力提升到了最高48 TOPS,是上代的整整三倍,已经非常接近AMD锐龙AI 300系列的50 TOPS;GPU算力依然是最强的,达到了67 TOPS,;再加上CPU贡献的5 TOPS,整个平台的算力高达120 TOPS。
在整个行业,这都是前所未有的。
Intel AI硬件的一个特点就是支持丰富的数据格式。
比如Stable Diffusion,生成式AI最典型的应用,Lunar Lake GPU支持FP16浮点格式,骁龙X Elite是没有的,同时NPU支持W8A16量化,延迟低于骁龙X Elite。
UL Procyon AI计算机视觉测试中,Lunar Lake NPU同时支持IN8、FP16,AI生图测试中,Lunar Lake GPU支持FP16,而竞品都有所欠缺。
常见的基准测试工具GeekBench,也加入了AI测试,Lunar Lake CPU、GPU、NPU在性能、多引擎、框架支持方面都处于领先地位。
综合多项实际应用,以酷睿Ultra 7 155H为基准,酷睿Ultra 9 288V AI性能平均提升了58%,部分项目的提升甚至夸张到了不可思议的地步,比如Topaz Video AI中的AI缩放、AI慢动作分别提升1843%、1137%。
而骁龙X Elite要么性能低得多,要么根本没法运行。
强大的业界号召力之下,Intel AI生态系统版图也不断扩张,正在支持越来越多的大语言模型、多模态模型、扩散模型、框架等等,几乎你想到的都在得到支持。
落地到实际应用场景中,支持Intel AI加速的软件也是日趋丰富,遍布各个领域,从休闲娱乐到日常办公,从内容生产力到影音编辑创作,从安全到社交,无所不包。
在这份名单中,还可以看到我们身边的爱奇艺(电影推荐AI助手)、美图(AI优化照片效果)、字节跳动(AI加速视频效果),等等。
现场演示之GeekBench AI跑分。
现场演示之Canvid AI录屏、幻灯片,跑在NPU、GPU之上,走的是OpenVINO框架,11月推出。
还有Magix AI视频编辑,运行于GPU,框架为ONNX-RT OpenVINO EP,10月推出。
趋势科技AI安全威胁扫描,脱离云端本地执行,运行于CPU、NPU,框架为OpenVINO,10月推出。
现场演示之VLC Player AI视频搜索。
【结语:思路变了 主打高能效的酷睿Ultra 200V等待考验】
最后顺带提一下酷睿Ultra 200V系列的平台连接特性,支持三个雷电4、两个USB3、六个USB2、四条PCIe 5.0、四条PCIe 4.0、I219-LM千兆网卡、Wi-Fi 7和蓝牙5.4、DisplayPort 2.1和HDMI 2.1,等等。
至于雷电5,或许等下一代吧。
酷睿Ultra 200V系列亮点总结。
最快CPU核心IPC提速18%,每线程性能提升3倍,最快GPU核显提速30%,GPU能效提升2倍,最高效x86处理器功耗降低50%,史诗级能效比提升2倍,AI性能提速3倍。
Lunar Lake酷睿Ultra 200V系列作为专门面向轻薄本(迷你机/掌机)的低功耗处理器,彻底改变了设计思路,不再一味追求更多核心、更高频率,而是一门心思提升能效。
为此,它不惜减少了CPU核心、降低了CPU/GPU频率、取消了超线程(也没有AVX-512指令集),但同时升级了全新的CPU P/E核架构、全新的GPU架构、更强大的NPU AI引擎,从而换来了功耗的大幅降低、能效的大幅提升。
或许,Intel终于想明白了,对于轻薄本这类设备而言,性能尤其是CPU已经不是瓶颈,肯定还要提升,特别是GPU性能、NPU AI性能,但这些不再是核心目标,更应该卷起来的是能效,无论是单位面积的性能,还是单位功耗的性能,从而保证更长的续航,这才是更关键的。
x86架构长期背负着高功耗、低能效的“骂名”,在面对高通骁龙X系列、苹果M系列这样的ARM架构产品时更是保守质疑,酷睿Ultra 200V系列可以说彻底消除了这一误解,x86同样可以有超高的效率。
酷睿Ultra 200V系列做了一次勇敢的尝试,跑分的时候或许不会沾光,尤其是多核跑分,但跑分再高也只是好看的数字,更好的综合性能体验才是最符合用户利益的。
接下来,就该看酷睿Ultra 200V产品的实际表现了!