不得不说,手机产业从几年前的电子奢侈品已经完全转变为电子消费品。而曾经的黑箱交易也变得越来越透明。透明不仅仅局限于手机硬件利润的下降,更体现在时下市场的理性。记得几年前屏大、高主频CPU就是高价手机的代名词,而随着消费者越来越理性,手机产业链的各个硬件产业也纷纷走上正轨。例如屏幕向着窄边框发展、电池向着高能量密度/快速充电方向发展、拍照朝着高低光灵敏度发展等等.而作为智能手机硬件最重要的一环,CPU未来的发展方向是什么?对于这个问题大家众说纷纭。
但必须要说的是,之前拼最高主频、最高性能那条老路在16年已经行不通了。从高通、三星、海思等最新产品上我们也可以看出在未来的一段时间内主流CPU厂商已经朝着比拼单位性能方向发展。举个简单的例子:如何提升单位主频下的运算性能、如何能在超低功耗下提升性能是体现各大厂商研发实力的关键。今天我们就来总结下各大厂商为了能够提升单位性能在哪些方面做出了努力。
全面升级架构
提升CPU性能的最主要的方法就是更新架构。近年来ARM高性能架构从Cortex-A8/A9到Cortex-A15/A17,再到去年红极一时的Cortex-A57,而今年包括高通、海思都升级至Cortex-A72架构。对于性能方面,ARM官方宣称A72架构核心性能达到A15架构的3.5倍(数据基于16nm FinFET工艺A72对28nm传统工艺A15),之前A57相比A15架构性能提升1.9倍(数据基于20nm传统工艺A57对28nm传统工艺A15),所以大致可以看出同频率同工艺的A72核心性能相比A57架构性能应该有大致25%到35%左右的提升。
A72架构除了CPU性能提升、功耗下降之外,还有两大其他特性。其中就有CoreLink CCI-500的加入。CoreLink CCI-500最大的变化就是增加了一个“探听过滤器”(Snoop Filter),从而使探听控制不再局限于单个簇内部的CPU之间,可以扩展到整个处理器的所有核心。之前这一特性仅在高通骁龙805及其后续旗舰SoC芯片中有所体现(高通不采用ARM公版的CCI,而采用自主研发CCI)。总体而言,CCI-500的加入能够提升30%的内存性能,让很多需要大内存吞吐的场景例如4K视频等场景体验更好,也能够进一步解放多核心性能。由此我们也可以看出A72是现有高性能架构中单位主频性能最强的架构,这一点毋庸置疑。同时相比于A57来说,单位主频下功耗也有大幅度下降,这不仅得益于A72架构的分支预测运算能力提升,更重要的是FinFET工艺的加入。
采用全新工艺制程
如果说15年三星Exynos7420系列是FinFET工艺崭露头角的话,那么16年就是FinFET工艺大放异彩挑大梁的一年。FinFET工艺诞生于上世纪90年代,当时美国政府认为有必要进行25nm以下工艺制程的研究。因当进入25nm以下会出现传统工艺栅栏无法有效控制漏电率的问题,此时美籍华人胡正明提出了FinFET技术和FD-SOI技术来解决漏电率的问题。其中FinFET工艺则是通过改造删栏形态来控制漏电。其实芯片的总功耗P=Pswitch(电路联通时功耗)+Pshort(删开关的功耗)+Pleak(漏电功耗)。
之所以高通骁龙810会出现运行过程中降频甚至关闭核心的问题,很大程度上就是因为漏电功耗居高不下,导致整体功耗过高。甚至整机功耗超过4W也是时有发生的事。所以有很多人认为骁龙810降频是为了降温,其实根本的问题是20nm传统工艺无法已经无法控制A57架构漏电所带来的超高功耗。所以在新一代的SOC芯片中,高通也采用了FinFET工艺。想要了解更多关于FinFET的故事,大家可以点击上方麒麟团队为胡正明教授拍摄的宣传片。(PS.胡正明教授也在很长一段时间内任职台积电CTO)。总体而言,ARM官方宣称基于16nm FinFET工艺的A72核心相比28nm A15下降75%,相比20nm A57也有50%的下降。并且采用big.LITTLE大小核架构会更加省电。这一切的功劳很大程度上都得益于FinFET工艺的成熟。
协处理器性能迅速提升
超低功耗下性能提升也是目前各大CPU厂商重点攻坚的对象。其实手机CPU和PC处理器相同,从诞生之日起就对于不同使用场景进行针对性的调节。例如以全球首款1GHz主频商用智能手机CPU——高通MSM8250为例。虽然其最高主频为1GHz,但也针对不同使用场景进行了最低192MHz的设定。但手机处理器由于其工作原理的限制,不能做到类似“无级变速”的最小单位为1MHz的动态调节,所以在使用过程中会出现使用最低主频运行仍然性能过剩的情况。为了解决这一问题,协处理孕育而生。而ARM在去年发布了最新的针对物联网、智能家居的嵌入式架构Cortex-M7则是目前最炙手可热的协处理器架构。
相比于Cortex-M3架构,最新的Cortex-M7性能提升4倍。在40nm LP工艺与400MHz主频下,Cortex-M7处理器能够达到2000 Coremarks的性能,基本比肩了Cortex-A架构的性能。具备FPU和Cache,最重要的一点能够将待机功耗从之前的90mA下降至6.5mA。举个简单的例子,一块1080P屏幕最低亮度待机时功耗基本在90mA左右。而6.5mA的待机功耗可供3500mAh电池运行500小时。同时高性能的Cortex-M7也充当了Sensor Hub的功能,能够实时的处理各个传感器的信息,再举个例子:6.5mA功耗能将你一天的路线图在不知不觉当中记录下来,能够监测你步行的速度等等,为智能健康提供了更多更精准的数据。
自主架构的研发
自研架构相比于公版ARM授权架构(例如我们常说的Cortex-A53/A57等)有个不形象却通俗易懂的比喻——“站在巨人的肩膀上”。大体来说就是Qualcomm获得ARM公版授权后在已经较为成熟的公版设计上在做修改,例如公版设计上三行代码解决一个问题,Qualcomm精简为一行, 当然更重要的是加入一些全新的特性例如更新的内存控制机制等等,最终得到一个更高效率的自研架构。这也是Qualcomm一直以来有别于其他家厂商的差异化竞争力之一。Qualcomm之所以能够霸占旗舰手机市场大部分份额多年,其自研架构的战略也起了很重要的作用。
以采用自主架构的骁龙820为例子,此次采用Kryo架构的骁龙820采用四核心设计,时钟频率达到2.2GHz,但有一点值得我们注意,相比于APQ8064、骁龙800、骁龙801不同,此次骁龙820采用了2*2.2GHz+2*1.5GHz的不同时钟频率的四颗核心设计。同时,之前骁龙800采用了4aSMP,也就是四个异步对称式核心,每科核心均能够单独控制,每颗核心的频率也不存在差异。而此次骁龙820采用两簇核心管控2aSMP,也就是2+2的异步对称式核心,换句话说2颗1.5GHz核心是同步同频的,而两颗2.2GHz也是同步同频的,但在这两簇核心组之间采用了异步对称式的设计。讲到这里大家可能认为骁龙820也采用了类似big.LITTLE的设计,但通过Qualcomm官方的讲解其实并不是这样,两簇核心组仅是时钟频率上有所差异,但仍采用相同的Kryo架构。关于自研架构我们上面已经简单的解释一下Kryo架构,顺便提一句多渠道信息表明,包括三星、LG在内的多家厂商也开始走自研芯片的道路。