顶着“全球第一款四核A15处理器”的光环,NVIDIA Tegra 4看起来很诱人,但只能说局限在CPU方面,GPU图形核心却是另外一回事儿。不说别的,黄仁勋在发布会上只展示CPU的强大,对于GPU表现却只字不提,由此就可见一斑。
Tegra 4 CPU部分包括五个Cortex-A15架构核心,其中四个是主力,频率最高可达1.9GHz,第五个则是专门的节能核心,最新消息显示频率在700-800MHz之间,用于执行轻负载。
GPU部分仍然叫做GeForce ULP,并未使用现在业界通行的统一渲染架构,而依然是古老的像素、顶点分离式,最要命的是不支持新的OpenGL ES 3.0标准规范,和其他家的方案相比就输了一大截。NVIDIA对此的解释是,这种架构更适合在Tegra 4设计期间的移动媒体类型——嘴硬,新产品设计就不考虑未来么?
Tegra 2/3/4这三代产品的图形核心都有不同数量的GPU核心组成,或者说是Vec4 ALU单元的独立组件,可同时执行标量和矢量操作。在架构上,它们都是源于NV4x,但和当年并不完全相同,比如那时候还是Vec3+Scalar,即每一组着色器单元中只有三个是通用的,第四个仅能执行标量操作。
Tegra 2只有单个Vec4顶点着色器单元和单个Vec4像素着色器单元,分别有4个核心,因此总计8核心。
Tegra 3将像素单元的数量增加了一倍,顶点单元没变,因此总计12个核心。
Tegra 4扩充到了6个顶点单元(FP32 24核心)、4个3-deep像素单元(FP20 48核心),总的核心数量达到了72个,六倍于Tegra 3,最高频率全部都超过了Tegra 3的520MHz,但具体数值仍然不详。
除了核心规模上的猛增,Tegra 4同样还有其他很多图形技术的改进和增强,比如像素着色单元设计的效率更高、终于支持真正的MSAA多重采样抗锯齿和帧缓冲压缩(Color/Z)、支持24-bit Z/Stencil ROP(之前是16-bit)、最大纹理分辨率从2K×2K提高到4K×4K、百分比渐进过滤(PCT)支持阴影、硬件支持FP16过滤器与混合,但还不支持适应性缩放纹理压缩(ASTC).
从理论上计算,Tegra 4 GPU的频率即便只有520MHz,浮点性能也会达到74.8GFlops,超过了iPad 4 A6X处理器里边PowerVR 554MP4图形核心的71.6GFlops。当然了,这只是理论上的,不代表实际性能(看看现在的A卡和N卡你就知道了),在应用和游戏里还需要相应的优化,特别是Tegra 4还是非统一架构。
正因为如此,泄露的Tegra 4GLBenchmark成绩才比较惨,NVIDIA方面也是对此不屑一顾,声称在最终频率上,Tegra 4无论基准测试还是3D游戏都要快于A6X。