NVIDIA在会上宣布,授予中国科学院过程工程研究所和清华大学“CUDA卓越中心”(CCOE)的称号,以表彰他们在中国推广CUDA和GPU计算以及利用GPU在高性能计算领域做出的突出贡献。在此之前,CUDA卓越中心已在美国哈佛大学、英国剑桥大学等全球五所高校设立,中科院过程所和清华大学则是国内首批的CUDA卓越中心。来自两所高校/研究所的教授在会上也分别展示了他们基于CUDA GPU平台、Tesla系统开发的应用。这些系统往往能够比CPU平台性能提升数十倍,同时在成本、体积、功耗等领域也拥有巨大优势。
另外,会上还为较早前举行的NVIDIA CUDA校园程序设计大赛进行了颁奖,获奖学生被授予“CUDA”未来之星称号。最终,来自华南理工大学的学生团队依靠作品“基于GPU的多模式网页精确匹配系统”,赢得了最高奖“特别贡献奖”,获得奖金20000元人民币。该获奖程序基于BNDM算法,目的是用来解决在信息检索等领域相当常见的字符串匹配问题。在将这一算法移植到GPU并行计算平台后,相比CPU平台获得了20倍的性能提升。
而在会后的问答环节,黄仁勋饶有兴趣的回答了全国媒体的多个问题,其中不乏猛料。下页开始就是问答内容摘译。
问:今天中科院过程工程研究所和清华大学介绍的大部分内容都是在说CUDA如何应用于科研开发、工程计算、高性能计算。NVIDIA为什么没有把CUDA在第一时间推向消费市场,而是面对开发者?
答:CUDA是一项全新的技术,是一个新事物。对于这样的技术,我们的推广策略是这样的:第一,首先交给核心的开发者、技术领域的先驱们,让他们首先学会如何使用它;第二,让大学的教授教会学生们如何应用它;第三,把它交给开发商,推出使用该技术的产品。有了这样成熟的产品后,消费者最终会从中受益。这就是我们的营销策略,从开发的中心开始,而不是从简单的电视广告、宣传画着手。
问:普通的消费者能从CUDA中得到什么?
答:每一次在计算技术上的革命,都能够同时在科学领域和普通消费领域得到体现。今天这里主要介绍了科研方面的应用,但消费者也一样可以使用同样的技术,同样的GPU在游戏中模拟烟雾、水面、纺织物效果。比如PhysX,再比如图像处理,视频转码等等,这都是CUDA在消费领域中的应用,完全可以让消费者从中受益。
问:今天展示的这些CUDA应用成果,都号称对比单核CPU能带来多少多少倍的性能提升。但事实上目前双核、四核CPU已经成为主流。甚至近日已经有公司宣布了100核心的CPU,Intel也展示过80核CPU。这样的多核心CPU会不会对GPU并行计算构成威胁,GPU面对它们还有多大的优势?
答:首先,我没有见过100核CPU,也没有见过Intel的80核CPU,肯定没有办法告诉你它们和GPU比较的确切结论。但是我想,为这样多核心的CPU编程肯定不会太容易。一款开发平台要成为主流,需要面对三大问题:一是优秀的技术,出色的性能,真正能够解决实际问题;二就是编程的简易程度,性能和编程的方便是互相权衡的关键;第三还有量的问题,我不知道有多少人会去买100核CPU。但是对于CUDA来说,任何一个大学生都可以开发,因为他们随处可见,随时都可以买到,平时玩游戏的PC里本身就有一颗CUDA处理器。
问:虽然近年来GPU通用计算蓬勃发展,但仍有很多应用并不适合GPU计算,你们如何解决这个问题?
答:那些用传统顺序编程思想编写的应用,在GPU上实现起来确实不容易。不过换一个想法,有些应用并不需要GPU加速,比如操作系统中的大量应用。除了这些应用以外,我们还有非常大的发挥空间。未来有一天我们希望模拟世界,因为世界本身就是并行的,符合GPU并行计算的特点。GPU可以做的事情非常多,并不需要去做所有的运算,也不需要做以前用CPU就已经解决的问题。
问:NVIDIA并不是业界最大规模的企业,但为什么能在GPU并行计算领域实现领先,未来会如何保持这种优势?
答:NVIDIA并不是一家小公司,我们是全球第三大计算机技术企业,但我们只做一件事:视觉计算。领先的秘诀就在于专注,我们可以把所有的资源都放在视觉计算上。而视觉计算和并行计算天生就是相似的,因为视觉计算本身就是并行的,所以我们在并行计算领域的先进性正来自于我们在视觉计算领域积累的经验。并且,我们在GPU计算推广上没有顾虑,我们的GPU可以在Intel或是AMD的平台上使用。我们不需要因为保护自己的CPU产品线,而在发展GPU运算上畏首畏尾。
问:NVIDIA在掌上设备领域,Tegra平台上投入了多大的力量,未来有怎样的规划?
答:NVIDIA在Tegra身上花了5年的时间进行开发,耗资5亿美元。Tegra是史上最强大的掌上设备处理器,集中了NVIDIA近15年来的各种技术创新成果。正像Tesla是面向服务器领域的GPU,GeForce是面向PC的GPU一样,Tegra是面向移动设备、面向网络的GPU。我们认为,PC只是未来应用的很小一部分,像Facebook、YouTube这样的网页化应用并不仅限于PC。比如“开心农场”,它是有史以来发展速度最快的游戏,有数以千万计的玩家,超越《星际争霸》,超越《魔兽世界》。我们认为这种基于网页,基于网络云计算的应用才代表了未来。
问:微软在Windows 7中引入了DirectCompute技术,苹果也在Snow Leopard中加入了OpenCL技术,这些技术都是用来实现GPU通用计算的。它们是否会对CUDA造成冲击?
答:无论DirectCompute还是OpenCL,它们都是在CUDA的启发下诞生的,同时又非常类似于CUDA。NVIDIA并不排斥,反而非常喜欢它们,我们推出了世界第一款也是最棒的OpenCL驱动,我们也有全球首款同时还是最完善的DirectCompute驱动。之所以这样做,因为我们喜欢所有能够实现GPU通用计算的途径,我们非常重视和微软、苹果等公司在这一领域的合作。不过,无论OpenCL还是DirectCompute,现在都只针对一套操作系统,而CUDA则是跨平台的,未来甚至Android手机都可能依靠CUDA实现并行运算。
问:Intel的Nehalem处理器在多线程计算领域的性能相当出色,是否会威胁GPU并行计算的地位?您又如何看待Intel的Larrabee?
答:Nehalem是一颗非常棒的处理器,尤其在CPU擅长的顺序编程应用领域,这是他们走了几十年的道路。不过GPU和它完全不同,我们的设计目标是并行计算,拥有500个以上结构简单的核心,适合处理更加复杂的应用。CPU和GPU是两种不同的物种,有着不同的分工。我们的目标不是替代它,GPU可以和Nehalem协同工作,两者并不冲突。
至于Larrabee,它的出现证明Intel认可了我们的并行计算理念,认识到了CPU+GPU运算的重要性。Intel推出Larrabee等于承认了Nehalem对于有些应用来说并不合适,因此他们才做出了一个像GPU的东西。但这一市场对于Intel来说很有挑战性,无论从技术、市场等方面来看都是这样。Fermi花了我们3年的时间,数千名工程师参与才完成,他们从头开发Larrabee面临困难肯定更多。
问:NVIDIA为什么没有在消费市场进行大规模的推广,为什么没有像“Intel Inside”这样的品牌营销?
答:“Intel Inside”实际上是“Money Inside”,它就像一门大炮,在里面塞满了钞票,然后“砰”的一声打出去,再塞满钱,再打出去。确实,Intel有资本这样做。但我们的策略是把钱放在研发上,把经费全部放在视觉计算、并行计算领域,正因为如此我们才可以做出这样的创新成果,给消费者带来真正的实惠。
问:CUDA GPU在并行计算、高性能计算领域的性能优于GPU,会不会导致NVIDIA和Intel的关系恶化?
答:我们做CUDA并不是为了对抗Intel,不是为了对抗任何人。CUDA是为开发者而生的,是为给消费者带来更棒的体验而生的。Intel是一家很棒的企业,具有统治力的企业。而我们认为,只要为了正确的理由,做正确的事,开发者、消费者就会像今天这样欢迎我们,因为我们的技术可以解决他们的问题。
最后是驱动之家记者提出的问题:今天的会议主要是关于并行计算,关于Tesla的。几周之前,您展示/介绍的Fermi,看起来也更像是一颗CUDA处理器而非游戏GPU。这些举动是否意味着NVIDIA正在逐渐远离消费市场,更多的关注企业运算、高性能计算领域。另外,在目前的几大产品线:GeForce、Quadro、Tesla、Tegra、ION中,您是否能够根据它们对于NVIDIA的重要程度排一个顺序?
答:Fermi并不仅仅是一颗通用计算处理器,它是一个全新的架构,可以应用于各种领域,各种产品线和市场。事实上,我们会分三次发布Fermi:第一次就是你说的上个月底,发布的是Tesla版本Fermi,用于服务器、高性能计算市场,因此介绍的技术特色主要都是为这一领域的应用服务。第二次,我们会推出GeForce版本的Fermi,会介绍它在消费、游戏领域的新功能特色,同样会让你有惊喜的发现。人们已经厌倦了依靠频率、容量提升而来的所谓“新产品”,我们需要革命性的新点子,Fermi就是NVIDIA自G80以来的最大变革。最后,我们还会有Quadro版Fermi的发布,面向工作站市场。
再来看各个产品线的定位。事实上,它们都是统一的。因为NVIDIA只做一件事,每年十几亿美元的研发费用都是放在这一件事上,那就是GPU,是视觉计算,是并行计算。GeForce是面向PC的GPU,Quadro是面向工作站的GPU,Tesla是面向高性能计算、服务器、云计算的GPU,Tegra是面向Smartbook、智能手机的GPU,ION是面向上网本GPU……它们统统都是我们的GPU产品线。