将复杂简单化 Tesla K10及K20技术规格详解
  • 鲲鹏
  • 2012年05月17日 08:56
  • 0

显卡规格方面的信息基本就是这么多了,再来看一下NVIDIA为GK110所增加的新技术吧。

Dynamic Parallelism(动态并行)

将复杂简单化 Tesla K10及K20技术规格详解

GK110架构的首要目标之一就是使程序员更方便地调用GPU强大的并行计算能力。传统的模式下,GPU每次操作都需要CPU的参与,而Dynamic Paralleliom的存在使得GPU接收数据时会动态刷新线程而无需CPU参与。由于内核有了独立载入工作负载的能力,动态并行技术允许程序直接在GPU上运行。

这项技术的好处就是可以降低编程的复杂性,原本需要200-300行代码才能完成的工作在GK110显卡上只需要30行就可以了

Hyper-Q

将复杂简单化 Tesla K10及K20技术规格详解

上一项技术强调的是简化操作,是给CPU减负,而Hyper-Q则是增加了CPU同时载入工作的核心数,是在提升=高CPU的利用率,避免CPU过多的闲置。

Fermi架构中CPU只能同时运行一个MPI(Message Passing Interface消息传递接口)任务,但是在GK110架构中CPU同时运行的MPI任务数多达32个

传统的MPI任务主要基于多核CPU应用,与GPU强大的并行计算能力相比,CPU处理的MPI任务量实在是太小了,往往会带来虚假的GPU依赖性,导致GPU的性能无法有效利用,Hyper-Q大幅提高了CPU可以分配给GPU的MPI任务量,如果同时传递32个任务给GPU,那么理论性能会达到Fermi架构的32倍,实际应用中虽然不会这么夸张,但是优化调度之后GPU的并行计算能力还是会有改善。

GPU Direct

将复杂简单化 Tesla K10及K20技术规格详解

GPU Direct直连是NVIDIA官方PDF中没有提到的,不过依然值得解释一下。NVIDIA已经推出了基于Kepler架构的GeForce GRID云游戏技术,那么使用Kepler显卡的服务器就免不了要互相交换数据。GPU Direct技术可以让服务器的中不同显卡直接读取显存的数据,甚至不同服务器之间的显卡也可以通过网卡读取另一块显卡显存中的数据,简单来说就是提高了显卡的数据交换能力,所需的步骤更少,延迟更低。

CUDA 5

要想使用上面介绍的技术就必须使用新的CUDA 5,GTC大会上NVIDIA已经发布了一个预览版的CUDA 5 SDK,正式版将在今年三季度发布。

Kepler显卡发布之后,Tesla家族也终于迎来架构更新,而且很快就会有更新架构的Tesla加速卡,得益于GK104良好的效能比,NVIDIA的Tesla加速卡也具备了这样的能力,性能更强的同时功耗更低。

新一代GK110架构重点针对GPU计算性能做了加强,双精度浮点能力提升到之前架构的三倍,并有动态并行、Hyper-Q、GPU Direct等技术辅助,无论是易用性还是性能都有明显改善,担当起GPU计算的光荣使命了。(文/超能网


文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部0条评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0