NVIDIA GPU架构与原理分析(四)——Fermi 架构的 GPU 产品

6400阅读 0评论2016-03-05 登高望远海
分类:高性能计算

1.  Fermi架构产品型号

Tesla Fermi架构的产品有:

Tesla C1060

1Tesla GPU240个处理器核)

4GB专用内存

n  标准长度、双插槽,适合PCI Express x16(1代或2)插槽(获取最佳结果推荐使用2)

Tesla C2050/C2070

Tesla C2075

Tesla C870

Tesla D870

Tesla S870 1U系统

4Tesla C870 GPU

Tesla M2050/M2070

Tesla M2075

Tesla M2090

Tesla S2050 1 U系统

4Tesla C2050 GPU

2.   Tesla GPU框图

下图是Tesla GPU的框图,可以看到GPU卡的主要部分包括GPU、内存控制器和主机PCIe接口,不同的GPU卡使用的GPU型号不同,但以上三个部分的构成是不变的。

3. Tesla Fermi GPU的共同特性

以下是Fermi架构各种GPU的共同特性:

ECC内存

杰出的计算精度与可靠性能够满足关键应用的重要需求。能够为存储器中的数据提供保护功能,从而为应用程序增强数据完整性和可靠性。寄存器文件、L1/L2高速缓存、共享存储器以及DRAM均受ECC的保护。

Parallel DataCache

能够为物理效果解算器、光线追踪以及稀疏矩阵乘法等诸多算法加速,在这些算法中,数据地址事先都是未知的。每个流式多处理器模块均包含一个可配置的L1高速缓存,所有处理器核心使用统一的L2高速缓存

GigaThread 引擎

通过多项技术实现了吞吐量的最大化,其中包括10倍于上一代架构的高速上下文切换、并发内核执行以及改良的线程块调度。

CUDA 编程环境广泛支持编程语言与APIs

开发人员无论选择C语言、C++OpenCLDirectCompute还是选择Fortran语言,都能够实现应用程序的并行机制,进而利用“Fermi”GPU的创新架构

异步传输功能

计算核心在处理其它数据的同时还能够在PCIe总线上传输数据,因而增强了系统性能。即便是地震处理这类需要大量数据传输的应用程序,也能够通过事先将数据传输至本地存储器的方法来最大限度提升计算效率。

高速PCI-E2.0数据传输

CPUGPU之间更快、更高的带宽通信

IEEE 754 单精度&双精度浮点运算单元

单片上获取最高的浮点性能,满足应用程序的精度需求

每颗GPU最多配备6GB GDDR5内存

在附属于GPU的本地内存存储更大的数据集,最大化性能同时减少了数据传输

共享数据内存

几组处理器核可以共同使用低延迟的内存

支持的操作系统

Windows XPWindows VistaWindows 7 (64位和32)

Linux  (64位和32)


4. Tesla S2050 1U 系统

计算处理器:

4Tesla C2050 GPU

12 GB的总内存(每个GPU 3 GB

系统架构

Tesla S2050 GPU 计算系统基于20系列GPU构建,可以通过两个PCIe连接到单个主机,或者通过每个PCIe连接一个主机的方式连接到两个单独的主机上。每个PCIe总线连接到4GPU中的两个处理器。如果仅连接了一个PCIe线缆,那么仅有两个GPU可用。

上一篇:NVIDIA GPU架构与原理分析(三)——Fermi 架构 GPU 功能特性2
下一篇: NVIDIA GPU架构与原理分析(五)——Kepler 架构 GPU 概述