GPGPU的体系结构

自2006年NVIDIA公司和AMD公司两个主要GPU生产商推出统一渲染GPU架构至今,统一渲染GPU架构的体系结构不断得到改进和革新,以致短短几年时间内GPU的性能飞速提升。

    NVIDIA公司推出的三代GPGPU体系结构分别为G80、GT200和Fermi。GT200在G80的基础上提高了硬件计算资源和计算功能,并在存储层次和硬件比例配置方面做出了优化和改进。Femi则对G80体系结构进行了许多革新,引入了新的体系结构特征。

G80系列是NVIDIA公司最早推出的统一架构GPU,G80体系结构从总体上来说可以分成两个组成部分,分别是流处理器阵列(stream processor array,SPA)和存储系统。这两个部分是由一个片上交叉互联网络连接,因此,该体系结构具有良好的扩展性。

    统一结构中的基本计算单元被称为流多处理器(streaming multiprocessors,SsM)SM是GPU最底层的独立硬件结构,可以把它看成一个SIMD处理単元。共有16个SM,每个SM又包括8个流处理器(streaming processor,SP)和两个特殊功能单元(special function unit,SFU)。此外,每个SM中还包含一个16KB大小的共享存储器(shared memory),用来实现同一线程块中的线程共享数据和通信。共享存储器采用的是显式访存模式,在没有冲突的情况下,访存速度接近于寄存器的访问速度。SM上还包括8192个32位寄存器,在执行时分配给每个线程。在G80体系结构中,每两个SM组成了一个线程处理簇(thread processing cluster,,TPC),组成TPC的两个SM共用一级常量Cache、纹理Cache和一条纹理访存流水线,8个TPC共用二级常量Cache和二级纹理Cachet 

GT200架构是NVIDIA公司在2008年推出的第二代统一架构GPU。GT200架构是G80架构的延续和扩展。基于G1200架构的GTX280采用TSMC65nm工艺技术,芯片面积约为能达到90 GFLOPS。576mm2,在片上集成了多达14亿个品体管。单精度浮点性能达到1 TFLOPS,双精度浮点性能达到90GFLOPS。

Leave a Reply

Your email address will not be published. Required fields are marked *