NVIDIAは、そのGeForce RTX 30シリーズのグラフィックスカードとそれらが利用するAmpere GPUに関するより多くの情報を、各メディアに提供しているようです。
この情報は、今後数週間でゲーム市場に上陸するGA102とGA104ゲーミングAmpere GPUの両方を詳しく見ていくディープダイブNDA’dセッションの一部です。
ディープダイブセッションには、NVIDIA GeForce RTX 30シリーズに関する情報が含まれており、その中には9月1日の正式発表時にすでに見た情報もあれば、AmpereゲーミングGPUについてより詳細な情報を提供してくれる新しい情報も含まれています。
NVIDIAは、RedditのQ&Aセッションで、彼らがAmpere GPUの新しいSMデザインについて話している間に、少量の情報を詳述しています。しかし、その前に、NVIDIAの新しいGeforce RTX 30シリーズのラインナップに搭載されているGPUを見てみましょう。
NVIDIA GA102 GPUは、ダイサイズが628mm2で、合計280億個のトランジスタを搭載したフラッグシップゲーミングチップで、NVIDIAによると、6つのGPC(Graphics Processing Clusters)と6つのTPC(Texture Processing Clusters)で構成されています。NVIDIAによると、GA102 GPUは6つのGPC(Graphics Processing Clusters)と6つのTPC(Texture Processing Clusters)で構成されています。RTX 3090に搭載されているGA102 GPUは41個のTPC(82SM)を使用しており、GeForce RTX 3080は34個のTPC(68SM)を使用しています。Ampere GPU の各 SM は、128 個の CUDA コアと再設計された構造を特徴としています。RTX 3090 の GA102 GPU は合計 10,496 コア、RTX 3080のGA102 GPUは8704コアです。
GPU密度に関しては、GA102 GPUはTuring TU102 GPUの約2倍の密度で、1平方ミリメートルあたりTuringの2,467万個のトランジスターであるのに対し、Ampereは4,456万個で、Samsungの8nmプロセスノード上にあります。
各SMは4つのTensorコアと1つのRTコアで構成されています。GA102 GPUの特徴は、共有L2キャッシュ。GeForce RTX 3090では6MB、RTX 3080では5MBとなっています。
共有されている具体的なGPUブロック図は、320ビットバスを提供するGeForce RTX 3080用の合計10個の32ビットメモリコントローラで、GeForce RTX 3090は、合計12個の32ビットメモリコントローラを搭載し、384ビットバスインターフェイスです。
NVIDIA GA104 GPU – GeForce RTX 3070のための効率とゲームを最適化したGPU。
NVIDIA GeForce RTX 3070グラフィックスカードの心臓部には、GA104 GPUがあります。GA104 GPUは、3番目に高速なAmpereチップです。このGPUは、Samsungの8nm(N8)プロセスノードをベースにしています。
GPUのサイズは 395.2mm2 で,TU102 GPUの93%に相当する 174 億個のトランジスターを搭載しています.同時にGA104 GPUは、TU102 GPUのほぼ半分のサイズであり、これは非常に多くの密度を持っています。
GeForce RTX 3070では、NVIDIAはそのフラッグシップで合計46個のSMユニットを有効にし、合計5888個のCUDAコアを実現しています。CUDAコアに加えて、NVIDIAのGeForce RTX 3070には、次世代RT(レイトレーシング)コア、Tensorコア、新しいSMまたはストリーミングマルチプロセッサユニットが搭載されています。このGPUは、合計184個のTensorコアと46個のRTコアを搭載しています。
GA104 GPUは、将来のグラフィックカードのバリエーションで発売される可能性のあるフルファット6144コア構成を搭載している可能性が高いようです。GA104 GPUは4 MBのL2共有キャッシュを特徴とし、256ビット幅のバスインターフェースのために合計8つの32ビットメモリコントローラを持っています。
NVIDIA GeForce RTX 30シリーズ「Ampere」グラフィックスカード仕様表
モデル名 | NVIDIA GeForce RTX 3070 | NVIDIA GeForce RTX 3080 | NVIDIA GeForce RTX 3090 |
---|---|---|---|
GPU | Ampere GA104-300 | Ampere GA102-200 | Ampere GA102-300 |
プロセス・ノード | Samsung 8nm | Samsung 8nm | Samsung 8nm |
ダイ・サイズ | 395.2mm2 | 628.4mm2 | 628.4mm2 |
Transistors | 17.4 Billion | 28 Billion | 28 Billion |
CUDA Cores | 5888 | 8704 | 10496 |
TMUs / ROPs | TBD | 272 / 96 | TBD |
Tensor / RT Cores | 184 / 46 | 272 / 68 | 328 / 82 |
ベースクロック | 1500 MHz | 1440 MHz | 1400 MHz |
ブーストクロック | 1730 MHz | 1710 MHz | 1700 MHz |
FP32 Compute | 20 TFLOPs | 30 TFLOPs | 36 TFLOPs |
RT TFLOPs | 40 TFLOPs | 58 TFLOPs | 69 TFLOPs |
Tensor-TOPs | 163 TOPs | 238 TOPs | 285 TOPs |
Memory Capacity | 8/16 GB GDDR6 | 10/20 GB GDDR6X | 24 GB GDDR6X |
Memory Bus | 256-bit | 320-bit | 384-bit |
Memory Speed | 16 Gbps | 19 Gbps | 19.5 Gbps |
帯域幅 | 512 Gbps | 760 Gbps | 936 Gbps |
消費電力 | 220W | 320W | 350W |
希望小売価格 | $499 US | $699 US | $1499 US |
発売日 | 2020年10月 | 9月17日 | 9月24日 |
NVIDIA Ampere SM (Streaming Multiprocessor Design) – 2倍のFP32スループット
Ampere GPUを搭載したNVIDIA GeForce RTX 30シリーズのカードにも、先日Tony Tamasi氏が説明した真新しいSMデザインが搭載されています。以下は、SM Ampereアーキテクチャで何が新しくなったかの詳細です。
Ampere 30シリーズSMの主な設計目標の1つは、FP32動作のスループットをTuring SMの2倍にすることでした。この目標を達成するために、Ampere SMにはFP32とINT32オペレーションのための新しいデータパス設計が含まれています。各パーティションの1個のデータパスは、1クロックあたり16個のFP32演算を実行できる16個のFP32 CUDAコアで構成されています。
もう1つのデータパスは、16個のFP32 CUDAコアと16個のINT32コアの両方で構成されています。この新しいデザインの結果、各Ampere SMパーティションは、1クロックあたり32個のFP32演算、または1クロックあたり16個のFP32と16個のINT32演算のいずれかを実行することができます。4つのSMパーティションを合計すると、Turing SMの2倍のFP32レートである128個のFP32演算を1クロックあたり、または64個のFP32と64個のINT32演算を1クロックあたり実行することができます。
FP32 の処理速度を 2 倍にすることで、多くの一般的なグラフィックスやアルゴリズムのパフォーマンスが向上します。
最近のシェーダのワークロードは通常、FFMA、浮動小数点加算(FADD)、浮動小数点乗算(FMUL)などの FP32 算術命令と、アドレス指定やデータ取得のための整数加算、結果処理のための浮動小数点比較や min/max などのより単純な命令を組み合わせたものが混在しています。
性能向上は、命令の組み合わせによって、シェーダとアプリケーションレベルで異なります。レイトレーシング・デノイジング・シェーダは、FP32のスループットを2倍にすることで大きな利益を得ることができる良い例です。
数値上のスループットを2倍にするには、それをサポートするデータパスを2倍にする必要があり、そのためにAmpere SMは、SMの共有メモリとL1キャッシュの性能も2倍にしました。(Turingでは64バイト/クロックに対してAmpere SMでは128バイト/クロック)。GeForce RTX 3080の総L1帯域幅は、GeForce RTX 2080 Superの116GB/secに対して、219GB/secとなっている。
先行のNVIDIA GPUと同様に、Ampereは、グラフィックス・プロセッシング・クラスタ(GPC)、テクスチャ・プロセッシング・クラスタ(TPC)、ストリーミング・マルチプロセッサ(SM)、ラスタ・オペレータ(ROPS)、およびメモリ・コントローラで構成されています。
GPCは、主要なグラフィックス処理ユニットのすべてがGPCの内部に存在する、支配的な高レベルハードウェアブロックです。各GPCには専用のラスターエンジンが含まれており、現在では2つのROPパーティション(各パーティションには8つのROPユニットが含まれています)も含まれており、これはNVIDIA Ampere Architecture GA10x GPUの新機能です。
NVIDIA Ampereアーキテクチャの詳細については、近日中に発表されるNVIDIAのAmpereアーキテクチャホワイトペーパーを参照してください。
ページ2へ
コメントを残す