NVIDIA GeForce RTX 30シリーズ&Ampere GPUの詳細 – GA102/GA104 GPUスペック&RTX 3090, RTX 3080, RTX 3070パフォーマンス&機能詳細も明らかに。

NVIDIAは、そのGeForce RTX 30シリーズのグラフィックスカードとそれらが利用するAmpere GPUに関するより多くの情報を、各メディアに提供しているようです。

この情報は、今後数週間でゲーム市場に上陸するGA102とGA104ゲーミングAmpere GPUの両方を詳しく見ていくディープダイブNDA’dセッションの一部です。

ディープダイブセッションには、NVIDIA GeForce RTX 30シリーズに関する情報が含まれており、その中には9月1日の正式発表時にすでに見た情報もあれば、AmpereゲーミングGPUについてより詳細な情報を提供してくれる新しい情報も含まれています。

NVIDIAは、RedditのQ&Aセッションで、彼らがAmpere GPUの新しいSMデザインについて話している間に、少量の情報を詳述しています。しかし、その前に、NVIDIAの新しいGeforce RTX 30シリーズのラインナップに搭載されているGPUを見てみましょう。

NVIDIA GA102 GPUは、ダイサイズが628mm2で、合計280億個のトランジスタを搭載したフラッグシップゲーミングチップで、NVIDIAによると、6つのGPC(Graphics Processing Clusters)と6つのTPC(Texture Processing Clusters)で構成されています。NVIDIAによると、GA102 GPUは6つのGPC(Graphics Processing Clusters)と6つのTPC(Texture Processing Clusters)で構成されています。RTX 3090に搭載されているGA102 GPUは41個のTPC(82SM)を使用しており、GeForce RTX 3080は34個のTPC(68SM)を使用しています。Ampere GPU の各 SM は、128 個の CUDA コアと再設計された構造を特徴としています。RTX 3090 の GA102 GPU は合計 10,496 コア、RTX 3080のGA102 GPUは8704コアです。

GPU密度に関しては、GA102 GPUはTuring TU102 GPUの約2倍の密度で、1平方ミリメートルあたりTuringの2,467万個のトランジスターであるのに対し、Ampereは4,456万個で、Samsungの8nmプロセスノード上にあります。

各SMは4つのTensorコアと1つのRTコアで構成されています。GA102 GPUの特徴は、共有L2キャッシュ。GeForce RTX 3090では6MB、RTX 3080では5MBとなっています。

共有されている具体的なGPUブロック図は、320ビットバスを提供するGeForce RTX 3080用の合計10個の32ビットメモリコントローラで、GeForce RTX 3090は、合計12個の32ビットメモリコントローラを搭載し、384ビットバスインターフェイスです。

NVIDIA GA104 GPU – GeForce RTX 3070のための効率とゲームを最適化したGPU。

NVIDIA GeForce RTX 3070グラフィックスカードの心臓部には、GA104 GPUがあります。GA104 GPUは、3番目に高速なAmpereチップです。このGPUは、Samsungの8nm(N8)プロセスノードをベースにしています。

GPUのサイズは 395.2mm2 で,TU102 GPUの93%に相当する 174 億個のトランジスターを搭載しています.同時にGA104 GPUは、TU102 GPUのほぼ半分のサイズであり、これは非常に多くの密度を持っています。

GeForce RTX 3070では、NVIDIAはそのフラッグシップで合計46個のSMユニットを有効にし、合計5888個のCUDAコアを実現しています。CUDAコアに加えて、NVIDIAのGeForce RTX 3070には、次世代RT(レイトレーシング)コア、Tensorコア、新しいSMまたはストリーミングマルチプロセッサユニットが搭載されています。このGPUは、合計184個のTensorコアと46個のRTコアを搭載しています。

GA104 GPUは、将来のグラフィックカードのバリエーションで発売される可能性のあるフルファット6144コア構成を搭載している可能性が高いようです。GA104 GPUは4 MBのL2共有キャッシュを特徴とし、256ビット幅のバスインターフェースのために合計8つの32ビットメモリコントローラを持っています。

NVIDIA GeForce RTX 30シリーズ「Ampere」グラフィックスカード仕様表

モデル名NVIDIA GeForce RTX 3070NVIDIA GeForce RTX 3080NVIDIA GeForce RTX 3090
GPUAmpere GA104-300Ampere GA102-200Ampere GA102-300
プロセス・ノードSamsung 8nmSamsung 8nmSamsung 8nm
ダイ・サイズ395.2mm2628.4mm2628.4mm2
Transistors17.4 Billion28 Billion28 Billion
CUDA Cores5888870410496
TMUs / ROPsTBD272 / 96TBD
Tensor / RT Cores184 / 46272 / 68328 / 82
ベースクロック1500 MHz1440 MHz1400 MHz
ブーストクロック1730 MHz1710 MHz1700 MHz
FP32 Compute20 TFLOPs30 TFLOPs36 TFLOPs
RT TFLOPs40 TFLOPs58 TFLOPs69 TFLOPs
Tensor-TOPs163 TOPs238 TOPs285 TOPs
Memory Capacity8/16 GB GDDR610/20 GB GDDR6X24 GB GDDR6X
Memory Bus256-bit320-bit384-bit
Memory Speed16 Gbps19 Gbps19.5 Gbps
帯域幅512 Gbps760 Gbps936 Gbps
消費電力220W320W350W
希望小売価格$499 US$699 US$1499 US
発売日2020年10月9月17日9月24日

NVIDIA Ampere SM (Streaming Multiprocessor Design) – 2倍のFP32スループット

Ampere GPUを搭載したNVIDIA GeForce RTX 30シリーズのカードにも、先日Tony Tamasi氏が説明した真新しいSMデザインが搭載されています。以下は、SM Ampereアーキテクチャで何が新しくなったかの詳細です。

Ampere 30シリーズSMの主な設計目標の1つは、FP32動作のスループットをTuring SMの2倍にすることでした。この目標を達成するために、Ampere SMにはFP32とINT32オペレーションのための新しいデータパス設計が含まれています。各パーティションの1個のデータパスは、1クロックあたり16個のFP32演算を実行できる16個のFP32 CUDAコアで構成されています。

もう1つのデータパスは、16個のFP32 CUDAコアと16個のINT32コアの両方で構成されています。この新しいデザインの結果、各Ampere SMパーティションは、1クロックあたり32個のFP32演算、または1クロックあたり16個のFP32と16個のINT32演算のいずれかを実行することができます。4つのSMパーティションを合計すると、Turing SMの2倍のFP32レートである128個のFP32演算を1クロックあたり、または64個のFP32と64個のINT32演算を1クロックあたり実行することができます。

FP32 の処理速度を 2 倍にすることで、多くの一般的なグラフィックスやアルゴリズムのパフォーマンスが向上します。

最近のシェーダのワークロードは通常、FFMA、浮動小数点加算(FADD)、浮動小数点乗算(FMUL)などの FP32 算術命令と、アドレス指定やデータ取得のための整数加算、結果処理のための浮動小数点比較や min/max などのより単純な命令を組み合わせたものが混在しています。

性能向上は、命令の組み合わせによって、シェーダとアプリケーションレベルで異なります。レイトレーシング・デノイジング・シェーダは、FP32のスループットを2倍にすることで大きな利益を得ることができる良い例です。

数値上のスループットを2倍にするには、それをサポートするデータパスを2倍にする必要があり、そのためにAmpere SMは、SMの共有メモリとL1キャッシュの性能も2倍にしました。(Turingでは64バイト/クロックに対してAmpere SMでは128バイト/クロック)。GeForce RTX 3080の総L1帯域幅は、GeForce RTX 2080 Superの116GB/secに対して、219GB/secとなっている。

先行のNVIDIA GPUと同様に、Ampereは、グラフィックス・プロセッシング・クラスタ(GPC)、テクスチャ・プロセッシング・クラスタ(TPC)、ストリーミング・マルチプロセッサ(SM)、ラスタ・オペレータ(ROPS)、およびメモリ・コントローラで構成されています。

GPCは、主要なグラフィックス処理ユニットのすべてがGPCの内部に存在する、支配的な高レベルハードウェアブロックです。各GPCには専用のラスターエンジンが含まれており、現在では2つのROPパーティション(各パーティションには8つのROPユニットが含まれています)も含まれており、これはNVIDIA Ampere Architecture GA10x GPUの新機能です。

NVIDIA Ampereアーキテクチャの詳細については、近日中に発表されるNVIDIAのAmpereアーキテクチャホワイトペーパーを参照してください。

ページ2へ

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUTこの記事をかいた人

映画、海外ドラマ、音楽、ビデオゲーム、ガジェット、自作ハイエンドPC、車、バイク、政治、経済、株式投資、格闘技、70年代のTVドラマ、超常現象などが大好きな湘南在住の管理人です。東京に住んでいた頃は、ハイエンドオーディオ、ハイエンドホームシアターなど趣味で実践していました。現在は、ソニー4KブラビアX9500Gの85インチで洋画、海外ドラマ、ビデオゲームをYAMAHAのA3070AVアンプ経由で5-1-4 9.1チャンネルのDolby Atmos環境で楽しんでいます。映画やゲームレビューはこのシステムかサブシステムのLG 55インチNANO91 4K 120Hzで検証しています。様々な幅広いジャンルでの経験で得た知識、見識をレビューやエッセイも含め、色々と書き綴って情報発信していきたいと思っています。尚、当サイトで書く内容は、あくまで個人的な好みや価値観での意見を書き綴っていますので、あしからず。 YOUTUBEチャンネルでは、高画質をモットーに4K解像度のゲームプレイ、PCゲームのベンチマーク動画、グラフィック比較動画に加えて他に好きなものなど、色々と公開していきたいと思いますので、お気に召したらチャンネル登録をよろしくお願いいたします。  https://www.youtube.com/user/hidebusa720