GPU高速化事例（Vol.2）
HimenoBMTプログラムにおけるGPU化効果とOccupancyとの相関関係の分析

HimenoBMTは、熱伝導や非圧縮性流体などの物理現象に関連するPoisson方程式を、ヤコビ反復法（Jacobi iteration）によって数値的に解くベンチマークプログラムです。

本ページでは、HimenoBMTプログラムにおけるGPU化を行い、高速化した事例をご紹介いたします。

ボトルネック要因（分析）

【改善前】HimenoBMT Jacobiカーネル


!$acc kernels loop reduction(+:wgosa)
     do k=2,kmax-1
        do j=2,jmax-1
           do i=2,imax-1
              s0=a(I,J,K,1)*p(I+1,J,K) &
                +a(I,J,K,2)*p(I,J+1,K) &
                +a(I,J,K,3)*p(I,J,K+1) &
                +b(I,J,K,1)*(p(I+1,J+1,K)-p(I+1,J-1,K)  &
                            -p(I-1,J+1,K)+p(I-1,J-1,K)) &
                +b(I,J,K,2)*(p(I,J+1,K+1)-p(I,J-1,K+1)  &
                            -p(I,J+1,K-1)+p(I,J-1,K-1)) &
                +b(I,J,K,3)*(p(I+1,J,K+1)-p(I-1,J,K+1)  &
                            -p(I+1,J,K-1)+p(I-1,J,K-1)) &
                +c(I,J,K,1)*p(I-1,J,K) &
                +c(I,J,K,2)*p(I,J-1,K) &
                +c(I,J,K,3)*p(I,J,K-1)+wrk1(I,J,K)
              ss=(s0*a(I,J,K,4)-p(I,J,K))*bnd(I,J,K)
              wgosa=wgosa+ss*ss
              wrk2(I,J,K)=p(I,J,K)+omega*ss
           enddo
        enddo
     enddo

【ご参考】北大プログラム高コスト部2


1006    !$acc kernels
1007    !$acc loop independent
1008    do k = 2, m*n, 2    ! even space
1009      j = (k - 1) / m + 1
1010      i = k - (j - 1) * m
1011
1012      !-- IF m is EVEN (Based on Column-Major Order; FORTRAN)
1013      if(mod(m,2)==0 .and. mod(j,2)==0) i = i - 1
1014
1015      p(i, j) = ( bb(i, j) &
1016                - ae(i, j) * p_old(i+1, j) - aw(i, j) * p_old(i-1, j)    &
1017                - an(i, j) * p_old(i, j+1) - as(i, j) * p_old(i, j-1) )  &
1018                / ap(i, j) * relux_factor                                &
1019              + p_old(i, j) * (1. - relux_factor)
1020    end do
1021    !$acc end kernels

プログラムの特徴

HimenoBMTの演算カーネル部は、有限差分法による19点ステンシル計算となっている

要因（分析）

Occupancyの計測結果

	Occupancy[%]
	Theoretical	Achieved
HimenoBMT Jacobiカーネル	43.75	43.13
【ご参考】北大プログラム高コスト部2	100.00	95.03

改善アプローチ

Theoretical Occupancyを高める
Achieved Occupancyを近づけていく

Theoretical Occupancy　≧　Achieved Occupancy

【TUNE①＋TUNE②を実施した場合】データ再利用性の最大化

ASIS

【改善前】HimenoBMT Jacobiカーネル


!$acc kernels loop reduction(+:wgosa)
     do k=2,kmax-1
        do j=2,jmax-1
           do i=2,imax-1
              s0=a(I,J,K,1)*p(I+1,J,K) &
                +a(I,J,K,2)*p(I,J+1,K) &
                +a(I,J,K,3)*p(I,J,K+1) &
                +b(I,J,K,1)*(p(I+1,J+1,K)-p(I+1,J-1,K)  &
                            -p(I-1,J+1,K)+p(I-1,J-1,K)) &
                +b(I,J,K,2)*(p(I,J+1,K+1)-p(I,J-1,K+1)  &
                            -p(I,J+1,K-1)+p(I,J-1,K-1)) &
                +b(I,J,K,3)*(p(I+1,J,K+1)-p(I-1,J,K+1)  &
                            -p(I+1,J,K-1)+p(I-1,J,K-1)) &
                +c(I,J,K,1)*p(I-1,J,K) &
                +c(I,J,K,2)*p(I,J-1,K) &
                +c(I,J,K,3)*p(I,J,K-1)+wrk1(I,J,K)
              ss=(s0*a(I,J,K,4)-p(I,J,K))*bnd(I,J,K)
              wgosa=wgosa+ss*ss
              wrk2(I,J,K)=p(I,J,K)+omega*ss
           enddo
        enddo
     enddo

分析

プログラムの特徴

配列a,b,c,wrk1,bnd,wrk2　⇒ データの再利用不可
配列p　⇒ データの再利用可

後追

p(I,J,K-1)、

後追

p(I,J,K)、

先行

p(I,J,K+1)

データの再利用ができていない場合、
メモリアクセス量：16GB

対応

データの再利用ができている場合、
メモリアクセス量：14GB

TUNE①＋TUNE②


!$acc parallel loop reduction(+:wgosa) 
    do k=2,kmax-1 
      !$acc loop tile(64,16)　⇒ タイリング対応
        do j=2,jmax-1
          do i=2,imax-1
            s0= abc(1,I,J,K)*p(I+1,J,K) &
               +abc(2,I,J,K)*p(I,J+1,K) &
               +abc(3,I,J,K)*p(I,J,K+1) &
               +abc(5,I,J,K)*(p(I+1,J+1,K)-p(I+1,J-1,K)  &
                             -p(I-1,J+1,K)+p(I-1,J-1,K)) &
               +abc(6,I,J,K)*(p(I,J+1,K+1)-p(I,J-1,K+1)  &
                             -p(I,J+1,K-1)+p(I,J-1,K-1)) &
              …（略）
           enddo
        enddo
     enddo

TUNE①：配列次元入替＋配列マージabc
TUNE②：ブロッキング（＝タイリング）

GPU A100 HimenoBMT(XL)	実行時間 [ms]	Occupancy [%]		レジスタ数	Shared Memory Per Block [B]	メモリアクセス量 [GB]	メモリスループット [GB/s]
GPU A100 HimenoBMT(XL)	実行時間 [ms]	Theoretical	Achieved	レジスタ数	Shared Memory Per Block [B]	メモリアクセス量 [GB]	メモリスループット [GB/s]
ASIS	16.02	43.75	43.15	72	1024	16.11	1030
TUNE①	14.38	56.25	55.47	56	1024	16.22	1130
TUNE②	12.10	50.00	49.98	64	4096	14.07	1150

ホワイトペーパー全文のダウンロードはこちら

「GPU化による高速化事例と留意ポイント」について（全28ページ）

当サイトで取得する個人情報の取り扱い

【個人情報の利用目的について】

弊社は、ご記入いただく個人情報を、以下の目的に利用します。

弊社のサービス・製品及び、弊社が開催するイベントまたはセミナーに関する情報の提供（E-mail、電話等）
お問合わせに対する回答、関連する資料の送付
お客様との連絡・交渉
弊社のサービス・製品の提供に当たって必要な事務手続き及び請求手続き
サービス・製品等のサポート対応

【個人情報の委託について】

弊社では、利用目的の達成に必要な範囲内において、他の事業者へ個人情報を委託することがございます。その場合は、個人情報保護体制が整備された委託先を選定するとともに、個人情報保護に関する契約の締結や適切な監督を行います。

【第三者提供について】

弊社は、お客様の承諾を得た場合または法令により許された場合を除き、お客様の個人情報を第三者に提供いたしません。お客様の同意のもとまたは法令に基づき個人情報を第三者に提供する場合には、適切な管理を義務づけ、その第三者からの漏えい・再提供の防止などを図ります。

【本人が個人情報をご提供する際の任意性について】

弊社に個人情報を提供することは任意です。ご提供いただけない場合は、弊社の業務に支障を来し、ご本人が弊社からの十分なサービスを受けられない可能性がございますのでご了承ください。

【個人情報の取り扱いに関するご連絡先、相談窓口】

※開示、訂正、利用停止等のお申し出は、下記リンクに記載の受付窓口までご連絡ください。

https://www.metro.co.jp/privacypolicy-3.html

【個人情報保護管理者】

取締役執行役員 CIO
電話番号：03-4214-1020
メールアドレス：privacy@metro.co.jp

◆「個人情報保護ポリシー」「プライバシーポリシー」をご覧になりたい方は下記リンクをご参照ください。

https://www.metro.co.jp/privacypolicy.html

フォームが表示されない場合

フォームが表示されない場合は、Q&Aをご覧ください。

資料請求・お問合わせはこちらから

まずはお気軽にお電話またはフォームからお問合わせください

お電話でのお問合わせ

03-4214-1020(代)

フォームからのお問合わせ

お問い合わせフォーム

ページトップへ戻る

GPU高速化事例（Vol.2）
HimenoBMTプログラムにおけるGPU化効果とOccupancyとの相関関係の分析

ボトルネック要因（分析）

【改善前】HimenoBMT Jacobiカーネル

【ご参考】北大プログラム高コスト部2

プログラムの特徴

要因（分析）

Occupancyの計測結果

改善アプローチ

【TUNE①＋TUNE②を実施した場合】データ再利用性の最大化

ASIS

【改善前】HimenoBMT Jacobiカーネル

分析

プログラムの特徴

対応

TUNE①＋TUNE②

ホワイトペーパー全文のダウンロードはこちら

「GPU化による高速化事例と留意ポイント」について（全28ページ）

目次

当サイトで取得する個人情報の取り扱い

【個人情報の利用目的について】

【個人情報の委託について】

【第三者提供について】

【本人が個人情報をご提供する際の任意性について】

【個人情報の取り扱いに関するご連絡先、相談窓口】

【個人情報保護管理者】

フォームが表示されない場合

関連事例

GPU高速化事例（Vol.1）

関連サービス

GPU高速化サービス

数値シミュレーションプログラム開発

資料請求・お問合わせはこちらから

お電話でのお問合わせ

フォームからのお問合わせ

GPU高速化事例（Vol.2）HimenoBMTプログラムにおけるGPU化効果とOccupancyとの相関関係の分析

ボトルネック要因（分析）

【改善前】HimenoBMT Jacobiカーネル

【ご参考】北大プログラム 高コスト部2

プログラムの特徴

要因（分析）

Occupancyの計測結果

改善アプローチ

【TUNE①＋TUNE②を実施した場合】データ再利用性の最大化

ASIS

【改善前】HimenoBMT Jacobiカーネル

分析

プログラムの特徴

対応

TUNE①＋TUNE②

ホワイトペーパー全文のダウンロードはこちら

「GPU化による高速化事例と留意ポイント」について（全28ページ）

目次

当サイトで取得する個人情報の取り扱い

【個人情報の利用目的について】

【個人情報の委託について】

【第三者提供について】

【本人が個人情報をご提供する際の任意性について】

【個人情報の取り扱いに関するご連絡先、相談窓口】

【個人情報保護管理者】

フォームが表示されない場合

関連事例

GPU高速化事例（Vol.1）

関連サービス

GPU高速化サービス

数値シミュレーションプログラム開発

資料請求・お問合わせはこちらから

お電話でのお問合わせ

フォームからのお問合わせ

GPU高速化事例（Vol.2）
HimenoBMTプログラムにおけるGPU化効果とOccupancyとの相関関係の分析

【ご参考】北大プログラム高コスト部2