雨ですね… 日本の天気予報を支える技術〜NAPS11稼働に寄せて〜インフラ編

HOME > ymvさんのHP > 日記

2024年03月29日 10:58未分類全体に公開

雨ですね… 日本の天気予報を支える技術〜NAPS11稼働に寄せて〜インフラ編

おはようございます
雨の朝です

天気予報といえばアメダスや気球による観測をもとにした根拠データの整備という大きなトピックがありますが
本エントリではそれらのソースデータを使ったシミュレーション、特にその大規模計算を担うスーパーコンピューターの話をします

◆ 気象にまつわる大規模シミュレーション

気象にまつわる大規模なシミュレーション、というとまず頭に浮かぶのは「地球シミュレータ」というスーパーコンピューターではないでしょうか

地球シミュレータは富岳と並び日本で最も有名なスーパーコンピューターで、シミュレーションに基づく人類社会への価値を感じさせる名前ですが、このコンピューターが設置されているJAMSTEC 海洋研究開発機構という名前の通りそのフォーカス範囲は都市圏や山岳での天気予報というよりは数年〜数百年という大きなオーダーでの気候変動の予測です

気候変動といえば登山においても「数年前まで真夏に雪渓が残っていた箇所が最近はすぐ溶けるようになった」といった変化を感じるケースは多いかと思いますが、われわれ登山者が日常の中でより気にしているのはマクロな変動よりも「明日晴れるか」の天気予報に違いありません

◆ 「天気予報」をするハードル

天気予報の話を掘り下げるにあたり、予報業務許可制度に触れないのは困難です

「天気予報」という括りには法的な制限、特に「予報業務」に関して強い制限が課されており、歴史的に気象庁以外の参加者が少ない（性質によっては許されない）構造でもありました

 https://www.jma.go.jp/jma/kishou/minkan/q_a_m.html

「変な予報を勝手に発表されてそれをもとに人々が行動して大変なことになったらまずいので強い制限を設けてきました。ご協力ください」、というのが気象庁のスタンスといえます

この一端はヤマテン代表の猪熊さんがヤマレコの日記に書かれているところからも窺えます

 https://www.yamareco.com/modules/diary/745902-detail-311657
> 気象庁には、山頂の予報を発表するのに厳しい条件をつけているのであるから、その精度についていい加減なものは認めないなど、仕組み作りに工夫をしていただきたいし、情報を利用する登山者も、気象情報が氾濫するほど沢山ある状態の中で、信頼できる予報を選択していかなければならない時代だと思う。

閑話休題

◆ 日本の天気の数値予報はすべて気象庁のデータを基にしている

現在のところ、非全球モデルに基づき日本全国をカバーする短期天気予報/数値予報モデルの大規模シミュレーション計算をコンスタントに毎日（ものによっては数分・数時間間隔で）廉価（ほぼ配信コストのみで）に配信し続ける主体は気象庁以外に存在しません

逆に、ほとんどの（民間）気象予報主体は気象庁が計算して発表する数値予測結果・ガイダンス情報・予報支援・週間天気予報解説資料類をもとにして大筋をはずさず独自の色を出せる予報で価値探索をしているといえます

◆ 天気予報を構成するモデル

上記の記述について、天気予報に詳しい方は「ん？」と思うかもしれません
ウェザーニュースが居るじゃないか、と

民間気象事業者としてウェザーニュース社はかなりエッジの効いた戦い方（ときには気象庁相手に殴りかかるような）をしていますが、基盤シミュレーションという面では気象庁と同等規模のコンピューター資源を持ち合わせていないはずです

世界をカバーする気象事業者のなかには大規模シミュレーションを自前計算している会社がある可能性もあります
日本がカバー範囲に入っていたりサービスやアプリが日本語対応している場合もありますが、それらは全球モデル（以下GSM）にもとづくもので日本近隣へ特化したメソモデル（以下MSM）や、ましてや日本の国土付近のみを対象として大規模計算資源を投下する局地モデル（LFM）ではありません（コストが合いません）

GSMとMSMの差は若干専門的ですが、気象庁がデータを追加処理して生成している「ガイダンス」情報に関してGSMとMSMの性質比較へ言及した資料があるので紹介します

 https://www.jma.go.jp/jma/kishou/minkan/koushu131120/shiryou2.pdf

p.31 より引用

> ● 季節的な予報精度の違い
> 夏季）MSMガイダンスの予測精度がGSMガイダンスを上回る場合が多い。
> 冬季）GSMガイダンスとMSMガイダンスの予測精度の差は大きくなく発雷確率など一部の要素ではGSMガイダンスがMSMガイダンスを上回る場合もある。

背景知識として一般的に冬季よりも夏季のほうが予報難易度が高いとされ、メソモデル（MSM）はその「難易度/重要度の高いところで精度を出せる」状態を目指していることが窺えます

さらに局地モデルの話も絡んできますが今回は触れず、メソモデルでの数値予報さらには後述するメソアンサンブルモデル予報を日本全国対象に毎日複数回実行して廉価に配信しているのは気象庁だけ、という点をおさえておきます

気象庁でこの数値予報を生成するシステムとその周辺システムをあわせてNAPS・Numerical Analysis and Prediction System（数値解析予報システム）と呼んでいます

NAPSはスーパーコンピューター自体の正式名称ではありませんが、コンピューターシステムを指すことと世代表示が明確なことから関連文書ではNAPS9・NAPS10という略称が頻繁に出てきます

◆ NAPSの数値予報を支えるスーパーコンピューター

気象庁の第11世代システム（NAPS11）が2024年3月に本格稼働を開始しました

気象庁の資料に歴代システムの概略がまとまっています

数値予報 60 年誌～数値予報課 60 年(1959 – 2019)の歩み～
https://www.jma.go.jp/jma/kishou/know/whitep/doc_1-3-2-1/all.pdf

システムについては資料の前半部分を切り出したファイルでも読めるのでこれでもOKです
 https://www.jma.go.jp/jma/kishou/know/whitep/doc_1-3-2-1/1-1-1.pdf

2012年に稼働を開始したNAPS9は日立がベンダーで数値解析予報計算はPOWER系アーキテクチャを利用していました

具体的には日立のSR16000/M1で、アーキテクチャはPOWER7（ちなみにNAPS8ではPOWER5+だった）と大規模ベクター計算向けのアーキテクチャを日立独自に探索していたことが窺えますが、NAPS10の検討へ差し掛かる段階では

> システムインテグレーターは引き続き日立。日立はスパコンの新規開発が止まった状態のよう。
p.3 脚注8

もう日立に独自路線のスパコンを望めないという落胆が描かれています

この資料を読むだけでも、運用開始時点の問題の多さ（類似アーキテクチャのスパコンを東大へ先行導入して半年ほどバグ出しをするのが通例になっていた）、一部のシステム変更にいちいちお金がかかってそんなことよりも予報自体の改善へ取り組みたいというストレス、その他もうもうぜえええったい嫌というのがにじんでいます

とはいえいきなりベンダーをごっそり差し替えるわけにはいかなかったのか他の事情があるのか分かりませんがNAPS10では引き続き日立が受注しシステム・インテグレーションを担いました

それでも日立独自のハードウェア構成ではなくCray製となり、ソフトウェア面ではIntel系へのアーキテクチャ統合を喜んだ旨が記載されています（大昔のCrayをご存知の方にはIntel！？となるかもしれませんが近年のCrayはスパコンベンダーとしてIntelアーキテクチャを非常によく使いこなして大規模計算を実現しています）
https://www.jma.go.jp/jma/kishou/books/nwptext/50/chapter5.pdf

そして2024年3月に本格稼働を開始したNAPS11を手掛けたのは富士通です

 https://pr.fujitsu.com/jp/news/2024/02/21.html

線状降水帯予測用のArm系スパコンクラスターとそれ以外の予測用のIntel系スパコンクラスターの2つから成り、またしてもアーキテクチャが複数に分かれたことはお生憎様というほかありませんが意欲的な構成です

◆ ミニ富岳とIntelスパコンの両立

- PRIMERGY CX400 M7クラスタ
- 線状降水帯予測用にFUJITSU Supercomputer PRIMEHPC FX1000

https://pr.fujitsu.com/jp/news/2023/02/27-2.html

NAPS10からNAPS11メインシステムへの更新にあたり、更新前の2倍の計算能力を有する、とありますがこの手のシステム更新で厄介なのは従来の計算もこなしつつより重い新規計算もこなすところで
機材追加ならまだしも機材リプレースの場合だと計算能力が2倍になってもやることが増えて結局カツカツ、みたいなことになるので性能余力には限りがあります

FX1000はものすごく雑に言ってしまえばミニ富岳で24ラック31PF 主系・副系が12ラック15.5PFずつという構成です

気象庁の日常のデータ収集・予測業務範囲のなかですでに計算キャパシティーのうち多くを必要とするなかで
NAPS11のメインシステムとは別に新規の大規模計算リソースを確保したことは今後の予報業務にとって重要度が高いものです

◆ 大規模気象数値予測計算の展望

さて、詳しくは別の機会に書きますが、現在の短期間天気予報の主力はアンサンブルモデルです

これは「精度面でめちゃくちゃ強いモデルを作ってなるべくその入力データ誤差を減らす」、という従来のアプローチの限界から一歩抜け出すもので、逆に効果的な初期値ノイズ（摂動と呼ぶ）を加えて合計21回の予報計算を実施し、それらのうち何%程度がどの程度の予測範囲に収まるかという点を重視します

 https://www.jma.go.jp/bosai/numericmap/data/nwpmap/fzcx50.png
FZCX50の週間降水予測図がわかりやすいのですが、10%のメンバーが予測した範囲・50%・90%と塗り分けることで降水の芯にあたる部分と枝葉にあたる部分を捉えやすくなっています

ここで重要なのは、初期値が違うシミュレーションを21回実行するということはつまり21倍以上の計算量を必要とするということです（正確には結果集約部分も相応の大規模計算になるのでその分も考慮する必要があります）

気象庁が今後の夏季天気予報精度向上の重要要素と捉えているのは局地アンサンブルモデルで、2026年からの運用を目指しています
 https://www.jma.go.jp/jma/kishou/shingikai/kondankai/senjoukousuitai_WG/part7/part7-shiryo1.pdf

2023年に作成されたこの資料からは局地モデルの18時間予報がよりリアルタイム性の高い予報の基軸になっていく展望が読み取れます

 http://www.jmbsc.or.jp/jp/online/file/f-online10300.html
実際に2024/03/05のデータから局地モデル（LFM）に18時間予報が入るようになっています

線状降水帯予測用、とされているミニ富岳がどの程度この気象現象へ特化しているのかは公表されておらず、ひょっとすると局地モデルと局地アンサンブルモデルの計算はすべてミニ富岳側で実施するのかもしれませんが、そのあたりは外部からは分かりません

さて、どうもNAPS10までの延長にNAPS11のメインシステム（ミニ富岳を含まないIntel系のもの）を位置付けると、果たして局地アンサンブルモデルの計算までこなしきるリソースが十分にあるのか、少しギャップがあるように思えます

何か隠し玉がありそうな？

◆ 気象庁スパコンでのGPU利用

コンピューター・アーキテクチャの展望の話のなかで絡んでくるのはもちろんPRIMERGY CX400 M7クラスタ（Intelアーキテクチャ側スパコン）での未公表のGPU利用という可能性です

このクラスタでの重要なワークロードである気象庁が開発・利用している予報モデルasucaについて、私のイメージでは気象計算は倍精度演算の牙城なのでそこまでGPU向けではないのかなと思っていましたが

メニーコア多演算ユニット広メモリ帯域での単精度混合予測の優位性というのは富岳を使った研究が既にされています
 https://www.nies.go.jp/whatsnew/20201120/20201120.html
特にメモリ帯域幅を削減する効果が計算精度低下よりもメリットになるケースも多いのでしょう

また本エントリの本題とは外れますがGPUへの計算オフロードについても東工大での研究が紹介されています
 https://www.jma.go.jp/jma/kishou/books/nwpreport/60/No60_all.pdf

この資料が公表された2014年の時点ですでにスーパーコンピュータ「京」への移植歴も部分的にあり、これらを下敷きとしてNAPS11での運用が組まれているのでしょう（京はGPUスパコンではありませんが多コア大規模ベクター演算環境として富岳へ通じる計算特性を持ちます）

https://www.jma.go.jp/jma/kishou/books/nwpkaisetu/latest/1_7_6.pdf
https://www.jma.go.jp/jma/kishou/books/nwpreport/60/No60_all.pdf
さきに挙げたこの文書にもCPUとGPUの間でのデータのやり取りをなるべく減らすように処理の大半をGPUへ寄せる気合の入ったリライトによってパフォーマンスを発揮できた（しかしこれをアーキテクチャ変わるたびにやるのはしんどい）という話がありました

GPUの利用について、数値予報自体よりもガイダンスへの活用は分かりやすく価値発揮しやすい箇所です

ウェザーニュース社の独自予報が精度No.1を謳っている状態に対して気象庁は確実に思うところがあるはずで、
特にウェザーニュース社が「ウェザーリポート」によって幅広い一般利用者からデータを集めて精度改善の基盤としている点は現状で気象庁が追いついていない箇所で、何らかの打ち手を模索しているでしょう

データ処理精度に響いてくる入力値精度についても入力データ元アメダスの単純欠損なのか風による再配分的な現象によって積雪量がブレているのかはたまた、、とノイズ要因が最終的な予報へ影響しにくいようフィルタする工程はもともと多く存在していてそれらをヒューリスティックでなんとかしていた部分を機械学習モデルによって改善しようという姿勢がいくつかの資料から垣間見えます

またガイダンスの補強という意味ではimosさんの「ないんたんの天気予報」（2016年に終了）のように短期的な気象現象の処理に適した手法というのはまだまだ深堀り余地のあるものです
 https://docs.google.com/presentation/d/1KSIVmHvBR57uzJUkDEIMgi7JpAW51KequMCuws5COdY/htmlpresent

1時間・3時間といったタイムスパンの大規模計算結果と大量のセンサー値・人々の実感値をもとにした現況認識へのフィードバックというトピックはとても奥の深いもので
おそらく予報手法自体にも生データから予報へと至るまでのプロによる人力工程をいかに補助して精度の高い結果を出すかという取り組みが続けられているものと思います

さて、NAPS11の話に戻ります
現時点でメインシステムに関してはXeonスケーラブル・プロセッサーとしか公表されていませんが、さきのドキュメントのおまけ部分ではXeonベースでNVIDIA製GPUを併用するアーキテクチャを模索していたという、におわせ文言があります

当時はKeplerアーキテクチャのGrid K1ベースだったのでしょうか

もしも順当に検証が進んでNAPS11の構成要素としてGPUを本格導入するということになっていたらA100あたりが載っているのかもしれません（富士通が2021年に産総研へ納入したABCI 2.0が近い構成でA100 40GBを積んでいます）し、今後のアップグレードで拡張可能な構成としているかもしれません

もしもNVIDIA H100 80GBが派手に載っていればアーキテクチャ転換・単純性能・消費電力あたり性能・それに世界的ハイエンドGPU不足の中で供給を勝ち取った政治力としてもかなりインパクトあるニュースだと思いますがさすがにそれは無いものねだりの性質でもあります（NECが2023年に筑波大へ納入したPegasusは近い構成であり、規模は違いますが国内実績としてないわけではありません）

このあたりは隠し玉が今後公開されるのではないかと楽しみにしています

そんなところで今日も気象庁の予報が結構当たってそろそろ雨が弱くなってきました

今週末は山日和のようですね。今日もやっていきましょう

2024-03-02 山行の計画段階で登山道の斜度構

2025-04-25 来月頃から気象庁の短期予報精度

お気に入りした人

人

拍手で応援

拍手した人

拍手

訪問者数：790人