「富岳」、「HPCI共用ストレージ」の運用におけるSINETの役割

国立研究開発法人 理化学研究所 計算科学研究センターでは、世界トップ性能を誇るスーパーコンピュータ「富岳」や「HPCI共用ストレージ」の運用を行っています。高性能計算科学におけるSINETの役割についてお話を伺いました。

国立研究開発法人 理化学研究所 計算科学研究センター(以下、R-CCS)では、世界トップ性能を誇るスーパーコンピュータ「富岳」や「HPCI共用ストレージ」の運用を行っています。高性能計算科学におけるSINETの役割について、R-CCS 運用技術部門 先端運用技術ユニット ユニットリーダー 山本 啓二氏、同 技師 三浦 信一氏、利用環境技術ユニット 開発研究員 原田 浩氏、同 テクニカルスタッフ 金山 秀智氏にお話を伺いました。
(インタビュー実施:2020年12月7日)

まず、R-CCSの概要について教えて頂けますか。

山本 啓二氏
山本 啓二氏

山本氏: 当センターでは、「計算の科学」「計算による科学」「計算のための科学」の3つの領域で活動を行っています。「計算の科学」とは、コンピューティング技術そのものの研究で、スパコンやソフトウェア、運用技術などの開発を行っています。また、こうして生み出された高性能計算技術を、ライフサイエンスや気象、素粒子物理などの研究分野に活用し、科学・社会課題の解決を目指すのが「計算による科学」、さらに、さまざまな科学分野と連携し、新しいコンピューティングの概念を支える材料やデバイスの開発を行うのが「計算のための科学」というわけです。

その中で、運用技術部門 先端運用技術ユニットはどのような業務を行っておられるのですか。

山本氏: 運用技術部門としては、2021年より共用を開始するスパコン「富岳」や、データ共有基盤である「HPCI(High Performance Computing Infrastructure)共用ストレージ」などの設備を常に稼働させ、ユーザーにサービスを提供することがミッションとなります。またその一方で、単に運用を行うだけでなく、運用技術そのものの研究も行っています。たとえば最近では、運用管理の分野でも自動化やAIが重要なテーマとなっていますし、仮想化やコンテナなどの新しいテクノロジーの活用も求められます。こうした先端的な運用技術の研究開発を、「富岳」や「HPCI共用ストレージ」で実証しつつ推進するのが当ユニットの役割となっています。

三浦 信一氏
三浦 信一氏

三浦氏: これまでのスパコンといえば、高度な知識を有する専門家が特別なプログラムを書いてチューニングし、バッチ処理システムを介して利用するようなスタイルが一般的でした。一言でいえば「玄人向き」のシステムだったわけですが、今後はそこから一歩踏み出して、もっと容易に活用できるようにしていきたい。そこでパブリッククラウドで広く使われている技術を富岳にも導入し、スパコンをクラウドのように利用できる富岳クラウドプラットフォームと呼ぶ取り組みなども進めています。

SINETが果たしている役割についても教えて下さい。

山本氏: これはもう、我々の活動に無くてはならないインフラです。たとえば、HPCI共用ストレージはスパコンの入出力データを各機関で共有するため、非常に膨大なトラフィックが流れます。よって、これに耐え得るだけのネットワークが欠かせません。また、「仮想大学LANサービス」の存在も大きいですね。VLANを切るだけで簡単に理化学研究所の各地の拠点とつなげられますので、大変助かっています。

HPCI共用ストレージのトラフィックはそんなに大きいのですか。

原田 浩氏
原田 浩氏

原田氏: 元々HPCI共用ストレージは、スパコンによる研究成果を各機関で効率的に共有するために構築されたものです。どの機関からでも同じユーザーアカウントでアクセスできる巨大なファイルシステムがあれば、スパコンセンター間で、巨大なデータを移動させる必要はありません。研究者は複数のスパコンセンターを使って効率的に研究を進めることができます。現在はR-CCSと東大・柏キャンパスの2カ所にストレージを置いて常時データレプリケーションを行っています。地理的に分散している二つの拠点にデータを格納することによって貴重な研究成果を保護することが可能になります。またネットワーク的に近くに配置されているレプリカにアクセスすることによって、高速にアクセスすることができます。研究テーマによっては、一度のシミュレーションで数TB規模のデータが生成されますが、このようなデータも両拠点間で素早く同期を取らなくてはなりません。このため、R-CCS-東大・柏キャンパス間を常に大量のトラフィックが流れ続けているのです。

金山 秀智氏
金山 秀智氏

金山氏: 2カ所のストレージでデータを保存することで、R-CCS と東大・柏キャンパスのどちらか一方で障害が起きた場合も問題なくサービスを続けることができます。障害やメンテナンス後などでは溜まっていたレプリケーションが行われることで、一気に大量のデータ転送が行われますが、SINETのおかげでこうした際にも短時間で再同期できています。加えて、ネットワークの信頼性・可用性を確保するという面でも、SINETを利用するメリットは大きいです。現在は大量のトラフィックをさばくために100Gの回線を一つルーティングしてもらっていますが、この他に通常のフルメッシュ型の冗長経路も使えるようになっています。

図1:HPCI共用ストレージ構成
図1:HPCI共用ストレージ構成

ユーザーに安定的なサービスを提供するには、SINETのような広帯域かつ高信頼なネットワークが必須というわけですね。

原田氏: HPCI共用ストレージでは、サービスの継続性を非常に重視しています。スタッフもこの目標に向け一丸となって取り組んでくれていますが、唯一ネットワークに関しては我々だけではコントロールできません。NII側でも、緊急工事の際には事前連絡を行ってくれるなど、手厚い協力体制を敷いてくれていますので、大変感謝しています。

また富岳に関しては、先頃Oracle Cloudとの接続が発表されました。その狙いついても伺えますか。

三浦氏: まず、富岳で生成された計算データをR-CCS自身の責任において保存していくのが最善であるのか?という懸念点がありました。セキュリティや障害などのリスクも否定できませんので、今後はユーザー自身がクラウド上のストレージに自身の責任においてデータを保存できるような仕組みが求められます。次に、富岳と通常のPCはプロセッサの作りが若干違いますので、事前にプログラムの下処理が必要になるケースがあります。この場合も、そのための環境を全てR-CCSにおいて用意できませんので、どこかで事前準備を済ませてもらうことが必要です。こうしたことを考えると、富岳とクラウドをつなげられる環境があることが大変重要です。幸い、SINETには「SINETクラウド接続サービス」がありますので、これを活用して富岳とOracle Cloudの資源をシームレスに連携できるようにしました。

山本氏: こうした環境があることで、今後の富岳の展開にも様々な拡がりが期待できます。スパコンを使った研究では、前処理や後処理をどうするかという問題が必ずつきまといます。しかし、ユーザーがクラウド上に自由にインスタンスを立ち上げてプログラムを動かし、前処理や後処理を行えるようになれば、研究開発の効率をより高められます。

金山氏: 富岳とクラウドを簡単に連携させられるということは、企業の研究開発などでも大きなメリットとなると考えられます。今回は定額で利用できることを評価してまずはOracle Cloudとの接続を行いました。将来的には、他のパブリッククラウドでも同様の環境を実現したいと考えています。なお、今回のOracle Cloudとの接続作業に関しても、NIIにきめ細かく支援してもらい大変助かりました。

最後に今後の展望とSINETへの期待を伺えますか。

原田氏: 国内はもちろんですが、今後は海外研究機関との国際的な連携やデータ共有も一段と加速していきます。R-CCSでも様々な取り組みを進めていますので、ぜひSINETには、海外接続のさらなる整備・拡充をお願いしたいですね。

山本氏: 先代のスパコン「京」の時代には、SINETの接続はログインノードまでで、直接ストレージを見るようなことはできませんでした。しかし、クラウドとの連携が可能になれば、どこからでも直接富岳の資源を活用できるようになります。これに伴い、トラフィックもさらに増えることは必至ですので、次期SINETでは是非それを受け止められるネットワークを期待しています。

ありがとうございました。

図2:スーパコンピュータ「富岳」(取材時撮影)
図2:スーパコンピュータ「富岳」(取材時撮影)