banner
ホームページ / ニュース / 深層強化学習によるトカマクプラズマの磁気制御
ニュース

深層強化学習によるトカマクプラズマの磁気制御

Dec 21, 2023Dec 21, 2023

Nature volume 602、pages 414–419 (2022)この記事を引用

182k アクセス

131 件の引用

2389 オルトメトリック

メトリクスの詳細

磁気閉じ込めを使用した核融合、特にトカマク構成では、持続可能なエネルギーへの有望な道です。 中心的な課題は、トカマク容器内で高温プラズマを形成し、維持することです。 これには、磁気アクチュエータ コイルを使用した高次元、高周波、閉ループ制御が必要ですが、幅広いプラズマ構成にわたる多様な要件によってさらに複雑になります。 この研究では、制御コイルの完全なセットを制御する方法を自律的に学習するトカマク磁気コントローラー設計のこれまでに説明されていないアーキテクチャを紹介します。 このアーキテクチャは、高いレベルで指定された制御目標を満たし、同時に物理的および運用上の制約も満たします。 このアプローチは、問題仕様において前例のない柔軟性と汎用性を備え、新しいプラズマ構成を生成するための設計労力を大幅に削減します。 私たちは、細長い従来の形状だけでなく、負の三角形や「スノーフレーク」構成などの高度な構成を含む、トカマク構成変数 1,2 での多様なプラズマ構成の生成と制御に成功しました。 私たちのアプローチは、これらの構成の位置、電流、形状の正確な追跡を実現します。 また、TCV 上で 2 つの別々のプラズマが容器内で同時に維持される持続的な「液滴」も実証します。 これはトカマク フィードバック制御の顕著な進歩を表し、融合領域の研究を加速する強化学習の可能性を示しており、強化学習が適用された最も困難な現実世界のシステムの 1 つです。

トカマクは核融合研究用のトーラス型装置であり、持続可能な電力生成の有力な候補です。 研究の主な方向性は、安定性、閉じ込め、エネルギー排出を最適化するためにプラズマの分布をさまざまな構成に整形する効果を研究することであり、特に最初の燃焼プラズマ実験である ITER に情報を提供することです。 トカマク内に各構成を閉じ込めるには、所望のプラズマ電流、位置、形状を達成するためにプラズマに磁気的に結合された複数のコイルを正確に制御することで磁場を操作できるフィードバック コントローラー 6 を設計する必要があり、この問題はトカマク磁気制御問題として知られています。 。

この時変する非線形の多変量制御問題に対する従来のアプローチは、まず逆問題を解いてフィードフォワード コイルの電流と電圧のセットを事前計算することです7、8。 次に、プラズマの垂直位置を安定させ、半径方向の位置とプラズマ電流を制御するために、一連の独立した単一入力単一出力 PID コントローラーが設計されます。これらはすべて相互に干渉しないように設計する必要があります6。 ほとんどの制御アーキテクチャは、プラズマ形状の外部制御ループによってさらに強化されています。これには、フィードフォワード コイル電流 8 を調整するためのプラズマ平衡のリアルタイム推定の実装 9,10 が含まれます。 コントローラーは線形化されたモデル ダイナミクスに基づいて設計されており、時間とともに変化する制御ターゲットを追跡するにはゲイン スケジューリングが必要です。 これらのコントローラーは通常は効果的ですが、ターゲットのプラズマ構成が変更されるたびに、平衡推定のための複雑なリアルタイム計算とともに、多大なエンジニアリング作業、設計作業、および専門知識が必要になります。

強化学習 (RL) を使用して非線形フィードバック コントローラーを生成することにより、コントローラー設計に対する根本的に新しいアプローチが可能になります。 RL アプローチは、他のドメインのいくつかの困難なアプリケーションですでに成功裏に使用されており 11、12、13 、パフォーマンス目標の直感的な設定を可能にし、焦点をどのように達成するかではなく、何を達成すべきかに移すことができます。 さらに、RL は制御システムを大幅に簡素化します。 単一の計算コストの低いコントローラーが入れ子になった制御アーキテクチャを置き換え、内部化された状態の再構成により、独立した平衡再構成の要件がなくなりました。 これらの利点を組み合わせることで、コントローラーの開発サイクルが短縮され、代替プラズマ構成の研究が加速されます。 実際、人工知能は最近、核融合制御の「優先研究機会」として特定されており 14、プラズマ形状パラメータの再構築 15,16、サロゲートモデルを使用したシミュレーションの加速 17,18、差し迫ったプラズマ破壊の検出における実証済みの成功に基づいて構築されています 19。 しかし、RL は磁気コントローラーの設計には使用されていません。磁気コントローラーの設計は、高次元の測定と作動、長い期間、急速な不安定性の増大速度、間接測定を通じてプラズマの形状を推測する必要があるため、困難です。

この研究では、RL が設計した磁気コントローラーを紹介し、トカマク上でその性能を実験的に検証します。 制御ポリシーはトカマク シミュレーターとの対話を通じて学習され、ハードウェア上でトカマク磁気制御を直接実行できることが示され、「シミュレーションとリアル」のギャップをうまく埋めることができます。 これにより、事前設計された状態のエンジニアリング主導の制御から、オペレーターが指定した目標の人工知能主導の最適化への根本的な移行が可能になります。 私たちは、トカマク構成変数 (TCV)1,2 で実行された実験でコントローラーの有効性を実証します。この実験では、ITER で予見されるような細長いプラズマを含むさまざまなプラズマ形状の制御を実証します。負の三角形性や「スノーフレーク」プラズマなどの高度な構成。 さらに、我々は、2 つの別個の血漿「液滴」が容器内で同時に維持される持続的な構成を実証します。 トカマク磁気制御は、RL が適用された最も複雑な現実世界のシステムの 1 つです。 これはプラズマコントローラー設計の有望な新しい方向性であり、核融合科学を加速し、新しい構成を探索し、将来のトカマク開発を支援する可能性を秘めています。

図 1 に示す私たちのアーキテクチャは、トカマク磁気閉じ込めコントローラーを設計するための柔軟なアプローチです。 このアプローチには 3 つの主要なフェーズがあります。 まず、設計者は実験の目的を指定しますが、これには時間とともに変化する制御目標が伴う可能性があります。 次に、ディープ RL アルゴリズムがトカマク シミュレーターと対話して、指定された目標を達成するために最適に近い制御ポリシーを見つけます。 第三に、ニューラル ネットワークとして表される制御ポリシーは、トカマク ハードウェア上でリアルタイムで直接実行されます (「ゼロ ショット」)。

a, 学習ループの説明。 コントローラは、現在のプラズマ状態と制御目標に基づいて電圧コマンドを送信します。 これらのデータは再生バッファーに送信され、ポリシーを更新するために学習者にデータが供給されます。 b. 環境相互作用ループ。電源モデル、センシング モデル、環境の物理パラメータの変化、報酬の計算で構成されます。 c. 私たちの制御ポリシーは、測定を行ってターゲットを制御し、電圧コマンドを出力する 3 つの隠れ層を備えた MLP です。 d–f、TCV とリアルタイム展開制御システムの相互作用。多くのサブコンポーネントで構成される従来のコントローラー (f)、または 19 個のコイルすべてを直接制御する単一のディープ ニューラル ネットワークを使用するアーキテクチャ (e) のいずれかを使用して実装されます。 g. TCV と 19 個の作動コイルの図。 容器の高さは 1.5 m、短半径は 0.88 m、容器の半幅は 0.26 m です。 h. 重要な側面がラベル付けされた、容器と血漿の断面図。

最初のフェーズでは、実験の目標は、さまざまな望ましい特性を含むことができる一連の目標によって指定されます (拡張データ表 4)。 これらの特性は、位置とプラズマ電流の基本的な安定化から、指定された伸び、三角形、X 点の位置を備えた正確な形状の輪郭を含む、いくつかの時間変化するターゲットの高度な組み合わせまで多岐にわたります。 これらの目標は、各タイム ステップでの状態にスカラー品質尺度を割り当てる「報酬関数」に結合されます。 この機能は、以下で説明するように、望ましくない最終状態に到達した場合の制御ポリシーにもペナルティを与えます。 重要なのは、適切に設計された報酬関数の指定が最小限に抑えられ、学習アルゴリズムに最大限の柔軟性を与え、望ましい結果を達成できることです。

第 2 フェーズでは、図 1a、b に示すように、高性能 RL アルゴリズムがデータを収集し、環境との対話を通じて制御ポリシーを見つけます。 私たちは、プラズマの形状と電流の進化を記述するのに十分な物理的忠実度を持ちながら、学習に必要な計算コストが十分に低いシミュレーターを使用します。 具体的には、自由境界プラズマ進化モデル 20 を使用して、ポロイダル場コイル電圧の影響下でのプラズマ状態の進化を支配するダイナミクスをモデル化します。 このモデルでは、コイルと受動導体の電流は、電源からの外部印加電圧の影響下で変化します。また、他の導体やプラズマ自体の時間とともに変化する電流からの誘導電圧の影響も受けます。 次に、プラズマはグラード・シャフラノフ方程式 21 によってモデル化されます。この方程式は、関心のある時間スケールでのプラズマ内部のローレンツ力と圧力勾配のバランスから生じます。 総プラズマ電流 Ip の変化は、集中回路方程式を使用してモデル化されます。 この一連の方程式は、FGE ソフトウェア パッケージ 22 によって数値的に解かれます。

RL アルゴリズムは、収集されたシミュレーター データを使用して、指定された報酬関数に関して最適に近いポリシーを見つけます。 私たちのシミュレータのデータ レートは、プラズマ状態を進化させるための計算要件のため、一般的な RL 環境のデータ レートよりも著しく遅いです。 私たちは、アクター批判アルゴリズムである最大事後政策最適化 (MPO)23 を使用して政策を最適化することで、データの不足を克服しました。 MPO は、分散並列ストリーム全体でのデータ収集をサポートし、データ効率の高い方法で学習します。 さらに、MPO のアクタークリティカル設計に固有の非対称性を利用して、磁気制御の制約を克服します。 アクター批評家アルゴリズムでは、「批評家」は利用可能なデータを使用して、さまざまなアクションに対する将来の割引予想報酬を学習し、「アクター」は批評家の予測を使用して制御ポリシーを設定します。 アクターの制御ポリシーの表現は、リアルタイム性が保証された TCV 上で実行する必要があるため制限されていますが、クリティカルはトレーニング中にのみ使用されるため制限がありません。 したがって、アクターには高速の 4 層フィードフォワード ニューラル ネットワーク (図 1c) を使用し、クリティカルにははるかに大規模なリカレント ニューラル ネットワークを使用します。 この非対称性により、批評家は測定値から基礎的な状態を推測し、さまざまなタイムスケールにわたる複雑な状態遷移ダイナミクスに対処し、システム測定と動作遅延の影響を評価することができます。 結合されたダイナミクスからの情報は、リアルタイム対応コントローラーに抽出されます。

第 3 フェーズでは、依存関係を最小限に抑え、不必要な計算を排除する 10 kHz でのリアルタイム制御向けに調整されたコンパイラを使用して、制御ポリシーが関連する実験制御ターゲットとバンドルされて実行可能ファイルになります。 この実行可能ファイルは、TCV 制御フレームワーク 24 によってロードされます (図 1d)。 各実験は標準的なプラズマ形成手順から始まり、従来のコントローラーがプラズマの位置と総電流を維持します。 「ハンドオーバー」と呼ばれる事前に指定された時間になると、制御が当社の制御ポリシーに切り替わり、19 個の TCV 制御コイルが作動してプラズマの形状と電流を目的のターゲットに変換します。 実験は、トレーニング後に制御ポリシー ネットワークの重みをさらに調整することなく実行されます。つまり、シミュレーションからハードウェアへの「ゼロショット」転送が行われます。

図 1b に示すように、制御ポリシーは、学習手順のいくつかの主要な属性を通じて TCV に確実に転送されます。 私たちは、遅延、測定ノイズ、制御電圧オフセットなど、制御の安定性に影響を与える特性を組み込んだアクチュエーターとセンサーのモデルを特定しました。 変化する制御されていない実験条件を考慮して、実験データの分析を通じて、プラズマ圧力、電流密度プロファイル、プラズマ抵抗率の適切な範囲にわたってトレーニング中にターゲットのパラメーターの変動を適用しました。 これにより、パフォーマンスを確保しながら堅牢性が実現します。 シミュレータは一般に正確ですが、ダイナミクスが十分に表現されていないことが知られている領域が存在します。 私たちは、報酬と終了条件 (拡張データ表 5) を使用してこれらの状況を回避するために、トレーニング ループに「学習領域回避」を組み込みました。これは、指定された条件が発生したときにシミュレーションを停止します。 終了条件は、運用制限を強制するためにも使用されます。 制御ポリシーは、最大コイル電流やエッジ安全率など、指定された制限内にとどまるように学習します25。

図 1e、f に示すように、私たちのアーキテクチャによって設計されたコントローラーは、従来の設計と比較して構造的に大幅に簡素化されています。 RL 主導の設計では、一連のコントローラーの代わりに、単一のネットワーク コントローラーを作成します。

TCV に関する実際の実験で、制御ターゲットに対するアーキテクチャの機能を実証します。 まず、血漿平衡の基本的な性質の正確な制御を示します。 次に、複雑で時間とともに変化する目標と物理的に関連する血漿構成を使用して、広範囲の平衡を制御します。 最後に、容器内に複数の血漿「液滴」を同時に配置した構成の制御を実証します。

まず、完全なプラズマ放電に必要な一連の変更を介して、プラズマ制御の基本的なタスクをテストします。 まず、0.0872秒のハンドオーバーから引き継ぎ、Ipを-110kAで安定させます。 次に、プラズマ電流を -150 kA まで増加させてから、プラズマを 1.24 から 1.44 に延長して、垂直方向の不安定性の成長速度を 150 Hz に増加します。 次に、プラズマの垂直位置を 10 cm シフトして位置制御を示し、アクティブな X 点の位置を制御してプラズマの方向を変えます (図 1h を参照)。 最後に、プラズマをハンドオーバー状態に戻し、Ip を -70 kA まで下げて安全にシャットダウンします。 精度要件は一般に正確な実験に依存しますが、妥当な目標は、Ip を 5 kA (最終目標 150 kA の 3%) 以内に制御し、形状を 2 cm (血管半径半幅の 8% 以内) 以内に制御することです。 26センチメートル)。 使用される平衡再構成は、通常 1 cm の精度 26 で視覚的に再構成された境界と一致することに注意してください。

制御ポリシーのパフォーマンスを図 2 に示します。すべてのタスクは正常に実行され、追跡精度は必要なしきい値を下回っています。 初期制限フェーズ (0.1 秒から 0.45 秒) では、Ip 二乗平均平方根誤差 (RMSE) は 0.71 kA (ターゲットの 0.59%)、形状 RMSE は 0.78 cm (血管半幅の 3%) です。 。 迂回フェーズ (0.55 秒から 0.8 秒) では、Ip と形状の RMSE はそれぞれ 0.28 kA と 0.53 cm (0.2% と 2.1%) で、全ウィンドウ (0.1 秒から 1.0 秒) 全体で 0.62 kA と RMSE が得られます。 0.75cm (0.47% および 2.9%)。 これは、当社の RL アーキテクチャが、放電実験の関連するすべての段階にわたって正確なプラズマ制御が可能であることを示しています。

プラズマ電流、垂直安定性、位置および形状制御のデモンストレーション。 上、半径 2 cm のターゲット形状点 (青い円)、実験後の平衡再構成 (等高線プロットの黒い実線) と比較。 左下、再構成された観察(オレンジ色のトレース)と比較したターゲット時間のトレース(青色のトレース)。分流されたプラズマのウィンドウがマークされています(緑色の長方形)。 右下、0.6 秒の容器内部の画像。脚部で分流された血漿を示しています。

ソースデータ

次に、科学研究用に複雑な構成を生成するアーキテクチャの機能を実証します。 各デモンストレーションには独自の時間変化ターゲットがありますが、それ以外の点では、同じアーキテクチャ設定を使用して、報酬関数をわずかに調整するだけで、トレーニングや環境構成を含む制御ポリシーを生成します (拡張データ表 3 を参照)。 各実験において、ハンドオーバー前のプラズマの伸びは低く、制御ポリシーはプラズマを目的の構成に積極的に調整することを思い出してください。 これらの実験から選択されたタイム スライスを図 3 に示します。詳細は拡張データの図 1 に、エラー メトリクスは拡張データの表 1 に示します。

TCV 実験中に得られた制御のデモンストレーション。 平衡再構成プラズマ境界 (黒い実線) と比較した、半径 2 cm のターゲット形状点 (青い円)。 すべての図において、最初のタイム スライスはハンドオーバー条件を示しています。 a、垂直方向の不安定性の増加速度が 1.4 kHz の場合、伸びは 1.9 です。 b, H モードに入った中性ビーム加熱 (NBH) による ITER 提案の近似形状。 c、-0.8 の負の三角性を流用。 d、下部 X ポイントの時間変化制御を備えたスノーフレーク構成。ターゲット X ポイントは青色でマークされています。 これらのショットの拡張トレースは、拡張データ図 2 にあります。

ソースデータ

プラズマを伸長させると熱閉じ込め特性が向上しますが、垂直方向の不安定性の成長速度が増加するため、制御が複雑になります。 かなりの伸び率で1.9の高伸度を目標にしました。 図 3a に示すように、コントローラーはこの伸びを生成し、安定させることができました。 RMSE は 0.018 で、目標の伸びと望ましい伸びの間で良好な一致が得られました。 また、形状とプラズマ電流を目標値に制御し、Ip RMSE は 1.2 kA、形状 RMSE は 1.6 cm でした。 これは、わずか 10 kHz で動作しているにもかかわらず、1.4 kHz を超える高い垂直方向の不安定性の成長速度を安定させる能力を示しています。

次に、中性ビーム入射による補助加熱を適用して「H モード」に入るテストを行いました。これは、エネルギー閉じ込め時間を長くするために望ましいですが、プラズマ特性に顕著な変化を引き起こします。 このような補助加熱を使用する提案された ITER 構成に基づいて、時間変化する軌道が提供されました。 図3bに見られるように、正規化圧力βpが1.12に増加すると、プラズマの位置と電流は正確に維持され、Ip RMSEは2.6 kA、形状RMSEは1.4 cmでした。 これは、私たちのコントローラーが変化するプラズマ状態に確実に適応でき、外部指定された構成の下で加熱された H モード プラズマを処理できることを示しています。

負の三角形プラズマは、H モードに特有の強いエッジ圧力勾配がなく、良好な閉じ込め特性を備えているため魅力的です。 三角形度が -0.8 で、両隅に X 点がある転用構成をターゲットにしました。 図 3c に示すように、この構成を達成することに成功しました。 三角形性は 0.070 の RMSE で正確に一致し、プラズマ電流と形状もそれぞれ 3.5 kA と 1.3 cm の RMSE 値でした。 これは、アクティブな調査の下で構成を迅速かつ直接作成できることを示しています27。

スノーフレークの構成は、粒子の排出を複数の衝突点に分散させるため、研究されています28,29。 重要なパラメータは、ダイバータ脚を形成する 2 つの X 点間の距離です。 図 3d に示すように、この距離を制御する能力を実証しました。 制御ポリシーでは、まず、X 点が 34 cm 離れたスノーフレーク構成を確立しました。 次に、遠方の X 点を操作して限界 X 点に近づき、6.6 cm の分離で終了しました。 時間変化する X ポイント ターゲットは、3.7 cm の組み合わせ RMSE で追跡されました。 この遷移中、プラズマ電流と形状は高精度に維持され、RMSE 値はそれぞれ 0.50 kA と 0.65 cm でした。 これは、いくつかの結合された目標を持つ複雑な時間変化ターゲットの正確な制御を示しています。

まとめると、これらの実験は、新しい構成を容易に検討できることを実証し、高性能放電で動作するアーキテクチャの能力を証明し、その機能の幅広さを確認しました。 「メソッド」セクションでは、制御ポリシーの動作をさらに調査します。

最後に、新しいプラズマ構成を探索するためのアーキテクチャの力を実証します。 私たちは、容器内に 2 つの別々のプラズマが同時に存在する構成である「液滴」の制御をテストします。 おそらく、既存のアプローチでそのような液滴を安定化できる可能性があります。 それにもかかわらず、フィードフォワードコイル電流プログラミングを開発し、リアルタイム推定器を実装し、コントローラーゲインを調整し、プラズマ生成後の制御を成功させるには、多大な投資が必要となります。 対照的に、私たちのアプローチでは、単軸プラズマとは異なるハンドオーバー条件を考慮してシミュレートされたハンドオーバー状態を調整し、ドメインプラズマ電流を増加させながら各液滴成分の位置を安定に保つ報酬関数を定義するだけです。 この緩やかな仕様により、安定性を維持するために Ip が増加するにつれて液滴の形状を最適に適応させる方法をアーキテクチャに自由に選択させることができます。 このアーキテクチャは、図 4 に示すように、200 ミリ秒の制御ウィンドウ全体にわたって液滴を安定させ、各ドメイン内で電流を増加させることに成功しました。これは、これまで知られていなかった構成に制御を適応させるための一般的な学習ベースの制御アーキテクチャの利点を強調しています。 。

200 ミリ秒の制御ウィンドウ全体にわたる、TCV 上の 2 つの独立した液滴の持続的な制御のデモンストレーション。 左は、同じ目標値までの各独立したローブの Ip の制御。 右は、t = 0.55 で容器を覗いているカメラから撮影された、2 つの液滴が見える写真です。

ソースデータ

我々は、トカマク上のプラズマ磁気閉じ込めの新しいパラダイムを提案します。 当社の制御設計は、高性能、不確実な動作条件に対する堅牢性、直感的なターゲット仕様、前例のない多用途性など、機械学習ベースの制御アプローチに対するコミュニティの期待の多くを満たしています14。 この成果を達成するには、科学と工学の進歩を通じて、機能とインフラストラクチャのギャップを克服する必要がありました。つまり、正確で数値的に堅牢なシミュレータ。 シミュレーションの精度と計算の複雑さの間の情報に基づいたトレードオフ。 特定のハードウェア制御に合わせて調整されたセンサーとアクチュエーターのモデル。 トレーニング中の動作条件の現実的な変化。 高次元の問題に対応する、データ効率の高い RL アルゴリズム。 表現力豊かな批評家を備えた非対称的な学習設定ですが、評価が迅速なポリシー。 ニューラル ネットワークをリアルタイム対応コードにコンパイルし、トカマク デジタル制御システムに展開するプロセス。 その結果、プラントの微調整を必要とせずに、高度な形状制御とともに基本的な機能を実証するハードウェア実験が成功しました。 さらに、自由境界平衡進化モデルが転送可能なコントローラーを開発するのに十分な忠実性を備えていることを示し、将来のデバイスの制御をテストするためにこのアプローチを使用する正当性を提供します。

取り組みにより、アーキテクチャをさらに開発して、非線形ダイナミクス 30、31、32 の分析を通じて堅牢性を定量化し、データの再利用と多重忠実度学習の増加を通じてトレーニング時間を短縮することができます 33。 さらに、制御ターゲットのセットは、リアルタイムのオブザーバーの必要性を回避するためにクリティカル内の特権情報を使用することで、磁束拡張 5 を通じてターゲットの熱負荷を削減するなど、拡張することができます。 このアーキテクチャは、たとえばプラズマ圧力や電流密度発展の物理学を組み込んだ、より有能なシミュレータと結合して、全体的なプラズマのパフォーマンスを最適化できます。

私たちの学習フレームワークは、将来の核融合研究とトカマク開発を形作る可能性を秘めています。 目標が不十分に指定されていると、望ましいパフォーマンス目標を最大化する構成や、さらには発電量を最大化する構成が見つかる可能性があります。 私たちのアーキテクチャは、現在配備されている複雑な制御装置システムを設計して試運転したり、提案された設計を構築前に評価したりする必要がなく、新しいトカマクに迅速に配備できます。 より広範には、私たちのアプローチは、プラズマの形状、センシング、作動、壁の設計、熱負荷、および磁気コントローラーを共同で最適化し、全体的な性能を最大化することにより、新しい反応炉設計の発見を可能にする可能性があります。

図1に示すTCV 1,34は、スイスプラズマセンターの研究用トカマクであり、主半径が0.88m、容器の高さと幅がそれぞれ1.50mと0.512mです。 TCV には、幅広いプラズマ構成の作成を可能にする柔軟な磁気コイルのセットが備わっています。 電子サイクロトロン共鳴加熱および中性ビーム入射35システムは、図3bの実験で使用されているように、外部加熱と電流駆動を提供します。 TCV にはいくつかのリアルタイム センサーが装備されており、当社の制御ポリシーではこれらのセンサーのサブセットが使用されます。 特に、磁束を測定する 34 個のワイヤ ループ、局所磁場を測定する 38 個のプローブ、およびアクティブな制御コイルの電流の 19 個の測定値 (オーム コイル間の電流の差の明示的な測定値を追加) を使用します。 磁気センサーに加えて、TCV には、図 2 および図 3 に示すカメラなど、リアルタイムでは利用できない他のセンサーが装備されています。 2 および 4. 私たちの制御ポリシーは、TCV の磁気センサーと電流センサーを 10 kHz の制御レートで消費します。 制御ポリシーは、アクティブな制御コイルの各時間ステップで基準電圧コマンドを生成します。

プラズマと外部の能動導体および受動導体の結合ダイナミクスは、自由境界シミュレーター FGE22 を使用してモデル化されます。 導体は、抵抗率が既知で一定であるとみなされ、相互インダクタンスが解析的に計算される回路モデルによって記述されます。

プラズマは、プラズマ電流密度 J と磁場 B の相互作用から発生するローレンツ力 J × B が釣り合うトロイダル対称平衡力平衡状態 (Grad-Shafranov 方程式 21) にあると仮定されます。プラズマ圧力勾配∇p。 熱と電流の駆動源によって引き起こされる半径方向の圧力と電流密度の伝達はモデル化されていません。 代わりに、プラズマ半径方向プロファイルは多項式としてモデル化され、その係数はプラズマ電流 Ip と 2 つの自由パラメータ (動圧と磁気圧力の比である正規化プラズマ圧力 βp) とプラズマ軸での安全率によって制約されます。 qA、電流密度のピーク性を制御します。

総プラズマ電流 Ip の変化は、磁気流体力学モデルの一般化されたオームの法則に基づいた集中パラメータ方程式として記述されます。 このモデルでは、総プラズマ抵抗 Rp と総プラズマ自己インダクタンス Lp は自由パラメーターです。 最後に、FGE は、以下で説明するように、TCV センサーをシミュレートする合成磁気測定値を生成します。これは、制御ポリシーを学習するために使用されます。

液滴を用いた実験 (図 4) では、プラズマは無圧力であると見なされ、力の平衡方程式の数値解が単純化されます。 さらに、G コイルは実験中に開回路に置かれたため、シミュレーションでは無効になりました (G コイルが生成する高速放射状磁場はこれらのプラズマには不要であると考えられました)。 この実験では、定常状態のプラズマ動作用に設計された Ip 進化の初期のモデルを使用しました。 このモデルには、新古典平行プラズマ伝導率 \({\sigma }_{\parallel }\) の動径プロファイルという自由パラメータが 1 つあります (ref. 22)。 このモデルは、特に急速に変化する場合の Ip の進化をよりよく説明するため、単一ドメインプラズマ実験について上記で説明したモデルに置き換えられました。

トレーニング中に上記で紹介したプラズマ進化パラメーターを変更して、真の未知のプラズマ状態全体にわたって堅牢なパフォーマンスを提供します。 変化量は拡張データ表 2 に示すように実験データから特定された範囲内に設定されます。単一プラズマ実験では、プラズマ抵抗率 Rp とプロファイル パラメーター βp および qA を変化させます。 Lp は単純な関係から計算できるため、変化しません 36。 これらはすべて、パラメーター固有の対数均一分布から独立してサンプリングされます。 液滴を使った実験では、一様な分布に従って初期のオームコイル電流値を変化させます。 液滴 \({\sigma }_{\Parallel }\) コンポーネントに 2 つの異なる値を設定します。 スケーリングされたベータ分布からそれらの差の対数をサンプリングし、対数一様分布から結合幾何平均の全体的なシフトを抽出し、個々の \({\sigma }_{\parallel }\) を解きます。 パラメーター値は各エピソードの開始時にサンプリングされ、シミュレーション中は一定に保たれます。 サンプリングされた値は直接測定できないため、意図的に学習アーキテクチャに公開されません。 したがって、エージェントは、これらのパラメーターのすべての組み合わせを確実に処理できるコントローラーを学習する必要があります。 この情報に基づいたターゲットを絞ったドメインランダム化手法は、高閉じ込めモード中の外部加熱の注入やエッジ局所モードの摂動に対して堅牢でありながら、形状と Ip の時間目標を追跡するポリシーを見つけるのに効果的であることが証明されました。

TCV 上の生のセンサー データは、ローパス フィルターと信号調整ステージを通過します37。 我々は、静止プラズマ動作段階中のデータから特定された時間遅延とガウス ノイズ モデルによって、この段階をシミュレーションでモデル化します (拡張データ表 2)。 このセンサー モデル (図 1b に示す) は、制御の安定性に影響を与える関連するダイナミクスを捉えています。 電源ダイナミクス(図1bにも示されています)は、データから特定された固定バイアスと固定時間遅延、さらに各エピソードの開始時にランダムに変化するオフセットを使用してモデル化されています。 これらの変更の値は、拡張データ表 2 に記載されています。これは、実際のサイリスタベースの電源の控えめな近似値です 37 が、制御目的の重要なダイナミクスを捉えています。

制御ポリシーは、非常に非線形なハードウェア固有の現象に対して堅牢になるように学習できます。 たとえば、アクティブなコイルの電流の極性が変化し、コントローラーが低すぎる電圧を要求すると、電源が「スタック」し、長期間にわたって誤って出力電流がゼロになる可能性があります (拡張データ図 4b)。 この現象は、コントローラーの安定性と精度の両方に影響を与える可能性があります。 この問題に対処するコントローラーの機能を実証するために、高度な制御のデモンストレーションで「学習領域回避」を適用し、ゼロに近い電流が望ましくないことを示しました。 その結果、制御ポリシーは、プラント上のコイルの固着を回避するために、電流の極性を変更するときに電圧を上げることを効果的に学習します(拡張データ図4c)。

MPO23 は、クリティカル ネットワークとポリシー ネットワークという 2 つのニューラル ネットワーク アーキテクチャを使用してポリシーを設計および最適化します。 どちらのネットワークもトレーニング中に適応されますが、プラントにはポリシー ネットワークのみが展開されます。

クリティカル ネットワークの場合、入力は最後に命令されたアクションの双曲線正接関数値と結合され、256 ユニット幅の長短期記憶 (LSTM) 層に供給されます。 次に、LSTM 層の出力はその入力と連結され、多層パーセプトロン (MLP)、つまりそれぞれ 256 個の潜在層を持つ 2 つの密に接続された隠れ層のスタックに供給されます。 各 MLP 層は、指数線形単位の非線形性を使用します。 最後に、最後の線形層を使用して Q 値を出力します。

ポリシー ネットワークは、必要な 10 kHz の制御レートを取得するために、ターゲット ハードウェア上で 50 μs 以内に評価できるネットワーク アーキテクチャに制限されます。 さらに、ネットワークは、トレーニングに使用されるハードウェアとは異なるプロセッサ アーキテクチャを使用する制御システム上でこの推論を十分な数値精度で実行する必要があります。 したがって、ポリシーネットワークは次のように構築されます。 256 個の出力を持つ線形層のスタックに入力を供給します。 この線形層の出力は LayerNorm38 で正規化され、双曲線正接関数を使用して制限されます。 この後、出力は、指数線形単位非線形性とそれぞれ 256 個の潜在を使用する 3 層 MLP を介して供給されます。 このスタックの出力は、アクションごとに 2 つのパラメーター (ガウス分布の 1 つの平均とガウス分布の 1 つの標準偏差) を出力する最後の線形層を介して供給されます。 標準偏差はソフトプラスの非線形性を使用して、常に正になるようにします。 アクションに対するこのガウス分布のパラメーターは、ニューラル ネットワークの出力です。 シミュレーションでポリシーを評価し、TCV で実行する場合は、分布の平均のみが使用されることに注意してください。 この小さなニューラル ネットワークを使用すると、制御システム上の CPU の L2 キャッシュ内で推論を実行できます。

これらのニューラル ネットワークは、入力数とバイアス 0 でスケーリングされた切り捨て正規分布の重みを使用して初期化されます。 例外はポリシー ネットワークの最後の層で、同じ方法で初期化されますが、0.0001 でスケーリングされます (参照 39)。 これらのネットワークは、64 ステップのアンロール長でトレーニングされます。 トレーニングでは、バッチ サイズ 256 と割引 0.99 を使用しました。

拡張データ 図 5a は、アクター ネットワークとクリティカル ネットワーク間の非対称設計の重要性を示しています。 標準設定を、批判者もプラントの制御率によって制限される対称設定と比較します。 標準設定では、クリティカル ネットワークはポリシー ネットワークよりもはるかに大きく (266,280 パラメーターに対して 718,337 パラメーター)、リカレント LSTM も使用します。 対称セットアップでは、クリティカルはポリシーとほぼ同じサイズ (266,497 パラメーター) の MLP でもあります。 対称設計は、効果的なポリシーを学習する際に、非対称設計よりも著しくパフォーマンスが劣ることがわかります。 さらに、主な利点は、この環境の非マルコフ特性を処理するための批評家の反復的な設計から得られることがわかりました。 ポリシーのフィードフォワード構造を維持したまま批評家をスケールアップすると、その幅を 512 ユニット (926,209 パラメーター) に広げても、さらに 1,024 ユニット (3,425,281 パラメーター) に拡大しても、小さいながら繰り返し発生する批評家によるセットアップのパフォーマンスにはまだ匹敵しないことがわかります。 。

私たちのアプローチでは、図 1a に示すように、ループ内の制御ポリシーを使用してシミュレーターを実行することによってデータが収集される、エピソード的なトレーニング アプローチが使用されます。 これらの対話からのデータは、有限容量の先入れ先出しバッファー 40 に収集されます。 相互作用の軌跡は、MPO アルゴリズムを実行して制御ポリシー パラメーターを更新する「学習者」によってバッファーからランダムにサンプリングされます。 トレーニング中、実行される制御ポリシーは確率的であり、成功する制御オプションを探索します。 この確率的ポリシーは、コイル アクション上の対角ガウス分布によって表されます。

各エピソードは、後述する終了条件に達したとき、またはエピソード内で固定のシミュレーション時間が経過したときに終了する単一のシミュレーション実行に対応します。 この固定時間は、液滴の場合は 0.2 秒、拡張データ図 2a、c の場合は 0.5 秒、その他の場合は 1 秒でした。 各エピソードは、TCV での以前の実験から再構築された、事前にプログラムされたハンドオーバー時間の平衡状態から初期化されます。

私たちのトレーニング ループは 10 kHz の制御周波数をエミュレートします。 各ステップで、前のステップの観察を使用してポリシーが評価されます。 結果のアクションはシミュレータに適用され、ステップ実行されます。 観察と報酬も 10 kHz の制御周波数で収集され、トレーニング データが 0.1 ミリ秒間隔で収集されます。 シミュレーションでは、50 kHz のタイム ステップを選択しました。 したがって、ポリシーの評価ごとに、5 つのシミュレーション タイム ステップが計算されます。 アクション、つまり所望のコイル電圧は、これらのサブステップ中一定に保たれます。 中間ステップのデータは終了条件の確認にのみ使用され、その後は破棄されます。 これにより、制御レートとシミュレータの時間ステップを独立して選択できるため、後者を数値的考慮事項に基づいて設定できます。

私たちは、テンソル処理ユニット上の単一の学習者インスタンスと、それぞれがシミュレーターの独立したインスタンスを実行する複数のアクターを備えた分散アーキテクチャ 41 を使用します。 実験では 5,000 人のアクターを並行して使用し、トレーニング時間は通常 1 ~ 3 日でしたが、ターゲットの仕様が複雑な場合はさらに長くなる場合もあります。 基本的なプラズマを安定させるために必要なアクターの数を徹底的に調べました。その結果は拡張データの図 5 に示されています。アクターの数を大幅に削減しても、同様のレベルのパフォーマンスを達成できることがわかります。トレーニング時間に適度なコストがかかります。

RL は環境とサンプル単位でのみ対話するため、植物との対話からのデータを使用してポリシーをさらに微調整することができます。 あるいは、ポリシーを改善するために TCV で実行された過去の実験のデータベースを活用することを想像することもできます。 ただし、TCV の多用途性と、さまざまなコイル電圧構成によって同じプラズマ構成が実現できるという事実を考慮すると、データが十分に多様であるかどうかは不明です。 特に、これまで知られていなかったプラズマ形状については、データがないか、非常に限られたデータしか利用できないため、このアプローチは効果がありません。 逆に、シミュレータは対象の構成のダイナミクスを直接モデル化できます。 データ収集には優れたポリシーが必要であるというこの問題は、シミュレーター モデルに依存せずにデータからポリシーを新たに最適化したい場合にさらに顕著になります。

私たちのすべての実験には、同時に満たさなければならないいくつかの目的があります。 これらの目標は、シミュレーションの側面 (通常は物理量) を追跡する個別の報酬コンポーネントとして指定され、これらの個別のコンポーネントは単一のスカラー報酬値に結合されます。 使用されるターゲットの説明は、拡張データ表 4 にリストされています。 目的のターゲット値は、多くの場合時間変化し (プラズマ電流や境界ターゲット ポイントなど)、観測の一部としてポリシーに送信されます。 この時間変化するターゲットのトレースは、ある時点での一連の値によって定義され、その間のすべてのタイム ステップに対して線形補間されます。

各実験の形状ターゲットは、形状ジェネレータ 42 を使用して生成されるか、手動で指定されました。 これらのポイントは、スプラインに沿って等間隔に配置された 32 個のポイントに正規化され、ポリシーに供給されるターゲットになります。 スプラインは閉じた形状では周期的ですが、転用された形状では非周期的であり、X 点で終わります。

これらの複数の目的を単一のスカラーに結合するプロセスは次のとおりです。 まず、各目標について、実際の値と目標値の差が計算され、次に非線形関数を使用して 0 から 1 までの品質尺度に変換されます。ベクトル値の目標 (たとえば、目標までの距離) の場合、各ターゲット形状の点)、個々の違いはまず、重み付けされた非線形関数である「コンバイナ」を通じて単一のスカラーにマージされます。 最後に、上記の結合器を使用して、個々の目的固有の品質尺度の重み付けされた組み合わせが、0 から 1 までの単一のスカラー報酬値に計算されます。 この (段階的) 報酬は、制御 1 秒あたりの最大累積報酬が 100 になるように正規化されます。 制御ポリシーにより終了が発生した場合には、多額のマイナス報酬が与えられます。 詳細については、拡張データ表 5 を参照してください。

通常、ソフトプラスまたはシグモイドを使用してエラーから品質尺度を計算します。これにより、エラーが大きい場合、トレーニングの初期段階でゼロ以外の学習信号が提供されると同時に、ポリシーが向上するにつれて精度が向上します。 同様に、(重み付けされた) 滑らかな最大値または幾何平均を使用して報酬を結合します。これにより、すべての目標の改善を促進しながら、最悪の報酬を改善するためのより大きな勾配が得られます。 各実験で使用される正確な報酬の定義は拡張データ表 3 にリストされており、実装は補足資料で入手できます。

一部のコントローラーは、ここで簡単に説明するいくつかの興味深い動作を示しました。 これらの制御動作は、学習制御アプローチのさらなる潜在的な機能を示唆しています。

図3bに示す実験中に外部加熱が適用されました。 まず、加熱せずに、全く同じコントローラーと目的を使用してテスト実験を実行しました。 これにより、加熱を適用する前に、制御ウィンドウでの簡単な再現性テストが可能になります。 拡張データの図 3 にパフォーマンスの比較を示します。これは、これら 2 つの実験でコントローラーが同様に動作したことを示しています。

プラズマの位置と電流のみを維持するという目標が与えられたとき、私たちのアーキテクチャは、明示的に指示されなくても、垂直不安定モードを排除する低伸長プラズマを自律的に構築しました(拡張データ図4a)。

通常厳密な分離を前提とする既存の制御アーキテクチャとは対照的に、私たちの制御アーキテクチャは、プラズマ電流を維持するために必要な誘導電圧を駆動するために、ポロイダル場とオームコイルのさまざまな組み合わせを使用することを自然に選択できます(拡張データ図4b)。

私たちのアーキテクチャは、目標仕様に目的を追加することで、非線形の物理リクエストと制御リクエストを含めることを学習できます。 たとえば、極性を反転するときに制御コイル電流が「スタック」することがある電源の制限を回避したり (拡張データ図 4c)、容器内ではあるがプラズマの外にある X 点を回避したりできます (拡張データ図 4d)。 )高レベルの報酬で要求された場合。

一部の量では、目標値に定常状態の誤差があることがわかります (たとえば、拡張データ図 3 の κ )。 将来の開発は、たとえば制御ポリシーをフィードフォワードではなく反復することによって、このようなエラーを取り除くことに向けて行われる予定です。 これらのより強力な反復ポリシーがシミュレーターの特定のダイナミクスに過度に特化せず、TCV への転送が正常に継続されるように注意する必要があります。

トレーニング ポリシーの確率的性質は探索にのみ役立つため、最終制御ポリシーはトレーニングの終了時のガウス ポリシーの平均とみなされます。 これにより、プラント上で実行する決定的なポリシーが得られます。 トレーニング中に、展開前にこの決定論的なポリシーの品質を監視します。

TCV の制御ループは 10 kHz で実行されますが、他の信号処理とロギングのため、制御アルゴリズムに使用できるのはサイクル タイムの半分、つまり 50 μs だけです。 したがって、ニューラル ネットワークをこの時間枠内で実行することが保証されるリアルタイム対応コードにコンパイルする展開システムを作成しました。 これを実現するために、余分な重みと計算 (探索分散など) を削除し、tfcompile43 を使用してバイナリ コードにコンパイルし、不必要な依存関係を注意深く回避します。 ニューラル ネットワーク構造を調整して、プロセッサのキャッシュの使用を最適化し、ベクトル化された命令で最適なパフォーマンスを実現しました。 時間とともに変化する制御ターゲットのテーブルも、展開を容易にするためにバイナリにコンパイルされます。 将来的には、実行時にターゲットを簡単に指定して、制御ポリシーの動作を動的に調整できるようになります。 次に、展開前に、コンパイルされたすべてのポリシーを自動化された広範なベンチマークでテストし、タイミングが一貫して満たされていることを確認します。

プラズマの形状と位置は直接観察されないため、利用可能な磁気測定値から推測する必要があります。 これは磁気平衡再構成によって行われ、逆問題を解いて、力の平衡(グラード・シャフラノフ方程式)を尊重し、最小二乗法で特定の時間における特定の実験的磁気測定値に最もよく一致するプラズマ電流分布を見つけます。 。

従来の磁気制御設計では、形状制御フィードバックループを閉じるためにプラズマ形状オブザーバーとしてリアルタイム対応の磁気平衡再構成が必要です(図1fの「プラズマ形状」オブザーバーとして示されています)。 その代わりに、私たちのアプローチでは、放電後の解析中に LIUQE コード 10 による平衡再構築のみを利用して、プラズマ形状コントローラーのパフォーマンスを検証し、トレーニング中にシミュレーションの物理的な初期条件を計算します。

実験の実行後、この平衡再構成コードを使用してプラズマ状態と磁束場の推定値を取得します。 このアプローチの使用は、パフォーマンスを評価するための以前の文献と一致しています9、10。

プラズマ境界は、ドメイン内の最後の閉磁束表面 (LCFS) によって定義されます。 LCFS をプラズマ軸の周りの 32 個の等角度点として抽出し、スプラインを使用して 128 個の等​​距離点に正規化します。 誤差距離は、ターゲット形状を定義した各点と、LCFS 上の 128 点で定義された多角形の間の最短距離を使用して計算されます。 形状 RMSE は、対象の時間範囲内のすべてのタイム ステップにわたって、これらの 32 の誤差距離にわたって計算されます。

Ip や伸びなどのスカラー量の誤差は、基準値と、対象期間にわたる平衡再構成からのそれぞれの推定値との間の誤差から計算されます。 垂直変位の不安定性の増大速度の推定値 6 は、再構築された平衡を中心とするシミュレータの線形化された方程式系のスペクトル分解から計算されます。

近年、磁気閉じ込め制御には高度な制御技術が適用されています。 De Tommasi et al.44 は、線形モデルとカスケード フィードバック制御構造を使用したプラズマ位置制御のためのモデルベースの制御アプローチについて説明しています。 Gerkšič と De Tommasi45 はモデル予測制御アプローチを提案し、ハードウェア導入の実現可能性推定を含む、シミュレーションにおけるプラズマの位置と形状制御の線形モデル予測制御を実証しています。 Boncagni ら 46 は、ハードウェア上のプラズマ電流追跡を改善するスイッチング コントローラーを提案しましたが、さらなる機能は実証していません。 これまでに、RL がプラズマ モデルについて学習した、たとえば安全率 47 やイオン温度勾配 48 を制御する研究は他にもありました。 最近、Seo ら 49 は、RL を使用したベータ制御用のフィードフォワード信号を開発し、KSTAR トカマクで検証されました。

より一般的には、機械学習ベースのアプローチは、制御に限定されず、磁気閉じ込め制御および核融合全般に対して開発されています。 この分野の調査は Humphreys ら 14 によって提供されており、同氏は科学の加速、診断、モデル抽出、制御、大規模データ、予測、プラットフォーム開発を含む 7 つの優先研究機会にアプローチを分類しています。 プラズマ制御の制御ループにおけるニューラル ネットワークの初期の使用は、Bishop et al.15 によって発表されています。彼は、小規模なニューラル ネットワークを使用してプラズマの位置と低次元の形状パラメーターを推定し、その後フィードバック用のエラー信号として使用しました。コントロール。

私たちのアーキテクチャは、一般性の点で重要な前進を構成しており、単一のフレームワークを使用してさまざまな核融合制御の課題を解決し、参考文献に記載されている核融合のための機械学習と人工知能の重要な約束のいくつかを満たしています。 14.

私たちのアプローチは TCV でうまく実証されており、いくつかの基本的な修正を加えれば、私たちのアプローチは以下に示すいくつかの仮定と技術的要件を満たす他のトカマクにも直接適用できると確信しています。 現在のすべてのトカマクは、磁気制御の観点から、自由境界シミュレーターによって解かれた結合方程式を尊重していることが確認されています。 平衡制御装置は日常的にこれらのモデルに基づいて設計されており、将来のトカマクについては、このモデルがもはや有効でなくなると考える理由は今のところありません。 当然のことながら、他の種類のデバイスでのアプローチのパフォーマンスを予測することはできません。

別のデバイスをシミュレートするには、自由境界シミュレーターのパラメーターを適切に設定する必要があります。 これには、コイル、容器、リミッターの位置と電気的特性、電流と電圧の範囲、ノイズと遅延などのアクチュエーターとセンサーの特性を含む機械の説明が含まれます。 プロファイルパラメータの予想変動範囲などの動作条件も決定する必要があります。 最後に、ジオメトリと目的の形状に一致するように報酬とターゲットを更新する必要があります。

前述の特性は、通常、特定のトカマクの設計プロセスの一部であるため、すぐに利用できるはずです。 実際、グラード・シャフラノフ平衡計算は、新しいトカマクの一般的な設計と解析のために日常的に実行されており、これらには必要なパラメーターがすべて含まれています。 容器の形状やセンサーとコイルの数、配置、範囲のこうした変化は、設計限界の調整を超えて学習アルゴリズムを変更する必要はありません。 学習アルゴリズムは、ニューラル ネットワークの入力層と出力層の次元を自動的に調整し、新しい船舶と制御システムに適したポリシーを自動的に学習します。

導入にはさらなる検討が必要です。 私たちのアプローチでは、必要な制御周波数でニューラル ネットワークを評価するのに十分な計算能力を備えた集中制御システムが必要ですが、この要件を満たすにはデスクトップ グレードの CPU で十分です。 また、既存の磁気コントローラーは、学習されたコントローラーに引き渡す前に、プラズマのブレークダウンと早期のランプアップを実行するために必要です。 当社のコントローラーは、中断基準に対応するシミュレーションでの終了を回避するように訓練されていますが、プラズマ中断を回避する保証はありません。 したがって、ターゲットのトカマクが特定の種類の混乱に耐えられない場合は、より単純なフォールバック コントローラーやインターロック システムなどの機械保護層を実験中に設置する必要があります。

この論文の画像からの TCV 実験データは補足情報で入手できます。 ソースデータはこのペーパーに付属しています。

アクタークリティック RL 法で使用される学習アルゴリズムは MPO23 であり、その参照実装はオープンソース ライセンスの下で利用可能です41。 さらに、ソフトウェア ライブラリ launchpad50、dm_env51、sonnet52、tensorflow53、および reverb40 が使用されました。これらもオープン ソースとして入手できます。 制御ターゲット、報酬、終了を計算するコードは補足情報で入手できます。 FGE および LIUQE は、EPFL のスイスプラズマセンター (Antoine Merle [email protected]、Federico Felici [email protected]) からのライセンス契約に基づいて入手できます。

ホフマン、F.ら。 TCV における可変形状プラズマの生成と制御。 プラズマ物理学コントロール。 フュージョン 36、B277 (1994)。

記事 ADS CAS Google Scholar

Coda, S. et al. TCV トカマク施設に関する物理学研究: 従来のシナリオから代替シナリオ、そしてそれを超えたシナリオまで。 Nucl. フュージョン 59、112023 (2019)。

記事 ADS CAS Google Scholar

アナンド、H.、コーダ、S.、フェリシ、F.、ガルペルティ、C.、モレット、J.-M. TCV トカマクの高度な構成開発のための新しいプラズマ位置および形状コントローラー。 Nucl. フュージョン 57、126026 (2017)。

記事 ADS Google Scholar

メレ、A.ら。 東トカマクにおける MIMO 形状制御: シミュレーションと実験。 融合工学デス。 146、1282–1285 (2019)。

記事 CAS Google Scholar

アナンド、H.ら。 DIII-D トカマクのプラズマ束拡大制御。 プラズマ物理学コントロール。 フュージョン 63、015006 (2020)。

記事 ADS Google Scholar

De Tommasi、G. トカマク装置におけるプラズマ磁気制御。 J. 核融合エネルギー 38、406–436 (2019)。

記事 Google Scholar

Walker, ML & Humphreys, DA トカマクにおける線形化プラズマ形状応答モデルの有効な座標系。 融合科学。 テクノロジー。 50、473–489 (2006)。

記事 CAS Google Scholar

Blum, J.、Heumann, H.、Nardon, E.、Song, X. トカマク実験シナリオの設計の自動化。 J.Comput. 物理学。 394、594–614 (2019)。

記事 ADS MathSciNet Google Scholar

フェロン、JR 他トカマク放出制御のためのリアルタイム平衡再構築。 Nucl. フュージョン 38、1055 (1998)。

記事 ADS CAS Google Scholar

モレ、J.-M. 他。 トカマク均衡再構築コード LIUQE とそのリアルタイム実装。 融合工学。 12月改訂 91、1–15 (2015)。

記事 CAS Google Scholar

Xie, Z.、Berseth, G.、Clary, P.、Hurst, J. & van de Panne, M. 深層強化学習による Cassie のフィードバック制御。 2018 年の IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 1241–1246 (IEEE、2018)。

アッカヤ、I. 他ロボットハンドを使ってルービックキューブを解く。 プレプリントは https://arxiv.org/abs/1910.07113 (2019) にあります。

ベルマーレ、MG 他強化学習を用いた成層圏気球の自律航行。 Nature 588、77–82 (2020)。

記事 ADS CAS Google Scholar

Humphreys, D. et al. 機械学習との融合を進める研究にはワークショップレポートが必要。 J. 核融合エネルギー 39、123–155 (2020)。

記事 CAS Google Scholar

Bishop, CM、Haynes, PS、Smith, ME、Todd, TN & Trotman, DL ニューラル ネットワークを使用したトカマク プラズマのリアルタイム制御。 ニューラルコンピューティング。 7、206–217 (1995)。

記事 Google Scholar

Joung, S. et al. 測定された磁気信号で制約されたディープ ニューラル ネットワーク Grad-Shafranov ソルバー。 Nucl. フュージョン 60、16034 (2019)。

記事 Google Scholar

van de Plassche、KL et al. ニューラル ネットワークを使用した核融合プラズマ内の乱流輸送の高速モデリング。 物理学。 プラズマ 27、022310 (2020)。

記事 ADS Google Scholar

Abbate, J.、Conlin, R. & Kolemen, E. DIII-D のデータ駆動型プロファイル予測。 Nucl. フュージョン 61、046027 (2021)。

記事 ADS CAS Google Scholar

Kates-Harbeck, J.、Svyatkovskiy, A.、Tang, W. 深層学習による制御された核融合プラズマの破壊的な不安定性の予測。 ネイチャー 568、526–531 (2019)。

記事 ADS CAS Google Scholar

Jardin, S. プラズマ物理学における計算手法 (CRC Press、2010)。

Grad, H. & Rubin, H. 流体磁気平衡と無力場。 J.Nucl. エネルギー (1954) 7、284–285 (1958)。

記事 Google Scholar

Carpanese, F. トカマク実験のシミュレーションとリアルタイム解釈のための自由境界平衡および輸送ソルバーの開発。 博士論文、EPFL (2021)。

アブドルマレキ、A.ら。 相対エントロピーの正規化されたポリシーの反復。 プレプリントは https://arxiv.org/abs/1812.02256 (2018) にあります。

ペイリー、JI、コーダ、S.、デュバル、B.、フェリシ、F.、モレット、J.-M. TCV 分散フィードバック制御システムのアーキテクチャとコミッショニング。 2010 年、第 17 回 IEEE-NPSS リアルタイム会議 1 ~ 6 (IEEE、2010)。

Freidberg、JP プラズマ物理学と核融合エネルギー (Cambridge Univ. Press、2008)。

Hommen、GD et al. TCV トカマクにおけるプラズマ位置制御のためのリアルタイム光学プラズマ境界再構成。 Nucl. フュージョン 54、073018 (2014)。

記事 ADS CAS Google Scholar

メイン州オースティンほか DIII-Dトカマクにおける負の三角形形状における原子炉関連性能の達成。 物理学。 レット牧師。 122、115001 (2019)。

記事 ADS CAS Google Scholar

コールメン、E.ら。 DIII-D スノーフレーク ダイバータ コントロールの初期開発。 Nucl. フュージョン 58、066007 (2018)。

記事 ADS Google Scholar

アナンド、H.ら。 TCVトカマクにおけるスノーフレークプラズマ構成のリアルタイム磁気制御。 Nucl. フュージョン 59、126032 (2019)。

記事 ADS CAS Google Scholar

Wigbers, M. & Riedmiller, M. ニューラル参照モデル制御の新しい分析方法。 Proc. ニューラル ネットワークに関する国際会議 (ICNN'97) Vol. 2、739–743 (IEEE、1997)。

Berkenkamp, F.、Turchetta, M.、Schoellig, A. & Krause, A. 安定性が保証された安全なモデルベースの強化学習。 2017 年、Advances in Neural Information Processing Systems 908–919 (ACM、2017)。

Wabersich, KP、Hewing, L.、Carron, A. & Zeilinger, MN 学習ベース制御の確率モデル予測安全性認証。 IEEEトランス。 オートマ。 コントロール 67、176–188 (2021)。

記事 MathSciNet Google Scholar

アブドルマレキ、A.ら。 強化学習のツールとしての多目的ポリシーの最適化について。 https://arxiv.org/abs/2106.08199 (2021) でプレプリント。

Coda, S. et al. TCV トカマク プログラムの概要: 科学の進歩と施設のアップグレード。 Nucl. フュージョン 57、102011 (2017)。

記事 ADS Google Scholar

Karpushov、AN et al. TCVトカマクの中性ビーム加熱。 融合工学。 12月改訂 123、468–472 (2017)。

記事 CAS Google Scholar

リスター、JB 他 JT-60U での血漿平衡応答のモデリングと検証。 Nucl. フュージョン 42、708 (2002)。

記事 ADS CAS Google Scholar

リスター、JB 他トカマク配置可変プラズマの制御。 フュージョンテクノロジー。 32、321–373 (1997)。

記事 CAS Google Scholar

Ulyanov, D.、Vedaldi, A.、Lempitsky, V. インスタンスの正規化: 高速なスタイル化に欠けている要素。 プレプリントは https://arxiv.org/abs/1607.08022 (2016) にあります。

Andrychowicz、M. et al. ポリシーに基づく強化学習では何が重要でしょうか? 大規模な実証研究。 ICLR 2021 における第 9 回学習表現に関する国際会議 (2021)。

Cassirer、A. et al. リバーブ: エクスペリエンスを再生するためのフレームワーク。 https://arxiv.org/abs/2102.04736 (2021) でプレプリント。

ホフマン、M.ら。 Acme: 分散強化学習の研究フレームワーク。 プレプリントは https://arxiv.org/abs/2006.00979 (2020) にあります。

Hofmann, F. FBT - 高度に伸長および成形されたプラズマのための自由境界トカマク平衡コード。 計算します。 物理学。 共通。 48、207–221 (1988)。

記事 ADS CAS Google Scholar

アバディ、M.ら。 TensorFlow: 大規模な機械学習のためのシステム。 Proc. 第 12 回 USENIX オペレーティング システムの設計と実装に関するシンポジウム (OSDI '16) 265–283 (2016)。

De Tommasi、G. et al. EAST でのモデルベースのプラズマ垂直安定化と位置制御。 融合工学デス。 129、152–157 (2018)。

記事 Google Scholar

Gerkšič, S. & De Tommasi, G. MPC を使用した ITER プラズマ電流と形状制御。 2016 年の制御アプリケーションに関する IEEE 会議 (CCA) 599–604 (IEEE、2016)。

ボンカーニ、L. et al. パフォーマンスベースのコントローラー切り替え: FTU でのプラズマ電流制御への応用。 2015 年の第 54 回 IEEE 会議決定と制御 (CDC) 2319–2324 (IEEE、2015)。

若月 哲、鈴木 哲、林 直、大山 直、井手 S. 強化学習技術を用いた、プラズマ電流上昇段階中の中央ソレノイド磁束消費量を低減した安全率プロファイル制御。 Nucl. フュージョン 59、066022 (2019)。

記事 ADS CAS Google Scholar

若月 哲也、鈴木 哲也、大山 直也、林 直也 強化学習技術を用いたイオン温度勾配制御。 Nucl. フュージョン 61、046036 (2021)。

記事 ADS CAS Google Scholar

Seo, J. et al. KSTARトカマクにおける深層強化学習によるフィードフォワードベータ制御。 Nucl. フュージョン 61、106010 (2021)。

記事 ADS CAS Google Scholar

ヤン、F.ら。 Launchpad: 分散機械学習研究のためのプログラミング モデル。 https://arxiv.org/abs/2106.04516 (2021) でプレプリント。

ムルダル、A. et al. dm_env: 強化学習環境用の Python インターフェイス。 http://github.com/deepmind/dm_env (2019)。

レイノルズ、M.ら。 Sonnet: TensorFlow ベースのニューラル ネットワーク ライブラリ。 http://github.com/deepmind/sonnet (2017)。

マルティン A. et al. TensorFlow: 異種システム上での大規模な機械学習。 ソフトウェアは https://www.tensorflow.org/ 2015 から入手可能です。

ヘンダー、TC 他。 第 3 章: MHD の安定性、運用上の制限および中断。 Nucl. フュージョン 47、S128 ~ S202 (2007)。

リファレンスをダウンロードする

これらの実験結果を実現するにあたり、TCV チーム (Coda et al.2 の著者リストを参照) の取り組みと支援に感謝いたします。 診断に関するサポートについては、C. Wüthrich と Y. Andrebe に感謝します。 プロジェクト開始時に戦略的な支援とインスピレーションを与えてくれた C. Jones と E. Smith に感謝します。 この研究の準備と期間中の支援に対して、R. Ahamed、P. Kokurek、V. Panneershelvam、および F. Song に感謝します。 この研究はスイス国立科学財団によって部分的に支援されました。

これらの著者は同様に貢献しました: Jonas Degrave、Federico Felici、Jonas Buchli、Michael Neunert、Brendan Tracey、Francesco Carpanese、Timo Ewalds、Roland Hafner、Martin Riedmiller

ディープマインド、ロンドン、イギリス

ジョナス・デグレイブ、ジョナス・ブフリ、マイケル・ノイナート、ブレンダン・トレイシー、フランチェスコ・カルパネーゼ、ティモ・エワルズ、ローランド・ハフナー、アッバス・アブドルマレキ、ディエゴ・デ・ラス・カサス、クレイグ・ドナー、レスリー・フリッツ、アンドレア・フーバー、ジェームズ・キーリング、マリア・ツィンポケリ、ジャッキー・ケイ、セブ・ヌーリー、デヴィッド・プファウ、プッシュミート・コーリ、コライ・カブクオグル、デミス・ハサビス、マーティン・リードミラー

スイスプラズマセンター - EPFL、ローザンヌ、スイス

フェデリコ・フェリーチ、フランチェスコ・カルパネーゼ、クリスティアン・ガルペルティ、アントワーヌ・メルル、ジャン=マルク・モレ、フェデリコ・ペサモスカ、オリヴィエ・ザウター、クリスティアン・ソンマリーヴァ、ステファノ・コーダ、バジル・デュヴァル、アンブロージョ・ファソーリ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

BT、FC、FF、JB、JD、MN、MR、RH、TE も同様に貢献しました。 DP、FF、JB、JD、MR、RH がこのプロジェクトを発案しました。 AH、BT、FF、JB、JD、LF、MN、MR がプロジェクトを主導しました。 AM、BT、CD、CS、FC、FF、FP、JB、J.-MM、MN、OS が物理シミュレーションを開発しました。 BT、CD、DC、FF、JD、J. Kay、MN、MT、TE は、物理シミュレーションを学習フレームワークと統合しました。 AA、BT、JD、J. Keeling、RH、TE は学習フレームワークを開発し、学習実験を実施しました。 CG、DC、FF、JB、JD、MN、SN、TE は、リアルタイム ニューラル ネットワーク インターフェイスを開発しました。 CG、FC、FF、JD、SC は、リアルタイム ニューラル ネットワークを制御システムと統合し、トカマク実験を実行しました。 CD、DC、FC、FF、JB、J. Keeling、MN、TE はデータ キュレーション ツールを開発しました。 BT、CG、FC、FF、JB、J. Keeling、MN、RH、および TE がデータ分析を開発し、実行しました。 AF、BD、DH、SC、KK、PK がこのプロジェクトについて相談を受けました。 BT、FC、FF、JB、JD、MN、MR、RH、TE が原稿を執筆しました。

Federico Felici、Jonas Buchli、Brendan Tracey との通信。

BT、FC、FF、JB、JD、MN、RH、および TE は、この原稿の内容について仮特許出願を提出しました。 残りの著者は競合する利益を宣言していません。

Nature は、この研究の査読に貢献してくれた若月拓馬とその他の匿名の査読者に感謝します。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

a、b バイオシールド内の TCV の部分を示す写真。 c TCV の容器とコイルの CAD 図面。 d TCV の内部を観察し (Alain Herzog/EPFL)、リミッター タイル、バッフル、および中央コラムを示します。

正規化された圧力 βp と安全率 qA の再構成値を、これらの変数がトレーニング中に見たドメインのランダム化の範囲 (緑色) とともにプロットしました。これは拡張データ表 2 にあります。また、成長率 γ もプロットしました。 、プラズマ電流 Ip、および関連する目標値。 必要に応じて、伸び κ、中性ビームの加熱、三角形度 δ、および底部 X 点 ZX とそのターゲットの垂直位置をプロットします。

ソースデータ

決定論的コントローラーが環境上で達成するパフォーマンスの変動性を示すために、プラントで 2 回使用された 1 つのポリシーの軌跡をプロットしました: ショット 70599 (青) とショット 70600 (オレンジ)。 点線は、容器の断面が示されている場所を示しています。 軌道は、ハンドオーバー 0.0872 秒から故障後 0.65 秒までを示しており、その後、ショット 70600 でニュートラル ビーム加熱がオンになり、2 つのショットが分岐します。 緑色の線は 2 つの実験における LCFS 間の RMSE 距離を示しており、2 つのショット間の形状の類似性を直接測定することができます。 これは、伸び κ や三角形度 δ などの形状パラメータと、プラズマ電流 Ip のターゲットおよび最後の閉磁束表面の形状に関して達成される誤差の両方における実験の再現性を示しています。

ソースデータ

a. 追加の仕様を指定せずに血漿を安定させるように要求された場合、エージェントは丸い形状を作成します。 エージェントは t = 0.45 から制御され、Ra および Za の目標を達成しようとしながら形状を変更します。 この丸いプラズマは本質的に成長率 γ < 0 で安定しているため、この発見された挙動は確かに良い解決策です。 b、両方のオーミック コイルに同様の電流を流すという報酬が与えられなかった場合、アルゴリズムは、次の結果を得るために E コイルを使用する傾向がありました。 OH001コイルと同様の効果があります。 図 1g のコイルの位置からわかるように、これは確かに可能ですが、機械構造に電磁力が発生します。 したがって、後のショットでは、両方の抵抗コイルの電流を近くに保つための報酬が追加されました。 c. E3 コイルが 0 A を超えたときに固着することを回避するポリシーによる電圧リクエスト。たとえば、拡張データの図 4b でわかるように、低電圧リクエストの場合、電流が 0 A で固着する可能性があります。これらのリクエストが電力システムによってどのように処理されるか。 この動作をモデル化するのは難しいため、コイル電流を 0 A から遠ざけるための報酬を導入しました。制御ポリシーは、この領域を迅速に通過するための高電圧要求を生成します。 d. 2 つの異なるショット間の断面の違いを示す図。唯一の違いは、右側のポリシーが真空中で X ポイントを回避するためのさらなる報酬を与えてトレーニングされたことです。

ソースデータ

決定論的ポリシーのエピソード報酬は、パラメーターのバリエーションを有効にして 20 のエピソードにわたって平滑化されました。100 は、すべての目標が完全に達成されたことを意味します。 非対称アクター - クリティカルと対称アクター - クリティカルを使用した能力ベンチマーク (図 2 に示す) の学習曲線の比較です。この場合、クリティカルはアクターと同じリアルタイム対応フィードフォワード ネットワークを使用しています。 青は、718,337 パラメーターのデフォルトの批評家によるパフォーマンスです。 オレンジ色は対称バージョンを示しており、批評家はポリシー (266,280 パラメーター) と同じフィードフォワード構造とサイズ (266,497 パラメーター) を持っています。 対称クリティカルのフィードフォワード構造を維持し、クリティカルをスケールアップすると、その幅を 512 ユニット (緑、926,209 パラメータ) に広げても、1,024 ユニット (赤、3,425,281 パラメータ) まで広げても、パフォーマンスのギャップは埋められないことがわかります。小規模な繰り返しの批評家。 b 穏やかに伸長した血漿を安定させるためにさまざまな量のアクターを使用した場合の比較。 このペーパーのポリシーは 5,000 人のアクターを使用してトレーニングされましたが、この比較は、少なくとも単純なケースでは、はるかに少ない計算リソースでも同じレベルのパフォーマンスを達成できることを示しています。

ソースデータ

このファイルには、付属の zip 形式の補足データ フォルダーにあるファイルの概要が含まれています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Degrave, J.、Felici, F.、Buchli, J. 他深層強化学習によるトカマクプラズマの磁気制御。 ネイチャー 602、414–419 (2022)。 https://doi.org/10.1038/s41586-021-04301-9

引用をダウンロード

受信日: 2021 年 7 月 14 日

受理日: 2021 年 12 月 1 日

公開日: 2022 年 2 月 16 日

発行日: 2022 年 2 月 17 日

DOI: https://doi.org/10.1038/s41586-021-04301-9

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

現代プラズマ物理学のレビュー (2023)

ネイチャーコミュニケーションズ (2022)

ネイチャーレビュー物理学 (2022)

ネイチャーマシンインテリジェンス (2022)

科学レポート (2022)

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。