2024年05月17日

持続可能な社会に必要なレジリエンス

最近のIoT（Internet of Things）機器の発達により、多くの要素（クルマ、ロボット、電源、配送拠点など）が自由につながり、社会、まち、施設がひとつの大きなネットワークシステムを構成しています。たとえば、工場やまちの中で活躍するロボットネットワーク、地域のエネルギーを支える電力ネットワーク、社会全体の活動を停滞させない物流ネットワークなど、さまざまな粒度や規模のネットワークシステムが存在しています。

このようなネットワークシステムが置かれる環境は、想定外の変動が生じる開いた空間です。労働者減少、エネルギー問題、多発する災害などに対して持続可能な社会を実現するためには、将来のネットワークシステムは環境変化に柔軟に適応し、想定外の変化にも早期に機能回復するレジリエンスが必要です。クルマやロボット、バッテリーなどネットワークシステムの構成要素が、環境の変化に応じて自律的に回復できれば、システムはレジリエントなものになるでしょう。

トヨタ自動車株式会社未来創生センター（以下、トヨタ）では、このような環境変化に対してレジリエントなネットワークシステムの設計技術を研究しています。今回は4つの研究事例を紹介したいと思います。

事例1 IoTインフラと統合されるロボットネットワーク

労働人口減少、一人あたりの労働時間増加、または感染リスクなどへの対応から、施設内でさまざまなサービスを提供する自律型ロボットの導入が進んでいます。しかし、事前に想定したサービスに特化して、IoTインフラ（クラウドサーバー、データセンター）と自律型ロボットをもとにネットワークシステムを構築すると、集中管理が複雑になり、システムインテグレーション費が増加し、持続的にサービスをお客様に提供することが難しくなります。そこで私たちは、クラウドサーバーによる集中管理の負荷を低減し、クラウドサーバーと統合される自律的なロボットネットワークの構築を目指しました。

ユーザーにより付与されるサービス（今回の事例では運搬タスク）が、自律型ロボットが単独でも、他と協調しても実行不可能な場合もあるでしょう。任意の数の未知のタスクが付与される環境下にて、任意の台数の自律型ロボットが各々効率性の観点から個別行動（分業）を、実効性の観点から協調行動（協業）を、そしてレジリエンスの観点から現チームでの実行可否の状況判断を自律的に行い、タスク全体を止まらず遂行できるシステム設計が重要になってきます（図1）。そのためには自律分散方策を学習するアルゴリズムが必要です。

: 図1 自律型ロボットネットワーク手法の効果

図2左は、ロボットが自律的にタスク割当とクラウドサーバーとの情報共有する制御構造を示しています^＊1＊2。各ロボットは近傍のロボットとローカル通信し、周辺の荷物の優先度を更新します。その結果、各ロボットの分業が創発されます。一方、単独では実行できないタスクに遭遇すると、各ロボットが自律的に決定するタイミングで（イベント駆動で）クラウドサーバーから他のロボットの優先度を共有することで、複数台のロボットによる協業が創発されます。さらに、付与されるタスクの中に実行不可能なタスクが存在する場合でも対応可能な止まらないシステムが、レジリエントであると言えます。私たちの提案手法^＊2では、クラウドサーバーが保持するロボットの荷物に対するタスク経験から、各ロボットは（優先度と同じ構造で）荷物毎の除外度を更新することで、現時点でのロボットチームでは搬送不可能な荷物を一時的に回避し、タスク全体を継続的に遂行可能としました（図2右）。

: 図2 実行不可能なタスクを含む割当^＊2
左：タスク経験と除外度から一時的な回避を計算、右：実行不可能なタスクが存在する場合の搬送シミュレーション

: 動画1 6台のロボットによる自律搬送シミュレーションのようす

また、実環境でのサービス提供を考えると、タスク割当の他に、協調して重い荷物を運搬するためのロボット制御も同時に必要になります。そのため、優先度を中間層にもつ階層型マルチエージェント強化学習のフレームワークも提案しました（図3左）^＊3。各ロボットの上位層ではローカル情報を用いて近傍荷物の優先度を更新し、中間層では各ロボットがイベント駆動で他ロボットと全荷物の優先度を共有します^＊1。さらに、各ロボットが決定した優先度が最大の荷物を他のロボットと協調してゴールまで運搬できるように、各ロボットの前後・旋回移動の制御（下位層のロボット制御）も同時に学習します。図3中に示す、実環境に近いシミュレーション環境にて学習することで、図3右の実環境でもタスク割当とロボット制御が同時に適用可能となり、協調して運搬できることを確認できました。

: 図3 タスク割当とロボット制御の階層強化学習^＊3
左：協調搬送のための複数台のロボット制御も学習、中：学習環境、右：個別行動と協調行動の検証実験

: 動画2 個別行動と協調行動の検証実験

事例2 寄せ集めロータが自律的に動作するロボットネットワーク

山間部などの不整地や建設・メンテナンスの作業現場、被災などの非常時に至るまで、重量物の空中搬送のニーズは高いと考えています。しかし、ロータ数が固定されたドローンでは規格外の搬送物に対応することが難しいですし、冗長なドローンでは規格が大きくなってしまいます。たとえば、荷物の重さや大きさに合わせて協力してモノを運べるヒトのように、ロータの種類や数を自由に変更できるスケーラブルなシステムを実現できないかと考えました（図4左）。また安全面から、搬送途中で一部のロータが故障しても飛行を継続できることは必要不可欠です（図4中）。さらには、ロータの種類や数を自由に変更でき、それらを寄せ集めて協調できればリユースが可能となるでしょう（図4右）。

: 図4 自律分散制御の手法の効果

そこで私たちは、複数のロータを荷台に取り付け可能な運搬ドローンを提案しました（図5左の上部）^＊4＊5。まず、図4を実現するためには、集中的ではなく自律分散的な制御器が必要です。そのため各ロータは、運搬可能な重さなどを荷台の仕様として事前に共有し、また荷台の位置・姿勢情報を逐次共有することで、機体の安定化と目標値への追従に必要な自身の推力を自律的に決定します（図5左の下部）。その結果、ロータの構成が変わっても、システム全体の再適合は不要となりました。実験では、最大推力が異なる異種ロータを組合せた運搬ドローンの荷台の重心位置が変わったり、一部のロータが故障したりしても飛行可能であることを確認できました（図5右）。

: 図5 飛行実験
左：運搬ドローン（上部）とロータの自律分散制御器（下部）、右：自律分散制御による飛行実験

: 動画3 寄せ集めロータの自律分散制御による飛行実験
1分12秒ごろに一部のロータが故障。また荷台の重心が変化します

事例3 バッテリーとして二次利用される電動車両による電力ネットワーク

持続可能な社会を実現するため、再生可能エネルギーの導入は必要不可欠です。しかし、その発電量は、時間帯や気象条件によって変動するため、電力系統の需給バランスを崩す可能性もあります。そのため、多くの電動車両を本来の移動目的以外にバッテリーとして二次利用するVirtual Power Plant（VPP）が期待されています（図6左）。これらに利用されるバッテリーの数は膨大、かつ、多種多様（バッテリータイプや劣化度合いなど）です。またバッテリーの寿命や故障、外出などで頻繁にプラグイン・プラグアウトが発生することも想定されます。そのため、完全な集中管理では運用面や演算、通信のコスト面で制御できなくなると予想しています。

そこで私たちは各バッテリーが自律的に動作する分散制御を提案しました（図6右）^＊6。電動車両VPP全体として要求電力を実現するため、各バッテリーは自身の特性に応じて、管理サーバーから送信される誤差信号のみを用いて自身の出力電力を決定します（図7左）。さらに、各バッテリーの充電率（SOC）を可能な限り適切な値に揃えておくことは、バッテリーの劣化抑制や電動車両VPP全体の許容電力量予測に大変有効です。本手法では、バッテリー間でSOC情報を共有することなく、SOCの均一化を実現可能です（図7中）。その結果、予期せぬ故障などで一部のバッテリーが離脱しても、サーバーから仔細に集中制御することなく、全体の要求電力を実現可能となります（図7右）。実際に、20台の電動車両を用いたVPPに対して、提案する分散制御のみで全体の要求電力を実現できることを確認しました。

: 図6 電動車両VPPと自律分散制御（ASC）

: 図7 ASC手法の効果
一部のバッテリー（#5）が途中で離脱しても、総出力は目標値を担保しています

事例4 レジリエントな物流ネットワーク

近年、自然災害などの有事の場合でも経済活動が停滞しないサプライチェーン・レジリエンス（SCR）が求められています。サプライチェーンの混乱は物流遮断によるところが大きいため、物流の効率化に加えて、生産、物流拠点の分散化や複数の輸送手段の確保などによる多様化も実現しなければなりません。

たとえば、発送拠点1から全国の販売拠点（ノード）までの物流ネットワークを考えます（図8左）。そして今回は、図8右のような災害が発生したと想定（発送拠点1と関東方面の販売拠点（7～11、18）間の直接陸上輸送費を大幅に増加）し、陸上輸送に加えて海上輸送も使用可能とします。最小コストの輸送方策は、発送拠点に荷物を集約し販売拠点ごとに仕分けて直接輸送する方法（ハブアンドスポーク方式）です。しかし、レジリエンスを考えると、この効率的な方式に輸送の多様性（エントロピー）を考慮する必要があります。さらに現場は可能な限り現在の輸送方策（模倣元）を保持したいかもしれません。したがってこの輸送問題は、輸送の効率性に多様性と模倣元の輸送方策との近さを考慮した模倣最適化問題として定式化されます（図9左の（1））。

: 図8 物流ネットワークと想定災害
左：陸上輸送［青色］と海上輸送［茶色］、右：輸送路遮断の例

私たちの研究^＊7＊8では、この模倣最適化問題（図9左の（1））が、輸送コストの変動上限を考慮したロバスト最適化問題（図9左の（2））、および模倣元を考慮したSB問題（図9左の（3））と等価であることを示しました。これらから、SCRの評価基準のひとつである、災害によるダメージを想定した輸送方策を検討でき、かつ高速に解くことができました。さらに、コストと模倣元の輸送方策をマルコフ近似^＊8することで、発送拠点から販売拠点までのパターンとして得られる輸送方策をノード間の遷移確率に分解できます。これより拠点毎の分散的な方策を導出できるため、今後、各拠点での在庫管理の問題と併せた検討も可能になるでしょう。

図9中と右はそれぞれ、最小コストの方策（先述のハブアンドスポーク方式）とレジリエントな方策を示しています。ある災害を想定すると、コストを優先した方策では部品が到達できない拠点も発生しますが、レジリエントな方策では、コストが高い海上輸送も利用して、災害後のコストを抑えることができます。

: 図9 災害前後の輸送シミュレーション
左：等価な3つの最適輸送問題、中：効率性重視、右：多様性重視

最後に

持続可能な施設、まち、そして社会を実現するためには、環境変化に対応可能なレジリエントなシステムが必要です。トヨタでは、将来の幸せを量産するサービスや事業を下支えするため、引き続きネットワークシステムのレジリエンスを研究していきます。

著者

神保智彦（じんぼともひこ）
2002年株式会社豊田中央研究所入社。自動車エンジンのモデリングと制御および機械学習、車両と構造物の機械学習によるヘルスモニタリングと最適設計、エアリアルロボットの学習と制御、および、マルチロボットの分散制御と強化学習の研究に従事。2021年4月から2024年3月までトヨタに出向し、ネットワークシステムの分散制御と強化学習、および、最適輸送に関する研究を推進。2024年4月より豊田中央研究所に帰任。工学博士。

参考資料

＊1	Kazuki Shibata, Tomohiko Jimbo, T. Odashima, Keisuke Takeshita, Takamitsu Matsubara, "Learning Locally, Communicating Globally: Reinforcement Learning of Multi-robot Task Allocation for Cooperative Transport," The 22nd World Congress of the International Federation of Automatic Control (IFAC 2023), 2023.
＊2	Yuma Shida, Tomohiko Jimbo, Tadashi Odashima, Takamitsu Matsubara, "Reinforcement Learning of Multi-robot Task Allocation for Multi-object Transportation with Infeasible Tasks," arXiv:2404.11817, 2024.
＊3	Yusei Naito, Tomohiko Jimbo, Tadashi Odashima, Takamitsu Matsubara, "Task-priority Intermediated Hierarchical Distributed Policies: Reinforcement Learning of Adaptive Multi-robot Cooperative Transport," arXiv:2404.02362, 2024.
＊4	Koshi Oishi, Yasushi Amano, Tomohiko Jimbo, "Cooperative Transportation using Multiple Single-Rotor Robots and Decentralized Control for Unknown Payloads," IEEE International Conference on Robotics and Automation (ICRA), 2022.
＊5	Koshi Oishi, Yasushi Amano, Tomohiko Jimbo, "Scratch Team of Single-Rotor Robots and Decentralized Cooperative Transportation with Robot Failure," arXiv:2307.00705, 2023. Decentralized Control for Heterogeneous Battery Energy Storage System
＊6	Yusuke Hakuta, Yasushi Amano, Tomohiko Jimbo, Shuji Tomura, "Decentralized Control for Heterogeneous Battery Energy Storage System," The 22nd World Congress of the International Federation of Automatic Control (IFAC 2023), 2023.
＊7	Koshi Oishi, Yota Hashizume, Tomohiko Jimbo, Hirotaka Kaji, Kenji Kashima, "Resilience Evaluation of Entropy Regularized Logistic Networks with Probabilistic Cost," The 22nd World Congress of the International Federation of Automatic Control (IFAC 2023), 2023.
＊8	Koshi Oishi, Yota Hashizume, Tomohiko Jimbo, Hirotaka Kaji, Kenji Kashima, "Imitation-regularized Optimal Transport on Networks: Provable Robustness and Application to Logistics Planning," arXiv:2402.17967, 2024.