制御のためのロバスト強化学習

歩行ロボットの体型への敵対的攻撃

本研究では,脚式ロボットの部品の長さや太さに対する敵対的攻撃に対して,深層強化学習による進化的計算手法を提案する.この攻撃はロボットの体型を変化させ,歩行を妨害するものであり,攻撃された体型を敵対的体型と呼ぶ.進化的計算手法は,歩行シミュレーションによって得られる期待累積報酬を最小化することで,敵対的体型を探索する.提案手法の有効性を評価するため,OpenAI GymにおいてWalker2d,Ant-v2,Humanoid-v2の3台の脚式ロボットを用いて実験を行った.実験の結果,Walker2dとAnt-v2は胴体部分の厚さよりも長さに対する攻撃に弱く,Humanoid-v2は長さと厚さの両方に対する攻撃に弱いことが分かった.さらに,敵対的体形は,左右の対称性を崩したり,重心を移動させたりすることを明らかにした.敵対的な体型を発見することで,脚式ロボットの歩行の脆弱性を事前に診断することができる.

Takaaki Azakami, Hiroshi Kera, Kazuhiko Kawamoto, Adversarial Body Shape Search for Legged Robots, IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2022, pp. 682-687, 2022 [paper][arXiv].

阿座上剛明,計良宥志,川本 一彦,歩行ロボット学習における敵対的な体型探索,3Yin2-29,第36回人工知能学会全国大会, 2022 [paper].

歩行ロボットの関節アクチュエータへの敵対的攻撃

深層強化学習で学習させた脚式ロボットの関節部のアクチュエータに対する敵対的な攻撃を考える.関節攻撃の脆弱性は,脚式ロボットの安全性と頑健性に大きな影響を与える可能性がある.本研究では,アクチュエータのトルク制御信号に対する敵対的摂動が,ロボットの報酬を著しく低下させ,歩行の不安定性を引き起こすことを実証する.敵対的なトルク摂動を発見するために,敵対者が深層強化学習で学習したニューラルネットワークにアクセスできないブラックボックス敵対攻撃を開発した.ブラックボックス攻撃は,深層強化学習のアーキテクチャやアルゴリズムに関係なく,脚式ロボットに適用することができる.ブラックボックス攻撃には,ランダム探索法,微分進化法,数値勾配降下法の3つの探索方法を採用している.四足歩行ロボットAnt-v2と二足歩行ロボットHumanoid-v2を用いたOpenAI Gym環境での実験では,3つの手法の中で差分進化が最も強いトルク摂動を効率的に発見できることがわかった.さらに,四足歩行ロボットAnt-v2は敵対的な摂動に弱く,二足歩行ロボットHumanoid-v2は摂動に頑健であることが分かった.このような関節攻撃はロボットの歩行不安定の事前診断に利用することができる.

Takuto Otomo, Hiroshi Kera, Kazuhiko Kawamoto, Adversarial joint attacks on legged robots, IEEE International Conference on Systems, Man, and Cybernetics (SMC), pp. 676-681, 2022 [paper][arXiv].

大友拓門,計良宥志,川本一彦,歩行ロボット学習における敵対的な関節攻撃,3Yin2-30,第36回人工知能学会全国大会, 2022 [paper].

ダイナミクスランダム化による耐故障制御

この研究は、遠隔地や極端な環境で動作するロボットにとって重要な、四足歩行ロボットのアクチュエータ故障に対する耐障害性の問題に取り組むことを目的としています。特に、ダイナミクスランダマイゼーションを用いた適応カリキュラム強化学習アルゴリズム(ACDR)が確立されました。ACDRアルゴリズムは、ランダムなアクチュエータ故障条件下で四足歩行ロボットを適応的に訓練し、耐障害性ロボット制御のための単一の堅牢なポリシーを定式化することができます。hard2easyカリキュラムが四足歩行ロボットの移動においてeasy2hardカリキュラムよりも効果的であることが注目されます。ACDRアルゴリズムは、アクチュエータ故障の検出とポリシーの切り替えに追加のモジュールを必要としないロボットシステムを構築するために使用することができます。実験結果は、ACDRアルゴリズムが平均報酬と歩行距離の点で従来のアルゴリズムよりも優れていることを示しています。

Wataru Okamoto, Hiroshi Kera, and Kazuhiko Kawamoto, Reinforcement Learning with Adaptive Curriculum Dynamics Randomization for Fault-Tolerant Robot Control, arXiv:2111.10005, 2021 [arXiv].

Wataru Okamoto and Kazuhiko Kawamoto, Reinforcement Learning with Randomized Physical Parameters for Fault-Tolerant Robots,  Proc. SCIS-ISIS, pp.449-452, 2020 [arXiv].

岡本航昇,川本一彦,物理パラメータのランダム化による耐故障ロボットのための強化学習,3Rin4-02, 第34回人工知能学会全国大会, 2020 [paper].