未知システム最適制御
○研究概要

実システムの制御において、一般的かつ実用的な手法として最適制御が挙げられる。最適制御には、設計者 が設定した評価関数を最小化できるという優位性がある。例えば化学プラントにおいては、生産コストを削減 することは不要廃棄物の処理に要する費用を削減することにつながり、航空機においては、燃料消費を抑えて 飛行することは積載可能な貨物を増加させることにつながるなど、実用的な側面を持っている。

しかし、対象となるこれら実システムは一般に非線形システムであり、モデル化誤差を含む場合には良い応答 を得ることが出来ないことが知られている。加えて、非線形実システムの正確な同定は困難であるため、最適 制御は実際にはさほど効果的でない。さらに、線形システムの場合は、良く知られているリカッチ方程式を解 くことによって最適制御則を得ることができるが、非線形システムの場合はHamilton Jacobi Bellman 方程式 (HJB 方程式) を解くことで得られ、それは一般に解くのは困難である。

本研究室では、Lewisらにより提案された、HJB方程式をPolicy Iteration(PI)によって解くことで 近似最適コントローラをオンラインで導出する手法[1]を拡張する形でこの問題に取り組む。


○これまでの取り組み

1)入力の特性項も未知なシステムへの拡張
Lewisらによって提案された手法は, システムの応答データを用いて状態フィードバックを繰り返し更新することで、 システムのドリフト項を知ることなくHJB 方程式を解くことを可能にしていた。 本研究室では、入力の特性項も未知であるシステムに適用可能であり, 様々な状態の応答からコスト関数を導出するように変更されたExtended Policy Iteration(EPI) を提案した[2]。

2)観測ノイズに対するロバスト性の向上
上記いずれの手法も、いずれの手法も外乱の全く混入しない真の状態が利用出来ることを仮定していた。そこで、 観測ノイズが加わった状態を用いても状態フィードバック則を近似最適則に適応するアルゴリズムであるRobust EPI(REPI) を提案した[3]。

3)再学習なしアルゴリズムの提案
上記手法は、評価関数を変更した場合, 再度同じ手順に従って学習を行わなければならないため, 様々な評価関数に 対して最適制御解を導出する場合にこの手法を適用するのは計算時間の面で実現が困難であった。 当研究室では、評価関数のクラスを限定することで, 幾つかの評価関数について近似最適御則を獲得した時, 他 の評価関数についても再学習することなく直接最適制御則を求めるアルゴリズムを提案した[4],[5]。

4)不連続なコスト関数を持つシステムへの拡張
これまで、コスト関数は微分可能であるという仮定をおいていた。一般に最適制御問題において、コスト関数 が微分可能であるという仮定はよく設けられるが、これはその問題のクラスを強く制限していることが知られ ている[6]。一方で、関数近似の際、RBFなどの滑らかな基底関数を用いて不連続関数を精度よく 近似することは困難であることが知られていた。 そこで、不連続関数を近似する手法を提案し、この場合に上記手法を適用した場合の検証を行った[7]。


○参考文献

[1]:D. Vrabie and F. L. Lewis, “Adaptive optimal control algorithm for continuous-time nonlinear systems based on policy iteration,” in 2008 47th IEEE Conference on Decision and Control. IEEE, December 2008, pp. 73-79.
[2]:S. Ohtake and M. Yamakita, “Adaptive output optimal control algorithm for unknown system dynamics based on policy iteration,” in American Control Conference 2010. IEEE, July 2010, pp. 1671-1676.
[3]:T. Sadamoto and M. Yamakita,“Robust adaptive optimal control for unknown dynamical systems,” in American Control Conference 2011. IEEE, June 2011, to be published.
[4]:T. Sadamoto and M. Yamakita,“Robust adaptive optimal control for unknown dynamical systems without re-learning,” in IFAC 18th World Congress 2011. IFAC, August 2011, to be published.
[5]:T. Sadamoto and M. Yamakita,“Robust Adaptive Optimal Control for Unknown Dynamical Systems for Arbitrary Cost Functions without Re-Learning” submitted to Conference on Decision and Control 2011. IEEE, December 2011.
[6]:M. Bardi and I. Capuzzo-Dolcetta, Optimal Control and Viscosity Solutions of Hamilton-Jacobi-Bellman Equations (Systems & Control: Foundations & Applications), 1st ed. Birkhauser Boston, December 1997.
[7]:T. Sadamoto and M. Yamakita,“Robust Adaptive Optimal Control for Unknown Dynamical Systems with Discontinuous Cost Function” submitted to Conference on Decision and Control 2011. IEEE, December 2011.



もどる