要約
タイトル: Optimal Transport for Correctional Learning(修正学習のための最適輸送)
要約:
-本論文の貢献は、最適輸送を使用した修正学習の一般的な定式化である。最適輸送とは、一つの質量分布をもう一つの分布に最適に輸送する方法についてのものである。
-修正学習は、教師-学生アプローチによってパラメータ推定プロセスの精度を向上させるために開発されたフレームワークである。このフレームワークでは、教師として知られる専門家エージェントが、学習エージェントである学生が使用するデータを修正して、推定プロセスを改善する。教師の目的は、学生の推定誤差を最小化するようにデータを変更することであり、固定された介入予算の下で行われる。
-既存の修正学習の定式化に比べて、本論文の最適輸送アプローチは、より複雑な特性の推定が可能であり、複数の介入ポリシーを教師に考慮することができるという利点がある。本論文では、理論的な2つの例と、人間とロボットの相互作用アプリケーションで、教師の役割は逆強化学習環境でロボットのパフォーマンスを改善することである。我々のアプローチの評価を行っている。
要約(オリジナル)
The contribution of this paper is a generalized formulation of correctional learning using optimal transport, which is about how to optimally transport one mass distribution to another. Correctional learning is a framework developed to enhance the accuracy of parameter estimation processes by means of a teacher-student approach. In this framework, an expert agent, referred to as the teacher, modifies the data used by a learning agent, known as the student, to improve its estimation process. The objective of the teacher is to alter the data such that the student’s estimation error is minimized, subject to a fixed intervention budget. Compared to existing formulations of correctional learning, our novel optimal transport approach provides several benefits. It allows for the estimation of more complex characteristics as well as the consideration of multiple intervention policies for the teacher. We evaluate our approach on two theoretical examples, and on a human-robot interaction application in which the teacher’s role is to improve the robots performance in an inverse reinforcement learning setting.
arxiv情報
著者 | Rebecka Winqvist,Inês Lourenco,Francesco Quinzan,Cristian R. Rojas,Bo Wahlberg |
発行日 | 2023-04-04 10:55:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI