要約
ファウンデーション モデルは、コンピューター ビジョンと自然言語処理で優れた能力を発揮した後、最近ではロボット工学にも進出しています。
モデルには、オープンソースまたは有料のクローズドソース オプションの 2 つの方法でアクセスできます。
両方にアクセスできるユーザーは、効果的だが高価なクローズドソース モデルと、無料だが強力ではないオープンソースの代替モデルのどちらを選択するかを決める際に問題に直面します。
これをモデル選択問題と呼びます。
既存の教師あり学習手法は、クローズドソース モデルから広範なトレーニング データを収集するのにコストがかかるため、実用的ではありません。
したがって、私たちはアルゴリズムがデータを収集しながら学習するオンライン学習設定に焦点を当て、事前に収集された大規模なデータセットの必要性を排除します。
したがって、ユーザー中心のオンライン モデル選択問題を定式化し、コンテキストを出力するオープンソース エンコーダーと、このコンテキストを処理するオンライン学習アルゴリズムを組み合わせた新しいソリューションを提案します。
エンコーダーは、追加のトレーニングを行わずに、膨大なデータ分布を低次元の特徴、つまりコンテキストに抽出します。
オンライン学習アルゴリズムは、データから抽出されたコンテキストに基づいて、モデルのパフォーマンス、実行時間、コストを含む複合報酬を最大化することを目的としています。
理論的分析で検証されたように、非コンテキスト手法と比較して、オープンソース モデルとクローズドソース モデルの選択間のトレードオフが改善されます。
Waymo Open Dataset、ALFRED、Open X-Embodiment などの言語ベースのロボット タスクにわたる実験では、ソリューションの実際のアプリケーションを実証します。
結果は、このソリューションによりタスクの成功率が最大 14% 大幅に向上することを示しています。
要約(オリジナル)
Foundation models have recently expanded into robotics after excelling in computer vision and natural language processing. The models are accessible in two ways: open-source or paid, closed-source options. Users with access to both face a problem when deciding between effective yet costly closed-source models and free but less powerful open-source alternatives. We call it the model selection problem. Existing supervised-learning methods are impractical due to the high cost of collecting extensive training data from closed-source models. Hence, we focus on the online learning setting where algorithms learn while collecting data, eliminating the need for large pre-collected datasets. We thus formulate a user-centric online model selection problem and propose a novel solution that combines an open-source encoder to output context and an online learning algorithm that processes this context. The encoder distills vast data distributions into low-dimensional features, i.e., the context, without additional training. The online learning algorithm aims to maximize a composite reward that includes model performance, execution time, and costs based on the context extracted from the data. It results in an improved trade-off between selecting open-source and closed-source models compared to non-contextual methods, as validated by our theoretical analysis. Experiments across language-based robotic tasks such as Waymo Open Dataset, ALFRED, and Open X-Embodiment demonstrate real-world applications of the solution. The results show that the solution significantly improves the task success rate by up to 14%.
arxiv情報
著者 | Po-han Li,Oyku Selin Toprak,Aditya Narayanan,Ufuk Topcu,Sandeep Chinchali |
発行日 | 2024-02-13 16:14:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google