要約
大規模な多様なデータで事前トレーニングされた Foundation モデルは、幅広い視覚および言語タスクで並外れた能力を発揮しています。
このようなモデルが現実世界の環境に展開されると、必然的に他のエンティティやエージェントとのインターフェースになります。
たとえば、言語モデルは対話を通じて人間とやり取りするためによく使用され、視覚認識モデルは近隣の通りを自律的にナビゲートするために使用されます。
これらの開発に対応して、他のエージェントと対話し、長期的な推論を実行するための基礎モデルをトレーニングするための新しいパラダイムが出現しています。
これらのパラダイムは、マルチモーダル、マルチタスク、およびジェネラリストの相互作用のためにキュレーションされた、かつてないほど大規模なデータセットの存在を活用しています。
基礎モデルと意思決定の交差点での研究は、対話、自動運転、ヘルスケア、教育、ロボット工学などのさまざまなアプリケーションで効果的に相互作用できる強力な新しいシステムを作成するための大きな可能性を秘めています。
この原稿では、意思決定のための基礎モデルの範囲を調べ、問題空間を理解し、新しい研究の方向性を探るための概念的なツールと技術的背景を提供します。
プロンプト、条件付き生成モデリング、計画、最適制御、強化学習などのさまざまな方法を通じて、実用的な意思決定アプリケーションで基盤モデルを基盤とする最近のアプローチを確認し、現場での一般的な課題と未解決の問題について説明します。
要約(オリジナル)
Foundation models pretrained on diverse data at scale have demonstrated extraordinary capabilities in a wide range of vision and language tasks. When such models are deployed in real world environments, they inevitably interface with other entities and agents. For example, language models are often used to interact with human beings through dialogue, and visual perception models are used to autonomously navigate neighborhood streets. In response to these developments, new paradigms are emerging for training foundation models to interact with other agents and perform long-term reasoning. These paradigms leverage the existence of ever-larger datasets curated for multimodal, multitask, and generalist interaction. Research at the intersection of foundation models and decision making holds tremendous promise for creating powerful new systems that can interact effectively across a diverse range of applications such as dialogue, autonomous driving, healthcare, education, and robotics. In this manuscript, we examine the scope of foundation models for decision making, and provide conceptual tools and technical background for understanding the problem space and exploring new research directions. We review recent approaches that ground foundation models in practical decision making applications through a variety of methods such as prompting, conditional generative modeling, planning, optimal control, and reinforcement learning, and discuss common challenges and open problems in the field.
arxiv情報
著者 | Sherry Yang,Ofir Nachum,Yilun Du,Jason Wei,Pieter Abbeel,Dale Schuurmans |
発行日 | 2023-03-07 18:44:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google