Building Decision Making Models Through Language Model Regime

要約

私たちは、大規模言語モデル (LLM) の一般化機能を活用した、意思決定の問題に対する新しいアプローチを提案します。
エキスパート システム、計画アルゴリズム、強化学習などの従来の手法は一般化が限られていることが多く、通常は固有のタスクごとに新しいモデルのトレーニングが必要です。
対照的に、LLM は、さまざまな言語タスクを一般化することに目覚ましい成功を収めており、意思決定モデルをトレーニングするための新しい戦略を刺激します。
「Learning then using」(LTU)と呼ばれる私たちのアプローチには、2 段階のプロセスが必要です。
最初に、\textit{learning} フェーズでは、さまざまなドメインと意思決定コンテキストからの多様な知識を統合することによって、堅牢な基礎的な意思決定モデルを開発します。
後続の \textit{using} フェーズでは、特定の意思決定シナリオに合わせてこの基礎モデルを改良します。
教師あり学習による意思決定に LLM を採用する他の研究とは異なり、私たちの LTU メソッドは、広範な事前トレーニングとターゲットを絞った微調整を組み合わせた多用途のトレーニング方法論を採用しています。
広告や検索の最適化などの電子商取引分野での実験では、LTU アプローチが意思決定能力と一般化において従来の教師あり学習方式よりも優れていることが示されています。
LTU アプローチは、LLM と組み合わせたシングルステップとマルチステップの両方の意思決定タスクのための初の実践的なトレーニング アーキテクチャであり、ゲームやロボットのドメインを超えて適用できます。
意思決定のための堅牢で適応性のあるフレームワークを提供し、さまざまな課題に取り組む際のさまざまなシステムの有効性と柔軟性を強化します。

要約(オリジナル)

We propose a novel approach for decision making problems leveraging the generalization capabilities of large language models (LLMs). Traditional methods such as expert systems, planning algorithms, and reinforcement learning often exhibit limited generalization, typically requiring the training of new models for each unique task. In contrast, LLMs demonstrate remarkable success in generalizing across varied language tasks, inspiring a new strategy for training decision making models. Our approach, referred to as ‘Learning then Using’ (LTU), entails a two-stage process. Initially, the \textit{learning} phase develops a robust foundational decision making model by integrating diverse knowledge from various domains and decision making contexts. The subsequent \textit{using} phase refines this foundation model for specific decision making scenarios. Distinct from other studies that employ LLMs for decision making through supervised learning, our LTU method embraces a versatile training methodology that combines broad pre-training with targeted fine-tuning. Experiments in e-commerce domains such as advertising and search optimization have shown that LTU approach outperforms traditional supervised learning regimes in decision making capabilities and generalization. The LTU approach is the first practical training architecture for both single-step and multi-step decision making tasks combined with LLMs, which can be applied beyond game and robot domains. It provides a robust and adaptable framework for decision making, enhances the effectiveness and flexibility of various systems in tackling various challenges.

arxiv情報

著者 Yu Zhang,Haoxiang Liu,Feijun Jiang,Weihua Luo,Kaifu Zhang
発行日 2024-08-12 12:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク