REGENT: A Retrieval-Augmented Generalist Agent That Can Act In-Context in New Environments

要約

新しい環境に迅速に適応できるジェネラリストのエージェントの構築は、デジタルおよび現実の世界にAIを展開するための重要な課題です。
スケーリングの現在のエージェントアーキテクチャは、ジェネラリストエージェントを構築する最も効果的な方法ですか?
比較的小さなデータセットで比較的小さなポリシーを前に訓練するための新しいアプローチを提案し、微調整せずにコンテキスト学習を介して目に見えない環境に適応します。
私たちの重要なアイデアは、検索が迅速な適応のための強力なバイアスを提供することです。
確かに、私たちは、単純な検索ベースの1-Nearest隣人エージェントでさえ、今日の最新のジェネラリストエージェントに驚くほど強力なベースラインを提供することを実証します。
この出発点から、クエリのシーケンスと取得型の隣人に関する変圧器ベースのポリシーを訓練する半パラメトリックエージェントのリージェントを構築します。
リージェントは、検索の増強とコンテキスト内学習を通じて、目に見えないロボット工学およびゲームプレイ環境に一般化することができ、最大3倍のパラメーターを最大3倍少なく、順序の順序よりも少なくなり、今日の最先端を大幅に上回ることができます。
アートジェネラリストエージェント。
ウェブサイト:https://kaustubhsridhar.github.io/regent-research

要約(オリジナル)

Building generalist agents that can rapidly adapt to new environments is a key challenge for deploying AI in the digital and real worlds. Is scaling current agent architectures the most effective way to build generalist agents? We propose a novel approach to pre-train relatively small policies on relatively small datasets and adapt them to unseen environments via in-context learning, without any finetuning. Our key idea is that retrieval offers a powerful bias for fast adaptation. Indeed, we demonstrate that even a simple retrieval-based 1-nearest neighbor agent offers a surprisingly strong baseline for today’s state-of-the-art generalist agents. From this starting point, we construct a semi-parametric agent, REGENT, that trains a transformer-based policy on sequences of queries and retrieved neighbors. REGENT can generalize to unseen robotics and game-playing environments via retrieval augmentation and in-context learning, achieving this with up to 3x fewer parameters and up to an order-of-magnitude fewer pre-training datapoints, significantly outperforming today’s state-of-the-art generalist agents. Website: https://kaustubhsridhar.github.io/regent-research

arxiv情報

著者 Kaustubh Sridhar,Souradeep Dutta,Dinesh Jayaraman,Insup Lee
発行日 2025-02-24 16:06:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | REGENT: A Retrieval-Augmented Generalist Agent That Can Act In-Context in New Environments はコメントを受け付けていません

Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing

要約

大規模な言語モデル(LLMS)は、人間のような指導中の能力、特に1,000億パラメーターを超える能力を実証しています。
いくつかの小さく、リソースに優しいLLMの組み合わせ能力は、より大きなLLMSが優れているほとんどの命令に対処できます。
この作業では、各命令に最適なLLMをルーティングする方法を探り、全体的なパフォーマンスを向上させます。
新しいパラダイムを開発し、モデル機能の表現、ユーザー命令、パフォーマンスの問い合わせプロンプトを備えた機能命令を構築して、パフォーマンスを評価します。
機能命令から学ぶために、Aptitudeテスト(Model-SAT)を使用したモデル選択と呼ばれる新しいエンドツーエンドフレームワークを紹介します。これは、異なるモデルがうまく機能するか苦労するかに基づいて正と負のサンプルを生成します。
Model-SATは、モデル表現を軽量LLMに拡張するモデル機能エンコーダを使用します。
私たちの実験は、モデル-SATが候補モデルのパフォーマンスの次元を理解し、さまざまな指示を処理する能力の確率を提供することを示しています。
さらに、展開中に、新しいモデルは50のタスクで適性テスト結果を迅速に推測でき、それぞれ20ショットがあります。
Model-SATは、候補の推論なしで、および実際の新しいモデルリリースシナリオで最先端のモデルルーティングを実行します。
このコードは、https://github.com/now-join-us/cit-llm-routingで入手できます

要約(オリジナル)

Large Language Models (LLMs) have demonstrated human-like instruction-following abilities, particularly those exceeding 100 billion parameters. The combined capability of some smaller, resource-friendly LLMs can address most of the instructions that larger LLMs excel at. In this work, we explore how to route the best-performing LLM for each instruction to achieve better overall performance. We develop a new paradigm, constructing capability instructions with model capability representation, user instruction, and performance inquiry prompts to assess the performance. To learn from capability instructions, we introduce a new end-to-end framework called Model Selection with Aptitude Test (Model-SAT), which generates positive and negative samples based on what different models perform well or struggle with. Model-SAT uses a model capability encoder that extends its model representation to a lightweight LLM. Our experiments show that Model-SAT understands the performance dimensions of candidate models and provides the probabilities of their capability to handle various instructions. Additionally, during deployment, a new model can quickly infer its aptitude test results across 50 tasks, each with 20 shots. Model-SAT performs state-of-the-art model routing without candidate inference and in real-world new model-released scenarios. The code is available at https://github.com/Now-Join-Us/CIT-LLM-Routing

arxiv情報

著者 Yi-Kai Zhang,De-Chuan Zhan,Han-Jia Ye
発行日 2025-02-24 16:10:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing はコメントを受け付けていません

Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts

要約

このペーパーでは、マルチモーダル大手言語モデル(MLLM)の有効性をマルチモーダル検索ドキュメントからの活用に評価するために設計されたベンチマークであるマルチモーダル検索の高等発電(M^2RAG)を紹介します。
ベンチマークには、画像キャプション、マルチモーダルの質問応答、マルチモーダルの事実検証、画像再ランキングの4つのタスクで構成されています。
すべてのタスクはオープンドメイン設定で設定されているため、マルチモーダルドキュメントコレクションからクエリ関連情報を取得し、RAGモデリングの入力コンテキストとして使用するRAGモデルが必要です。
MLLMSのコンテキスト利用機能を強化するために、マルチモーダルの回収命令チューニング(MM-RAIT)も導入します。これは、マルチモーダルコンテキスト内でMLLMを最適化する命令調整方法です。
私たちの実験は、MM-Raitがマルチモーダルのコンテキストから効果的に学習できるようにすることにより、RAGシステムのパフォーマンスを改善することを示しています。
すべてのデータとコードは、https://github.com/neuir/m2ragで入手できます。

要約(オリジナル)

This paper introduces Multi-Modal Retrieval-Augmented Generation (M^2RAG), a benchmark designed to evaluate the effectiveness of Multi-modal Large Language Models (MLLMs) in leveraging knowledge from multi-modal retrieval documents. The benchmark comprises four tasks: image captioning, multi-modal question answering, multi-modal fact verification, and image reranking. All tasks are set in an open-domain setting, requiring RAG models to retrieve query-relevant information from a multi-modal document collection and use it as input context for RAG modeling. To enhance the context utilization capabilities of MLLMs, we also introduce Multi-Modal Retrieval-Augmented Instruction Tuning (MM-RAIT), an instruction tuning method that optimizes MLLMs within multi-modal contexts. Our experiments show that MM-RAIT improves the performance of RAG systems by enabling them to effectively learn from multi-modal contexts. All data and code are available at https://github.com/NEUIR/M2RAG.

arxiv情報

著者 Zhenghao Liu,Xingsheng Zhu,Tianshuo Zhou,Xinyi Zhang,Xiaoyuan Yi,Yukun Yan,Yu Gu,Ge Yu,Maosong Sun
発行日 2025-02-24 16:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts はコメントを受け付けていません

Matryoshka Quantization

要約

モデルの重みの量子化は、大規模なモデルの通信コストと推論コストを削減するために重要です。
ただし、モデルの量子化 – 特にINT4やINT2などの低精度では、モデルの品質のトレードオフが必要です。
特に、INT2はモデルの品質をひどく低下させることが知られています。
その結果、実務家は、量子化レベルが異なる複数のモデルを維持することを余儀なくされるか、品質遅延のトレードオフを最もよく満たす単一のモデルを提供することを余儀なくされます。
一方、INT8などの整数データ型は、INT4やINT2などのより小さなビット幅の整数が最も重要なビット内にネストされるネストされた(マトリオシュカ)構造を本質的に持っています。
この洞察を活用して、この論文では、前述の課題を緩和する新しいマルチスケール量子化技術であるMatryoshka量子化(\ alg)を提案します。
この手法により、単一の量子化されたモデルをトレーニングおよび維持することができますが、展開によって要求される精度を備えています。
さらに、\ algの共訓練と共蒸留の正則化を活用し、\ algによって抽出されたInt2精度モデルは、標準のINT2量子化を最大4 \%および7 \%で、それぞれ基本アルゴリズムとして最大4 \%および7 \%でアウトパフォーマンスします。
最後に、アウトレアを表すために余分なビットを使用することにより、2.05ビットの効果的な精度を持つモデルが、ベースアルゴリズムとしてoMniquantで追加の6 \%改善を与えることを実証します。

要約(オリジナル)

Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models — especially to low precisions like int4 or int2 — requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. Leveraging this insight, in this paper, we propose Matryoshka Quantization (\alg), a novel multi-scale quantization technique that alleviates the aforementioned challenge. This technique allows us to train and maintain a single quantized model but serve it with the precision demanded by the deployment. Furthermore, leveraging \alg’s co-training and co-distillation regularization, int2 precision models extracted by \alg outperform standard int2 quantization by up to to 4\% and 7\% with OmniQuant and QAT as base algorithms respectively. Finally, we demonstrate that by using an extra bit to represent outliers, a model with an effective precision of 2.05-bit gives an additional 6\% improvement with OmniQuant as the base algorithm.

arxiv情報

著者 Pranav Nair,Puranjay Datta,Jeff Dean,Prateek Jain,Aditya Kusupati
発行日 2025-02-24 16:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Matryoshka Quantization はコメントを受け付けていません

KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference

要約

KVキャッシュの量子化は、LLMSの有効性を維持しながら、長いコンテキストと大規模なバッチサイズのシナリオで、大規模な言語モデル(LLMS)推論のスループットとレイテンシを改善できます。
ただし、現在の方法には、KVキャッシュの量子化に対するレイヤーごとの感受性、オンラインの微調整された意思決定の高いオーバーヘッド、さまざまなLLMSおよび制約に対する柔軟性が低いという3つの未解決の問題があります。
したがって、KVキャッシュ量子化エラーに対するレイヤーワイズトランスの注意パターンの固有の相関を徹底的に分析し、量子化エラー削減のための値キャッシュよりも重要なキャッシュが重要である理由を研究します。
さらに、単純なハードウェアにやさしいレイヤーワイズKV量子量化精度ペアを適応的に検索するためのシンプルでありながら効果的なフレームワークKVTunerを提案します。
オフラインキャリブレーションの計算コストを削減するために、レイヤー内KV精度ペアの剪定と層間クラスタリングを利用して、検索スペースを削減します。
実験結果は、LLAMA-3.1-8B-InstructなどのLLMのQWEN2.5-7B-intructのような高感度モデルの場合のLLMのほぼ損失のない3.25ビットの混合精度KVキャッシュ量子化を達成できることを示しています。
最大推論スループットは、さまざまなコンテキスト長にわたるKV8量子化と比較して38.3%改善できます。
コードと検索された構成は、https://github.com/cmd2001/kvtunerで入手できます。

要約(オリジナル)

KV cache quantization can improve Large Language Models (LLMs) inference throughput and latency in long contexts and large batch-size scenarios while preserving LLMs effectiveness. However, current methods have three unsolved issues: overlooking layer-wise sensitivity to KV cache quantization, high overhead of online fine-grained decision-making, and low flexibility to different LLMs and constraints. Therefore, we thoroughly analyze the inherent correlation of layer-wise transformer attention patterns to KV cache quantization errors and study why key cache is more important than value cache for quantization error reduction. We further propose a simple yet effective framework KVTuner to adaptively search for the optimal hardware-friendly layer-wise KV quantization precision pairs for coarse-grained KV cache with multi-objective optimization and directly utilize the offline searched configurations during online inference. To reduce the computational cost of offline calibration, we utilize the intra-layer KV precision pair pruning and inter-layer clustering to reduce the search space. Experimental results show that we can achieve nearly lossless 3.25-bit mixed precision KV cache quantization for LLMs like Llama-3.1-8B-Instruct and 4.0-bit for sensitive models like Qwen2.5-7B-Instruct on mathematical reasoning tasks. The maximum inference throughput can be improved by 38.3% compared with KV8 quantization over various context lengths. Our code and searched configurations are available at https://github.com/cmd2001/KVTuner.

arxiv情報

著者 Xing Li,Zeyu Xing,Yiming Li,Linping Qu,Hui-Ling Zhen,Wulong Liu,Yiwu Yao,Sinno Jialin Pan,Mingxuan Yuan
発行日 2025-02-24 16:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference はコメントを受け付けていません

Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set

要約

$ Q $ -Learningは、最も基本的な強化学習アルゴリズムの1つです。
線形関数近似(つまり、線形$ q $ -Learning)を使用した$ q $ -Learningは、最近の作品Meyn(2024)が線形$ qの反復液のほぼ確実な境界を確立するまで、可能性のある発散に苦しむと広く信じられています。
$ -Learning。
この成功に基づいて、このペーパーでは、線形$ Q $ eLearningの最初の$ l^2 $収束率(境界セットへ)をさらに確立します。
Meyn(2024)と同様に、元の線形$ Q $ -Learningアルゴリズムを変更せず、Bellmanの完全性の仮定を行わず、行動ポリシーにほぼ最適性の仮定を行いません。
必要なのは、適応温度の$ \ epsilon $ -SOFTMAXの動作ポリシーだけです。
分析の鍵は、急速に変化する遷移関数を備えたマルコフのノイズの下での確率的近似の一般的な結果です。
また、サイド製品として、この一般的な結果を使用して、$ \ epsilon $ -softmaxの動作ポリシーを使用して、$ l^2 $ $ convergenceレートを$ \ epsilon $ -softmax行動ポリシーで確立します。
加重ベルマン最適性演算子の。

要約(オリジナル)

$Q$-learning is one of the most fundamental reinforcement learning algorithms. It is widely believed that $Q$-learning with linear function approximation (i.e., linear $Q$-learning) suffers from possible divergence until the recent work Meyn (2024) which establishes the ultimate almost sure boundedness of the iterates of linear $Q$-learning. Building on this success, this paper further establishes the first $L^2$ convergence rate of linear $Q$-learning iterates (to a bounded set). Similar to Meyn (2024), we do not make any modification to the original linear $Q$-learning algorithm, do not make any Bellman completeness assumption, and do not make any near-optimality assumption on the behavior policy. All we need is an $\epsilon$-softmax behavior policy with an adaptive temperature. The key to our analysis is the general result of stochastic approximations under Markovian noise with fast-changing transition functions. As a side product, we also use this general result to establish the $L^2$ convergence rate of tabular $Q$-learning with an $\epsilon$-softmax behavior policy, for which we rely on a novel pseudo-contraction property of the weighted Bellman optimality operator.

arxiv情報

著者 Xinyu Liu,Zixuan Xie,Shangtong Zhang
発行日 2025-02-24 16:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set はコメントを受け付けていません

Bridging Social Media and Search Engines: Dredge Words and the Detection of Unreliable Domains

要約

プロアクティブなコンテンツモデレートには、プラットフォームがWebサイトの信頼性を迅速かつ継続的に評価する必要があります。
ユーザーが信頼性の低いWebサイトに従う直接および間接パスを活用して、WebGraphと大規模なソーシャルメディアコンテキストの両方を統合するWebサイトの信頼性分類および発見システムを開発します。
さらに、信頼できないドメインが検索エンジンで高度にランク付けされているdr末の単語、用語、またはフレーズの概念を紹介し、ソーシャルメディアでの使用の最初の調査を提供します。
Webグラフとソーシャルメディアのコンテキストを組み合わせたグラフニューラルネットワークは、Webサイトの信頼性分類で最先端の結果に生成され、信頼できないドメインのトップKの識別を大幅に改善します。
さらに、ソーシャルメディアとオンラインコマースプラットフォームの両方との強力なつながりを強調して、Dredge Wordsの新しいデータセットをリリースします。

要約(オリジナル)

Proactive content moderation requires platforms to rapidly and continuously evaluate the credibility of websites. Leveraging the direct and indirect paths users follow to unreliable websites, we develop a website credibility classification and discovery system that integrates both webgraph and large-scale social media contexts. We additionally introduce the concept of dredge words, terms or phrases for which unreliable domains rank highly on search engines, and provide the first exploration of their usage on social media. Our graph neural networks that combine webgraph and social media contexts generate to state-of-the-art results in website credibility classification and significantly improves the top-k identification of unreliable domains. Additionally, we release a novel dataset of dredge words, highlighting their strong connections to both social media and online commerce platforms.

arxiv情報

著者 Evan M. Williams,Peter Carragher,Kathleen M. Carley
発行日 2025-02-24 16:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI | Bridging Social Media and Search Engines: Dredge Words and the Detection of Unreliable Domains はコメントを受け付けていません

Child vs. machine language learning: Can the logical structure of human language unleash LLMs?

要約

私たちは、人間の言語学習は、現在のアプローチからLLMSのトレーニングまで、学習バイアスの違いを予測するまで、本質的に異なる方法で進行すると主張します。
次に、非常に強力な実装でさえ、人間が問題ない言語に固有の論理の側面を見逃す結果を生み出すという仮説を確認するLLMによるドイツの複数形成からの証拠を提示します。
人間の言語と人工ニューラルネットワークのさまざまな構造への注意は、LLMのパフォーマンスを改善するための道である可能性が高いと結論付けています。

要約(オリジナル)

We argue that human language learning proceeds in a manner that is different in nature from current approaches to training LLMs, predicting a difference in learning biases. We then present evidence from German plural formation by LLMs that confirm our hypothesis that even very powerful implementations produce results that miss aspects of the logic inherent to language that humans have no problem with. We conclude that attention to the different structures of human language and artificial neural networks is likely to be an avenue to improve LLM performance.

arxiv情報

著者 Uli Sauerland,Celia Matthaei,Felix Salfner
発行日 2025-02-24 16:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Child vs. machine language learning: Can the logical structure of human language unleash LLMs? はコメントを受け付けていません

Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries

要約

大規模な言語モデル(LLM)テクノロジーの最近の進捗は、これらのモデルとの対話における役割を変えました。
すでに答えを知っている質問でこれらのモデルを主にテストする代わりに、人間の好奇心によって駆動された答えが私たちに知られていないクエリにそれらを使用しています。
このシフトは、好奇心を抱いた人間の質問を理解するための増大する必要性を強調しています – より複雑で、オープンエンドで、実際のニーズを反映しているもの。
この目的のために、3つの多様なソースからの13.5kの自然発生の質問のコレクションであるQuriosityを提示します:人間から検索エンジンのクエリ、人間と人間と人間への相互作用、および人間とllmの会話。
当社の包括的なコレクションにより、さまざまなドメインやコンテキストにわたる人間の好奇心についての豊かな理解が可能になります。
私たちの分析により、データセットに因果的な質問(最大42%)が存在することが明らかになりました。これにより、すべての因果的クエリを特定し、独自の言語特性、認知的複雑さ、ソース分布を調べるための反復的な迅速な改善フレームワークが開発されています。
私たちの論文は、因果関係の識別とオープンエンドのチャットボットの相互作用に関する将来の作業への道を開きます。

要約(オリジナル)

Recent progress in Large Language Model (LLM) technology has changed our role in interacting with these models. Instead of primarily testing these models with questions we already know answers to, we are now using them for queries where the answers are unknown to us, driven by human curiosity. This shift highlights the growing need to understand curiosity-driven human questions – those that are more complex, open-ended, and reflective of real-world needs. To this end, we present Quriosity, a collection of 13.5K naturally occurring questions from three diverse sources: human-to-search-engine queries, human-to-human interactions, and human-to-LLM conversations. Our comprehensive collection enables a rich understanding of human curiosity across various domains and contexts. Our analysis reveals a significant presence of causal questions (up to 42%) in the dataset, for which we develop an iterative prompt improvement framework to identify all causal queries and examine their unique linguistic properties, cognitive complexity and source distribution. Our paper paves the way for future work on causal question identification and open-ended chatbot interactions.

arxiv情報

著者 Roberto Ceraolo,Dmitrii Kharlapenko,Ahmad Khan,Amélie Reymond,Rada Mihalcea,Bernhard Schölkopf,Mrinmaya Sachan,Zhijing Jin
発行日 2025-02-24 16:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries はコメントを受け付けていません

TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control

要約

巧妙な手を備えたヒューマノイドロボットなど、高度な度面および複雑なアクション空間を備えた複雑な高次元空間は、限られたサンプル予算の下で探索と搾取のバランスをとる必要がある強化学習(RL)アルゴリズムに大きな課題をもたらします。
一般に、複雑な高次元空間内でタスクを達成するための実行可能な領域は非常に狭くなっています。
たとえば、ヒューマノイドロボットモーションコントロールのコンテキストでは、空間の大部分は落下に対応しますが、非常に極端な画分のみが直立していることに対応しており、これは下流タスクの完了を助長します。
ロボットが潜在的にタスク関連の地域に探索すると、その地域内のデータをより重視するはずです。
この洞察に基づいて、$ \ textbf {s} $ elf-$ \ textbf {i} $ mitative $ \ textbf {r} $ einforcement $ \ textbf {l} $ hearning($ \ textbf {sirl} $を提案します。
RLアルゴリズムは、潜在的にタスク関連の軌跡も模倣します。
具体的には、軌跡のリターンを利用してタスクとの関連性を判断し、軌跡のリターンに基づいて重量が動的に調整された追加の動作クローニングが採用されます。
その結果、提案されているアルゴリズムは、5%追加の計算オーバーヘッドで、挑戦的なヒューマノイドベンチで120%のパフォーマンス改善を達成します。
さらなる視覚化により、いくつかのタスクが正常に解決されるという意味のある動作の改善につながることがわかります。

要約(オリジナル)

Complex high-dimensional spaces with high Degree-of-Freedom and complicated action spaces, such as humanoid robots equipped with dexterous hands, pose significant challenges for reinforcement learning (RL) algorithms, which need to wisely balance exploration and exploitation under limited sample budgets. In general, feasible regions for accomplishing tasks within complex high-dimensional spaces are exceedingly narrow. For instance, in the context of humanoid robot motion control, the vast majority of space corresponds to falling, while only a minuscule fraction corresponds to standing upright, which is conducive to the completion of downstream tasks. Once the robot explores into a potentially task-relevant region, it should place greater emphasis on the data within that region. Building on this insight, we propose the $\textbf{S}$elf-$\textbf{I}$mitative $\textbf{R}$einforcement $\textbf{L}$earning ($\textbf{SIRL}$) framework, where the RL algorithm also imitates potentially task-relevant trajectories. Specifically, trajectory return is utilized to determine its relevance to the task and an additional behavior cloning is adopted whose weight is dynamically adjusted based on the trajectory return. As a result, our proposed algorithm achieves 120% performance improvement on the challenging HumanoidBench with 5% extra computation overhead. With further visualization, we find the significant performance gain does lead to meaningful behavior improvement that several tasks are solved successfully.

arxiv情報

著者 Zifeng Zhuang,Diyuan Shi,Runze Suo,Xiao He,Hongyin Zhang,Ting Wang,Shangke Lyu,Donglin Wang
発行日 2025-02-24 16:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control はコメントを受け付けていません