A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

要約

オープンワールド環境でのロボット操作のタスク仕様は挑戦的であり、人間の意図と整合し、反復フィードバックを通じて進化する柔軟で適応的な目標を必要とします。
動的タスク仕様として機能する視覚的に接地されたPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介します。
当社のフレームワークは、VLMを活用して、マルチステップ操作タスクのこれらの報酬機能を生成および改良します。
RGB-Dの観察と自由形式の言語の指示を考えると、シーンのキーポイントをサンプリングし、これらのキーポイントに条件付けられた報酬関数を生成します。
Ikerは、キーポイント間の空間的関係を操作し、望ましい動作に関する常識的な事前を活用し、正確なSE(3)制御を可能にします。
シミュレーションで実世界のシーンを再構築し、生成された報酬を使用して補強学習(RL)ポリシーを訓練し、実際の世界からリアルへのループを実現する現実の世界に展開されます。
私たちのアプローチは、事前濃度と非充実したタスクの両方、マルチステップタスクの実行、自発的なエラー回復、オンザフライ戦略の調整など、さまざまなシナリオ全体で顕著な機能を示しています。
結果は、ロボットが反復的な報酬形状を通じて動的環境でマルチステップタスクを実行できるようにすることにおけるIkerの有効性を強調しています。

要約(オリジナル)

Task specification for robotic manipulation in open-world environments is challenging, requiring flexible and adaptive objectives that align with human intentions and can evolve through iterative feedback. We introduce Iterative Keypoint Reward (IKER), a visually grounded, Python-based reward function that serves as a dynamic task specification. Our framework leverages VLMs to generate and refine these reward functions for multi-step manipulation tasks. Given RGB-D observations and free-form language instructions, we sample keypoints in the scene and generate a reward function conditioned on these keypoints. IKER operates on the spatial relationships between keypoints, leveraging commonsense priors about the desired behaviors, and enabling precise SE(3) control. We reconstruct real-world scenes in simulation and use the generated rewards to train reinforcement learning (RL) policies, which are then deployed into the real world-forming a real-to-sim-to-real loop. Our approach demonstrates notable capabilities across diverse scenarios, including both prehensile and non-prehensile tasks, showcasing multi-step task execution, spontaneous error recovery, and on-the-fly strategy adjustments. The results highlight IKER’s effectiveness in enabling robots to perform multi-step tasks in dynamic environments through iterative reward shaping.

arxiv情報

著者 Shivansh Patel,Xinchen Yin,Wenlong Huang,Shubham Garg,Hooshang Nayyeri,Li Fei-Fei,Svetlana Lazebnik,Yunzhu Li
発行日 2025-02-12 18:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards はコメントを受け付けていません

Poly-Autoregressive Prediction for Modeling Interactions

要約

マルチエージェント設定でエージェントの動作を予測するための簡単なフレームワークを紹介します。
言語処理などの自己回帰(AR)タスクとは対照的に、私たちの焦点は、物理的な制約と内部動機によって相互作用が形成される複数のエージェントのシナリオに焦点を当てています。
この目的のために、私たちはポリオートレーフ(PAR)モデリングを提案します。これは、エゴエージェントの州の歴史と他の相互作用中のエージェントの過去と現在の状態について推論することにより、エゴエージェントの将来の行動を予測します。
そのコアでは、PARはすべてのエージェントの動作を一連のトークンとして表し、それぞれが特定のタイムステップでエージェントの状態を表します。
最小限のデータの前処理の変更により、PARは、社会的状況での人間のアクション予測、自律車両の軌跡予測、および手観察の相互作用中のオブジェクトポーズ予測の3つの異なる問題に適用できることを示します。
小さな概念変圧器のバックボーンを使用して、これら3つのシナリオ全体でARを上回ることができます。
プロジェクトのWebサイトは、https://neerja.me/par/にあります。

要約(オリジナル)

We introduce a simple framework for predicting the behavior of an agent in multi-agent settings. In contrast to autoregressive (AR) tasks, such as language processing, our focus is on scenarios with multiple agents whose interactions are shaped by physical constraints and internal motivations. To this end, we propose Poly-Autoregressive (PAR) modeling, which forecasts an ego agent’s future behavior by reasoning about the ego agent’s state history and the past and current states of other interacting agents. At its core, PAR represents the behavior of all agents as a sequence of tokens, each representing an agent’s state at a specific timestep. With minimal data pre-processing changes, we show that PAR can be applied to three different problems: human action forecasting in social situations, trajectory prediction for autonomous vehicles, and object pose forecasting during hand-object interaction. Using a small proof-of-concept transformer backbone, PAR outperforms AR across these three scenarios. The project website can be found at https://neerja.me/PAR/.

arxiv情報

著者 Neerja Thakkar,Tara Sadjadpour,Jathushan Rajasegaran,Shiry Ginosar,Jitendra Malik
発行日 2025-02-12 18:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Poly-Autoregressive Prediction for Modeling Interactions はコメントを受け付けていません

Automated Capability Discovery via Model Self-Exploration

要約

基礎モデルは汎用アシスタントになり、Webスケールデータのトレーニングを通じて多数のドメインにわたって多様な機能を示しています。
新しいモデルの機能と潜在的なリスクの全範囲のほんの一部を正確に特徴付けることは困難なままです。
既存の評価アプローチは、多くの場合、かなりの人間の努力を必要とし、より能力のあるモデルにもっと困難な課題を設計するためにますます努力を払っています。
科学者として1つの基礎モデルを指定するフレームワークであるAutomated Capability Discovery(ACD)を導入し、主題モデル(潜在的にそれ自体)の能力を調査する自由回答形式のタスクを体系的に提案します。
フロンティアモデルをオープンエンドネスの分野からのアイデアと組み合わせることにより、ACDは、サブジェクトモデルの驚くべき能力と障害の両方を自動的かつ体系的に明らかにします。
さまざまなファンデーションモデル(GPT、Claude、およびLlamaシリーズを含む)にわたってACDを実証し、1つのチームが発見するのが難しい数千の機能を自動的に明らかにしていることを示しています。
さらに、モデル生成と人間の評価との間の高い一致を観察し、広範な人間の調査でメソッドの自動スコアリングを検証します。
ファンデーションモデルのタスクを作成する能力と自己評価の両方を活用することにより、ACDは、新しいAIシステムのスケーラブルで自動化された評価に向けた重要なステップです。
すべてのコードと評価ログは、https://github.com/conglu1997/acdでオープンソースを受けています。

要約(オリジナル)

Foundation models have become general-purpose assistants, exhibiting diverse capabilities across numerous domains through training on web-scale data. It remains challenging to precisely characterize even a fraction of the full spectrum of capabilities and potential risks in any new model. Existing evaluation approaches often require significant human effort, and it is taking increasing effort to design ever harder challenges for more capable models. We introduce Automated Capability Discovery (ACD), a framework that designates one foundation model as a scientist to systematically propose open-ended tasks probing the abilities of a subject model (potentially itself). By combining frontier models with ideas from the field of open-endedness, ACD automatically and systematically uncovers both surprising capabilities and failures in the subject model. We demonstrate ACD across a range of foundation models (including the GPT, Claude, and Llama series), showing that it automatically reveals thousands of capabilities that would be challenging for any single team to uncover. We further validate our method’s automated scoring with extensive human surveys, observing high agreement between model-generated and human evaluations. By leveraging foundation models’ ability to both create tasks and self-evaluate, ACD is a significant step toward scalable, automated evaluation of novel AI systems. All code and evaluation logs are open-sourced at https://github.com/conglu1997/ACD.

arxiv情報

著者 Cong Lu,Shengran Hu,Jeff Clune
発行日 2025-02-12 16:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Automated Capability Discovery via Model Self-Exploration はコメントを受け付けていません

SoK: A Classification for AI-driven Personalized Privacy Assistants

要約

ユーザーがプライバシー関連の意思決定を行うのを支援するために、AIテクノロジーに基づいたパーソナライズされたプライバシーアシスタントが近年開発されています。
これらのAI駆動型のパーソナライズされたプライバシーアシスタント(AI主導のPPA)は、プライバシー関連の決定要求に満ちた環境での個人データに関する決定を下すのに苦労する可能性があります。
ただし、これらのAI駆動型PPAの特徴、その基礎となる技術、またはその決定の正確性について体系的に調査する研究はありませんでした。
このギャップを埋めるために、科学文献にある既存のソリューションをマッピングするために、知識(SOK)の体系化を提示します。
過去10年間(2013-2023)に1697年のユニークな研究論文を上映し、39の含まれる論文から分類を構築しました。
その結果、このSOKは、出版物の種類、貢献、方法論の質、およびその他の定量的洞察の観点から、AI主導のPPAに関する既存の研究のいくつかの側面をレビューします。
さらに、AI駆動型PPAの包括的な分類を提供し、建築の選択、システムのコンテキスト、使用済みのAIの種類、データソース、決定の種類、意思決定の制御などを掘り下げます。
SOKに基づいて、研究のギャップと課題をさらに強調し、AI主導のPPAの設計と開発に関する推奨事項と、将来の研究の道を策定します。

要約(オリジナル)

To help users make privacy-related decisions, personalized privacy assistants based on AI technology have been developed in recent years. These AI-driven Personalized Privacy Assistants (AI-driven PPAs) can reap significant benefits for users, who may otherwise struggle to make decisions regarding their personal data in environments saturated with privacy-related decision requests. However, no study systematically inquired about the features of these AI-driven PPAs, their underlying technologies, or the accuracy of their decisions. To fill this gap, we present a Systematization of Knowledge (SoK) to map the existing solutions found in the scientific literature. We screened 1697 unique research papers over the last decade (2013-2023), constructing a classification from 39 included papers. As a result, this SoK reviews several aspects of existing research on AI-driven PPAs in terms of types of publications, contributions, methodological quality, and other quantitative insights. Furthermore, we provide a comprehensive classification for AI-driven PPAs, delving into their architectural choices, system contexts, types of AI used, data sources, types of decisions, and control over decisions, among other facets. Based on our SoK, we further underline the research gaps and challenges and formulate recommendations for the design and development of AI-driven PPAs as well as avenues for future research.

arxiv情報

著者 Victor Morel,Leonardo Iwaya,Simone Fischer-Hübner
発行日 2025-02-12 16:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | SoK: A Classification for AI-driven Personalized Privacy Assistants はコメントを受け付けていません

Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

要約

Next-Token Prediction(NTP)は、自己回帰(AR)ビデオ生成のための事実上のアプローチですが、最適ではない一方向の依存関係と推論速度が遅いことに苦しんでいます。
この作業では、ビデオ生成のために、次のブロック予測(NBP)と呼ばれる半自動性(SEMI-AR)フレームワークを提案します。
ビデオコンテンツを等しいサイズのブロック(行やフレームなど)に均一に分解することにより、生成ユニットを個々のトークンからブロックにシフトし、現在のブロック内の各トークンが次のブロックの対応するトークンを同時に予測できるようにします。
従来のARモデリングとは異なり、当社のフレームワークは各ブロック内で双方向の注意を採用しており、トークンがより堅牢な空間依存関係をキャプチャできるようにします。
複数のトークンを並行して予測することにより、NBPモデルは生成ステップの数を大幅に減らし、より速く、より効率的な推論につながります。
私たちのモデルは、UCF101で103.3、K600で25.5のFVDスコアを達成し、平均4.4でバニラNTPモデルを上回ります。
さらに、推論手順の数が減ったため、NBPモデルは1秒あたり8.89フレーム(128×128解像度)を生成し、11倍のスピードアップを達成します。
また、700mから3Bのパラメーターの範囲のモデルスケールを調査し、生成品質の大幅な改善を観察し、FVDスコアはUCF101で103.3から55.3、K600で25.5から19.5に低下し、アプローチのスケーラビリティを示しました。

要約(オリジナル)

Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR) video generation, but it suffers from suboptimal unidirectional dependencies and slow inference speed. In this work, we propose a semi-autoregressive (semi-AR) framework, called Next-Block Prediction (NBP), for video generation. By uniformly decomposing video content into equal-sized blocks (e.g., rows or frames), we shift the generation unit from individual tokens to blocks, allowing each token in the current block to simultaneously predict the corresponding token in the next block. Unlike traditional AR modeling, our framework employs bidirectional attention within each block, enabling tokens to capture more robust spatial dependencies. By predicting multiple tokens in parallel, NBP models significantly reduce the number of generation steps, leading to faster and more efficient inference. Our model achieves FVD scores of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an average of 4.4. Furthermore, thanks to the reduced number of inference steps, the NBP model generates 8.89 frames (128×128 resolution) per second, achieving an 11x speedup. We also explored model scales ranging from 700M to 3B parameters, observing significant improvements in generation quality, with FVD scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600, demonstrating the scalability of our approach.

arxiv情報

著者 Shuhuai Ren,Shuming Ma,Xu Sun,Furu Wei
発行日 2025-02-12 14:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Next Block Prediction: Video Generation via Semi-Autoregressive Modeling はコメントを受け付けていません

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

要約

さまざまなジオメトリと変形可能なオブジェクトを備えたオブジェクトを操作することは、ロボット工学の大きな課題です。
異なるオブジェクトや布吊り下げの挿入などのタスクには、正確な制御と複雑なダイナミクスの効果的なモデリングが必要です。
この作業では、この問題を、アクチュエーターやオブジェクトなどの小さなサブグラフを含む不均一なグラフのレンズを通して、相互作用を説明するさまざまなエッジタイプを伴います。
このグラフ表現は、剛性と変形可能なオブジェクトの両方のタスクの統一された構造として機能し、複数のアクチュエーターを含むタスクにさらに拡張できます。
このセットアップを評価するために、多様なオブジェクトの剛性挿入、複数のエンド効果によるロープと布の操作など、斬新で挑戦的な強化学習ベンチマークを提示します。
これらのタスクは、初期構成とターゲット構成の両方が3Dスペースで均一にサンプリングされるため、大きな検索スペースを提示します。
この問題に対処するために、幾何学的対称性を活用するための主要なバックボーンとして$ se(3)$ equivariantメッセージパスネットワークを利用して、不均一等量ポリシー(HEPI)と呼ばれる新しいグラフベースのポリシーモデルを提案します。
さらに、明示的な不均一性をモデル化することにより、HEPIは、平均リターン、サンプル効率、および目に見えないオブジェクトへの一般化に関して、変圧器ベースおよび非氷河の等縁ポリシーを上回ることができます。

要約(オリジナル)

Manipulating objects with varying geometries and deformable objects is a major challenge in robotics. Tasks such as insertion with different objects or cloth hanging require precise control and effective modelling of complex dynamics. In this work, we frame this problem through the lens of a heterogeneous graph that comprises smaller sub-graphs, such as actuators and objects, accompanied by different edge types describing their interactions. This graph representation serves as a unified structure for both rigid and deformable objects tasks, and can be extended further to tasks comprising multiple actuators. To evaluate this setup, we present a novel and challenging reinforcement learning benchmark, including rigid insertion of diverse objects, as well as rope and cloth manipulation with multiple end-effectors. These tasks present a large search space, as both the initial and target configurations are uniformly sampled in 3D space. To address this issue, we propose a novel graph-based policy model, dubbed Heterogeneous Equivariant Policy (HEPi), utilizing $SE(3)$ equivariant message passing networks as the main backbone to exploit the geometric symmetry. In addition, by modeling explicit heterogeneity, HEPi can outperform Transformer-based and non-heterogeneous equivariant policies in terms of average returns, sample efficiency, and generalization to unseen objects.

arxiv情報

著者 Tai Hoang,Huy Le,Philipp Becker,Vien Anh Ngo,Gerhard Neumann
発行日 2025-02-12 08:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects はコメントを受け付けていません

Space-Aware Instruction Tuning: Dataset and Benchmark for Guide Dog Robots Assisting the Visually Impaired

要約

盲導犬ロボットは、視覚障害のある個人のモビリティと安全性を高めるための有望なソリューションを提供し、特に知覚とコミュニケーションにおいて、伝統的な盲導犬の限界に対処します。
ビジョン言語モデル(VLM)の出現により、ロボットは周囲の自然言語の説明を生成し、より安全な意思決定を支援することができます。
ただし、既存のVLMは、空間的関係を正確に解釈して伝えるのに苦労しています。これは、街路交差点などの複雑な環境でのナビゲーションに重要です。
スペースアウェア命令チューニング(SAIT)データセットとスペースアウェアベンチマーク(SAベンチ)を紹介して、物理的環境を理解する際の現在のVLMの制限に対処します。
自動化されたデータ生成パイプラインは、3Dスペースと周囲の目的地への仮想パスに焦点を当てており、環境理解を高め、VLMが視覚障害のある個人により正確なガイダンスを提供できるようにします。
また、ウォーキングガイダンスの提供におけるVLMの有効性を評価するための評価プロトコルも提案します。
比較実験は、私たちの宇宙認識命令チューニングモデルが最先端のアルゴリズムよりも優れていることを示しています。
https://github.com/byungokhan/space-awarevlmで、関連コードとともにSAITデータセットとSAベンチを完全にオープンソースしました。

要約(オリジナル)

Guide dog robots offer promising solutions to enhance mobility and safety for visually impaired individuals, addressing the limitations of traditional guide dogs, particularly in perceptual intelligence and communication. With the emergence of Vision-Language Models (VLMs), robots are now capable of generating natural language descriptions of their surroundings, aiding in safer decision-making. However, existing VLMs often struggle to accurately interpret and convey spatial relationships, which is crucial for navigation in complex environments such as street crossings. We introduce the Space-Aware Instruction Tuning (SAIT) dataset and the Space-Aware Benchmark (SA-Bench) to address the limitations of current VLMs in understanding physical environments. Our automated data generation pipeline focuses on the virtual path to the destination in 3D space and the surroundings, enhancing environmental comprehension and enabling VLMs to provide more accurate guidance to visually impaired individuals. We also propose an evaluation protocol to assess VLM effectiveness in delivering walking guidance. Comparative experiments demonstrate that our space-aware instruction-tuned model outperforms state-of-the-art algorithms. We have fully open-sourced the SAIT dataset and SA-Bench, along with the related code, at https://github.com/byungokhan/Space-awareVLM

arxiv情報

著者 ByungOk Han,Woo-han Yun,Beom-Su Seo,Jaehong Kim
発行日 2025-02-12 09:07:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Space-Aware Instruction Tuning: Dataset and Benchmark for Guide Dog Robots Assisting the Visually Impaired はコメントを受け付けていません

MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces

要約

オープンエンドの学習エージェントは、学習進捗(LP)を最大化するものに焦点を当てて、広大な可能性スペースで目標を効率的に優先順位付けする必要があります。
このような自己テリック探査が、高次元および進化する目標スペースでオンラインRLで訓練されたLLMエージェントによって達成される場合、LP予測の重要な課題は、自分自身の能力、メタ認知的監視の一形態をモデル化することです。
従来のアプローチでは、広範なサンプリングが必要なか、脆弱な専門家が定義した目標グループに依存しています。
LLMエージェントが能力とLPをオンラインで予測することを学ぶことができるメタ認知フレームワークであるMagellanを紹介します。
目標間のセマンティックな関係をキャプチャすることにより、マゼランは、サンプル効率の高いLP推定と、一般化を通じて進化する目標スペースへの動的な適応を可能にします。
インタラクティブな学習環境では、マゼランがLP予測効率と目標優先順位付けを改善し、エージェントが大きく進化する目標スペースを完全にマスターできるようにする唯一の方法であることを示しています。
これらの結果は、LP予測のメタ認知能力でLLMエージェントを増強することで、カリキュラムの学習をオープンエンドの目標スペースに効果的に拡大する方法を示しています。

要約(オリジナル)

Open-ended learning agents must efficiently prioritize goals in vast possibility spaces, focusing on those that maximize learning progress (LP). When such autotelic exploration is achieved by LLM agents trained with online RL in high-dimensional and evolving goal spaces, a key challenge for LP prediction is modeling one’s own competence, a form of metacognitive monitoring. Traditional approaches either require extensive sampling or rely on brittle expert-defined goal groupings. We introduce MAGELLAN, a metacognitive framework that lets LLM agents learn to predict their competence and LP online. By capturing semantic relationships between goals, MAGELLAN enables sample-efficient LP estimation and dynamic adaptation to evolving goal spaces through generalization. In an interactive learning environment, we show that MAGELLAN improves LP prediction efficiency and goal prioritization, being the only method allowing the agent to fully master a large and evolving goal space. These results demonstrate how augmenting LLM agents with a metacognitive ability for LP predictions can effectively scale curriculum learning to open-ended goal spaces.

arxiv情報

著者 Loris Gaven,Thomas Carta,Clément Romac,Cédric Colas,Sylvain Lamprier,Olivier Sigaud,Pierre-Yves Oudeyer
発行日 2025-02-12 08:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces はコメントを受け付けていません

O1 Embedder: Let Retrievers Think Before Action

要約

大規模な言語モデル(LLMS)の成長力は、人々が情報にアクセスし、利用する方法に革命をもたらしました。
特に、LLMSは、詳細な情報表現を実行することに優れているため、情報の正確な検索が容易になります。
また、外部参照に基づいて高品質の回答を生成し、有用な知識の生産を可能にします。
Openai O1やDeepseek R1などの推論モデルの最近の導入は、最終的な回答を提供する前に徐々に考えるLLMSの能力を強調していることを強調しています。
このブレークスルーにより、複雑なタスク、たとえばコーディングや数学の証明に対処する機能が大幅に向上します。
この進歩に触発されて、私たちは検索モデルの同様の機能を開発することを目指しています。これは、マルチタスク検索、ゼロショット検索、複雑な関係の集中的な推論を必要とするタスクなど、現場での重要な課題に取り組むことに大きな期待を抱いています。
この動機付けにより、O1 Embedderと呼ばれる新しいアプローチを提案します。これは、ターゲットドキュメントの検索を行う前に、入力クエリに有用な思考を生成します。
この目的を実現するために、2つの技術的な困難を克服します。
まず、データ統合ワークフローを設計し、LLMエンパートから最初の思考を生成し、その後検索委員会を使用して精製することにより、O1埋め込みのトレーニング信号を作成します。
第二に、トレーニングプロセスを最適化し、事前に訓練されたモデルを共同で微調整して、動作のクローニングを介して検索思考を生成し、対照的な学習を通じて密な検索を実行できるようにします。
私たちのアプローチは、ドメイン内とドメイン外のシナリオの両方にまたがる12の一般的なデータセットで大幅な改善が達成される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化可能性を強調し、次世代IR Foundationモデルの開発への道を開いています。

要約(オリジナル)

The growing power of large language models (LLMs) has revolutionized how people access and utilize information. Notably, the LLMs excel at performing fine-grained data representation, which facilitates precise retrieval of information. They also generate high-quality answers based on external references, enabling the production of useful knowledge. The recent introduction of reasoning models, like OpenAI O1 and DeepSeek R1, marks another leap forward, highlighting LLMs’ ability to think progressively before delivering final answers. This breakthrough significantly improves the ability to address complex tasks, e.g., coding and math proofs. Inspired by this progress, we aim to develop similar capabilities for retrieval models, which hold great promise for tackling critical challenges in the field, including multi-task retrieval, zero-shot retrieval, and tasks requiring intensive reasoning of complex relationships. With this motivation, we propose a novel approach called O1 Embedder, which generates useful thoughts for the input query before making retrieval for the target documents. To realize this objective, we conquer two technical difficulties. First, we design a data synthesis workflow, creating training signals for O1 Embedder by generating initial thoughts from an LLM-expert and subsequently refining them using a retrieval committee. Second, we optimize the training process, enabling a pre-trained model to be jointly fine-tuned to generate retrieval thoughts via behavior cloning and perform dense retrieval through contrastive learning. Our approach is evaluated by comprehensive experiments, where substantial improvements are achieved across 12 popular datasets, spanning both in-domain and out-of-domain scenarios. These results highlight O1 Embedder’s remarkable accuracy and generalizability, paving the way for the development of next-generation IR foundation models.

arxiv情報

著者 Ruiran Yan,Zheng Liu,Defu Lian
発行日 2025-02-12 03:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | O1 Embedder: Let Retrievers Think Before Action はコメントを受け付けていません

GATEAU: Selecting Influential Samples for Long Context Alignment

要約

非常に長いコンテキストで命令を処理するために大きな言語モデルを調整することは、まだ完全に調査されていません。
以前の研究では、そのようなデータセットを構築することはアノテーターにとって挑戦的である傾向があるため、長い命令に従うサンプルを合成することにより、利用可能なデータボリュームを拡大しようとします。
ただし、データ品質を確保するための明確に定義された戦略がないため、低品質のサンプルが導入され、モデルのパフォーマンスが制限される場合があります。
したがって、長距離依存関係で豊富な影響力のあるサンプルを識別することにより、長いコンテキストアラインメントのユニークな課題に対処するための新しいフレームワークであるGateauを提案します。
具体的には、Gateauは2つの重要な側面から長距離依存関係を測定します。長距離依存関係によるターゲット応答を生成することの難しさと、そのような依存関係による長い入力を理解することの難しさです。
包括的な実験では、Gateauが影響力のあるサンプルを効果的に特定し、これらの選択されたサンプルで訓練されたモデルが、より良い指導に従った長期的理解能力を示すことを示しています。

要約(オリジナル)

Aligning large language models to handle instructions with extremely long contexts has yet to be fully investigated. Previous studies attempt to scale up the available data volume by synthesizing long instruction-following samples, as constructing such a dataset tends to be challenging for annotators. However, a lack of a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the model performance. Thus, we propose GATEAU, a novel framework to address the unique challenge of long context alignment by identifying the influential samples enriched with long-range dependency relations. Specifically, GATEAU measures the long-range dependencies from two essential aspects: the difficulty of generating target responses due to the long-range dependencies, and the difficulty of understanding long inputs due to such dependencies. Comprehensive experiments indicate that GATEAU effectively identifies influential samples and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.

arxiv情報

著者 Shuzheng Si,Haozhe Zhao,Gang Chen,Yunshui Li,Kangyang Luo,Chuancheng Lv,Kaikai An,Fanchao Qi,Baobao Chang,Maosong Sun
発行日 2025-02-12 03:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GATEAU: Selecting Influential Samples for Long Context Alignment はコメントを受け付けていません