ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models

要約

既存の自己回帰(AR)画像生成モデルは、トークンごとの生成スキーマを使用します。
つまり、トークンあたりの確率分布を予測し、その分布から次のトークンをサンプリングします。
主な課題は、高次元トークンの複雑な分布をモデル化する方法です。
以前の方法は、分布に適合するには単純すぎるか、生成速度が遅くなります。
トークン全体の分布を適合させる代わりに、ARモデルを使用して各トークンを機能させる方法で生成します。つまり、生成された機能を入力として使用して、次の機能を生成します。
それに基づいて、BiレベルのARモデルであるArinar(AR-in-AR)を提案します。
外側のAR層は、前のトークンを入力として取り、次のトークンの条件ベクトルzを予測します。
Zを条件とする内側の層は、次のトークンの機能を自動網目上に生成します。
このようにして、内側の層は、たとえば単純なガウス混合モデルを使用して、単一の機能の分布をモデル化するだけで済みます。
Imagenet 256×256の画像生成タスクでは、213mパラメーターを備えたArinar-Bは2.75のFIDを実現します。これは、最先端のMAR-Bモデル(FID = 2.31)に匹敵しますが、後者の5倍高速です。

要約(オリジナル)

Existing autoregressive (AR) image generative models use a token-by-token generation schema. That is, they predict a per-token probability distribution and sample the next token from that distribution. The main challenge is how to model the complex distribution of high-dimensional tokens. Previous methods either are too simplistic to fit the distribution or result in slow generation speed. Instead of fitting the distribution of the whole tokens, we explore using a AR model to generate each token in a feature-by-feature way, i.e., taking the generated features as input and generating the next feature. Based on that, we propose ARINAR (AR-in-AR), a bi-level AR model. The outer AR layer take previous tokens as input, predicts a condition vector z for the next token. The inner layer, conditional on z, generates features of the next token autoregressively. In this way, the inner layer only needs to model the distribution of a single feature, for example, using a simple Gaussian Mixture Model. On the ImageNet 256×256 image generation task, ARINAR-B with 213M parameters achieves an FID of 2.75, which is comparable to the state-of-the-art MAR-B model (FID=2.31), while five times faster than the latter.

arxiv情報

著者 Qinyu Zhao,Stephen Gould,Liang Zheng
発行日 2025-03-04 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models はコメントを受け付けていません

A-MEM: Agentic Memory for LLM Agents

要約

大規模な言語モデル(LLM)エージェントは、複雑な実世界のタスクに外部ツールを効果的に使用できますが、歴史的な経験を活用するためにメモリシステムが必要です。
現在のメモリシステムは、基本的なストレージと検索を可能にしますが、グラフデータベースを組み込もうとする最近の試みにもかかわらず、洗練されたメモリ組織を欠いています。
さらに、これらのシステムの固定操作と構造は、多様なタスク全体で適応性を制限しています。
この制限に対処するために、このペーパーでは、エージェントの方法で記憶を動的に整理できるLLMエージェント向けの新しいエージェントメモリシステムを提案します。
Zettelkastenメソッドの基本原則に従って、動的なインデックス作成とリンクを通じて相互接続された知識ネットワークを作成するようにメモリシステムを設計しました。
新しいメモリが追加されると、コンテキストの説明、キーワード、タグなど、複数の構造化された属性を含む包括的なメモを生成します。
次に、システムは歴史的な記憶を分析して、関連する接続を特定し、意味のある類似性が存在するリンクを確立します。
さらに、このプロセスにより、メモリの進化が可能になります。新しいメモリが統合されると、既存の歴史的記憶のコンテキスト表現と属性の更新をトリガーでき、メモリネットワークがその理解を継続的に改良することができます。
私たちのアプローチは、Zettelkastenの構造化された組織原則を、エージェント主導の意思決定の柔軟性と組み合わせて、より適応的でコンテキスト認識したメモリ管理を可能にします。
6つの基礎モデルでの経験的実験は、既存のSOTAベースラインに対する優れた改善を示しています。
パフォーマンスを評価するためのソースコードは、https://github.com/wujiangxu/agenticmemoryで入手できますが、エージェントメモリシステムのソースコードはhttps://github.com/agiresearch/a-memで入手できます。

要約(オリジナル)

While large language model (LLM) agents can effectively use external tools for complex real-world tasks, they require memory systems to leverage historical experiences. Current memory systems enable basic storage and retrieval but lack sophisticated memory organization, despite recent attempts to incorporate graph databases. Moreover, these systems’ fixed operations and structures limit their adaptability across diverse tasks. To address this limitation, this paper proposes a novel agentic memory system for LLM agents that can dynamically organize memories in an agentic way. Following the basic principles of the Zettelkasten method, we designed our memory system to create interconnected knowledge networks through dynamic indexing and linking. When a new memory is added, we generate a comprehensive note containing multiple structured attributes, including contextual descriptions, keywords, and tags. The system then analyzes historical memories to identify relevant connections, establishing links where meaningful similarities exist. Additionally, this process enables memory evolution – as new memories are integrated, they can trigger updates to the contextual representations and attributes of existing historical memories, allowing the memory network to continuously refine its understanding. Our approach combines the structured organization principles of Zettelkasten with the flexibility of agent-driven decision making, allowing for more adaptive and context-aware memory management. Empirical experiments on six foundation models show superior improvement against existing SOTA baselines. The source code for evaluating performance is available at https://github.com/WujiangXu/AgenticMemory, while the source code of agentic memory system is available at https://github.com/agiresearch/A-mem.

arxiv情報

著者 Wujiang Xu,Zujie Liang,Kai Mei,Hang Gao,Juntao Tan,Yongfeng Zhang
発行日 2025-03-04 15:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | A-MEM: Agentic Memory for LLM Agents はコメントを受け付けていません

Variational Best-of-N Alignment

要約

Best-of-n(bon)は、言語モデルを人間の好みに合わせるための一般的で効果的なアルゴリズムです。
アルゴリズムは次のように機能します。推論時に、nサンプルは言語モデルから描画され、報酬モデルで判断されるように、最高の報酬のあるサンプルは出力として返されます。
その有効性にもかかわらず、ボンは計算的に高価です。
これにより、サンプリングスループットがNの係数を減らします。推論時にボンをより効率的にするために、1つの戦略は言語モデルを微調整して、推論中にボンが行うことを模倣することです。
これを達成するために、ボンアルゴリズムによって誘導される分布を導き出します。
次に、言語モデルを微調整して、bon分布への後方KLの発散を最小限に抑えることを提案します。
私たちのアプローチは、平均フィールドの変分推論に類似しているため、それを変分骨(Vbon)と呼びます。
この微調整が成功し、良好な近似値になり、推論コストをNの係数で削減しました。制御された生成と要約タスクに関する実験は、BONが最も効果的なアライメント方法であり、BONの変分近似がBONおよびSURPASSモデルに最も近いパフォーマンスを達成し、標準的なKLCL-CLL-CLLの対象物を使用して微調整したことを示しています。
制御された生成タスクでは、Vbonは、他のアライメント方法と比較して、報酬とKL発散のパレートフロンティアにより頻繁に表示されます。
要約タスクでは、Vbonはさまざまなサンプリング温度で高い報酬値を達成します。

要約(オリジナル)

Best-of-N (BoN) is a popular and effective algorithm for aligning language models to human preferences. The algorithm works as follows: at inference time, N samples are drawn from the language model, and the sample with the highest reward, as judged by a reward model, is returned as the output. Despite its effectiveness, BoN is computationally expensive; it reduces sampling throughput by a factor of N. To make BoN more efficient at inference time, one strategy is to fine-tune the language model to mimic what BoN does during inference. To achieve this, we derive the distribution induced by the BoN algorithm. We then propose to fine-tune the language model to minimize backward KL divergence to the BoN distribution. Our approach is analogous to mean-field variational inference and, thus, we term it variational BoN (vBoN). To the extent this fine-tuning is successful and we end up with a good approximation, we have reduced the inference cost by a factor of N. Our experiments on controlled generation and summarization tasks show that BoN is the most effective alignment method, and our variational approximation to BoN achieves the closest performance to BoN and surpasses models fine-tuned using the standard KL-constrained RL objective. In the controlled generation task, vBoN appears more frequently on the Pareto frontier of reward and KL divergence compared to other alignment methods. In the summarization task, vBoN achieves high reward values across various sampling temperatures.

arxiv情報

著者 Afra Amini,Tim Vieira,Elliott Ash,Ryan Cotterell
発行日 2025-03-04 14:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Variational Best-of-N Alignment はコメントを受け付けていません

Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

要約

投機的デコード(SD)は、ターゲットモデルとの厳密な分布の等価性を施行し、潜在的なスピードアップをほぼ同等の分布として制限し、多くの場合、同等の結果を達成します。
さらに、分布の等価性を実施することは、ユーザーがターゲットモデル分布からの逸脱を、さらなる推論速度の向上のために取引することができないことを意味します。
これらの制限に対処するために、Fuzzy投機的デコード(FSD)を導入します。これは、ターゲットモデルの分布とドラフトモデルの分布の間の発散に純粋に基づいて候補トークンを受け入れることによりSDを一般化するデコードアルゴリズムです。
ターゲットモデルからの制御された発散を可能にすることにより、FSDはユーザーが推論速度のために生成品質を柔軟に取引することを可能にします。
いくつかのベンチマークにわたって、当社の方法は、ベンチマーク精度が約2%の絶対的な減少で、SDよりも速い5トークを超えるトークンの大幅なランタイム改善を実現することができます。
多くの場合、FSDはSDベンチマークの精度を1秒あたり2トークンを超えるより速く一致させることができ、ターゲットモデルのパフォーマンスを維持するために分布の等価性が必要ないことを示しています。

要約(オリジナル)

Speculative Decoding (SD) enforces strict distributional equivalence to the target model, limiting potential speed ups as distributions of near-equivalence achieve comparable outcomes in many cases. Furthermore, enforcing distributional equivalence means that users are unable to trade deviations from the target model distribution for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) – a decoding algorithm that generalizes SD by accepting candidate tokens purely based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance.

arxiv情報

著者 Maximilian Holsman,Yukun Huang,Bhuwan Dhingra
発行日 2025-03-04 15:30:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff はコメントを受け付けていません

A Survey on Vision-Language-Action Models for Embodied AI

要約

具体化されたAIは、物理世界でタスクを実行するために具体化されたエージェントを制御することを伴うため、人工的な一般情報の重要な要素として広く認識されています。
大規模な言語モデルとビジョン言語モデルの成功に基づいて、ビジョン言語アクションモデル(VLA)と呼ばれるマルチモーダルモデルの新しいカテゴリである – は、アクションを生成するための異なる能力を活用することにより、AIを具体化する言語条件付きロボットタスクに対処するために登場しました。
近年、無数のVLAが開発されており、包括的な調査を通じて急速に進化する景観を捉えることが不可欠です。
この目的のために、具体化されたAIのVLAに関する最初の調査を紹介します。
この作業は、VLAの詳細な分類法を提供し、3つの主要な研究ラインに組織されています。
最初の行は、VLAの個々のコンポーネントに焦点を当てています。
2行目は、低レベルのアクションの予測に熟知した制御ポリシーの開発に専念しています。
3番目の行は、長距離タスクを一連のサブタスクに分解できる高レベルのタスクプランナーで構成されているため、より一般的なユーザーの指示に従うようにVLAを導きます。
さらに、データセット、シミュレータ、ベンチマークなど、関連するリソースの広範な要約を提供します。
最後に、VLAが直面する課題について説明し、具体化されたAIの将来の方向性を有望で概説します。
https://github.com/yueen-ma/awesome-vlaで入手可能なこの調査に関連するプロジェクトを作成しました。

要約(オリジナル)

Embodied AI is widely recognized as a key element of artificial general intelligence because it involves controlling embodied agents to perform tasks in the physical world. Building on the success of large language models and vision-language models, a new category of multimodal models — referred to as vision-language-action models (VLAs) — has emerged to address language-conditioned robotic tasks in embodied AI by leveraging their distinct ability to generate actions. In recent years, a myriad of VLAs have been developed, making it imperative to capture the rapidly evolving landscape through a comprehensive survey. To this end, we present the first survey on VLAs for embodied AI. This work provides a detailed taxonomy of VLAs, organized into three major lines of research. The first line focuses on individual components of VLAs. The second line is dedicated to developing control policies adept at predicting low-level actions. The third line comprises high-level task planners capable of decomposing long-horizon tasks into a sequence of subtasks, thereby guiding VLAs to follow more general user instructions. Furthermore, we provide an extensive summary of relevant resources, including datasets, simulators, and benchmarks. Finally, we discuss the challenges faced by VLAs and outline promising future directions in embodied AI. We have created a project associated with this survey, which is available at https://github.com/yueen-ma/Awesome-VLA.

arxiv情報

著者 Yueen Ma,Zixing Song,Yuzheng Zhuang,Jianye Hao,Irwin King
発行日 2025-03-04 08:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO | A Survey on Vision-Language-Action Models for Embodied AI はコメントを受け付けていません

3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds

要約

3Dアフォーダンス検出は、さまざまなロボットタスクに関する幅広いアプリケーションの困難な問題です。
既存の方法は、通常、ラベルベースのセマンティックセグメンテーションタスクとして検出パラダイムを定式化します。
このパラダイムは、事前に定義されたラベルに依存しており、複雑な自然言語を理解する能力が欠けており、その結果、オープンワールドシーンの一般化は限られています。
これらの制限に対処するために、従来のアフォーダンス検出パラダイムを\ textIT {命令の推論アフォーダンスセグメンテーション}(IRAS)タスクに再定式化します。
このタスクは、入力ラベルの固定カテゴリを回避するクエリ推論テキストを考慮して、アフォーダンスマスク領域を出力するように設計されています。
それに応じて、3Dオープンシーンでアフォーダンス検出を推論するために設計されたフレームワークである\ textit {3d-abbordancellm}(3d-adllm)を提案します。
具体的には、3D-ADLLMは、アフォーダンスマスクを生成するためのカスタム設計のデコーダーを使用して、大規模な言語モデル(LLMS)を3Dアフォーダンス認識に導入し、オープンワールドの推論アフォーダンス検出を達成します。
さらに、大規模なモデルをトレーニングするための3Dアフォーダンスデータセットの希少性を考えると、一般的なセグメンテーションデータから知識を抽出し、アフォーダンス検出に転送しようとします。
したがって、新しいトレーニング前タスク、つまり\ textIT {refering object Part Segmentation}〜(ROPS)から始まるマルチステージトレーニング戦略を提案します。
この段階は、オブジェクトパートレベルで一般的な認識とセグメンテーション機能をモデルに装備するように設計されています。
その後、IRASタスクで微調整された後、3D-Adllmはアフォーダンス検出の推論能力を獲得します。
要約すると、3D-ADLLMは、LLMSの豊かな世界の知識と人間とオブジェクトの相互作用推論能力を活用しており、オープンホキャブラリーアフォーダンス検出タスクでMIOUで約8 \%の改善を達成しています。

要約(オリジナル)

3D Affordance detection is a challenging problem with broad applications on various robotic tasks. Existing methods typically formulate the detection paradigm as a label-based semantic segmentation task. This paradigm relies on predefined labels and lacks the ability to comprehend complex natural language, resulting in limited generalization in open-world scene. To address these limitations, we reformulate the traditional affordance detection paradigm into \textit{Instruction Reasoning Affordance Segmentation} (IRAS) task. This task is designed to output a affordance mask region given a query reasoning text, which avoids fixed categories of input labels. We accordingly propose the \textit{3D-AffordanceLLM} (3D-ADLLM), a framework designed for reasoning affordance detection in 3D open-scene. Specifically, 3D-ADLLM introduces large language models (LLMs) to 3D affordance perception with a custom-designed decoder for generating affordance masks, thus achieving open-world reasoning affordance detection. In addition, given the scarcity of 3D affordance datasets for training large models, we seek to extract knowledge from general segmentation data and transfer it to affordance detection. Thus, we propose a multi-stage training strategy that begins with a novel pre-training task, i.e., \textit{Referring Object Part Segmentation}~(ROPS). This stage is designed to equip the model with general recognition and segmentation capabilities at the object-part level. Then followed by fine-tuning with the IRAS task, 3D-ADLLM obtains the reasoning ability for affordance detection. In summary, 3D-ADLLM leverages the rich world knowledge and human-object interaction reasoning ability of LLMs, achieving approximately an 8\% improvement in mIoU on open-vocabulary affordance detection tasks.

arxiv情報

著者 Hengshuo Chu,Xiang Deng,Qi Lv,Xiaoyang Chen,Yinchuan Li,Jianye Hao,Liqiang Nie
発行日 2025-03-04 07:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds はコメントを受け付けていません

Speculative Decoding and Beyond: An In-Depth Survey of Techniques

要約

逐次的な依存関係は、特にリアルタイムアプリケーションにおいて、大規模な自己回帰モデルを展開する際の基本的なボトルネックとなる。枝刈りや量子化のような従来の最適化アプローチは、しばしばモデルの品質を損なうが、世代洗練フレームワークにおける最近の進歩は、このトレードオフを大幅に軽減できることを示している。 このサーベイでは、自己回帰シーケンスのタスクにわたる手法を分析し、世代絞り込みフレームワークの包括的な分類法を提示する。生成戦略(単純なn-gram予測から洗練されたドラフトモデルまで)と洗練メカニズム(シングルパス検証や反復アプローチを含む)に基づいて手法を分類する。アルゴリズムの革新とシステムレベルの実装の両方を系統的に分析することで、コンピューティング環境全体での展開戦略を検証し、テキスト、画像、音声生成にまたがるアプリケーションを探求する。理論的フレームワークと実用的な実装の両方を系統的に検証することで、効率的な自己回帰復号における今後の研究の基礎を提供する。

要約(オリジナル)

Sequential dependencies present a fundamental bottleneck in deploying large-scale autoregressive models, particularly for real-time applications. While traditional optimization approaches like pruning and quantization often compromise model quality, recent advances in generation-refinement frameworks demonstrate that this trade-off can be significantly mitigated. This survey presents a comprehensive taxonomy of generation-refinement frameworks, analyzing methods across autoregressive sequence tasks. We categorize methods based on their generation strategies (from simple n-gram prediction to sophisticated draft models) and refinement mechanisms (including single-pass verification and iterative approaches). Through systematic analysis of both algorithmic innovations and system-level implementations, we examine deployment strategies across computing environments and explore applications spanning text, images, and speech generation. This systematic examination of both theoretical frameworks and practical implementations provides a foundation for future research in efficient autoregressive decoding.

arxiv情報

著者 Yunhai Hu,Zining Liu,Zhenyuan Dong,Tianfan Peng,Bradley McDanel,Sai Qian Zhang
発行日 2025-03-04 03:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Speculative Decoding and Beyond: An In-Depth Survey of Techniques はコメントを受け付けていません

3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds

要約

3Dアフォーダンス検出は、さまざまなロボットタスクに関する幅広いアプリケーションの困難な問題です。
既存の方法は、通常、ラベルベースのセマンティックセグメンテーションタスクとして検出パラダイムを定式化します。
このパラダイムは、事前に定義されたラベルに依存しており、複雑な自然言語を理解する能力が欠けており、その結果、オープンワールドシーンの一般化は限られています。
これらの制限に対処するために、従来のアフォーダンス検出パラダイムを\ textIT {命令の推論アフォーダンスセグメンテーション}(IRAS)タスクに再定式化します。
このタスクは、入力ラベルの固定カテゴリを回避するクエリ推論テキストを考慮して、アフォーダンスマスク領域を出力するように設計されています。
それに応じて、3Dオープンシーンでアフォーダンス検出を推論するために設計されたフレームワークである\ textit {3d-abbordancellm}(3d-adllm)を提案します。
具体的には、3D-ADLLMは、アフォーダンスマスクを生成するためのカスタム設計のデコーダーを使用して、大規模な言語モデル(LLMS)を3Dアフォーダンス認識に導入し、オープンワールドの推論アフォーダンス検出を達成します。
さらに、大規模なモデルをトレーニングするための3Dアフォーダンスデータセットの希少性を考えると、一般的なセグメンテーションデータから知識を抽出し、アフォーダンス検出に転送しようとします。
したがって、新しいトレーニング前タスク、つまり\ textIT {refering object Part Segmentation}〜(ROPS)から始まるマルチステージトレーニング戦略を提案します。
この段階は、オブジェクトパートレベルで一般的な認識とセグメンテーション機能をモデルに装備するように設計されています。
その後、IRASタスクで微調整された後、3D-Adllmはアフォーダンス検出の推論能力を獲得します。
要約すると、3D-ADLLMは、LLMSの豊かな世界の知識と人間とオブジェクトの相互作用推論能力を活用しており、オープンホキャブラリーアフォーダンス検出タスクでMIOUで約8 \%の改善を達成しています。

要約(オリジナル)

3D Affordance detection is a challenging problem with broad applications on various robotic tasks. Existing methods typically formulate the detection paradigm as a label-based semantic segmentation task. This paradigm relies on predefined labels and lacks the ability to comprehend complex natural language, resulting in limited generalization in open-world scene. To address these limitations, we reformulate the traditional affordance detection paradigm into \textit{Instruction Reasoning Affordance Segmentation} (IRAS) task. This task is designed to output a affordance mask region given a query reasoning text, which avoids fixed categories of input labels. We accordingly propose the \textit{3D-AffordanceLLM} (3D-ADLLM), a framework designed for reasoning affordance detection in 3D open-scene. Specifically, 3D-ADLLM introduces large language models (LLMs) to 3D affordance perception with a custom-designed decoder for generating affordance masks, thus achieving open-world reasoning affordance detection. In addition, given the scarcity of 3D affordance datasets for training large models, we seek to extract knowledge from general segmentation data and transfer it to affordance detection. Thus, we propose a multi-stage training strategy that begins with a novel pre-training task, i.e., \textit{Referring Object Part Segmentation}~(ROPS). This stage is designed to equip the model with general recognition and segmentation capabilities at the object-part level. Then followed by fine-tuning with the IRAS task, 3D-ADLLM obtains the reasoning ability for affordance detection. In summary, 3D-ADLLM leverages the rich world knowledge and human-object interaction reasoning ability of LLMs, achieving approximately an 8\% improvement in mIoU on open-vocabulary affordance detection tasks.

arxiv情報

著者 Hengshuo Chu,Xiang Deng,Qi Lv,Xiaoyang Chen,Yinchuan Li,Jianye Hao,Liqiang Nie
発行日 2025-03-03 06:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds はコメントを受け付けていません

Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy

要約

言語条件付きロボット操作ポリシーを新しいタスクに汎化することは、適切なシミュレーションベンチマークの欠如によって妨げられており、依然として重要な課題である。本論文では、視覚言語ロボット操作ポリシーの汎化能力を評価するための新しいベンチマークであるGemBenchを導入することで、このギャップに対処する。GemBenchは、7つの一般的なアクションプリミティブと4つの汎化レベルを組み込んでおり、新しい配置、剛体・多関節物体、複雑なロングホライズンタスクに及ぶ。我々はGemBenchで最先端のアプローチを評価し、また新しい手法を紹介する。我々のアプローチ3D-LOTUSは、豊富な3D情報を活用し、言語を条件とした行動予測を行う。3D-LOTUSは見たことのあるタスクでは効率と性能の両面で優れているが、新しいタスクでは苦戦する。この問題を解決するために、我々は3D-LOTUSの動作計画能力とLLMのタスク計画能力、VLMの物体接地精度を統合したフレームワークである3D-LOTUS++を発表する。3D-LOTUS++は、GemBenchの新しいタスクで最先端の性能を達成し、ロボット操作における汎化の新しい基準を打ち立てた。ベンチマーク、コード、学習済みモデルはhttps://www.di.ens.fr/willow/research/gembench/。

要約(オリジナル)

Generalizing language-conditioned robotic policies to new tasks remains a significant challenge, hampered by the lack of suitable simulation benchmarks. In this paper, we address this gap by introducing GemBench, a novel benchmark to assess generalization capabilities of vision-language robotic manipulation policies. GemBench incorporates seven general action primitives and four levels of generalization, spanning novel placements, rigid and articulated objects, and complex long-horizon tasks. We evaluate state-of-the-art approaches on GemBench and also introduce a new method. Our approach 3D-LOTUS leverages rich 3D information for action prediction conditioned on language. While 3D-LOTUS excels in both efficiency and performance on seen tasks, it struggles with novel tasks. To address this, we present 3D-LOTUS++, a framework that integrates 3D-LOTUS’s motion planning capabilities with the task planning capabilities of LLMs and the object grounding accuracy of VLMs. 3D-LOTUS++ achieves state-of-the-art performance on novel tasks of GemBench, setting a new standard for generalization in robotic manipulation. The benchmark, codes and trained models are available at https://www.di.ens.fr/willow/research/gembench/.

arxiv情報

著者 Ricardo Garcia,Shizhe Chen,Cordelia Schmid
発行日 2025-03-01 22:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy はコメントを受け付けていません

Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR

要約

ロボットの操作は、産業や家庭でのロボットの普及に不可欠なものであり、ロボット工学の分野では長い間注目されてきた。人工知能の進歩により、この課題に対処するための有望な学習ベースの手法が導入され、模倣学習が特に効果的であることが分かってきた。しかし、高品質のデモンストレーションを効率的に取得することは依然として課題である。本研究では、遠隔地にいる人間の実演を収集するために設計された、没入型VRベースの遠隔操作セットアップを紹介する。また、Haptic Action Chunking with Transformers(Haptic-ACT)と呼ばれる模倣学習フレームワークを提案する。本プラットフォームを評価するために、ピックアンドプレースタスクを実施し、50のデモンストレーションエピソードを収集した。その結果、没入型VRプラットフォームは、触覚フィードバックのないシステムと比較して、デモ者の指先の力を大幅に減少させ、より繊細な操作を可能にすることが示された。さらに、MuJoCoシミュレータと実際のロボットの両方でHaptic-ACTフレームワークを評価した結果、オリジナルのACTと比較して、よりコンプライアントな操作をロボットに教える上で有効であることが実証されました。追加資料はhttps://sites.google.com/view/hapticact。

要約(オリジナル)

Robotic manipulation is essential for the widespread adoption of robots in industrial and home settings and has long been a focus within the robotics community. Advances in artificial intelligence have introduced promising learning-based methods to address this challenge, with imitation learning emerging as particularly effective. However, efficiently acquiring high-quality demonstrations remains a challenge. In this work, we introduce an immersive VR-based teleoperation setup designed to collect demonstrations from a remote human user. We also propose an imitation learning framework called Haptic Action Chunking with Transformers (Haptic-ACT). To evaluate the platform, we conducted a pick-and-place task and collected 50 demonstration episodes. Results indicate that the immersive VR platform significantly reduces demonstrator fingertip forces compared to systems without haptic feedback, enabling more delicate manipulation. Additionally, evaluations of the Haptic-ACT framework in both the MuJoCo simulator and on a real robot demonstrate its effectiveness in teaching robots more compliant manipulation compared to the original ACT. Additional materials are available at https://sites.google.com/view/hapticact.

arxiv情報

著者 Kelin Li,Shubham M Wagh,Nitish Sharma,Saksham Bhadani,Wei Chen,Chang Liu,Petar Kormushev
発行日 2025-03-01 22:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR はコメントを受け付けていません