Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

要約

我々は、入力画像の長いシーケンスから大規模なシーンを再構成できる一般化可能な 3D ガウス再構成モデ​​ルである Long-LRM を提案します。
具体的には、私たちのモデルは、単一の A100 80G GPU でわずか 1.3 秒以内に 960×540 の解像度で 32 個のソース画像を処理できます。
私たちのアーキテクチャは、最近の Mamba2 ブロックと従来のトランスフォーマー ブロックの混合を特徴としており、以前の作業よりも多くのトークンを処理できるようになり、品質と効率のバランスをとる効率的なトークン マージとガウス プルーニング ステップによって強化されました。
1 ~ 4 個の入力画像の処理に限定され、大きなシーンのごく一部しか再構成できない以前のフィードフォワード モデルとは異なり、Long-LRM は単一のフィードフォワード ステップでシーン全体を再構成します。
DL3DV-140 や戦車と寺院などの大規模なシーン データセットでは、私たちの方法は最適化ベースのアプローチに匹敵するパフォーマンスを達成しながら、効率が 2 桁向上します。
プロジェクトページ: https://arthurhero.github.io/projects/llrm

要約(オリジナル)

We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960×540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm

arxiv情報

著者 Chen Ziwen,Hao Tan,Kai Zhang,Sai Bi,Fujun Luan,Yicong Hong,Li Fuxin,Zexiang Xu
発行日 2024-10-16 17:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats はコメントを受け付けていません

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

要約

大規模マルチモーダル モデル (LMM) の最近の進歩により、ビデオやオーディオなどの追加モダリティをさらに統合するための継続的な取り組みにより、さまざまなタスク全体のパフォーマンスが大幅に向上しました。
ただし、既存の LMM のほとんどは、幻覚、つまり事実のマルチモーダル入力と生成されたテキスト出力間の不一致に対して脆弱なままであり、これにより、現実世界のさまざまなシナリオでの適用が制限されています。
この論文は、言語、視覚、聴覚という 3 つの最も一般的なモダリティを含む LMM における幻覚の最初の系統的な調査を示しています。
私たちの研究では、幻覚の 2 つの主な要因、すなわち単峰性事前分布への過度の依存と擬似峰間の相関関係が明らかになりました。
これらの課題に対処するために、LMM の幻覚を包括的に評価し、根本的な問題の詳細な分析を提供するベンチマーク The Curse of Multi-Modality (CMM) を導入します。
私たちの調査結果は、モダリティ統合の不均衡やトレーニングデータからのバイアスなどの主要な脆弱性を浮き彫りにし、バランスのとれたクロスモーダル学習と強化された幻覚軽減戦略の必要性を強調しています。
私たちの観察と発見に基づいて、LMM の信頼性を高める可能性のある研究の方向性を提案します。

要約(オリジナル)

Recent advancements in large multimodal models (LMMs) have significantly enhanced performance across diverse tasks, with ongoing efforts to further integrate additional modalities such as video and audio. However, most existing LMMs remain vulnerable to hallucinations, the discrepancy between the factual multimodal input and the generated textual output, which has limited their applicability in various real-world scenarios. This paper presents the first systematic investigation of hallucinations in LMMs involving the three most common modalities: language, visual, and audio. Our study reveals two key contributors to hallucinations: overreliance on unimodal priors and spurious inter-modality correlations. To address these challenges, we introduce the benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates hallucinations in LMMs, providing a detailed analysis of their underlying issues. Our findings highlight key vulnerabilities, including imbalances in modality integration and biases from training data, underscoring the need for balanced cross-modal learning and enhanced hallucination mitigation strategies. Based on our observations and findings, we suggest potential research directions that could enhance the reliability of LMMs.

arxiv情報

著者 Sicong Leng,Yun Xing,Zesen Cheng,Yang Zhou,Hang Zhang,Xin Li,Deli Zhao,Shijian Lu,Chunyan Miao,Lidong Bing
発行日 2024-10-16 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio はコメントを受け付けていません

Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models

要約

テスト時の適応により、ラベルのないテスト サンプルを使用してモデルを多様なデータに一般化できるようになり、現実のシナリオでは重要な価値が得られます。
最近、研究者らはこの設定を高度な事前トレーニング済みビジョン言語モデル (VLM) に適用し、テスト時のプロンプト調整などのアプローチを開発して、実際の適用可能性をさらに拡張しました。
ただし、これらの方法は通常、単一のモダリティから VLM を適応させることだけに焦点を当てており、より多くのサンプルが処理されるにつれてタスク固有の知識を蓄積できません。
これに対処するために、マルチモダリティからタスク固有の知識を効果的に蓄積する、VLM の新しいテスト時適応アプローチである Dual Prototype Evolving (DPE) を導入します。
具体的には、テキストとビジュアルの 2 セットのプロトタイプを作成および進化させて、テスト中にターゲット クラスのより正確なマルチモーダル表現を徐々にキャプチャします。
さらに、一貫したマルチモーダル表現を促進するために、各テスト サンプルに学習可能な残差を導入して最適化し、両方のモダリティからのプロトタイプを調整します。
15 のベンチマーク データセットに関する広範な実験結果は、私たちが提案した DPE が以前の最先端の方法を常に上回っていると同時に、競合する計算効率も示していることを示しています。
コードは https://github.com/zhangce01/DPE-CLIP で入手できます。

要約(オリジナル)

Test-time adaptation, which enables models to generalize to diverse data with unlabeled test samples, holds significant value in real-world scenarios. Recently, researchers have applied this setting to advanced pre-trained vision-language models (VLMs), developing approaches such as test-time prompt tuning to further extend their practical applicability. However, these methods typically focus solely on adapting VLMs from a single modality and fail to accumulate task-specific knowledge as more samples are processed. To address this, we introduce Dual Prototype Evolving (DPE), a novel test-time adaptation approach for VLMs that effectively accumulates task-specific knowledge from multi-modalities. Specifically, we create and evolve two sets of prototypes–textual and visual–to progressively capture more accurate multi-modal representations for target classes during test time. Moreover, to promote consistent multi-modal representations, we introduce and optimize learnable residuals for each test sample to align the prototypes from both modalities. Extensive experimental results on 15 benchmark datasets demonstrate that our proposed DPE consistently outperforms previous state-of-the-art methods while also exhibiting competitive computational efficiency. Code is available at https://github.com/zhangce01/DPE-CLIP.

arxiv情報

著者 Ce Zhang,Simon Stepputtis,Katia Sycara,Yaqi Xie
発行日 2024-10-16 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models はコメントを受け付けていません

LLM2Swarm: Robot Swarms that Responsively Reason, Plan, and Collaborate through LLMs

要約

ロボット群は、複雑なタスクを遂行するために通信および協力する多くの単純なロボットで構成されています。
ロボット コントローラーは通常、専門家がプログラミング コードを使用してケースバイケースで指定する必要があります。
このプロセスは時間がかかり、エラーが発生しやすく、展開中に発生する可能性のあるすべての状況を考慮することはできません。
一方、最近の大規模言語モデル (LLM) は、推論と計画の機能を実証し、マシンと対話してプログラムする新しい方法を導入し、ドメイン固有の知識と常識的な知識の両方を組み込んでいます。
したがって、LLM をロボット群と統合することで前述の課題に対処し、概念実証 (ショーケース) で可能性を示すことを提案します。
この統合では、2 つのアプローチを検討します。
1 つ目のアプローチは「間接統合」です。LLM を使用してロボット コントローラーを合成および検証します。
このアプローチにより、開発時間と展開前の人的エラーが削減される可能性があります。
さらに、展開中に、新しいロボットの動作をその場で作成するために使用することもできます。
2 番目のアプローチは「直接統合」です。このアプローチでは、各ロボットが展開中に個別の LLM インスタンスをローカルで実行し、ロボット間コラボレーションや人間と群れの相互作用を実現します。
これらのローカル LLM インスタンスにより、各ロボットは自然言語を使用して推論、計画、共同作業を行うことができます。これは、異常の性質に関する事前情報がなくても、ロボットがさまざまな異常を検出できるショーケースで実証されています。
私たちの主に概念的な貢献に関するさらなる研究を可能にするために、LLM2Swarm システムのソフトウェアとビデオをリリースします (https://github.com/Pold87/LLM2Swarm)。

要約(オリジナル)

Robot swarms are composed of many simple robots that communicate and collaborate to fulfill complex tasks. Robot controllers usually need to be specified by experts on a case-by-case basis via programming code. This process is time-consuming, prone to errors, and unable to take into account all situations that may be encountered during deployment. On the other hand, recent Large Language Models (LLMs) have demonstrated reasoning and planning capabilities, introduced new ways to interact with and program machines, and incorporate both domain-specific and commonsense knowledge. Hence, we propose to address the aforementioned challenges by integrating LLMs with robot swarms and show the potential in proofs of concept (showcases). For this integration, we explore two approaches. The first approach is ‘indirect integration,’ where LLMs are used to synthesize and validate the robot controllers. This approach may reduce development time and human error before deployment. Moreover, during deployment, it could be used for on-the-fly creation of new robot behaviors. The second approach is ‘direct integration,’ where each robot locally executes a separate LLM instance during deployment for robot-robot collaboration and human-swarm interaction. These local LLM instances enable each robot to reason, plan, and collaborate using natural language, as demonstrated in our showcases where the robots are able to detect a variety of anomalies, without prior information about the nature of these anomalies. To enable further research on our mainly conceptual contribution, we release the software and videos for our LLM2Swarm system: https://github.com/Pold87/LLM2Swarm.

arxiv情報

著者 Volker Strobel,Marco Dorigo,Mario Fritz
発行日 2024-10-16 17:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LLM2Swarm: Robot Swarms that Responsively Reason, Plan, and Collaborate through LLMs はコメントを受け付けていません

Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies

要約

強化学習とシミュレーションからリアルへの変換を組み合わせることで、脚式ロボットの移動コントローラーを開発するための一般的なフレームワークが提供されます。
現実世界での展開を成功させるために、ローパス フィルターや平滑化報酬などの平滑化手法がよく使用され、スムーズな動作を備えたポリシーが開発されます。
ただし、これらの手法は微分不可能であり、通常、大規模なハイパーパラメータのセットの面倒な調整が必要なため、ロボット プラットフォームごとに大規模な手動調整が必要になる傾向があります。
この課題に対処し、スムーズな動作を強制するための一般的な手法を確立するために、学習したポリシーにリプシッツ制約を課すシンプルで効果的な方法を提案します。これをリプシッツ制約ポリシー (LCP) と呼びます。
我々は、リプシッツ制約が勾配ペナルティの形で実装できることを示します。これにより、自動微分フレームワークに簡単に組み込むことができる微分可能な目的が提供されます。
私たちは、LCP が報酬の平滑化やローパス フィルターの必要性を効果的に置き換え、多くの異なるヒューマノイド ロボットのトレーニング フレームワークに簡単に統合できることを実証します。
当社はシミュレーションと現実世界の人型ロボットの両方で LCP を広範囲に評価し、スムーズで堅牢な移動コントローラーを作成します。
すべてのシミュレーションおよびデプロイメント コードと完全なチェックポイントは、プロジェクト ページ https://lipschitz-constrained-policy.github.io で入手できます。

要約(オリジナル)

Reinforcement learning combined with sim-to-real transfer offers a general framework for developing locomotion controllers for legged robots. To facilitate successful deployment in the real world, smoothing techniques, such as low-pass filters and smoothness rewards, are often employed to develop policies with smooth behaviors. However, because these techniques are non-differentiable and usually require tedious tuning of a large set of hyperparameters, they tend to require extensive manual tuning for each robotic platform. To address this challenge and establish a general technique for enforcing smooth behaviors, we propose a simple and effective method that imposes a Lipschitz constraint on a learned policy, which we refer to as Lipschitz-Constrained Policies (LCP). We show that the Lipschitz constraint can be implemented in the form of a gradient penalty, which provides a differentiable objective that can be easily incorporated with automatic differentiation frameworks. We demonstrate that LCP effectively replaces the need for smoothing rewards or low-pass filters and can be easily integrated into training frameworks for many distinct humanoid robots. We extensively evaluate LCP in both simulation and real-world humanoid robots, producing smooth and robust locomotion controllers. All simulation and deployment code, along with complete checkpoints, is available on our project page: https://lipschitz-constrained-policy.github.io.

arxiv情報

著者 Zixuan Chen,Xialin He,Yen-Jen Wang,Qiayuan Liao,Yanjie Ze,Zhongyu Li,S. Shankar Sastry,Jiajun Wu,Koushil Sreenath,Saurabh Gupta,Xue Bin Peng
発行日 2024-10-16 15:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies はコメントを受け付けていません

Light-Weight Fault Tolerant Attention for Large Language Model Training

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにおいて顕著なパフォーマンスを実証しています。
ただし、これらのモデルのトレーニングは計算量が多く、特にトランスベースの LLM の重要なコンポーネントであるアテンション メカニズムで障害が発生しやすくなります。
この論文では、体系的なフォールト注入実験による計算結果の INF、NaN、および INF に近い値に焦点を当てて、LLM トレーニングに対するフォールトの影響を調査します。
これらのエラーの伝播パターンを観察します。これにより、モデル内でトレーニング不可能な状態が引き起こされ、トレーニングが中断され、プロシージャがチェックポイントからロードされることになります。
これらの障害の影響を軽減するために、LLM のアテンション メカニズムに合わせて調整された初のアルゴリズムベースのフォールト トレランス (ABFT) 技術である ATTNChecker を提案します。
ATTNChecker は、LLM の障害伝播パターンに基づいて設計されており、高速な LLM トレーニングに対する軽量の保護を提供しながら、システムの信頼性とモデルの脆弱性の両方に適応するパフォーマンスの最適化が組み込まれています。
4 つの LLM の評価では、ATTNChecker は、すべての極端なエラーを検出して修正する際に、トレーニング時に平均 7% のオーバーヘッドが発生することが示されています。
最先端のチェックポイント/復元アプローチと比較して、ATTNChecker はリカバリのオーバーヘッドを最大 49 分の 1 に削減します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance in various natural language processing tasks. However, the training of these models is computationally intensive and susceptible to faults, particularly in the attention mechanism, which is a critical component of transformer-based LLMs. In this paper, we investigate the impact of faults on LLM training, focusing on INF, NaN, and near-INF values in the computation results with systematic fault injection experiments. We observe the propagation patterns of these errors, which can trigger non-trainable states in the model and disrupt training, forcing the procedure to load from checkpoints. To mitigate the impact of these faults, we propose ATTNChecker, the first Algorithm-Based Fault Tolerance (ABFT) technique tailored for the attention mechanism in LLMs. ATTNChecker is designed based on fault propagation patterns of LLM and incorporates performance optimization to adapt to both system reliability and model vulnerability while providing lightweight protection for fast LLM training. Evaluations on four LLMs show that ATTNChecker on average incurs on average 7% overhead on training while detecting and correcting all extreme errors. Compared with the state-of-the-art checkpoint/restore approach, ATTNChecker reduces recovery overhead by up to 49x.

arxiv情報

著者 Yuhang Liang,Xinyi Li,Jie Ren,Ang Li,Bo Fang,Jieyang Chen
発行日 2024-10-16 15:10:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.1.4, cs.DC, cs.LG | Light-Weight Fault Tolerant Attention for Large Language Model Training はコメントを受け付けていません

Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices

要約

拡散モデルは、近年最も人気があり人気の生成モデルの 1 つとして、多くの研究者の関心を呼び起こし、画像合成、ビデオ生成、分子設計、3D シーンのレンダリングなどのさまざまな生成タスクにおいて着実に優れた利点を示しています。
マルチモーダル生成は、緻密な理論原理と信頼性の高いアプリケーション実践に依存しています。
普及モデルに関するこれらの最近の取り組みの目覚ましい成功は、主に進歩的な設計原則と効率的なアーキテクチャ、トレーニング、推論、展開方法論によるものです。
しかし、普及モデルの迅速な理解と適用に役立つ、これらの原則と実践を要約した包括的かつ詳細なレビューはまだありません。
この調査では、さらなる理論研究、アルゴリズムの移行、およびモデルの指針となる、アーキテクチャ設計、モデル トレーニング、高速推論、信頼性の高い展開における深遠な原則と効率的な実践に主に焦点を当てた、これらの既存の取り組みに対する新しい効率指向の視点を提供します。
読みやすい方法で新しいシナリオに応用できます。
\url{https://github.com/ponyzym/Efficient-DMs-Survey}

要約(オリジナル)

As one of the most popular and sought-after generative models in the recent years, diffusion models have sparked the interests of many researchers and steadily shown excellent advantage in various generative tasks such as image synthesis, video generation, molecule design, 3D scene rendering and multimodal generation, relying on their dense theoretical principles and reliable application practices. The remarkable success of these recent efforts on diffusion models comes largely from progressive design principles and efficient architecture, training, inference, and deployment methodologies. However, there has not been a comprehensive and in-depth review to summarize these principles and practices to help the rapid understanding and application of diffusion models. In this survey, we provide a new efficiency-oriented perspective on these existing efforts, which mainly focuses on the profound principles and efficient practices in architecture designs, model training, fast inference and reliable deployment, to guide further theoretical research, algorithm migration and model application for new scenarios in a reader-friendly way. \url{https://github.com/ponyzym/Efficient-DMs-Survey}

arxiv情報

著者 Zhiyuan Ma,Yuzhu Zhang,Guoli Jia,Liangliang Zhao,Yichao Ma,Mingjie Ma,Gaofeng Liu,Kaiyan Zhang,Jianjun Li,Bowen Zhou
発行日 2024-10-16 13:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.9 | Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices はコメントを受け付けていません

Visual Manipulation with Legs

要約

動物は移動と操作の両方に手足を使います。
私たちは四足ロボットにも同様の多用途性を持たせることを目指しています。
この作品では、掴みにくい操作から着想を得た、四足ロボットが脚を使って物体と対話できるシステムを紹介します。
このシステムには、視覚操作ポリシー モジュールとロコマニピュレーター モジュールという 2 つの主要コンポーネントがあります。
視覚操作ポリシーは、点群の観察とオブジェクト中心のアクションを使用した強化学習 (RL) でトレーニングされ、脚がオブジェクトとどのように対話するかを決定します。
ロコマニピュレーター コントローラーは、インピーダンス制御とモデル予測制御 (MPC) に基づいて、脚の動きと体の姿勢の調整を管理します。
一本の脚でオブジェクトを操作するだけでなく、システムはクリティカルマップに基づいて左脚または右脚を選択し、ベース調整を通じてオブジェクトを遠くのゴールに移動させることができます。
実験では、シミュレーションと現実世界の両方でオブジェクトの姿勢調整タスクに関するシステムを評価し、以前の研究よりも脚を使ったより汎用性の高いオブジェクト操作スキルを実証しました。
ビデオは https://legged-manipulation.github.io/ でご覧いただけます。

要約(オリジナル)

Animals use limbs for both locomotion and manipulation. We aim to equip quadruped robots with similar versatility. This work introduces a system that enables quadruped robots to interact with objects using their legs, inspired by non-prehensile manipulation. The system has two main components: a visual manipulation policy module and a loco-manipulator module. The visual manipulation policy, trained with reinforcement learning (RL) using point cloud observations and object-centric actions, decides how the leg should interact with the object. The loco-manipulator controller manages leg movements and body pose adjustments, based on impedance control and Model Predictive Control (MPC). Besides manipulating objects with a single leg, the system can select from the left or right leg based on critic maps and move objects to distant goals through base adjustment. Experiments evaluate the system on object pose alignment tasks in both simulation and the real world, demonstrating more versatile object manipulation skills with legs than previous work. Videos can be found at https://legged-manipulation.github.io/

arxiv情報

著者 Xialin He,Chengjing Yuan,Wenxuan Zhou,Ruihan Yang,David Held,Xiaolong Wang
発行日 2024-10-16 06:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Visual Manipulation with Legs はコメントを受け付けていません

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

要約

ロボット システムが現実の物体と安定して対話するには、失敗を反映して修正する能力が不可欠です。
マルチモーダル大規模言語モデル (MLLM) の一般化および推論機能を観察し、これまでのアプローチは、これらのモデルを利用してロボット システムをそれに応じて強化することを目的としていました。
ただし、これらの方法は通常、追加の MLLM を使用した高レベルの計画修正に焦点を当てており、関節オブジェクトの操作中に特に発生しやすい低レベルの接触姿勢を修正するために失敗したサンプルの利用を制限します。
このギャップに対処するために、自律インタラクティブ修正 (AIC) MLLM を提案します。これは、以前の低レベルのインタラクション経験を利用して、多関節オブジェクトの SE(3) ポーズ予測を修正します。
具体的には、AIC MLLM は、姿勢予測とフィードバックによる理解能力の両方を獲得するために最初に微調整されます。
オブジェクトとのインタラクションのための 2 種類のプロンプト指示を設計します。1) 位置修正のために動かせない部分を強調表示する視覚マスク、2) 回転修正の可能性のある方向を示すテキストの説明です。
推論中に、失敗の原因を認識するためにフィードバック情報抽出モジュールが導入され、AIC MLLM が対応するプロンプトを使用して姿勢予測を適応的に修正できるようになります。
操作の安定性をさらに高めるために、AIC MLLM が現在のシーン構成によりよく適応できるようにするテスト時間適応戦略を考案しました。
最後に、提案された方法を評価するために、シミュレーション環境と現実世界の両方の環境で広範な実験が行われます。
この結果は、AIC MLLM がインタラクション エクスペリエンスのプロンプトを活用することで、失敗サンプルを効率的に修正できることを示しています。
私たちのプロジェクトの Web サイトは https://sites.google.com/view/aic-mllm です。

要約(オリジナル)

The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects. Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly. However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses which is particularly prone to occur during articulated object manipulation. To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions for articulated object. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities. We design two types of prompt instructions for interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2) textual descriptions to indicate potential directions for rotation correction. During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts. To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration. Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts. Our project website is https://sites.google.com/view/aic-mllm.

arxiv情報

著者 Chuyan Xiong,Chengyu Shen,Xiaoqi Li,Kaichen Zhou,Jiaming Liu,Ruiping Wang,Hao Dong
発行日 2024-10-16 06:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation はコメントを受け付けていません

Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs?

要約

検索ベースのソフトウェア テスト (SBST) は、ディープ ラーニング対応 (DL 対応) システムなど、大きな入力スペースを持つ複雑なシステムをテストするために広く採用されている手法です。
多くの SBST 手法はパレートベースの最適化に焦点を当てており、複数の目標を並行して最適化して失敗を明らかにします。
ただし、特定された障害が検索ドメインの障害を引き起こす領域全体に分散しており、サブ領域に集中していないことを確認することが重要です。
これにより、特定された障害が意味的に多様であることが保証され、広範囲にわたる根本的な原因が明らかになります。
この論文では、パレート最適化に基づくテストが検索ドメイン内の障害を引き起こす領域をカバーするのに不十分である理由を説明する理論的議論を紹介します。
私たちは、広く使用されている 2 つのタイプのパレートベースの最適化手法、つまり NSGA-II (進化的アルゴリズム) と OMOPSO (群ベースのパレート最適化アルゴリズム) を 2 つの DL 対応システムに適用して得られた経験的結果によって、私たちの議論を裏付けています。
産業用自動バレーパーキング (AVP) システムと手書き数字を分類するシステムです。
カバレッジ反転距離品質指標と呼ばれるメトリクスを使用して、入力空間内の障害を明らかにするテスト入力のカバレッジを測定します。
私たちの結果は、NSGA-II ベースの検索と OMOPSO が、障害を明らかにするテスト入力をカバーする上で、単純なランダム検索ベースラインよりも効果的ではないことを示しています。
この研究のレプリケーション パッケージは、GitHub リポジトリで入手できます。

要約(オリジナル)

Search-based software testing (SBST) is a widely adopted technique for testing complex systems with large input spaces, such as Deep Learning-enabled (DL-enabled) systems. Many SBST techniques focus on Pareto-based optimization, where multiple objectives are optimized in parallel to reveal failures. However, it is important to ensure that identified failures are spread throughout the entire failure-inducing area of a search domain and not clustered in a sub-region. This ensures that identified failures are semantically diverse and reveal a wide range of underlying causes. In this paper, we present a theoretical argument explaining why testing based on Pareto optimization is inadequate for covering failure-inducing areas within a search domain. We support our argument with empirical results obtained by applying two widely used types of Pareto-based optimization techniques, namely NSGA-II (an evolutionary algorithm) and OMOPSO (a swarm-based Pareto-optimization algorithm), to two DL-enabled systems: an industrial Automated Valet Parking (AVP) system and a system for classifying handwritten digits. We measure the coverage of failure-revealing test inputs in the input space using a metric that we refer to as the Coverage Inverted Distance quality indicator. Our results show that NSGA-II-based search and OMOPSO are not more effective than a na\’ive random search baseline in covering test inputs that reveal failures. The replication package for this study is available in a GitHub repository.

arxiv情報

著者 Lev Sorokin,Damir Safin,Shiva Nejati
発行日 2024-10-16 08:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs? はコメントを受け付けていません