Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning

要約

ビジュアル・プロンプト・チューニング(VPT)は、訓練済みの視覚モデルを下流のタスクに適応させるための強力な手法として最近登場した。学習可能なプロンプトトークンをタスク固有の指示として導入することで、VPTは最小限のオーバーヘッドで効果的に事前学習された変換モデルを導く。その経験的な成功にもかかわらず、VPTの包括的な理論的理解は依然として活発な研究分野である。エキスパートの混合とプロンプトに基づくアプローチとの関連性に関する最近の知見に基づき、我々はVPTにおける重要な限界、すなわちプロンプトの定式化における機能的表現力の制限を明らかにする。この限界に対処するため、我々はプロンプトを入力の適応関数として再定義する新世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。我々の理論解析により、このシンプルかつ直感的なアプローチが最適なサンプル効率を達成することが示された。VTAB-1KとFGVCにおける実証結果は、VAPTの有効性をさらに実証しており、完全なファインチューニングベースラインと比較して、それぞれ7.34%と1.04%の性能向上を示している。また、VAPTは、より少ないパラメータでVPTを大幅に上回っています。これらの結果は、我々の手法の有効性と効率性の両方を浮き彫りにし、適応的プロンプトの可能性を探る今後の研究に道を開くものである。

要約(オリジナル)

Visual Prompt Tuning (VPT) has recently emerged as a powerful method for adapting pre-trained vision models to downstream tasks. By introducing learnable prompt tokens as task-specific instructions, VPT effectively guides pre-trained transformer models with minimal overhead. Despite its empirical success, a comprehensive theoretical understanding of VPT remains an active area of research. Building on recent insights into the connection between mixture of experts and prompt-based approaches, we identify a key limitation in VPT: the restricted functional expressiveness in prompt formulation. To address this limitation, we propose Visual Adaptive Prompt Tuning (VAPT), a new generation of prompts that redefines prompts as adaptive functions of the input. Our theoretical analysis shows that this simple yet intuitive approach achieves optimal sample efficiency. Empirical results on VTAB-1K and FGVC further demonstrate VAPT’s effectiveness, with performance gains of 7.34% and 1.04% over fully fine-tuning baselines, respectively. Notably, VAPT also surpasses VPT by a substantial margin while using fewer parameters. These results highlight both the effectiveness and efficiency of our method and pave the way for future research to explore the potential of adaptive prompts.

arxiv情報

著者 Minh Le,Anh Nguyen,Huy Nguyen,Chau Nguyen,Nhat Ho
発行日 2025-03-03 11:00:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning はコメントを受け付けていません

Optimal Brain Apoptosis

要約

畳み込みニューラルネットワーク(CNN)とトランスフォーマーの複雑化とパラメータ数の増加は、計算効率とリソース需要の点で課題を提起している。プルーニングは、ニューロン、チャネル、接続などの冗長な要素を削除することにより、性能を大きく損なうことなく計算効率を向上させ、これらの課題に対処する効果的な戦略であることが確認されている。本論文では、Optimal Brain Damage (OBD)の基礎的研究を基に、ヘシアン行列を用いたパラメータ重要度推定の方法論を発展させる。近似に頼ったこれまでのアプローチとは異なり、各パラメータのヘシアンベクトル積値を直接計算する新しい刈り込み手法であるOptimal Brain Apoptosis (OBA)を導入する。ネットワーク層間のヘシアン行列を分解し、層間のヘシアン部分行列が0でない条件を特定することで、パラメータの2次テイラー展開を計算する非常に効率的な手法を提案する。この手法により、特にCNNやTransformerの文脈において、より正確な刈り込み処理が可能となり、CIFAR10、CIFAR100、ImagenetデータセットにおけるVGG19、ResNet32、ResNet50、ViT-B/16などの実験で検証された。コードはhttps://github.com/NEU-REAL/OBA。

要約(オリジナル)

The increasing complexity and parameter count of Convolutional Neural Networks (CNNs) and Transformers pose challenges in terms of computational efficiency and resource demands. Pruning has been identified as an effective strategy to address these challenges by removing redundant elements such as neurons, channels, or connections, thereby enhancing computational efficiency without heavily compromising performance. This paper builds on the foundational work of Optimal Brain Damage (OBD) by advancing the methodology of parameter importance estimation using the Hessian matrix. Unlike previous approaches that rely on approximations, we introduce Optimal Brain Apoptosis (OBA), a novel pruning method that calculates the Hessian-vector product value directly for each parameter. By decomposing the Hessian matrix across network layers and identifying conditions under which inter-layer Hessian submatrices are non-zero, we propose a highly efficient technique for computing the second-order Taylor expansion of parameters. This approach allows for a more precise pruning process, particularly in the context of CNNs and Transformers, as validated in our experiments including VGG19, ResNet32, ResNet50, and ViT-B/16 on CIFAR10, CIFAR100 and Imagenet datasets. Our code is available at https://github.com/NEU-REAL/OBA.

arxiv情報

著者 Mingyuan Sun,Zheng Fang,Jiaxu Wang,Junjie Jiang,Delei Kong,Chenming Hu,Yuetong Fang,Renjing Xu
発行日 2025-03-03 12:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Optimal Brain Apoptosis はコメントを受け付けていません

A Decade’s Battle on Dataset Bias: Are We There Yet?

要約

10年前にTorralba & Efros (2011)によって提案された「データセット分類」実験を、大規模かつ多様で、できれば偏りの少ないデータセットと、より高性能なニューラルネットワークアーキテクチャを持つ新しい時代に再検討する。例えば、YFCCデータセット、CCデータセット、DataCompデータセットで構成される3元分類問題に対して、ホールドアウト検証データで84.7%の精度を報告した。我々の更なる実験により、このようなデータセット分類器は、記憶では説明できない、一般化可能で転送可能な意味的特徴を学習できることが示された。我々の発見が、データセットのバイアスに関わる問題を再考するきっかけとなることを期待している。

要約(オリジナル)

We revisit the ‘dataset classification’ experiment suggested by Torralba & Efros (2011) a decade ago, in the new era with large-scale, diverse, and hopefully less biased datasets as well as more capable neural network architectures. Surprisingly, we observe that modern neural networks can achieve excellent accuracy in classifying which dataset an image is from: e.g., we report 84.7% accuracy on held-out validation data for the three-way classification problem consisting of the YFCC, CC, and DataComp datasets. Our further experiments show that such a dataset classifier could learn semantic features that are generalizable and transferable, which cannot be explained by memorization. We hope our discovery will inspire the community to rethink issues involving dataset bias.

arxiv情報

著者 Zhuang Liu,Kaiming He
発行日 2025-03-03 12:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | A Decade’s Battle on Dataset Bias: Are We There Yet? はコメントを受け付けていません

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

要約

FLAREは、較正されていないスパースビュー画像(入力が2~8個程度)から、高品質なカメラポーズと3D形状を推定するために設計されたフィードフォワードモデルである。私たちのソリューションは、3D構造を2D画像平面にマッピングする際の重要な役割を認識し、カメラポーズを重要な橋渡しとするカスケード学習パラダイムを特徴としています。具体的には、FLAREはカメラのポーズ推定から開始し、その結果が幾何学的構造と外観のその後の学習の条件となり、ジオメトリ再構成とノベルビュー合成の目的を通して最適化される。大規模な公開データセットを学習に利用することで、我々の手法は、推論効率(0.5秒以下)を維持しながら、ポーズ推定、ジオメトリ再構成、新規ビュー合成のタスクにおいて最先端の性能を実現する。プロジェクトページとコードは、https://zhanghe3z.github.io/FLARE/。

要約(オリジナル)

We present FLARE, a feed-forward model designed to infer high-quality camera poses and 3D geometry from uncalibrated sparse-view images (i.e., as few as 2-8 inputs), which is a challenging yet practical setting in real-world applications. Our solution features a cascaded learning paradigm with camera pose serving as the critical bridge, recognizing its essential role in mapping 3D structures onto 2D image planes. Concretely, FLARE starts with camera pose estimation, whose results condition the subsequent learning of geometric structure and appearance, optimized through the objectives of geometry reconstruction and novel-view synthesis. Utilizing large-scale public datasets for training, our method delivers state-of-the-art performance in the tasks of pose estimation, geometry reconstruction, and novel view synthesis, while maintaining the inference efficiency (i.e., less than 0.5 seconds). The project page and code can be found at: https://zhanghe3z.github.io/FLARE/

arxiv情報

著者 Shangzhan Zhang,Jianyuan Wang,Yinghao Xu,Nan Xue,Christian Rupprecht,Xiaowei Zhou,Yujun Shen,Gordon Wetzstein
発行日 2025-03-03 12:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views はコメントを受け付けていません

Poison-splat: Computation Cost Attack on 3D Gaussian Splatting

要約

画期的な性能と効率性で知られる3Dガウススプラッティング(3DGS)は、3D表現の主流となり、多くの3Dビジョンタスクに進歩をもたらした。しかし、本研究では、3DGSの計算コストが、入力データに毒を入れることによって悪意を持って改ざんされる可能性があるという、3DGSにおいてほとんど見過ごされてきた重大なセキュリティ上の脆弱性を明らかにする。ポイズンスプラット(Poison-splat)と名付けられた攻撃を開発することで、敵が入力画像に毒を盛ることで3DGSのトレーニングに必要な計算メモリと時間を大幅に増加させ、アルゴリズムを最悪の計算複雑度に押し上げることができるという新たな攻撃表面を明らかにする。極端なケースでは、攻撃はすべての割り当て可能なメモリを消費し、サーバーを中断させるサービス拒否(DoS)につながることさえあり、現実世界の3DGSサービスベンダーに現実的な損害をもたらします。このような計算コスト攻撃は、3つの調整された戦略(攻撃目的近似、プロキシモデルレンダリング、オプションの制約付き最適化)を通じて、2レベルの最適化問題に取り組むことで達成されます。これらの戦略は、我々の攻撃の有効性を保証するだけでなく、単純な防御手段での防御を困難にします。私たちは、この斬新な攻撃表面の発見が、3DGSシステムの重要でありながら見過ごされているこの脆弱性に注目を集めるきっかけになることを願っています。我々のコードは https://github.com/jiahaolu97/poison-splat で入手可能である。

要約(オリジナル)

3D Gaussian splatting (3DGS), known for its groundbreaking performance and efficiency, has become a dominant 3D representation and brought progress to many 3D vision tasks. However, in this work, we reveal a significant security vulnerability that has been largely overlooked in 3DGS: the computation cost of training 3DGS could be maliciously tampered by poisoning the input data. By developing an attack named Poison-splat, we reveal a novel attack surface where the adversary can poison the input images to drastically increase the computation memory and time needed for 3DGS training, pushing the algorithm towards its worst computation complexity. In extreme cases, the attack can even consume all allocable memory, leading to a Denial-of-Service (DoS) that disrupts servers, resulting in practical damages to real-world 3DGS service vendors. Such a computation cost attack is achieved by addressing a bi-level optimization problem through three tailored strategies: attack objective approximation, proxy model rendering, and optional constrained optimization. These strategies not only ensure the effectiveness of our attack but also make it difficult to defend with simple defensive measures. We hope the revelation of this novel attack surface can spark attention to this crucial yet overlooked vulnerability of 3DGS systems. Our code is available at https://github.com/jiahaolu97/poison-splat .

arxiv情報

著者 Jiahao Lu,Yifan Zhang,Qiuhong Shen,Xinchao Wang,Shuicheng Yan
発行日 2025-03-03 12:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.GR, cs.LG | Poison-splat: Computation Cost Attack on 3D Gaussian Splatting はコメントを受け付けていません

Efficient Learning With Sine-Activated Low-rank Matrices

要約

低ランク分解は、ニューラルネットワークアーキテクチャのパラメータ効率を向上させる重要なツールとして登場し、機械学習における様々なアプリケーションで支持を集めている。これらの手法は、パラメータ数を大幅に削減し、コンパクトさと性能のバランスを取る。しかし、パラメータ効率とモデルの精度との妥協が共通の課題であり、パラメータを削減すると、フルランクに比べて精度が低下することが多い。本研究では、正弦波関数を低ランク分解プロセスに統合する新しい理論的枠組みを提案する。このアプローチは、低ランク法の特徴であるパラメータ効率の利点を維持するだけでなく、分解のランクを上げることにより、モデルの性能を向上させる。我々の手法は、Vision Transformers (ViT)、Large Language Models (LLM)、Neural Radiance Fields (NeRF)、3D形状モデリングへの応用の成功によって証明されるように、既存の低ランクモデルのプラグイン拡張であることが証明される。

要約(オリジナル)

Low-rank decomposition has emerged as a vital tool for enhancing parameter efficiency in neural network architectures, gaining traction across diverse applications in machine learning. These techniques significantly lower the number of parameters, striking a balance between compactness and performance. However, a common challenge has been the compromise between parameter efficiency and the accuracy of the model, where reduced parameters often lead to diminished accuracy compared to their full-rank counterparts. In this work, we propose a novel theoretical framework that integrates a sinusoidal function within the low-rank decomposition process. This approach not only preserves the benefits of the parameter efficiency characteristic of low-rank methods but also increases the decomposition’s rank, thereby enhancing model performance. Our method proves to be a plug in enhancement for existing low-rank models, as evidenced by its successful application in Vision Transformers (ViT), Large Language Models (LLMs), Neural Radiance Fields (NeRF) and 3D shape modelling.

arxiv情報

著者 Yiping Ji,Hemanth Saratchandran,Cameron Gordon,Zeyu Zhang,Simon Lucey
発行日 2025-03-03 12:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.NE | Efficient Learning With Sine-Activated Low-rank Matrices はコメントを受け付けていません

CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation

要約

近年、大規模拡散モデルはテキストから画像(T2I)生成において目覚ましい進歩を遂げている。これらのT2Iモデルにさらにきめ細かな空間制御を装備するために、ControlNetのようなアプローチは、条件画像に従うことを学習する追加ネットワークを導入する。しかし、ControlNetは、1つの条件タイプごとに、何百万ものデータペアに対して、何百GPU時間もかけて独立した学習を行う必要があり、これは非常に高価であり、一般ユーザーが新しい条件タイプを探索・開発することを困難にしている。この問題に対処するため、我々はCtrLoRAフレームワークを提案する。このフレームワークは、複数のベース条件から画像間生成の共通知識を学習するベースControlNetと、各条件の明確な特徴を捉える条件固有のLoRAを学習する。事前に学習されたベースControlNetを利用することで、ユーザは新しい条件に簡単に適応させることができ、ほとんどのシナリオで満足のいく結果を得るために必要なデータペアはわずか1,000個、シングルGPUの学習時間は1時間未満です。さらに、我々のCtrLoRAはControlNetと比較して、学習可能なパラメータを90%削減し、モデルの重みを分散して配置するための閾値を大幅に下げました。様々な条件下での広範な実験により、本手法の効率性と有効性が実証されました。コードとモデル重みはhttps://github.com/xyfJASON/ctrlora。

要約(オリジナル)

Recently, large-scale diffusion models have made impressive progress in text-to-image (T2I) generation. To further equip these T2I models with fine-grained spatial control, approaches like ControlNet introduce an extra network that learns to follow a condition image. However, for every single condition type, ControlNet requires independent training on millions of data pairs with hundreds of GPU hours, which is quite expensive and makes it challenging for ordinary users to explore and develop new types of conditions. To address this problem, we propose the CtrLoRA framework, which trains a Base ControlNet to learn the common knowledge of image-to-image generation from multiple base conditions, along with condition-specific LoRAs to capture distinct characteristics of each condition. Utilizing our pretrained Base ControlNet, users can easily adapt it to new conditions, requiring as few as 1,000 data pairs and less than one hour of single-GPU training to obtain satisfactory results in most scenarios. Moreover, our CtrLoRA reduces the learnable parameters by 90% compared to ControlNet, significantly lowering the threshold to distribute and deploy the model weights. Extensive experiments on various types of conditions demonstrate the efficiency and effectiveness of our method. Codes and model weights will be released at https://github.com/xyfJASON/ctrlora.

arxiv情報

著者 Yifeng Xu,Zhenliang He,Shiguang Shan,Xilin Chen
発行日 2025-03-03 12:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation はコメントを受け付けていません

HiLo: A Learning Framework for Generalized Category Discovery Robust to Domain Shifts

要約

一般化カテゴリー発見(GCD:Generalized Category Discovery)は、部分的にラベル付けされたデータセットが与えられたとき、モデルが、ラベル付けされたカテゴリーから来たのか、新しいカテゴリーから来たのかに関わらず、全てのラベル付けされていないインスタンスを分類しなければならない、困難なタスクである。本稿では、このタスクに残された仮定に挑戦する。具体的には、ラベル付けされていないデータに、ラベル付けされた集合とは異なるドメインの画像も含まれる場合に、GCDを扱う新しいタスクと手法を導入する。我々の提案する「HiLo」ネットワークは、高レベルの意味的特徴と低レベルのドメイン特徴を抽出し、その表現間の相互情報を最小化する。我々の直感は、ドメイン情報と意味情報に基づくクラスタリングは独立であるべきだということである。我々はさらに、GCDタスクに合わせた特殊なドメイン拡張と、カリキュラム学習アプローチにより、我々の手法を拡張する。最後に、実世界のドメインシフトを含むDomainNet上での大規模評価と同様に、破損した細粒度データセットからベンチマークを構築し、この設定で多くのGCDベースラインを再実装する。全ての評価において、HiLoがSoTAカテゴリ発見モデルを大きく上回ることを実証する。

要約(オリジナル)

Generalized Category Discovery (GCD) is a challenging task in which, given a partially labelled dataset, models must categorize all unlabelled instances, regardless of whether they come from labelled categories or from new ones. In this paper, we challenge a remaining assumption in this task: that all images share the same domain. Specifically, we introduce a new task and method to handle GCD when the unlabelled data also contains images from different domains to the labelled set. Our proposed `HiLo’ networks extract High-level semantic and Low-level domain features, before minimizing the mutual information between the representations. Our intuition is that the clusterings based on domain information and semantic information should be independent. We further extend our method with a specialized domain augmentation tailored for the GCD task, as well as a curriculum learning approach. Finally, we construct a benchmark from corrupted fine-grained datasets as well as a large-scale evaluation on DomainNet with real-world domain shifts, reimplementing a number of GCD baselines in this setting. We demonstrate that HiLo outperforms SoTA category discovery models by a large margin on all evaluations.

arxiv情報

著者 Hongjun Wang,Sagar Vaze,Kai Han
発行日 2025-03-03 12:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | HiLo: A Learning Framework for Generalized Category Discovery Robust to Domain Shifts はコメントを受け付けていません

Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion

要約

透明な物体の知覚は、多くのロボットタスクに不可欠である。しかし、複雑な光学特性のため、透明物体の正確な分割と奥行きの推定は依然として困難である。既存の手法では、余分な入力や特殊なセンサーを用いて、主に1つのタスクのみを掘り下げているため、タスク間の貴重な相互作用やその後の洗練プロセスが無視され、最適でないぼやけた予測につながる。これらの問題に対処するため、我々は、単一画像入力のみで、透明物体のセグメンテーションと奥行き推定の両方に優れた、初めての単眼フレームワークを提案する。具体的には、新しい意味的・幾何学的融合モジュールを考案し、タスク間のマルチスケール情報を効果的に統合する。さらに、人間の物体認識からヒントを得て、より明確な結果を得るために、初期特徴を徐々に洗練させる反復戦略をさらに取り入れる。つの困難な合成データセットと実世界のデータセットを用いた実験により、我々のモデルが、単一のRGB入力のみで、約38.8%-46.2%という大きなマージンをもって、最先端の単眼、ステレオ、多視点手法を凌駕することが実証された。コードとモデルはhttps://github.com/L-J-Yuan/MODEST。

要約(オリジナル)

Transparent object perception is indispensable for numerous robotic tasks. However, accurately segmenting and estimating the depth of transparent objects remain challenging due to complex optical properties. Existing methods primarily delve into only one task using extra inputs or specialized sensors, neglecting the valuable interactions among tasks and the subsequent refinement process, leading to suboptimal and blurry predictions. To address these issues, we propose a monocular framework, which is the first to excel in both segmentation and depth estimation of transparent objects, with only a single-image input. Specifically, we devise a novel semantic and geometric fusion module, effectively integrating the multi-scale information between tasks. In addition, drawing inspiration from human perception of objects, we further incorporate an iterative strategy, which progressively refines initial features for clearer results. Experiments on two challenging synthetic and real-world datasets demonstrate that our model surpasses state-of-the-art monocular, stereo, and multi-view methods by a large margin of about 38.8%-46.2% with only a single RGB input. Codes and models are publicly available at https://github.com/L-J-Yuan/MODEST.

arxiv情報

著者 Jiangyuan Liu,Hongxuan Ma,Yuxin Guo,Yuhao Zhao,Chi Zhang,Wei Sui,Wei Zou
発行日 2025-03-03 12:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion はコメントを受け付けていません

NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM

要約

Vision-and-Language Navigation (VLN)は、具現化されたエージェントにとって不可欠なスキルであり、自然言語の指示に従って3D環境をナビゲートすることを可能にする。高性能なナビゲーションモデルには大量の学習データが必要であり、手作業でデータにアノテーションを付けるには高いコストがかかるため、この分野では深刻な障害となっている。そのため、これまでのいくつかの手法では、軌跡動画をステップバイステップの指示に変換してデータを拡張しているが、そのような指示は、目的地を簡潔に説明したり、特定のニーズを述べたりするユーザのコミュニケーションスタイルにうまくマッチしない。さらに、局所的なナビゲーション軌跡は、グローバルな文脈や高レベルのタスク計画を見落としている。これらの問題に対処するために、我々はVLNのためのユーザー要求指示を生成する検索支援生成(RAG)フレームワークであるNavRAGを提案する。NavRAGは、LLMを活用し、グローバルなレイアウトから局所的な詳細に至る3Dシーン理解のための階層的なシーン記述ツリーを構築し、次に、シーンツリーから検索する特定の要求を持つ様々なユーザの役割をシミュレートし、LLMを用いて多様な命令を生成する。861シーンに渡る200万以上のナビゲーション命令をアノテーションし、学習済みモデルのデータ品質とナビゲーション性能を評価する。

要約(オリジナル)

Vision-and-Language Navigation (VLN) is an essential skill for embodied agents, allowing them to navigate in 3D environments following natural language instructions. High-performance navigation models require a large amount of training data, the high cost of manually annotating data has seriously hindered this field. Therefore, some previous methods translate trajectory videos into step-by-step instructions for expanding data, but such instructions do not match well with users’ communication styles that briefly describe destinations or state specific needs. Moreover, local navigation trajectories overlook global context and high-level task planning. To address these issues, we propose NavRAG, a retrieval-augmented generation (RAG) framework that generates user demand instructions for VLN. NavRAG leverages LLM to build a hierarchical scene description tree for 3D scene understanding from global layout to local details, then simulates various user roles with specific demands to retrieve from the scene tree, generating diverse instructions with LLM. We annotate over 2 million navigation instructions across 861 scenes and evaluate the data quality and navigation performance of trained models.

arxiv情報

著者 Zihan Wang,Yaohui Zhu,Gim Hee Lee,Yachun Fan
発行日 2025-03-03 12:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM はコメントを受け付けていません