LoRD: Adapting Differentiable Driving Policies to Distribution Shifts

要約

運用ドメイン間の分布の変化は、自動運転車 (SDV) の学習モデルのパフォーマンスに重大な影響を与える可能性があります。
これは十分に確立された問題ですが、これまでの研究では主に、動き予測タスクに焦点を当てた微調整などの素朴な解決策が検討されてきました。
この研究では、予測、計画、制御から構成される微分可能な自律性スタックの新しい適応戦略を探索し、閉ループで評価を実行し、見落とされがちな壊滅的な忘却の問題を調査します。
具体的には、低ランク残差デコーダ (LoRD) とマルチタスク微調整という 2 つのシンプルかつ効果的な手法を紹介します。
2 つの実際の自動運転データセット (nuPlan、exiD) で実行された 3 つのモデルにわたる実験を通じて、私たちは手法の有効性を実証し、従来のアプローチにおける開ループ評価と閉ループ評価の間の大きなパフォーマンスのギャップを強調しました。
私たちのアプローチは、標準の微調整と比較して、忘却を最大 23.33% 改善し、閉ループ OOD 駆動スコアを 8.83% 改善します。

要約(オリジナル)

Distribution shifts between operational domains can severely affect the performance of learned models in self-driving vehicles (SDVs). While this is a well-established problem, prior work has mostly explored naive solutions such as fine-tuning, focusing on the motion prediction task. In this work, we explore novel adaptation strategies for differentiable autonomy stacks consisting of prediction, planning, and control, perform evaluation in closed-loop, and investigate the often-overlooked issue of catastrophic forgetting. Specifically, we introduce two simple yet effective techniques: a low-rank residual decoder (LoRD) and multi-task fine-tuning. Through experiments across three models conducted on two real-world autonomous driving datasets (nuPlan, exiD), we demonstrate the effectiveness of our methods and highlight a significant performance gap between open-loop and closed-loop evaluation in prior approaches. Our approach improves forgetting by up to 23.33% and the closed-loop OOD driving score by 8.83% in comparison to standard fine-tuning.

arxiv情報

著者 Christopher Diehl,Peter Karkus,Sushant Veer,Marco Pavone,Torsten Bertram
発行日 2024-10-15 17:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | LoRD: Adapting Differentiable Driving Policies to Distribution Shifts はコメントを受け付けていません

Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies

要約

強化学習とシミュレーションからリアルへの変換を組み合わせることで、脚式ロボットの移動コントローラーを開発するための一般的なフレームワークが提供されます。
現実世界での展開を成功させるために、ローパス フィルターや平滑化報酬などの平滑化手法がよく使用され、スムーズな動作を備えたポリシーが開発されます。
ただし、これらの手法は微分不可能であり、通常、大規模なハイパーパラメータのセットの面倒な調整が必要なため、ロボット プラットフォームごとに大規模な手動調整が必要になる傾向があります。
この課題に対処し、スムーズな動作を強制するための一般的な手法を確立するために、学習したポリシーにリプシッツ制約を課すシンプルで効果的な方法を提案します。これをリプシッツ制約ポリシー (LCP) と呼びます。
我々は、リプシッツ制約が勾配ペナルティの形で実装できることを示します。これにより、自動微分フレームワークに簡単に組み込むことができる微分可能な目的が提供されます。
私たちは、LCP が報酬の平滑化やローパス フィルターの必要性を効果的に置き換え、多くの異なるヒューマノイド ロボットのトレーニング フレームワークに簡単に統合できることを実証します。
当社はシミュレーションと現実世界の人型ロボットの両方で LCP を広範囲に評価し、スムーズで堅牢な移動コントローラーを作成します。
すべてのシミュレーションおよびデプロイメント コードと完全なチェックポイントは、プロジェクト ページ https://lipschitz-constrained-policy.github.io で入手できます。

要約(オリジナル)

Reinforcement learning combined with sim-to-real transfer offers a general framework for developing locomotion controllers for legged robots. To facilitate successful deployment in the real world, smoothing techniques, such as low-pass filters and smoothness rewards, are often employed to develop policies with smooth behaviors. However, because these techniques are non-differentiable and usually require tedious tuning of a large set of hyperparameters, they tend to require extensive manual tuning for each robotic platform. To address this challenge and establish a general technique for enforcing smooth behaviors, we propose a simple and effective method that imposes a Lipschitz constraint on a learned policy, which we refer to as Lipschitz-Constrained Policies (LCP). We show that the Lipschitz constraint can be implemented in the form of a gradient penalty, which provides a differentiable objective that can be easily incorporated with automatic differentiation frameworks. We demonstrate that LCP effectively replaces the need for smoothing rewards or low-pass filters and can be easily integrated into training frameworks for many distinct humanoid robots. We extensively evaluate LCP in both simulation and real-world humanoid robots, producing smooth and robust locomotion controllers. All simulation and deployment code, along with complete checkpoints, is available on our project page: https://lipschitz-constrained-policy.github.io.

arxiv情報

著者 Zixuan Chen,Xialin He,Yen-Jen Wang,Qiayuan Liao,Yanjie Ze,Zhongyu Li,S. Shankar Sastry,Jiajun Wu,Koushil Sreenath,Saurabh Gupta,Xue Bin Peng
発行日 2024-10-15 17:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies はコメントを受け付けていません

Autonomous Improvement of Instruction Following Skills via Foundation Models

要約

自律的に収集された経験から改善できるインテリジェントな指示従うロボットには、ロボットの学習を変革する可能性があります。高価な遠隔操作のデモンストレーション データを収集する代わりに、ロボット フリートを大規模に展開することで、集合的にパフォーマンスを向上させることができる大量の自律データを迅速に収集できます。

ただし、自律的な改善には、2 つの重要な問題を解決する必要があります。(i) 多様で意味的に意味のあるロボット データを収集できるスケーラブルなデータ収集手順を完全に自動化すること、および (ii) 人間による注釈のない、最適ではない自律的なデータからの学習。
この目的を達成するために、私たちはこれらの課題に対処し、人間の監督なしで自律的に収集されたデータから指示に従うポリシーを改善できる新しいアプローチを提案します。
私たちのフレームワークは、視覚言語モデルを活用して、新しい環境で意味的に意味のある経験を収集して評価し、その後、タスクに続く命令を(意味論的な)言語条件付き画像生成と(非意味論的)目標達成に分解することを利用します。
人間による注釈なしで自律的に収集されたデータから改善するのが現実的です。
私たちは、アプローチの有効性を実証するために現実世界で広範な実験を実施し、目に見えない一連の環境において、自律的に収集されたデータを使用してロボットのポリシーを 2 倍改善できることがわかりました。
私たちは、セマンティック自律改善パイプラインのコードと、5 つのテーブルトップ環境にわたって収集された 30.5K の軌跡の自律データセットをオープンソースにしています。

要約(オリジナル)

Intelligent instruction-following robots capable of improving from autonomously collected experience have the potential to transform robot learning: instead of collecting costly teleoperated demonstration data, large-scale deployment of fleets of robots can quickly collect larger quantities of autonomous data that can collectively improve their performance. However, autonomous improvement requires solving two key problems: (i) fully automating a scalable data collection procedure that can collect diverse and semantically meaningful robot data and (ii) learning from non-optimal, autonomous data with no human annotations. To this end, we propose a novel approach that addresses these challenges, allowing instruction-following policies to improve from autonomously collected data without human supervision. Our framework leverages vision-language models to collect and evaluate semantically meaningful experiences in new environments, and then utilizes a decomposition of instruction following tasks into (semantic) language-conditioned image generation and (non-semantic) goal reaching, which makes it significantly more practical to improve from this autonomously collected data without any human annotations. We carry out extensive experiments in the real world to demonstrate the effectiveness of our approach, and find that in a suite of unseen environments, the robot policy can be improved 2x with autonomously collected data. We open-source the code for our semantic autonomous improvement pipeline, as well as our autonomous dataset of 30.5K trajectories collected across five tabletop environments.

arxiv情報

著者 Zhiyuan Zhou,Pranav Atreya,Abraham Lee,Homer Walke,Oier Mees,Sergey Levine
発行日 2024-10-15 17:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Autonomous Improvement of Instruction Following Skills via Foundation Models はコメントを受け付けていません

Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions

要約

強化学習では、DDPG や TD3 などのオフポリシー アクタークリティカル アプローチは、決定論的なポリシー勾配に基づいています。
ここで、Q 関数はオフポリシー環境データからトレーニングされ、アクター (ポリシー) は勾配上昇によって Q 関数を最大化するようにトレーニングされます。
器用な操作や制限された移動などの複雑なタスクでは、Q 値が動作の複雑な関数であり、いくつかの局所最適値または不連続性があることが観察されます。
これにより、勾配上昇を通過するのが困難になり、アクターが局所最適値で行き詰まる傾向があります。
これに対処するために、2 つの単純な洞察を組み合わせた新しいアクター アーキテクチャを導入します。(i) 複数のアクターを使用し、Q 値を最大化するアクションを評価する。(ii) 勾配で最適化するのがより簡単な Q 関数のサロゲートを学習する。
ベースのメソッド。
制限された移動、器用な操作、大規模な離散アクション空間レコメンダー システムなどのタスクを評価し、アクターが最適なアクションをより頻繁に見つけ、代替アクター アーキテクチャよりも優れたパフォーマンスを発揮することを示します。

要約(オリジナル)

In reinforcement learning, off-policy actor-critic approaches like DDPG and TD3 are based on the deterministic policy gradient. Herein, the Q-function is trained from off-policy environment data and the actor (policy) is trained to maximize the Q-function via gradient ascent. We observe that in complex tasks like dexterous manipulation and restricted locomotion, the Q-value is a complex function of action, having several local optima or discontinuities. This poses a challenge for gradient ascent to traverse and makes the actor prone to get stuck at local optima. To address this, we introduce a new actor architecture that combines two simple insights: (i) use multiple actors and evaluate the Q-value maximizing action, and (ii) learn surrogates to the Q-function that are simpler to optimize with gradient-based methods. We evaluate tasks such as restricted locomotion, dexterous manipulation, and large discrete-action space recommender systems and show that our actor finds optimal actions more frequently and outperforms alternate actor architectures.

arxiv情報

著者 Ayush Jain,Norio Kosaka,Xinhu Li,Kyung-Min Kim,Erdem Bıyık,Joseph J. Lim
発行日 2024-10-15 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML | Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions はコメントを受け付けていません

LoRA-Pro: Are Low-Rank Adapters Properly Optimized?

要約

LoRA としても知られる低ランク適応は、基礎モデルをパラメーター効率よく微調整するための優れた方法として浮上しています。
LoRA の計算効率にもかかわらず、完全な微調整と比較するとパフォーマンスは依然として劣ります。
この論文では、まず、LoRA の最適化プロセスと完全な微調整の間の基本的な関係を明らかにします。つまり、最適化に LoRA を使用することは、パラメーター更新に低ランクの勾配を使用する完全な微調整と数学的に同等です。
そして、この低ランクの勾配は、LoRA の 2 つの低ランク行列の勾配によって表現できます。
この洞察を活用して、これらの低ランク行列の勾配を戦略的に調整することで LoRA のパフォーマンスを向上させる手法である LoRA-Pro を紹介します。
この調整により、低ランクの勾配が完全な微調整勾配をより正確に近似できるようになり、それによって LoRA と完全な微調整の間のパフォーマンスのギャップが狭まります。
さらに、低ランク行列の勾配を調整するための最適解を理論的に導き出し、LoRA-Pro での微調整中に適用します。
私たちは、自然言語理解、対話生成、数学的推論、コード生成、画像分類タスクにわたる広範な実験を実施し、LoRA-Pro が LoRA のパフォーマンスを大幅に向上させ、完全な微調整で効果的にギャップを狭めることを実証しました。
コードは \url{https://github.com/mrflogs/LoRA-Pro} で公開されています。

要約(オリジナル)

Low-rank adaptation, also known as LoRA, has emerged as a prominent method for parameter-efficient fine-tuning of foundation models. Despite its computational efficiency, LoRA still yields inferior performance compared to full fine-tuning. In this paper, we first uncover a fundamental connection between the optimization processes of LoRA and full fine-tuning: using LoRA for optimization is mathematically equivalent to full fine-tuning using a low-rank gradient for parameter updates. And this low-rank gradient can be expressed in terms of the gradients of the two low-rank matrices in LoRA. Leveraging this insight, we introduce LoRA-Pro, a method that enhances LoRA’s performance by strategically adjusting the gradients of these low-rank matrices. This adjustment allows the low-rank gradient to more accurately approximate the full fine-tuning gradient, thereby narrowing the performance gap between LoRA and full fine-tuning. Furthermore, we theoretically derive the optimal solutions for adjusting the gradients of the low-rank matrices, applying them during fine-tuning in LoRA-Pro. We conduct extensive experiments across natural language understanding, dialogue generation, mathematical reasoning, code generation, and image classification tasks, demonstrating that LoRA-Pro substantially improves LoRA’s performance, effectively narrowing the gap with full fine-tuning. Code is publicly available at \url{https://github.com/mrflogs/LoRA-Pro}.

arxiv情報

著者 Zhengbo Wang,Jian Liang,Ran He,Zilei Wang,Tieniu Tan
発行日 2024-10-15 17:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LoRA-Pro: Are Low-Rank Adapters Properly Optimized? はコメントを受け付けていません

A Hitchhiker’s Guide to Scaling Law Estimation

要約

スケーリング則は、より少ないパラメーターまたはより小さなトレーニング セットを使用してトレーニングが容易なモデルから外挿することにより、ターゲットの機械学習モデルの損失を予測します。
これにより、実務者も研究者も、オプティマイザー、データセット、モデル アーキテクチャに関わる事前トレーニングの決定を比較する効率的な方法が提供されます。
言語モデルのトレーニングのダイナミクスをモデル化するためにスケーリング則が広く使用されているにもかかわらず、それらを最適に推定して解釈する方法を理解するための研究はほとんど行われていません。
私たちは、以前に公開された 485 個の事前トレーニング済みモデルの損失と下流の評価を含む大規模なデータセットを収集 (およびリリース) します。
これらを使用して 1000 を超えるスケーリング則を推定し、新しいモデル ファミリでスケーリング則を推定するための一連のベスト プラクティスを導き出します。
トレーニング実行の中間チェックポイント (最終的な損失だけでなく) にスケーリング則を当てはめると、精度が大幅に向上し、他のすべてが等しい場合、パフォーマンスの推定値は一般に、同様のサイズの他のモデルから導出された場合に最も正確になることがわかりました。
ただし、モデル シード間でかなりのばらつきがあるため、単一の大きなモデルをトレーニングするよりも、複数の小さなモデルをトレーニングする方が役立つ場合があります。
さらに、異なるモデル ファミリはスケーリング動作が異なりますが、多くの場合、それらは十分に類似しているため、ターゲット モデルの動作は、他のモデル ファミリから導出されたスケーリング パラメーター推定値とともに、同じアーキテクチャを持つ単一のモデルから予測できます。

要約(オリジナル)

Scaling laws predict the loss of a target machine learning model by extrapolating from easier-to-train models with fewer parameters or smaller training sets. This provides an efficient way for practitioners and researchers alike to compare pretraining decisions involving optimizers, datasets, and model architectures. Despite the widespread use of scaling laws to model the dynamics of language model training, there has been little work on understanding how to best estimate and interpret them. We collect (and release) a large-scale dataset containing losses and downstream evaluations for 485 previously published pretrained models. We use these to estimate more than 1000 scaling laws, then derive a set of best practices for estimating scaling laws in new model families. We find that fitting scaling laws to intermediate checkpoints of training runs (and not just their final losses) substantially improves accuracy, and that — all else equal — estimates of performance are generally most accurate when derived from other models of similar sizes. However, because there is a significant degree of variability across model seeds, training multiple small models is sometimes more useful than training a single large one. Moreover, while different model families differ scaling behavior, they are often similar enough that a target model’s behavior can be predicted from a single model with the same architecture, along with scaling parameter estimates derived from other model families.

arxiv情報

著者 Leshem Choshen,Yang Zhang,Jacob Andreas
発行日 2024-10-15 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | A Hitchhiker’s Guide to Scaling Law Estimation はコメントを受け付けていません

GaVaMoE: Gaussian-Variational Gated Mixture of Experts for Explainable Recommendation

要約

大規模言語モデルベースの説明可能なレコメンデーション (LLM ベースの ER) システムは、レコメンデーションに対する人間のような説明の生成に有望です。
ただし、ユーザーとアイテムの共同設定のモデリング、説明のパーソナライズ、およびまばらなユーザーとアイテムの対話の処理において課題に直面しています。
これらの問題に対処するために、説明可能な推奨を実現するための新しいガウス変分ゲート型専門家混合フレームワークである GaVaMoE を提案します。
GaVaMoE は 2 つの重要なコンポーネントを導入しています。(1) 変動オートエンコーダ (VAE) とガウス混合モデル (GMM) を使用して、ユーザーとアイテムの複雑な共同嗜好をキャプチャし、事前トレーニング済みのマルチゲート メカニズムとして機能する評価再構成モジュール。
(2) 高度にパーソナライズされた説明を生成するためのマルチゲート メカニズムと組み合わせた一連のきめの細かいエキスパート モデル。
VAE コンポーネントはユーザーとアイテムのインタラクションにおける潜在的な要因をモデル化し、GMM は同様の行動を持つユーザーをクラスター化します。
各クラスターはマルチゲート メカニズムのゲートに対応し、ユーザーとアイテムのペアを適切なエキスパート モデルにルーティングします。
このアーキテクチャにより、GaVaMoE は特定のユーザーのタイプや好みに合わせた説明を生成し、ユーザーの類似性を活用してデータの希薄性を軽減できます。
3 つの現実世界のデータセットに対する広範な実験により、GaVaMoE が説明の品質、パーソナライゼーション、一貫性の点で既存の手法を大幅に上回ることが実証されました。
特に、GaVaMoE は、ユーザーとアイテムのやり取りがまばらなシナリオでも堅牢なパフォーマンスを示し、履歴データが限られているユーザーに対しても高品質の説明を維持します。

要約(オリジナル)

Large language model-based explainable recommendation (LLM-based ER) systems show promise in generating human-like explanations for recommendations. However, they face challenges in modeling user-item collaborative preferences, personalizing explanations, and handling sparse user-item interactions. To address these issues, we propose GaVaMoE, a novel Gaussian-Variational Gated Mixture of Experts framework for explainable recommendation. GaVaMoE introduces two key components: (1) a rating reconstruction module that employs Variational Autoencoder (VAE) with a Gaussian Mixture Model (GMM) to capture complex user-item collaborative preferences, serving as a pre-trained multi-gating mechanism; and (2) a set of fine-grained expert models coupled with the multi-gating mechanism for generating highly personalized explanations. The VAE component models latent factors in user-item interactions, while the GMM clusters users with similar behaviors. Each cluster corresponds to a gate in the multi-gating mechanism, routing user-item pairs to appropriate expert models. This architecture enables GaVaMoE to generate tailored explanations for specific user types and preferences, mitigating data sparsity by leveraging user similarities. Extensive experiments on three real-world datasets demonstrate that GaVaMoE significantly outperforms existing methods in explanation quality, personalization, and consistency. Notably, GaVaMoE exhibits robust performance in scenarios with sparse user-item interactions, maintaining high-quality explanations even for users with limited historical data.

arxiv情報

著者 Fei Tang,Yongliang Shen,Hang Zhang,Zeqi Tan,Wenqi Zhang,Guiyang Hou,Kaitao Song,Weiming Lu,Yueting Zhuang
発行日 2024-10-15 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | GaVaMoE: Gaussian-Variational Gated Mixture of Experts for Explainable Recommendation はコメントを受け付けていません

VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models

要約

複雑な視覚情報を正確に理解することは、視覚言語モデル (VLM) にとって非常に重要です。
画像の解像度を高めると視覚認識能力が向上し、幻覚が軽減されるだけでなく、テキストが多いタスクや文書分析など、高解像度が必要なタスクのパフォーマンスも向上します。
このペーパーでは、高解像度のビジュアル入力を処理するために特別に設計された、VisualRWKV モデル ファミリの 2 つの進歩である VisualRWKV-HD と VisualRWKV-UHD を紹介します。
VisualRWKV-HD では、入力シーケンスの長さを拡張することなく、高解像度ビジョン エンコーダと低解像度エンコーダを効果的に統合するロスレス ダウンサンプリング手法を開発しました。
VisualRWKV-UHD モデルでは、画像を 4 つのセグメントに分割し、元の画像と再結合することで画像表現を強化しました。
この手法により、モデルに高解像度と低解像度の両方の機能を組み込むことができ、粗い情報と細かい情報のバランスが効果的に得られます。
その結果、このモデルは最大 4096 x 4096 ピクセルの解像度をサポートし、より詳細で包括的な視覚処理機能を提供します。
VisualRWKV-HD と VisualRWKV-UHD はどちらも、VLM ベンチマークで優れた結果を達成するだけでなく、テキストの多いタスクのパフォーマンスが大幅に向上しています。

要約(オリジナル)

Accurately understanding complex visual information is crucial for visual language models (VLMs). Enhancing image resolution can improve visual perception capabilities, not only reducing hallucinations but also boosting performance in tasks that demand high resolution, such as text-rich or document analysis. In this paper, we present VisualRWKV-HD and VisualRWKV-UHD, two advancements in the VisualRWKV model family, specifically designed to process high-resolution visual inputs. For VisualRWKV-HD, we developed a lossless downsampling method to effectively integrate a high-resolution vision encoder with low-resolution encoders, without extending the input sequence length. For the VisualRWKV-UHD model, we enhanced image representation by dividing the image into four segments, which are then recombined with the original image. This technique allows the model to incorporate both high-resolution and low-resolution features, effectively balancing coarse and fine-grained information. As a result, the model supports resolutions up to 4096 x 4096 pixels, offering a more detailed and comprehensive visual processing capability. Both VisualRWKV-HD and VisualRWKV-UHD not only achieve strong results on VLM benchmarks but also show marked improvements in performance for text-rich tasks.

arxiv情報

著者 Zihang Li,Haowen Hou
発行日 2024-10-15 14:49:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models はコメントを受け付けていません

LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension

要約

ビジョン言語モデル (VLM) は、さまざまなオープン語彙タスクで顕著な機能を実証していますが、そのゼロショット パフォーマンスは、特に参照表現理解 (REC) のような複雑なタスクでは、タスク固有の微調整モデルに比べて遅れています。
通常、微調整にはモデルのアーキテクチャと重みへの「ホワイトボックス」アクセスが必要ですが、所有権やプライバシーの問題により、常に実現可能であるとは限りません。
この研究では、大規模言語モデル (LLM) を使用して REC タスクに VLM を「ブラック ボックス」適応させる方法である LLM ラッパーを提案します。
LLM ラッパーは、軽い微調整によって改善された LLM の推論能力を利用して、ゼロショット ブラック ボックス VLM によって生成された候補から、参照式に一致する最も関連性の高い境界ボックスを選択します。
私たちのアプローチにはいくつかの利点があります。内部動作にアクセスする必要なくクローズドソース モデルを適応できること、あらゆる VLM で動作するため多用途性があり、新しい VLM に移行できること、VLM のアンサンブルの適応が可能であることです。

さまざまな VLM と LLM を使用して複数のデータセットで LLM ラッパーを評価し、大幅なパフォーマンスの向上を実証し、手法の多用途性を強調します。
LLM ラッパーは、標準のホワイト ボックス微調整と直接競合することを意図したものではありませんが、ブラック ボックス VLM 適応の実用的で効果的な代替手段を提供します。
コードはオープンソース化されます。

要約(オリジナル)

Vision Language Models (VLMs) have demonstrated remarkable capabilities in various open-vocabulary tasks, yet their zero-shot performance lags behind task-specific finetuned models, particularly in complex tasks like Referring Expression Comprehension (REC). Fine-tuning usually requires ‘white-box’ access to the model’s architecture and weights, which is not always feasible due to proprietary or privacy concerns. In this work, we propose LLM-wrapper, a method for ‘black-box’ adaptation of VLMs for the REC task using Large Language Models (LLMs). LLM-wrapper capitalizes on the reasoning abilities of LLMs, improved with a light fine-tuning, to select the most relevant bounding box matching the referring expression, from candidates generated by a zero-shot black-box VLM. Our approach offers several advantages: it enables the adaptation of closed-source models without needing access to their internal workings, it is versatile as it works with any VLM, it transfers to new VLMs, and it allows for the adaptation of an ensemble of VLMs. We evaluate LLM-wrapper on multiple datasets using different VLMs and LLMs, demonstrating significant performance improvements and highlighting the versatility of our method. While LLM-wrapper is not meant to directly compete with standard white-box fine-tuning, it offers a practical and effective alternative for black-box VLM adaptation. The code will be open-sourced.

arxiv情報

著者 Amaia Cardiel,Eloi Zablocki,Elias Ramzi,Oriane Siméoni,Matthieu Cord
発行日 2024-10-15 14:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension はコメントを受け付けていません

Degradation Oriented and Regularized Network for Real-World Depth Super-Resolution

要約

最近、既存の RGB ガイド深度超解像度手法は、固定された既知の劣化 (バイキュービック ダウンサンプリングなど) の仮定に基づいて優れたパフォーマンスを達成しています。
ただし、現実世界のシナリオでは、センサーの制限やイメージング環境の複雑さ (低反射面、照明など) により、捕捉された深度は型破りで不可知的な劣化に見舞われることがよくあります。
実際の劣化が想定と異なる場合、パフォーマンスは大幅に低下します。
これらの問題に対処するために、我々は、深度回復のための的を絞ったガイダンスを提供できる低解像度深度の劣化表現の学習にさらに注目する、劣化指向かつ正規化ネットワーク (DORNet) を提案します。
具体的には、まず、ルーティング選択ベースの劣化正則化を使用して、低解像度深度の識別劣化表現をモデル化する自己教師あり劣化学習を設計します。
次に、複数の劣化指向特徴変換を再帰的に実行する劣化認識を提示します。各変換は、学習された劣化表現に基づいて深度に RGB 情報を選択的に埋め込みます。
実際のデータセットと合成データセットの両方に関する広範な実験結果は、私たちの方法が最先端のパフォーマンスを達成することを実証しています。

要約(オリジナル)

Recently, existing RGB-guided depth super-resolution methods achieve excellent performance based on the assumption of fixed and known degradation (e.g., bicubic downsampling). However, in real-world scenarios, the captured depth often suffers from unconventional and agnostic degradation due to sensor limitations and the complexity of imaging environments (e.g., low reflective surface, illumination). Their performance significantly declines when these real degradation differ from their assumptions. To address these issues, we propose a Degradation Oriented and Regularized Network, DORNet, which pays more attention on learning degradation representation of low-resolution depth that can provide targeted guidance for depth recovery. Specifically, we first design a self-supervised Degradation Learning to model the discriminative degradation representation of low-resolution depth using routing selection-based Degradation Regularization. Then, we present a Degradation Awareness that recursively conducts multiple Degradation-Oriented Feature Transformations, each of which selectively embeds RGB information into the depth based on the learned degradation representation. Extensive experimental results on both real and synthetic datasets demonstrate that our method achieves state-of-the-art performance.

arxiv情報

著者 Zhengxue Wang,Zhiqiang Yan
発行日 2024-10-15 14:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Degradation Oriented and Regularized Network for Real-World Depth Super-Resolution はコメントを受け付けていません