Collaborative Learning for Enhanced Unsupervised Domain Adaptation

要約

監視されていないドメイン適応(UDA)は、ラベル付けされたソースドメインで訓練されたモデルと、ラベルのないターゲットドメインでの展開との間のギャップを埋めるよう努めています。
ただし、現在の高性能モデルは重要なリソースを必要とし、展開コストを法外にし、コンパクトでありながら効果的なモデルの必要性を強調しています。
軽量モデルのUDAの場合、教師と学生のフレームワークを活用する知識の蒸留(KD)は一般的なアプローチになる可能性がありますが、UDAのドメインシフトは教師モデルの非依存性パラメーターの大幅な増加につながり、モデルの一般化能力を分解し、誤った導入情報を学生モデルに転送することがわかりました。
興味深いことに、この現象は学生モデルではかなり少ないことを観察しました。
この洞察に基づいて、UDA(CLDA)の共同学習を紹介します。これは、生徒モデルを使用して教師の非依存パラメーターを更新し、同時に更新された教師モデルを利用して学生モデルのUDAパフォーマンスを改善する方法を紹介します。
実験は、生徒と教師モデルの両方で一貫したパフォーマンスの改善を示しています。
たとえば、セマンティックセグメンテーションでは、CLDAは、GTA-to-CityScapesデータセットのベースラインモデルと比較して、教師モデルで +0.7%MIOU、学生モデルで +1.4%MIOUの改善を達成します。
Synthia-to-Cityscapesデータセットでは、教師と学生モデルのそれぞれ +0.8%MIOUと +2.0%MIOUの改善を達成します。

要約(オリジナル)

Unsupervised Domain Adaptation (UDA) endeavors to bridge the gap between a model trained on a labeled source domain and its deployment in an unlabeled target domain. However, current high-performance models demand significant resources, making deployment costs prohibitive and highlighting the need for compact, yet effective models. For UDA of lightweight models, Knowledge Distillation (KD) leveraging a Teacher-Student framework could be a common approach, but we found that domain shift in UDA leads to a significant increase in non-salient parameters in the teacher model, degrading model’s generalization ability and transferring misleading information to the student model. Interestingly, we observed that this phenomenon occurs considerably less in the student model. Driven by this insight, we introduce Collaborative Learning for UDA (CLDA), a method that updates the teacher’s non-salient parameters using the student model and at the same time utilizes the updated teacher model to improve UDA performance of the student model. Experiments show consistent performance improvements for both student and teacher models. For example, in semantic segmentation, CLDA achieves an improvement of +0.7% mIoU for the teacher model and +1.4% mIoU for the student model compared to the baseline model in the GTA-to-Cityscapes datasets. In the Synthia-to-Cityscapes dataset, it achieves an improvement of +0.8% mIoU and +2.0% mIoU for the teacher and student models, respectively.

arxiv情報

著者 Minhee Cho,Hyesong Choi,Hayeon Jo,Dongbo Min
発行日 2025-04-16 14:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Collaborative Learning for Enhanced Unsupervised Domain Adaptation はコメントを受け付けていません

Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image

要約

さまざまなコンピュータービジョンアプリケーションでは、正確で一般化可能なメトリック深度推定が重要ですが、屋内および屋外環境で遭遇する多様な深度スケールのために困難なままです。
このホワイトペーパーでは、さまざまなシーンスケールに動的に適応する新しいスライドアンカーベースのメトリック深度推定方法であるMetric-Solverを紹介します。
私たちのアプローチは、アンカーベースの表現を活用します。参照深度は、シーンの深さを分離して正規化し、2つのコンポーネントに正規化するためのアンカーとして機能します。
アンカーは正規化係数として機能し、近距離の深さを一貫した範囲内で正規化しながら、遠方の深さをゼロにスムーズにマッピングできるようにします。
このアプローチを通じて、シーン内のゼロからインフィニティまでの深さは、統一された表現内で表現でき、シーンスケールのバリエーションを手動で説明する必要性を効果的に排除できます。
さらに重要なことに、同じシーンでは、アンカーは深さ軸に沿ってスライドし、異なる深さスケールに動的に調整できることです。
小さいアンカーは近距離でより高い解像度を提供し、より近いオブジェクトの深さ精度を改善しますが、より大きなアンカーは遠い領域の深さ推定を改善します。
この適応性により、モデルはさまざまな距離で深さ予測を処理し、データセット全体の強力な一般化を確保できます。
当社の設計により、多様な環境にわたる統一された適応的な深さ表現が可能になります。
広範な実験では、メートリックソルバーが精度とクロスダタセットの一般化の両方で既存の方法よりも優れていることが示されています。

要約(オリジナル)

Accurate and generalizable metric depth estimation is crucial for various computer vision applications but remains challenging due to the diverse depth scales encountered in indoor and outdoor environments. In this paper, we introduce Metric-Solver, a novel sliding anchor-based metric depth estimation method that dynamically adapts to varying scene scales. Our approach leverages an anchor-based representation, where a reference depth serves as an anchor to separate and normalize the scene depth into two components: scaled near-field depth and tapered far-field depth. The anchor acts as a normalization factor, enabling the near-field depth to be normalized within a consistent range while mapping far-field depth smoothly toward zero. Through this approach, any depth from zero to infinity in the scene can be represented within a unified representation, effectively eliminating the need to manually account for scene scale variations. More importantly, for the same scene, the anchor can slide along the depth axis, dynamically adjusting to different depth scales. A smaller anchor provides higher resolution in the near-field, improving depth precision for closer objects while a larger anchor improves depth estimation in far regions. This adaptability enables the model to handle depth predictions at varying distances and ensure strong generalization across datasets. Our design enables a unified and adaptive depth representation across diverse environments. Extensive experiments demonstrate that Metric-Solver outperforms existing methods in both accuracy and cross-dataset generalization.

arxiv情報

著者 Tao Wen,Jiepeng Wang,Yabo Chen,Shugong Xu,Chi Zhang,Xuelong Li
発行日 2025-04-16 14:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image はコメントを受け付けていません

Logits DeConfusion with CLIP for Few-Shot Learning

要約

強力な視覚言語アライメント機能を備えたClipは、ゼロショットと少ないショットの学習タスクでうまく機能します。
ただし、Clipのロジットは、下流タスクにおけるクラス間の深刻な混乱の問題に悩まされており、カテゴリ間の曖昧さが精度に深刻な影響を与えることが実験で発見されました。
この課題に対処するために、ロジットデコンフュージョンと呼ばれる新しい方法を提案します。これは、マルチレベルアダプター融合(MAF)モジュールとクラス間デコンフュージョン(ICD)モジュールを組み合わせることにより、ロジットのクラス間混乱を効果的に学習および排除します。
私たちのMAFは、異なるレベルの特徴を抽出し、それらを均一に融合して、特徴表現を強化します。
私たちのICDは、残留構造でロジットのクラス間の混乱を学習的に排除します。
実験結果は、この方法が分類パフォーマンスを大幅に改善し、クラス間の混乱の問題を軽減できることを示しています。
このコードはhttps://github.com/lishuo1001/ldcで入手できます。

要約(オリジナル)

With its powerful visual-language alignment capability, CLIP performs well in zero-shot and few-shot learning tasks. However, we found in experiments that CLIP’s logits suffer from serious inter-class confusion problems in downstream tasks, and the ambiguity between categories seriously affects the accuracy. To address this challenge, we propose a novel method called Logits DeConfusion, which effectively learns and eliminates inter-class confusion in logits by combining our Multi-level Adapter Fusion (MAF) module with our Inter-Class Deconfusion (ICD) module. Our MAF extracts features from different levels and fuses them uniformly to enhance feature representation. Our ICD learnably eliminates inter-class confusion in logits with a residual structure. Experimental results show that our method can significantly improve the classification performance and alleviate the inter-class confusion problem. The code is available at https://github.com/LiShuo1001/LDC.

arxiv情報

著者 Shuo Li,Fang Liu,Zehua Hao,Xinyi Wang,Lingling Li,Xu Liu,Puhua Chen,Wenping Ma
発行日 2025-04-16 14:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Logits DeConfusion with CLIP for Few-Shot Learning はコメントを受け付けていません

A Diffusion-Based Framework for Terrain-Aware Remote Sensing Image Reconstruction

要約

リモートセンシング画像は、環境監視、農業管理、災害対応に不可欠です。
ただし、クラウドカバー、センサーの障害、または不完全な取得によるデータ損失 – 特に高解像度および高周波タスクが衛星画像の有効性を制限します。
伝統的な補間方法は、大きな欠落している領域と複雑な構造と闘っています。
リモートセンシング画像は、それぞれが明確な意味を持つ複数のバンドで構成され、バンド間で一貫性を確保することは、複合画像の異常を避けるために重要です。
このペーパーでは、Satellitemakerを提案します。これは、空間、スペクトル、および時間的一貫性を維持しながら、さまざまなレベルのデータ損失にわたって欠落データを再構築する拡散ベースの方法です。
また、デジタル標高モデル(DEM)をコンディショニング入力として提案し、テーラードプロンプトを使用して現実的な画像を生成し、定量的なリモートセンシングタスクに適用できる拡散モデルを作成します。
さらに、分布損失に基づいてVGG-ADAPTERモジュールを提案します。これにより、分布の不一致が減少し、スタイルの一貫性が確保されます。
広範な実験では、衛星メーカーが複数のタスクで最新のパフォーマンスを達成することが示されています。

要約(オリジナル)

Remote sensing imagery is essential for environmental monitoring, agricultural management, and disaster response. However, data loss due to cloud cover, sensor failures, or incomplete acquisition-especially in high-resolution and high-frequency tasks-severely limits satellite imagery’s effectiveness. Traditional interpolation methods struggle with large missing areas and complex structures. Remote sensing imagery consists of multiple bands, each with distinct meanings, and ensuring consistency across bands is critical to avoid anomalies in the combined images. This paper proposes SatelliteMaker, a diffusion-based method that reconstructs missing data across varying levels of data loss while maintaining spatial, spectral, and temporal consistency. We also propose Digital Elevation Model (DEM) as a conditioning input and use tailored prompts to generate realistic images, making diffusion models applicable to quantitative remote sensing tasks. Additionally, we propose a VGG-Adapter module based on Distribution Loss, which reduces distribution discrepancy and ensures style consistency. Extensive experiments show that SatelliteMaker achieves state-of-the-art performance across multiple tasks.

arxiv情報

著者 Zhenyu Yu,Mohd Yamani Inda Idris,Pei Wang
発行日 2025-04-16 14:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Diffusion-Based Framework for Terrain-Aware Remote Sensing Image Reconstruction はコメントを受け付けていません

Remote sensing colour image semantic segmentation of trails created by large herbivorous Mammals

要約

生物多様性が危険にさらされている空間領域の検出は、生態系の保全と監視にとって最も重要です。
大きな陸生哺乳類の草食動物は、彼らの活動が土壌、植物、動物に深い影響を与えるだけでなく、大きな草食動物が同種生態系エンジニアとして作用するため、景観を形作るため、キーストーン種です。
激しい草食動物の活動を示し、生物多様性に影響を与える可能性のある重要な景観機能の1つは、放牧トレイルの形成です。
放牧トレイルは、裸の土壌のトラックの複雑なネットワークを生成できる大きな草食動物の連続的な踏みつけ活動によって形成されます。
ここでは、放牧トレイルを特定するための機械学習技術に基づいて、さまざまなアルゴリズムを評価しました。
私たちの目標は、激しい草食活動のある潜在的な領域を自動的に検出することです。これは、保全と管理計画に有益である可能性があります。
空中画像に放牧トレイルをマッピングすることを目的とした14のエンコーダーと組み合わせた5つのセマンティックセグメンテーション方法を適用しました。
私たちの結果は、ほとんどの場合、選択した方法論がトレイルをうまくマッピングしたことを示していますが、実際のトレイル構造が過小評価されていたいくつかの例がありました。
Mambaoutエンコーダーを備えたUNETアーキテクチャは、マッピングトレイルに最適なアーキテクチャでした。
提案されたアプローチは、生息地の保全と土地管理プログラムをサポートするために、これらの景観構造の時間的変化をマッピングおよび監視するためのツールを開発するために適用できます。
私たちの知る限り、これは初めてのことですが、大規模な草食性哺乳類のトレイルの検出と描写のために、競争力のある画像セグメンテーションの結果が得られることです。

要約(オリジナル)

Detection of spatial areas where biodiversity is at risk is of paramount importance for the conservation and monitoring of ecosystems. Large terrestrial mammalian herbivores are keystone species as their activity not only has deep effects on soils, plants, and animals, but also shapes landscapes, as large herbivores act as allogenic ecosystem engineers. One key landscape feature that indicates intense herbivore activity and potentially impacts biodiversity is the formation of grazing trails. Grazing trails are formed by the continuous trampling activity of large herbivores that can produce complex networks of tracks of bare soil. Here, we evaluated different algorithms based on machine learning techniques to identify grazing trails. Our goal is to automatically detect potential areas with intense herbivory activity, which might be beneficial for conservation and management plans. We have applied five semantic segmentation methods combined with fourteen encoders aimed at mapping grazing trails on aerial images. Our results indicate that in most cases the chosen methodology successfully mapped the trails, although there were a few instances where the actual trail structure was underestimated. The UNet architecture with the MambaOut encoder was the best architecture for mapping trails. The proposed approach could be applied to develop tools for mapping and monitoring temporal changes in these landscape structures to support habitat conservation and land management programs. This is the first time, to the best of our knowledge, that competitive image segmentation results are obtained for the detection and delineation of trails of large herbivorous mammals.

arxiv情報

著者 Jose Francisco Diez-Pastor,Francisco Javier Gonzalez-Moya,Pedro Latorre-Carmona,Francisco Javier Perez-Barbería,Ludmila I. Kuncheva,Antonio Canepa-Oneto,Alvar Arnaiz-González,Cesar Garcia-Osorio
発行日 2025-04-16 14:33:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Remote sensing colour image semantic segmentation of trails created by large herbivorous Mammals はコメントを受け付けていません

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

要約

モノクラー画像からの3Dヒトモデルの再構築は、パフォーマンス追跡、怪我防止、仮想トレーニングなど、スポーツ業界で重要なアプリケーションを持っています。
この作業では、3Dヒトのポーズと形状の推定を、ガウスの混合物で構成されるシーンの表現である3Dガウススプラッティング(3DGS)と組み合わせます。
これにより、3Dグラウンドトゥルースなしで、マルチビュー画像のみで人間のモデル予測子をトレーニングまたは微調整できます。
単一の入力画像から人間のこのような混合物を予測することは、自己閉鎖と関節への依存のために困難ですが、さまざまな衣服やポーズに対応するのに十分な柔軟性を維持する必要があります。
私たちの重要な観察は、標準化されたヒトメッシュ(SMPLなど)の頂点が、ガウスの適切な空間密度と近似初期位置を提供できることです。
次に、トランスモデルをトレーニングして、これらの位置と他の3DGS属性とSMPLパラメーターに対する比較的小さな調整を共同で予測できます。
この組み合わせ(マルチビュー監督のみを使用)が、高価な拡散モデルまたは3Dポイント監督のない単一の画像から3Dヒトモデルのほぼリアルタイム推論を達成できるため、あらゆるレベルのスポーツ業界に最適であることを経験的に示しています。
さらに重要なことは、レンダリングは、衣服やその他の幾何学的なバリエーションを占めることにより、3Dポーズ推定を改善する効果的な補助目標です。
このコードはhttps://github.com/prosperolo/gstで入手できます。

要約(オリジナル)

Reconstructing posed 3D human models from monocular images has important applications in the sports industry, including performance tracking, injury prevention and virtual training. In this work, we combine 3D human pose and shape estimation with 3D Gaussian Splatting (3DGS), a representation of the scene composed of a mixture of Gaussians. This allows training or fine-tuning a human model predictor on multi-view images alone, without 3D ground truth. Predicting such mixtures for a human from a single input image is challenging due to self-occlusions and dependence on articulations, while also needing to retain enough flexibility to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate spatial density and approximate initial position for the Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other 3DGS attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve near real-time inference of 3D human models from a single image without expensive diffusion models or 3D points supervision, thus making it ideal for the sport industry at any level. More importantly, rendering is an effective auxiliary objective to refine 3D pose estimation by accounting for clothes and other geometric variations. The code is available at https://github.com/prosperolo/GST.

arxiv情報

著者 Lorenza Prospero,Abdullah Hamdi,Joao F. Henriques,Christian Rupprecht
発行日 2025-04-16 14:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers はコメントを受け付けていません

Anti-Aesthetics: Protecting Facial Privacy against Customized Text-to-Image Synthesis

要約

カスタマイズされた拡散モデルの台頭により、パーソナライズされた視覚コンテンツの作成が活気づきましたが、悪意のある誤用のリスクも引き起こし、個人のプライバシーと著作権保護を厳しく脅かしています。
いくつかの研究は、画像の美的特性が画質の人間の認識と非常に正の相関があることを示しています。
これに触発されて、私たちは斬新で興味をそそる美的観点から問題にアプローチし、悪意のあるカスタマイズされたモデルの生成品質を低下させ、それによって顔のアイデンティティのより良い保護を実現します。
具体的には、2つの重要な分岐で構成される美学の手がかりを完全に探求するための階層抗アスエティック(HAA)フレームワークを提案します。
2)局所的な反美術学:局所的な抗審美的な報酬メカニズムと局所的な抗アスエティック損失は、局所的な顔のアイデンティティを混乱させるために敵対的な摂動を導くように設計されています。
両方のブランチをシームレスに統合することにより、当社のHAAは、カスタマイズされた世代の間に、グローバルレベルからローカルレベルへの反美学の目標を効果的に達成します。
広範な実験では、HAAが既存のSOTAメソッドを主にアイデンティティ除去で上回り、顔のプライバシーと著作権を保護するための強力なツールを提供することが示されています。

要約(オリジナル)

The rise of customized diffusion models has spurred a boom in personalized visual content creation, but also poses risks of malicious misuse, severely threatening personal privacy and copyright protection. Some studies show that the aesthetic properties of images are highly positively correlated with human perception of image quality. Inspired by this, we approach the problem from a novel and intriguing aesthetic perspective to degrade the generation quality of maliciously customized models, thereby achieving better protection of facial identity. Specifically, we propose a Hierarchical Anti-Aesthetic (HAA) framework to fully explore aesthetic cues, which consists of two key branches: 1) Global Anti-Aesthetics: By establishing a global anti-aesthetic reward mechanism and a global anti-aesthetic loss, it can degrade the overall aesthetics of the generated content; 2) Local Anti-Aesthetics: A local anti-aesthetic reward mechanism and a local anti-aesthetic loss are designed to guide adversarial perturbations to disrupt local facial identity. By seamlessly integrating both branches, our HAA effectively achieves the goal of anti-aesthetics from a global to a local level during customized generation. Extensive experiments show that HAA outperforms existing SOTA methods largely in identity removal, providing a powerful tool for protecting facial privacy and copyright.

arxiv情報

著者 Songping Wang,Yueming Lyu,Shiqi Liu,Ning Li,Tong Tong,Hao Sun,Caifeng Shan
発行日 2025-04-16 14:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anti-Aesthetics: Protecting Facial Privacy against Customized Text-to-Image Synthesis はコメントを受け付けていません

Weakly Semi-supervised Whole Slide Image Classification by Two-level Cross Consistency Supervision

要約

コンピューター支援全体のスライド画像(WSI)分類は、臨床病理学的診断の精度と効率を高める可能性があります。
一般に、複数のインスタンス学習(MIL)問題として定式化されています。各WSIはバッグとして扱われ、WSIから抽出された小さなパッチはそのバッグ内のインスタンスと見なされます。
ただし、特に新しい分類タスクに既存のWSIを使用する場合、多数のバッグのラベルを取得することは、費用がかかり、時間のかかるプロセスです。
この制限により、ほとんどの既存のWSI分類方法が効果的ではありません。
この問題に対処するために、臨床診療とより整合する新しいWSI分類問題設定を提案します。
WSWCでは、少数のバッグがラベル付けされていますが、かなりの数のバッグはラベル付けされていません。
WSWC問題のMIL性は、パッチラベルの欠如と相まって、典型的な半監視画像分類の問題と区別し、WSWC問題を直接解決するのに適していない自然画像の既存のアルゴリズムを作成します。
この論文では、Crocoという名前の簡潔で効率的なフレームワークを紹介し、2レベルのクロスコンシステンシー監督を通じてWSWCの問題に取り組んでいます。
Crocoは、インスタンス分類とバッグ分類の両方を実行できる2つの不均一な分類子分岐で構成されています。
基本的なアイデアは、トレーニング中に2つのブランチ間のバッグレベルとインスタンスレベルの両方で、相互整合性の監督を確立することです。
4つのデータセットで実施された広範な実験は、クロコがバッグラベルを備えた限られたWSIが利用可能な場合、他の比較方法と比較して優れたバッグ分類とインスタンス分類パフォーマンスを達成することを示しています。
私たちの知る限り、この論文はWSWCの問題を初めて提示し、解決を成功させます。

要約(オリジナル)

Computer-aided Whole Slide Image (WSI) classification has the potential to enhance the accuracy and efficiency of clinical pathological diagnosis. It is commonly formulated as a Multiple Instance Learning (MIL) problem, where each WSI is treated as a bag and the small patches extracted from the WSI are considered instances within that bag. However, obtaining labels for a large number of bags is a costly and time-consuming process, particularly when utilizing existing WSIs for new classification tasks. This limitation renders most existing WSI classification methods ineffective. To address this issue, we propose a novel WSI classification problem setting, more aligned with clinical practice, termed Weakly Semi-supervised Whole slide image Classification (WSWC). In WSWC, a small number of bags are labeled, while a significant number of bags remain unlabeled. The MIL nature of the WSWC problem, coupled with the absence of patch labels, distinguishes it from typical semi-supervised image classification problems, making existing algorithms for natural images unsuitable for directly solving the WSWC problem. In this paper, we present a concise and efficient framework, named CroCo, to tackle the WSWC problem through two-level Cross Consistency supervision. CroCo comprises two heterogeneous classifier branches capable of performing both instance classification and bag classification. The fundamental idea is to establish cross-consistency supervision at both the bag-level and instance-level between the two branches during training. Extensive experiments conducted on four datasets demonstrate that CroCo achieves superior bag classification and instance classification performance compared to other comparative methods when limited WSIs with bag labels are available. To the best of our knowledge, this paper presents for the first time the WSWC problem and gives a successful resolution.

arxiv情報

著者 Linhao Qu,Shiman Li,Xiaoyuan Luo,Shaolei Liu,Qinhao Guo,Manning Wang,Zhijian Song
発行日 2025-04-16 14:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Weakly Semi-supervised Whole Slide Image Classification by Two-level Cross Consistency Supervision はコメントを受け付けていません

Efficient Contrastive Decoding with Probabilistic Hallucination Detection – Mitigating Hallucinations in Large Vision Language Models –

要約

大規模なビジョン言語モデル(LVLMS)の最近の進歩にもかかわらず、これらのモデルは、提供された視覚入力と一致しない幻覚反応を生成することに依然として苦しんでいます。
このような幻覚を軽減するために、効率的なコントラストデコード(ECD)を導入します。これは、確率的幻覚検出を活用して、出力分布を推論時間に文脈的に正確な回答にシフトする簡単な方法です。
ECDは、トークンの確率と幻覚スコアを対比することにより、元の分布から幻覚の概念を差し引き、幻覚を効果的に抑制します。
特に、提案された方法は、オープンソースLVLMに適用でき、追加のLVLMトレーニングは必要ありません。
いくつかのベンチマークデータセットとさまざまなLVLMでの方法を評価します。
私たちの実験は、ECDが幻覚を効果的に軽減し、LVLMベンチマークと計算時間のパフォーマンスに関して最先端の方法を上回ることを示しています。

要約(オリジナル)

Despite recent advances in Large Vision Language Models (LVLMs), these models still suffer from generating hallucinatory responses that do not align with the visual input provided. To mitigate such hallucinations, we introduce Efficient Contrastive Decoding (ECD), a simple method that leverages probabilistic hallucination detection to shift the output distribution towards contextually accurate answers at inference time. By contrasting token probabilities and hallucination scores, ECD subtracts hallucinated concepts from the original distribution, effectively suppressing hallucinations. Notably, our proposed method can be applied to any open-source LVLM and does not require additional LVLM training. We evaluate our method on several benchmark datasets and across different LVLMs. Our experiments show that ECD effectively mitigates hallucinations, outperforming state-of-the-art methods with respect to performance on LVLM benchmarks and computation time.

arxiv情報

著者 Laura Fieback,Nishilkumar Balar,Jakob Spiegelberg,Hanno Gottschalk
発行日 2025-04-16 14:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Efficient Contrastive Decoding with Probabilistic Hallucination Detection – Mitigating Hallucinations in Large Vision Language Models – はコメントを受け付けていません

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

要約

ビジョン言語モデル(VLM)の進歩により、強力な推論能力を活用するための自律運転への関心が高まっています。
ただし、これらの機能を2Dから完全な3D理解に拡張することは、実際のアプリケーションでは重要です。
この課題に対処するために、オムニドライブを提案します。これは、エージェントモデルを反事実的推論を通じて3D駆動タスクに合わせる全体的なビジョン言語データセットです。
このアプローチは、代替行動を検討している人間のドライバーと同様に、潜在的なシナリオとその結果を評価することにより、意思決定を強化します。
当社の反事実ベースの合成データアノテーションプロセスは、大規模で高品質のデータセットを生成し、ブリッジ計画の軌跡と言語ベースの推論を橋渡しする監督信号を提供します。
Futherでは、2つの高度なOmnidrive-Agent Framework、すなわちOmni-LとOmni-Qを調査して、視覚言語のアライメントと3D知覚の重要性を評価し、効果的なLLMエージェントの設計に関する重要な洞察を明らかにします。
Drivelm Q \&A BenchmarkとNuscenesのオープンループ計画の大幅な改善は、データセットとメソッドの有効性を示しています。

要約(オリジナル)

The advances in vision-language models (VLMs) have led to a growing interest in autonomous driving to leverage their strong reasoning capabilities. However, extending these capabilities from 2D to full 3D understanding is crucial for real-world applications. To address this challenge, we propose OmniDrive, a holistic vision-language dataset that aligns agent models with 3D driving tasks through counterfactual reasoning. This approach enhances decision-making by evaluating potential scenarios and their outcomes, similar to human drivers considering alternative actions. Our counterfactual-based synthetic data annotation process generates large-scale, high-quality datasets, providing denser supervision signals that bridge planning trajectories and language-based reasoning. Futher, we explore two advanced OmniDrive-Agent frameworks, namely Omni-L and Omni-Q, to assess the importance of vision-language alignment versus 3D perception, revealing critical insights into designing effective LLM-agents. Significant improvements on the DriveLM Q\&A benchmark and nuScenes open-loop planning demonstrate the effectiveness of our dataset and methods.

arxiv情報

著者 Shihao Wang,Zhiding Yu,Xiaohui Jiang,Shiyi Lan,Min Shi,Nadine Chang,Jan Kautz,Ying Li,Jose M. Alvarez
発行日 2025-04-16 15:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning はコメントを受け付けていません