Highly Accurate and Diverse Traffic Data: The DeepScenario Open 3D Dataset

要約

正確な3D軌道データは、自律運転を進めるために重要です。
しかし、従来のデータセットは通常、車に取り付けられた固定センサーによってキャプチャされ、閉塞の影響を受けやすいです。
さらに、このようなアプローチは、遠く離れたオブジェクトを無視しながら、測定車両の近くのみの動的環境を正確に再構築できます。
このホワイトペーパーでは、新しい単眼カメラドローントラッキングパイプラインを介して取得した6度の自由境界境界ボックスの軌跡の高品質で咬合のないデータセットであるDeepscenario Open 3Dデータセット(DSC3D)を紹介します。
私たちのデータセットには、14種類のトラフィック参加者の175,000を超える軌跡が含まれており、多様性と規模の観点から既存のデータセットを大幅に超えています。
DSC3Dデータセットは、ヨーロッパと米国の5つのさまざまな場所でキャプチャされ、駐車場、混雑した都心、急な都市交差点、連邦高速道路、郊外の交差点が含まれます。
3D軌道データセットは、詳細な環境3D表現を提供することにより、自律運転システムを強化することを目的としています。これにより、障害物の相互作用と安全性が向上する可能性があります。
モーション予測、モーション計画、シナリオマイニング、生成リアクティブトラフィックエージェントなど、複数のアプリケーションにわたってそのユーティリティを実証します。
インタラクティブなオンライン視覚化プラットフォームと完全なデータセットは、https://app.deepscenario.comで公開されており、動きの予測、行動モデリング、安全検証の研究を促進します。

要約(オリジナル)

Accurate 3D trajectory data is crucial for advancing autonomous driving. Yet, traditional datasets are usually captured by fixed sensors mounted on a car and are susceptible to occlusion. Additionally, such an approach can precisely reconstruct the dynamic environment in the close vicinity of the measurement vehicle only, while neglecting objects that are further away. In this paper, we introduce the DeepScenario Open 3D Dataset (DSC3D), a high-quality, occlusion-free dataset of 6 degrees of freedom bounding box trajectories acquired through a novel monocular camera drone tracking pipeline. Our dataset includes more than 175,000 trajectories of 14 types of traffic participants and significantly exceeds existing datasets in terms of diversity and scale, containing many unprecedented scenarios such as complex vehicle-pedestrian interaction on highly populated urban streets and comprehensive parking maneuvers from entry to exit. DSC3D dataset was captured in five various locations in Europe and the United States and include: a parking lot, a crowded inner-city, a steep urban intersection, a federal highway, and a suburban intersection. Our 3D trajectory dataset aims to enhance autonomous driving systems by providing detailed environmental 3D representations, which could lead to improved obstacle interactions and safety. We demonstrate its utility across multiple applications including motion prediction, motion planning, scenario mining, and generative reactive traffic agents. Our interactive online visualization platform and the complete dataset are publicly available at https://app.deepscenario.com, facilitating research in motion prediction, behavior modeling, and safety validation.

arxiv情報

著者 Oussema Dhaouadi,Johannes Meier,Luca Wahl,Jacques Kaiser,Luca Scalerandi,Nick Wandelburg,Zhuolun Zhou,Nijanthan Berinpanathan,Holger Banzhaf,Daniel Cremers
発行日 2025-04-25 12:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Highly Accurate and Diverse Traffic Data: The DeepScenario Open 3D Dataset はコメントを受け付けていません

Outlier-aware Tensor Robust Principal Component Analysis with Self-guided Data Augmentation

要約

テンソル堅牢な主成分分析(TRPCA)は、多次元データを低ランクのテンソルと異常値のテンソルに分解するための基本的な手法ですが、まばらな異常値の仮定に依存する既存の方法は、構造化された腐敗の下でしばしば失敗します。
この論文では、適応的な重み付けを使用して異常値の影響を抑制する自己ガイド付きデータ増強アプローチを提案し、元のTRPCA問題を標準的なテンソル主成分分析(TPCA)問題に再定式化します。
提案されたモデルには、テンソル増強中の外れレイヤーの貢献を動的に識別し、ダウンウェイトする最適化駆動型の重み制度が含まれます。
結果として生じる最適化問題を解決し、計算効率を確保するために、閉じた形式の更新を備えた効率的な近位ブロック座標降下アルゴリズムを開発します。
理論的収束は、ブロック座標降下と大規模な最小化原理を組み合わせたフレームワークを通じて保証されます。
顔の回復、バックグラウンド減算、ハイパースペクトル除去など、合成および現実世界のデータセットに関する数値実験は、私たちの方法がさまざまな腐敗パターンを効果的に処理することを示しています。
結果は、最先端の方法と比較して、精度と計算効率の両方の改善を示しています。

要約(オリジナル)

Tensor Robust Principal Component Analysis (TRPCA) is a fundamental technique for decomposing multi-dimensional data into a low-rank tensor and an outlier tensor, yet existing methods relying on sparse outlier assumptions often fail under structured corruptions. In this paper, we propose a self-guided data augmentation approach that employs adaptive weighting to suppress outlier influence, reformulating the original TRPCA problem into a standard Tensor Principal Component Analysis (TPCA) problem. The proposed model involves an optimization-driven weighting scheme that dynamically identifies and downweights outlier contributions during tensor augmentation. We develop an efficient proximal block coordinate descent algorithm with closed-form updates to solve the resulting optimization problem, ensuring computational efficiency. Theoretical convergence is guaranteed through a framework combining block coordinate descent with majorization-minimization principles. Numerical experiments on synthetic and real-world datasets, including face recovery, background subtraction, and hyperspectral denoising, demonstrate that our method effectively handles various corruption patterns. The results show the improvements in both accuracy and computational efficiency compared to state-of-the-art methods.

arxiv情報

著者 Yangyang Xu,Kexin Li,Li Yang,You-Wei Wen
発行日 2025-04-25 13:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 15A69, 65K10, cs.CV, cs.LG, cs.NA, G.1.6, math.NA | Outlier-aware Tensor Robust Principal Component Analysis with Self-guided Data Augmentation はコメントを受け付けていません

TDAvec: Computing Vector Summaries of Persistence Diagrams for Topological Data Analysis in R and Python

要約

永続性相同性は、複雑なデータの基礎となる形状を理解するためのトポロジーデータ分析(TDA)の広く使用されているツールです。
データポイントから単純化複合体のろ過を構築することにより、複数のスケールにわたって接続されたコンポーネント、ループ、ボイドなどのトポロジー特徴をキャプチャします。
これらの機能は、データのトポロジ構造の簡潔な要約を提供する永続的図(PDS)にエンコードされています。
ただし、PDSの空間の非ヒルベルトの性質は、機械学習アプリケーションで直接使用するための課題をもたらします。
これに対処するために、PDSを機械学習互換形式に変換するためのカーネルメソッドとベクトル化手法が開発されました。
このペーパーでは、PDSのベクトル化を合理化するように設計された新しいソフトウェアパッケージを紹介し、直感的なワークフローと高度な機能を提供します。
実用的な例を通じてパッケージの必要性を実証し、応用TDAへの貢献に関する詳細な議論を提供します。
パッケージで使用されるすべてのベクトル化概要の定義は、付録に含まれています。

要約(オリジナル)

Persistent homology is a widely-used tool in topological data analysis (TDA) for understanding the underlying shape of complex data. By constructing a filtration of simplicial complexes from data points, it captures topological features such as connected components, loops, and voids across multiple scales. These features are encoded in persistence diagrams (PDs), which provide a concise summary of the data’s topological structure. However, the non-Hilbert nature of the space of PDs poses challenges for their direct use in machine learning applications. To address this, kernel methods and vectorization techniques have been developed to transform PDs into machine-learning-compatible formats. In this paper, we introduce a new software package designed to streamline the vectorization of PDs, offering an intuitive workflow and advanced functionalities. We demonstrate the necessity of the package through practical examples and provide a detailed discussion on its contributions to applied TDA. Definitions of all vectorization summaries used in the package are included in the appendix.

arxiv情報

著者 Aleksei Luchinsky,Umar Islambekov
発行日 2025-04-25 13:07:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, math.AT | TDAvec: Computing Vector Summaries of Persistence Diagrams for Topological Data Analysis in R and Python はコメントを受け付けていません

Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation

要約

単一カメラ画像から深さ情報をキャプチャするのが難しいため、単眼3Dレーン検出は困難です。
一般的な戦略には、逆の視点マッピング(IPM)を介して、フロントビュー(FV)画像を鳥瞰図(BEV)空間に変換し、BEV機能を使用したレーン検出を促進します。
ただし、IPMのフラットグラウンドの仮定とコンテキスト情報の喪失は、3D情報、特に高さの再構築における不正確さにつながります。
このホワイトペーパーでは、これらの制限に対処し、3Dレーン検出の精度を向上させるBEVベースのフレームワークを紹介します。
私たちのアプローチには、さまざまな深さにわたって空間的認識を高めることにより、マルチスケールの深さの特徴を提供する階層的な深さアウェアヘッドが組み込まれており、フラットグラウンドの仮定を軽減します。
さらに、深さの事前蒸留を活用して、教師モデルからセマンティック深度知識を移転し、複雑なレーン構造のより豊かな構造的およびコンテキスト情報をキャプチャします。
車線の連続性をさらに絞り込み、滑らかな車線再構成を確保するために、レーン予測に空間的一貫性を強制する条件付きランダムフィールドモジュールを導入します。
広範な実験では、我々の方法がZ軸エラーの観点から最先端のパフォーマンスを達成し、全体的なパフォーマンスでフィールドの他の方法を上回ることを検証します。
このコードは、https://anonymous.4open.science/r/depth3dlane-dcddでリリースされます。

要約(オリジナル)

Monocular 3D lane detection is challenging due to the difficulty in capturing depth information from single-camera images. A common strategy involves transforming front-view (FV) images into bird’s-eye-view (BEV) space through inverse perspective mapping (IPM), facilitating lane detection using BEV features. However, IPM’s flat-ground assumption and loss of contextual information lead to inaccuracies in reconstructing 3D information, especially height. In this paper, we introduce a BEV-based framework to address these limitations and improve 3D lane detection accuracy. Our approach incorporates a Hierarchical Depth-Aware Head that provides multi-scale depth features, mitigating the flat-ground assumption by enhancing spatial awareness across varying depths. Additionally, we leverage Depth Prior Distillation to transfer semantic depth knowledge from a teacher model, capturing richer structural and contextual information for complex lane structures. To further refine lane continuity and ensure smooth lane reconstruction, we introduce a Conditional Random Field module that enforces spatial coherence in lane predictions. Extensive experiments validate that our method achieves state-of-the-art performance in terms of z-axis error and outperforms other methods in the field in overall performance. The code is released at: https://anonymous.4open.science/r/Depth3DLane-DCDD.

arxiv情報

著者 Dongxin Lyu,Han Huang,Cheng Tan,Zimu Li
発行日 2025-04-25 13:08:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation はコメントを受け付けていません

SSD-Poser: Avatar Pose Estimation with State Space Duality from Sparse Observations

要約

AR/VRのアプリケーションの増加により、ヘッドマウントディスプレイ(HMDS)からのリアルタイムフルボディポーズ推定の需要が増加します。
HMDは頭と手から関節信号を提供しますが、全身のポーズを再構築することは、制約のない下半身のために依然として挑戦的です。
最近の進歩は、多くの場合、従来のニューラルネットワークと生成モデルに依存して、変圧器や拡散モデルなどのこのタスクのパフォーマンスを改善します。
ただし、これらのアプローチは、正確なポーズ再構成を達成することと、推論の速度を維持することとのバランスをとるのに苦労しています。
これらの課題を克服するために、軽量で効率的なモデルであるSSDポーザーは、まばらな観測からの堅牢なフルボディモーション推定のために設計されています。
SSD-Poserには、適切に設計されたハイブリッドエンコーダーである状態空間注意エンコーダが組み込まれており、状態空間の二重性を複雑なモーションポーズに適応させ、リアルタイムのリアルなポーズ再構築を可能にします。
さらに、周波数認識デコーダーが導入され、可変周波数の動き信号によって引き起こされるジッターを緩和し、モーションスムーズさを著しく強化します。
AMASSデータセットでの包括的な実験は、SSDポーザーが並外れた精度と計算効率を達成し、最先端の方法と比較して優れた推論効率を示していることを示しています。

要約(オリジナル)

The growing applications of AR/VR increase the demand for real-time full-body pose estimation from Head-Mounted Displays (HMDs). Although HMDs provide joint signals from the head and hands, reconstructing a full-body pose remains challenging due to the unconstrained lower body. Recent advancements often rely on conventional neural networks and generative models to improve performance in this task, such as Transformers and diffusion models. However, these approaches struggle to strike a balance between achieving precise pose reconstruction and maintaining fast inference speed. To overcome these challenges, a lightweight and efficient model, SSD-Poser, is designed for robust full-body motion estimation from sparse observations. SSD-Poser incorporates a well-designed hybrid encoder, State Space Attention Encoders, to adapt the state space duality to complex motion poses and enable real-time realistic pose reconstruction. Moreover, a Frequency-Aware Decoder is introduced to mitigate jitter caused by variable-frequency motion signals, remarkably enhancing the motion smoothness. Comprehensive experiments on the AMASS dataset demonstrate that SSD-Poser achieves exceptional accuracy and computational efficiency, showing outstanding inference efficiency compared to state-of-the-art methods.

arxiv情報

著者 Shuting Zhao,Linxin Bai,Liangjing Shao,Ye Zhang,Xinrong Chen
発行日 2025-04-25 13:18:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U05, cs.CV, cs.HC | SSD-Poser: Avatar Pose Estimation with State Space Duality from Sparse Observations はコメントを受け付けていません

Transforming Hyperspectral Images Into Chemical Maps: An End-to-End Deep Learning Approach

要約

ハイパースペクトル画像からの化学マップ生成への現在のアプローチは、部分的な最小二乗(PLS)回帰などのモデルに基づいており、空間的コンテキストを考慮せず、高度なノイズに苦しむピクセルごとの予測を生成します。
この研究では、U-NETの修正バージョンとカスタム損失関数を使用してエンドツーエンドの深い学習アプローチを提案し、ハイパースペクトル画像から化学マップを直接取得し、従来のピクセルごとの分析に必要なすべての中間ステップをスキップします。
u-netを、関連する平均脂肪基準値を持つ豚ベリーサンプルの実際のデータセット上の従来のPLS回帰と比較します。
U-NETは、平均脂肪予測のタスクに対するPLS回帰のそれよりも9%から13%低いテストセットのルート平均誤差を取得します。
同時に、u-netは、分散の99.91%が空間的に相関している細かい詳細化学マップを生成します。
逆に、PLS生成化学マップの分散の2.53%のみが空間的に相関しており、各ピクセルごとの予測は隣接するピクセルに大きく依存しないことを示しています。
さらに、PLS生成された化学マップには、0〜100%の物理的に可能な範囲をはるかに超える予測が含まれていますが、U-Netはこの範囲内にとどまることを学びます。
したがって、この研究の結果は、U-NETが化学マップ生成のPLSよりも優れていることを示しています。

要約(オリジナル)

Current approaches to chemical map generation from hyperspectral images are based on models such as partial least squares (PLS) regression, generating pixel-wise predictions that do not consider spatial context and suffer from a high degree of noise. This study proposes an end-to-end deep learning approach using a modified version of U-Net and a custom loss function to directly obtain chemical maps from hyperspectral images, skipping all intermediate steps required for traditional pixel-wise analysis. We compare the U-Net with the traditional PLS regression on a real dataset of pork belly samples with associated mean fat reference values. The U-Net obtains a test set root mean squared error of between 9% and 13% lower than that of PLS regression on the task of mean fat prediction. At the same time, U-Net generates fine detail chemical maps where 99.91% of the variance is spatially correlated. Conversely, only 2.53% of the variance in the PLS-generated chemical maps is spatially correlated, indicating that each pixel-wise prediction is largely independent of neighboring pixels. Additionally, while the PLS-generated chemical maps contain predictions far beyond the physically possible range of 0-100%, U-Net learns to stay inside this range. Thus, the findings of this study indicate that U-Net is superior to PLS for chemical map generation.

arxiv情報

著者 Ole-Christian Galbo Engstrøm,Michela Albano-Gaglio,Erik Schou Dreier,Yamine Bouzembrak,Maria Font-i-Furnols,Puneet Mishra,Kim Steenstrup Pedersen
発行日 2025-04-25 13:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.QM | Transforming Hyperspectral Images Into Chemical Maps: An End-to-End Deep Learning Approach はコメントを受け付けていません

NUDF: Neural Unsigned Distance Fields for high resolution 3D medical image segmentation

要約

医療画像のセグメンテーションは、各ピクセルまたはボクセルを特定の解剖学の内側または外側にラベル付けするタスクと見なされることがよくあります。
元のサイズと解像度で画像を処理すると、多くの場合、メモリの要件が克服できないことがよくありますが、画像をダウンサンプリングすると、重要な詳細が失われます。
バイナリボクセルグリッドで滑らかで連続的な表面を表現することを目指す代わりに、画像から直接神経署名されていない距離フィールド(NUDF)を学習することを提案します。
NUDFの小さなメモリ要件により、高解像度処理が可能になりますが、距離フィールドの連続性により、トポロジー(つまり、開いた表面)の形状の高解像度3Dメッシュモデルを作成できます。
コンピューター断層撮影(CT)画像からの左心房付属物(LAA)セグメンテーションのタスクに関する方法を評価します。
LAAは複雑で非常に可変的な形状であるため、離散ラベルマップを使用した従来のセグメンテーション方法で表現することは困難です。
提案された方法により、LAAの詳細をキャプチャする3Dメッシュモデルを予測し、CT画像のボクセル間隔の順序で精度を達成することができます。

要約(オリジナル)

Medical image segmentation is often considered as the task of labelling each pixel or voxel as being inside or outside a given anatomy. Processing the images at their original size and resolution often result in insuperable memory requirements, but downsampling the images leads to a loss of important details. Instead of aiming to represent a smooth and continuous surface in a binary voxel-grid, we propose to learn a Neural Unsigned Distance Field (NUDF) directly from the image. The small memory requirements of NUDF allow for high resolution processing, while the continuous nature of the distance field allows us to create high resolution 3D mesh models of shapes of any topology (i.e. open surfaces). We evaluate our method on the task of left atrial appendage (LAA) segmentation from Computed Tomography (CT) images. The LAA is a complex and highly variable shape, being thus difficult to represent with traditional segmentation methods using discrete labelmaps. With our proposed method, we are able to predict 3D mesh models that capture the details of the LAA and achieve accuracy in the order of the voxel spacing in the CT images.

arxiv情報

著者 Kristine Sørensen,Oscar Camara,Ole de Backer,Klaus Kofoed,Rasmus Paulsen
発行日 2025-04-25 13:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | NUDF: Neural Unsigned Distance Fields for high resolution 3D medical image segmentation はコメントを受け付けていません

TSCL:Multi-party loss Balancing scheme for deep learning Image steganography based on Curriculum learning

要約

ディープラーニングベースの画像ステガノグラフィーフレームワークの場合、情報の埋め込みの不可視性と回復可能性を確保するために、損失関数には通常、埋め込み損失、回復損失、ステガン分析損失などのいくつかの損失が含まれます。
以前の研究作業では、通常、トレーニングの最適化のために固定された損失の重みが選択されており、この設定は、ステガノグラフィタスク自体とトレーニングプロセスの重要性にリンクされていません。
この論文では、ディープラーニング画像ステガノグラフィーアルゴリズムの多項損失のバランスをとるために、2段階のカリキュラム学習損失スケジューラ(TSCL)を提案します。
TSCLは、アプリオリカリキュラム制御と損失ダイナミクス制御の2つのフェーズで構成されています。
第1フェーズでは、まず、マルチパーティの敵対的トレーニングの損失の重みを制御することにより、元の画像の情報埋め込みを学習することにモデルを焦点を当てます。
第二に、モデルは学習の焦点をデコードの精度を向上させるためにシフトさせます。
そして最後に、モデルは、ステガナリシスに耐性のあるステガノグラフィ画像を生成することを学習させます。
第2段階では、各トレーニングタスクの学習速度は、前後の反復ラウンドの損失ドロップを計算して、各タスクの学習のバランスをとることにより評価されます。
3つの大規模なパブリックデータセット、Alaska2、VOC2012、およびImagenetの実験結果は、提案されているTSCL戦略がステガノグラフィーの品質を向上させ、精度とセキュリティを解読することを示しています。

要約(オリジナル)

For deep learning-based image steganography frameworks, in order to ensure the invisibility and recoverability of the information embedding, the loss function usually contains several losses such as embedding loss, recovery loss and steganalysis loss. In previous research works, fixed loss weights are usually chosen for training optimization, and this setting is not linked to the importance of the steganography task itself and the training process. In this paper, we propose a Two-stage Curriculum Learning loss scheduler (TSCL) for balancing multinomial losses in deep learning image steganography algorithms. TSCL consists of two phases: a priori curriculum control and loss dynamics control. The first phase firstly focuses the model on learning the information embedding of the original image by controlling the loss weights in the multi-party adversarial training; secondly, it makes the model shift its learning focus to improving the decoding accuracy; and finally, it makes the model learn to generate a steganographic image that is resistant to steganalysis. In the second stage, the learning speed of each training task is evaluated by calculating the loss drop of the before and after iteration rounds to balance the learning of each task. Experimental results on three large public datasets, ALASKA2, VOC2012 and ImageNet, show that the proposed TSCL strategy improves the quality of steganography, decoding accuracy and security.

arxiv情報

著者 Fengchun Liu. Tong Zhang,Chunying Zhang
発行日 2025-04-25 13:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV | TSCL:Multi-party loss Balancing scheme for deep learning Image steganography based on Curriculum learning はコメントを受け付けていません

Revisiting Data Auditing in Large Vision-Language Models

要約

大規模な言語モデル(LLMS)の急増により、視覚的接地を正確に視覚的に接地するためにVisionエンコーダーをLLMと統合する大型視覚モデル(VLMS)があります。
ただし、VLMSは通常、大規模なWebが縮小した画像で訓練され、著作権侵害とプライバシー違反に対する懸念を引き起こし、データ監査がますます緊急になっています。
サンプルがトレーニングで使用されているかどうかを決定するメンバーシップ推論(MI)が重要な監査手法として浮上しており、LLAVAのようなオープンソースVLM(AUC> 80%)の有望な結果が得られました。
この作業では、これらの進歩を再検討し、重大な問題を明らかにします。現在のMIベンチマークは、メンバーと非メンバーの画像間の分布シフトに苦しみ、MIパフォーマンスを膨らませるショートカットキューを導入します。
さらに、これらのシフトの性質を分析し、分布の不一致を定量化するための最適な輸送に基づいて原則的なメトリックを提案します。
現実的な設定でMIを評価するために、I.I.Dを使用して新しいベンチマークを構築します。
メンバーおよび非メンバーの画像。
既存のMIメソッドは、これらの公平な条件下で失敗し、偶然よりもわずかに優れたパフォーマンスを発揮します。
さらに、VLMの埋め込みスペース内のベイズの最適性を調査することにより、MIの理論上の上限を探り、既約のエラー率が高いことを発見します。
この悲観的な見通しにもかかわらず、VLMのMIが特に挑戦的である理由を分析し、監査が実現可能になる場合、フィンチューニング、グラウンドトゥルーステキストへのアクセス、およびセットベースの推論の3つの実用的なシナリオを特定します。
私たちの研究は、VLMSのMIの制限と機会の体系的な見解を提示し、信頼できるデータ監査における将来の努力のガイダンスを提供します。

要約(オリジナル)

With the surge of large language models (LLMs), Large Vision-Language Models (VLMs)–which integrate vision encoders with LLMs for accurate visual grounding–have shown great potential in tasks like generalist agents and robotic control. However, VLMs are typically trained on massive web-scraped images, raising concerns over copyright infringement and privacy violations, and making data auditing increasingly urgent. Membership inference (MI), which determines whether a sample was used in training, has emerged as a key auditing technique, with promising results on open-source VLMs like LLaVA (AUC > 80%). In this work, we revisit these advances and uncover a critical issue: current MI benchmarks suffer from distribution shifts between member and non-member images, introducing shortcut cues that inflate MI performance. We further analyze the nature of these shifts and propose a principled metric based on optimal transport to quantify the distribution discrepancy. To evaluate MI in realistic settings, we construct new benchmarks with i.i.d. member and non-member images. Existing MI methods fail under these unbiased conditions, performing only marginally better than chance. Further, we explore the theoretical upper bound of MI by probing the Bayes Optimality within the VLM’s embedding space and find the irreducible error rate remains high. Despite this pessimistic outlook, we analyze why MI for VLMs is particularly challenging and identify three practical scenarios–fine-tuning, access to ground-truth texts, and set-based inference–where auditing becomes feasible. Our study presents a systematic view of the limits and opportunities of MI for VLMs, providing guidance for future efforts in trustworthy data auditing.

arxiv情報

著者 Hongyu Zhu,Sichu Liang,Wenwen Wang,Boheng Li,Tongxin Yuan,Fangqi Li,ShiLin Wang,Zhuosheng Zhang
発行日 2025-04-25 13:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Revisiting Data Auditing in Large Vision-Language Models はコメントを受け付けていません

Interpretable Affordance Detection on 3D Point Clouds with Probabilistic Prototypes

要約

ロボットエージェントは、自律的に、また人間とロボットの相互作用中に、環境でオブジェクトと対話する方法を理解する必要があります。
特定の相互作用を可能にするオブジェクト領域を識別する3Dポイント雲のアフォーデンス検出は、従来、PointNet ++、DGCNN、またはPointTransFormerV3などの深い学習モデルに依存してきました。
ただし、これらのモデルはブラックボックスとして動作し、意思決定プロセスについての洞察を提供しません。
プロトプネットなどのプロトタイプの学習方法は、「これはそのように見える」ケースベースの推論アプローチを採用することにより、ブラックボックスモデルの解釈可能な代替手段を提供します。
ただし、それらは主に画像ベースのタスクに適用されています。
この作業では、3Dポイントクラウドでのアフォーデンス検出のためのモデルにプロトタイプの学習を適用します。
3D-Afbordancenetベンチマークデータセットでの実験は、プロトタイプモデルが最先端のブラックボックスモデルで競争力のあるパフォーマンスを達成し、固有の解釈可能性を提供することを示しています。
これにより、プロトタイプモデルは、信頼と安全性の向上を必要とする人間とロボットの相互作用シナリオの有望な候補になります。

要約(オリジナル)

Robotic agents need to understand how to interact with objects in their environment, both autonomously and during human-robot interactions. Affordance detection on 3D point clouds, which identifies object regions that allow specific interactions, has traditionally relied on deep learning models like PointNet++, DGCNN, or PointTransformerV3. However, these models operate as black boxes, offering no insight into their decision-making processes. Prototypical Learning methods, such as ProtoPNet, provide an interpretable alternative to black-box models by employing a ‘this looks like that’ case-based reasoning approach. However, they have been primarily applied to image-based tasks. In this work, we apply prototypical learning to models for affordance detection on 3D point clouds. Experiments on the 3D-AffordanceNet benchmark dataset show that prototypical models achieve competitive performance with state-of-the-art black-box models and offer inherent interpretability. This makes prototypical models a promising candidate for human-robot interaction scenarios that require increased trust and safety.

arxiv情報

著者 Maximilian Xiling Li,Korbinian Rudolf,Nils Blank,Rudolf Lioutikov
発行日 2025-04-25 13:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Interpretable Affordance Detection on 3D Point Clouds with Probabilistic Prototypes はコメントを受け付けていません