RESFL: An Uncertainty-Aware Framework for Responsible Federated Learning by Balancing Privacy, Fairness and Utility in Autonomous Vehicles

要約

自動運転車(AVS)は、プライバシーを維持しながら知覚モデルを強化するために、フェデレートラーニング(FL)にますます依存しています。
ただし、既存のFLフレームワークは、プライバシー、公平性、堅牢性のバランスをとるのに苦労しており、人口統計グループ全体でパフォーマンスの格差につながります。
プライバシーの差動プライバシーなどのプライバシーを提供する手法は、データの漏れリスクを軽減しますが、バイアス修正に必要な機密属性へのアクセスを制限することにより公平性を悪化させます。
この作業では、AVSのFLベースのオブジェクト検出のプライバシーと公平性のトレードオフを調査し、両方を最適化する統合ソリューションであるRESFLを導入します。
RESFLには、敵対的なプライバシーの解体と不確実性ガイド付きの公平性に付与された集約が組み込まれています。
敵対的なコンポーネントは、勾配反転層を使用して機密属性を除去し、公平性を維持しながらプライバシーリスクを減らします。
不確実性が認識している集合体は、証拠的なニューラルネットワークを採用してクライアントの更新を適応的に重み付けし、公平性の格差とより高い信頼を備えた貢献を優先します。
これにより、堅牢で公平なFLモデルの更新が保証されます。
ファセットデータセットとカーラシミュレーターのRESFLを評価し、さまざまな条件下での精度、公平性、プライバシーの回復力、堅牢性を評価します。
RESFLは、検出の精度を向上させ、公平性の格差を減らし、プライバシー攻撃の成功率を低下させ、他のアプローチと比較して敵対的な状態に対する優れた堅牢性を示します。

要約(オリジナル)

Autonomous vehicles (AVs) increasingly rely on Federated Learning (FL) to enhance perception models while preserving privacy. However, existing FL frameworks struggle to balance privacy, fairness, and robustness, leading to performance disparities across demographic groups. Privacy-preserving techniques like differential privacy mitigate data leakage risks but worsen fairness by restricting access to sensitive attributes needed for bias correction. This work explores the trade-off between privacy and fairness in FL-based object detection for AVs and introduces RESFL, an integrated solution optimizing both. RESFL incorporates adversarial privacy disentanglement and uncertainty-guided fairness-aware aggregation. The adversarial component uses a gradient reversal layer to remove sensitive attributes, reducing privacy risks while maintaining fairness. The uncertainty-aware aggregation employs an evidential neural network to weight client updates adaptively, prioritizing contributions with lower fairness disparities and higher confidence. This ensures robust and equitable FL model updates. We evaluate RESFL on the FACET dataset and CARLA simulator, assessing accuracy, fairness, privacy resilience, and robustness under varying conditions. RESFL improves detection accuracy, reduces fairness disparities, and lowers privacy attack success rates while demonstrating superior robustness to adversarial conditions compared to other approaches.

arxiv情報

著者 Dawood Wasif,Terrence J. Moore,Jin-Hee Cho
発行日 2025-03-20 15:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, cs.ET, cs.LG | RESFL: An Uncertainty-Aware Framework for Responsible Federated Learning by Balancing Privacy, Fairness and Utility in Autonomous Vehicles はコメントを受け付けていません

M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation

要約

Markov Map Beost Neighbor(M2N2V2)を提示します。これは、監督なしでトレーニングのないポイントプロムベースベースのインタラクティブセグメンテーションのための深さガイダンスと注意マップを活用する斬新でシンプルで効果的なアプローチです。
監視されたマルチモーダルアプローチの最近の傾向に続いて、深さを追加のモダリティとして慎重に統合して、新しい深度誘導マルコフマップを作成します。
さらに、インタラクティブプロセス中にM2N2のセグメントサイズの変動が時々観察され、MIOU全体を減少させる可能性があります。
この問題を軽減するために、プロンプトを順次プロセスとしてモデル化し、不当なセグメントサイズの変更を防ぐために、以前のセグメンテーションと現在のプロンプトポイントを考慮する新しい適応スコア関数を提案します。
安定した拡散2と深さV2をバックボーンとして使用すると、提案されたM2N2V2が、医療ドメインを除くすべてのデータセットでM2N2と比較してクリック数(NOC)とMIOUの数を大幅に改善することを経験的に示します。
興味深いことに、私たちの監視されていないアプローチは、NOCメトリックのより挑戦的なDavisやHQSEG44KデータセットのSAMやSimpleClickなどの監視された方法と比較して、競争結果を達成し、監視されていない方法と監督なしの方法のギャップを減らします。

要約(オリジナル)

We present Markov Map Nearest Neighbor V2 (M2N2V2), a novel and simple, yet effective approach which leverages depth guidance and attention maps for unsupervised and training-free point-prompt-based interactive segmentation. Following recent trends in supervised multimodal approaches, we carefully integrate depth as an additional modality to create novel depth-guided Markov-maps. Furthermore, we observe occasional segment size fluctuations in M2N2 during the interactive process, which can decrease the overall mIoU’s. To mitigate this problem, we model the prompting as a sequential process and propose a novel adaptive score function which considers the previous segmentation and the current prompt point in order to prevent unreasonable segment size changes. Using Stable Diffusion 2 and Depth Anything V2 as backbones, we empirically show that our proposed M2N2V2 significantly improves the Number of Clicks (NoC) and mIoU compared to M2N2 in all datasets except those from the medical domain. Interestingly, our unsupervised approach achieves competitive results compared to supervised methods like SAM and SimpleClick in the more challenging DAVIS and HQSeg44K datasets in the NoC metric, reducing the gap between supervised and unsupervised methods.

arxiv情報

著者 Markus Karmann,Peng-Tao Jiang,Bo Li,Onay Urfalioglu
発行日 2025-03-20 15:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation はコメントを受け付けていません

Benchmarking Large Language Models for Handwritten Text Recognition

要約

手書きのテキスト認識(HTR)の従来の機械学習モデル(HTR)は、監督されたトレーニングに依存しており、広範な手動注釈が必要であり、レイアウトとテキスト処理の分離によりエラーが発生することがよくあります。
対照的に、マルチモーダル大手言語モデル(MLLM)は、モデル固有のトレーニングを必要とせずに、多様な手書きスタイルを認識するための一般的なアプローチを提供します。
この調査では、Transkribusモデルに対してさまざまな独自およびオープンソースLLMをベンチマークし、英語、フランス語、ドイツ語、イタリア語で書かれた最新および歴史的データセットの両方でパフォーマンスを評価します。
さらに、以前に生成された出力を自律的に修正するモデルの能力のテストに重点が置かれています。
調査結果は、独自のモデル、特にクロード3.5ソネットが、ゼロショット設定でオープンソースの代替品を上回ることを示しています。
MLLMは、現代の手書きを認識する上で優れた結果を達成し、トレーニング前のデータセット構成のために英語の好みを示します。
Transkribusとの比較は、どちらのアプローチにも一貫した利点がないことを示しています。
さらに、LLMSは、ゼロショット転写のエラーを自律的に修正する限られた能力を示しています。

要約(オリジナル)

Traditional machine learning models for Handwritten Text Recognition (HTR) rely on supervised training, requiring extensive manual annotations, and often produce errors due to the separation between layout and text processing. In contrast, Multimodal Large Language Models (MLLMs) offer a general approach to recognizing diverse handwriting styles without the need for model-specific training. The study benchmarks various proprietary and open-source LLMs against Transkribus models, evaluating their performance on both modern and historical datasets written in English, French, German, and Italian. In addition, emphasis is placed on testing the models’ ability to autonomously correct previously generated outputs. Findings indicate that proprietary models, especially Claude 3.5 Sonnet, outperform open-source alternatives in zero-shot settings. MLLMs achieve excellent results in recognizing modern handwriting and exhibit a preference for the English language due to their pre-training dataset composition. Comparisons with Transkribus show no consistent advantage for either approach. Moreover, LLMs demonstrate limited ability to autonomously correct errors in zero-shot transcriptions.

arxiv情報

著者 Giorgia Crosilla,Lukas Klic,Giovanni Colavizza
発行日 2025-03-20 15:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking Large Language Models for Handwritten Text Recognition はコメントを受け付けていません

Vision-Language Models Generate More Homogeneous Stories for Phenotypically Black Individuals

要約

Vision-Language Models(VLMS)は、画像処理を統合することにより、大規模な言語モデルの機能を拡張しますが、人間のバイアスを再現して増幅する可能性について懸念が生じています。
研究は、これらのモデルが人口統計グループ全体でステレオタイプを永続させる方法を文書化していますが、ほとんどの作業はグループ内の違いではなく、グループ間バイアスに焦点を合わせています。
この研究では、均質性のバイアスを調査します。これは、グループを黒人アメリカ人よりも均一であると描写する傾向があり、人種的表現型の認識がVLMSの出力にどのように影響するかを調べます。
表現型が体系的に異なるコンピューター生成画像を使用して、VLMにこれらの個人に関するストーリーを生成するように促し、コンテンツの均一性を評価するためにテキストの類似性を測定しました。
私たちの調査結果は、3つの重要なパターンを明らかにしています。まず、VLMは、表現型が低い人と比較して、表現型が高い黒人の人については大幅に均質な物語を生成します。
第二に、黒人女性に関する物語は、テストされたすべてのモデルの黒人男性に関するものよりも一貫して均一性を示しています。
第三に、3つのVLMのうち2つで、この均一性バイアスは主に、表現型が黒人女性の内容の変動に強く影響するが、黒人男性には最小限の影響を与える顕著な相互作用によって駆動されます。
これらの結果は、交差性がAIに生成された表現をどのように形成し、人間の認識にバイアスを記録したステレオタイプ化の持続性を強調し、人種表現型の増加がステレオタイプ化の大きさと個別の表現の大きさにつながることを強調しています。

要約(オリジナル)

Vision-Language Models (VLMs) extend Large Language Models’ capabilities by integrating image processing, but concerns persist about their potential to reproduce and amplify human biases. While research has documented how these models perpetuate stereotypes across demographic groups, most work has focused on between-group biases rather than within-group differences. This study investigates homogeneity bias-the tendency to portray groups as more uniform than they are-within Black Americans, examining how perceived racial phenotypicality influences VLMs’ outputs. Using computer-generated images that systematically vary in phenotypicality, we prompted VLMs to generate stories about these individuals and measured text similarity to assess content homogeneity. Our findings reveal three key patterns: First, VLMs generate significantly more homogeneous stories about Black individuals with higher phenotypicality compared to those with lower phenotypicality. Second, stories about Black women consistently display greater homogeneity than those about Black men across all models tested. Third, in two of three VLMs, this homogeneity bias is primarily driven by a pronounced interaction where phenotypicality strongly influences content variation for Black women but has minimal impact for Black men. These results demonstrate how intersectionality shapes AI-generated representations and highlight the persistence of stereotyping that mirror documented biases in human perception, where increased racial phenotypicality leads to greater stereotyping and less individualized representation.

arxiv情報

著者 Messi H. J. Lee,Soyeon Jeon
発行日 2025-03-20 15:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vision-Language Models Generate More Homogeneous Stories for Phenotypically Black Individuals はコメントを受け付けていません

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

要約

ビデオ大規模な言語モデル(Videollms)は、より長いビデオ入力を処理し、複雑な推論と分析を可能にする機能を実証しています。
ただし、ビデオフレームからの数千の視覚トークンにより、Key-Value(KV)キャッシュはメモリ要件を大幅に増加させ、推論速度とメモリ使用量のボトルネックになります。
KVキャッシュ量子化は、この問題に対処するために広く使用されているアプローチです。
このホワイトペーパーでは、Videollmsの2ビットKV量子化はモデルのパフォーマンスをほとんど損なうことができないが、さらに低いビットでのKVキャッシュ量子化の限界は調査されていないことがわかります。
このギャップを埋めるために、KVキャッシュを2ビット未満に圧縮するためのプラグアンドプレイKVキャッシュ量子化方法であるVIDKVを導入します。
具体的には、(1)キーの場合、チャネル次元で混合精度の量子化戦略を提案します。ここでは、異常なチャネルの2ビット量子化と、通常のチャネルのFFTと組み合わせた1ビット量子化を実行します。
(2)価値については、精度とモデルのパフォーマンスの間のより良いトレードオフのために、ターゲットを絞った保存のためにセマンティックに顕著な視覚トークンを選択的にフィルタリングしながら、1.58ビットの量子化を実装します。
重要なことに、我々の調査結果は、Videollmsの価値キャッシュは、以前のKVキャッシュ量子化がLLMSの以前のKVキャッシュ量子化によって提案されているのではなく、チャネルごとのファッションで量子化されるべきであることを示唆しています。
経験的には、6つのベンチマーク上のLlava-ov-7bおよびqwen2.5-VL-7bでの広範な結果は、VIDKVがKVキャッシュを効果的に1.5ビットと1.58ビットの精度で効果的に圧縮し、FP16の対応物と比較してパフォーマンスの低下がほとんどないことを示しています。

要約(オリジナル)

Video large language models (VideoLLMs) have demonstrated the capability to process longer video inputs and enable complex reasoning and analysis. However, due to the thousands of visual tokens from the video frames, key-value (KV) cache can significantly increase memory requirements, becoming a bottleneck for inference speed and memory usage. KV cache quantization is a widely used approach to address this problem. In this paper, we find that 2-bit KV quantization of VideoLLMs can hardly hurt the model performance, while the limit of KV cache quantization in even lower bits has not been investigated. To bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization method to compress the KV cache to lower than 2 bits. Specifically, (1) for key, we propose a mixed-precision quantization strategy in the channel dimension, where we perform 2-bit quantization for anomalous channels and 1-bit quantization combined with FFT for normal channels; (2) for value, we implement 1.58-bit quantization while selectively filtering semantically salient visual tokens for targeted preservation, for a better trade-off between precision and model performance. Importantly, our findings suggest that the value cache of VideoLLMs should be quantized in a per-channel fashion instead of the per-token fashion proposed by prior KV cache quantization works for LLMs. Empirically, extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit precision with almost no performance drop compared to the FP16 counterparts.

arxiv情報

著者 Keda Tao,Haoxuan You,Yang Sui,Can Qin,Huan Wang
発行日 2025-03-20 15:52:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models はコメントを受け付けていません

Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data

要約

視覚的推論は、マルチモーダルの大手言語モデル(MLLM)にとって複雑なチャートクエリに対処するために重要ですが、高品質の根拠データは依然として不足しています。
既存の方法は、データ生成のためにレバレッジ(M)LLMSですが、直接プロンプトはしばしば限られた精度と多様性をもたらします。
このホワイトペーパーでは、\ textIT {Chain of Functions(cof)}を提案します。これは、データの正確さと多様性を確保するために監督として自由に実証された推論パスを利用する新しいプログラムの推論データ生成パイプラインです。
具体的には、原子機能(例:最大データと算術操作など)の間の人間のない探索から始まり、多様な関数チェーンを生成し、その後、中程度のオープンソース付きLLMのみの言語的理論的根拠と質問に翻訳されます。
\ textIT {cof}は複数の利点を提供します。1)精度:fenuct-governed生成は、フリーフォーム生成と比較して幻覚を減らします。
2)多様性:列挙機能チェーンは、さまざまな質問分類法を可能にします。
3)説明可能性:関数チェーンは組み込みの理論的根拠として機能し、全体的な精度を超えてきめ細かい評価を可能にします。
4)実用性:非常に大きなモデルへの依存を排除​​します。
\ textit {cof}を使用して、\ textit {chartcof}データセットを構築します。1.4kの複雑な推論q \&&aは、微調整された分析のために、50k q \&aを推論強化にします。
\ textIT {chartcof}の微細に粒度の評価は、各MLLMの質問分類法にわたってさまざまなパフォーマンスを明らかにし、実験は、\ textit {chartcof}を使用した微調整が、広く使用されているベンチマークで同じスケールのMLLM間で最先端のパフォーマンスを達成することも示しています。
さらに、\ textit {cof}での機能統計根拠の生成の新しいパラダイムは、チャートを超えてより広範なアプリケーションを刺激する可能性があります。

要約(オリジナル)

Visual reasoning is crucial for multimodal large language models (MLLMs) to address complex chart queries, yet high-quality rationale data remains scarce. Existing methods leveraged (M)LLMs for data generation, but direct prompting often yields limited precision and diversity. In this paper, we propose \textit{Chain of Functions (CoF)}, a novel programmatic reasoning data generation pipeline that utilizes freely-explored reasoning paths as supervision to ensure data precision and diversity. Specifically, it starts with human-free exploration among the atomic functions (e.g., maximum data and arithmetic operations) to generate diverse function chains, which are then translated into linguistic rationales and questions with only a moderate open-sourced LLM. \textit{CoF} provides multiple benefits: 1) Precision: function-governed generation reduces hallucinations compared to freeform generation; 2) Diversity: enumerating function chains enables varied question taxonomies; 3) Explainability: function chains serve as built-in rationales, allowing fine-grained evaluation beyond overall accuracy; 4) Practicality: eliminating reliance on extremely large models. Employing \textit{CoF}, we construct the \textit{ChartCoF} dataset, with 1.4k complex reasoning Q\&A for fine-grained analysis and 50k Q\&A for reasoning enhancement. The fine-grained evaluation on \textit{ChartCoF} reveals varying performance across question taxonomies for each MLLM, and the experiments also show that finetuning with \textit{ChartCoF} achieves state-of-the-art performance among same-scale MLLMs on widely used benchmarks. Furthermore, the novel paradigm of function-governed rationale generation in \textit{CoF} could inspire broader applications beyond charts.

arxiv情報

著者 Zijian Li,Jingjing Fu,Lei Song,Jiang Bian,Jun Zhang,Rui Wang
発行日 2025-03-20 15:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data はコメントを受け付けていません

Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition

要約

スケルトンベースのアクション認識では、重要な課題は、骨格表現に画像レベルの詳細がないため、ジョイントの同様の軌跡を持つアクションを区別することです。
同様のアクションの区別は、特定の身体部分の微妙な動きの詳細に依存していることを認識して、ローカルスケルトンコンポーネントのきめ細かい動きに焦点を合わせるようにアプローチを指示します。
この目的のために、スケルトンシーケンス全体のダイナミクスを破壊し、アクションユニットのコアモーションパターンを表す学習可能なプロトタイプの組み合わせに分解するグラフ畳み込みネットワーク(GCN)ベースのモデルであるProtoGCNを導入します。
プロトタイプの再構築とは対照的に、ProtoGCNは同様のアクションの識別表現を効果的に特定し、強化することができます。
ベルとホイッスルがなければ、ProtoGCNは、提案された方法の有効性を示すNTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton、FineGymなど、複数のベンチマークデータセットで最先端のパフォーマンスを達成します。
このコードは、https://github.com/firework8/protogcnで入手できます。

要約(オリジナル)

In skeleton-based action recognition, a key challenge is distinguishing between actions with similar trajectories of joints due to the lack of image-level details in skeletal representations. Recognizing that the differentiation of similar actions relies on subtle motion details in specific body parts, we direct our approach to focus on the fine-grained motion of local skeleton components. To this end, we introduce ProtoGCN, a Graph Convolutional Network (GCN)-based model that breaks down the dynamics of entire skeleton sequences into a combination of learnable prototypes representing core motion patterns of action units. By contrasting the reconstruction of prototypes, ProtoGCN can effectively identify and enhance the discriminative representation of similar actions. Without bells and whistles, ProtoGCN achieves state-of-the-art performance on multiple benchmark datasets, including NTU RGB+D, NTU RGB+D 120, Kinetics-Skeleton, and FineGYM, which demonstrates the effectiveness of the proposed method. The code is available at https://github.com/firework8/ProtoGCN.

arxiv情報

著者 Hongda Liu,Yunfan Liu,Min Ren,Hao Wang,Yunlong Wang,Zhenan Sun
発行日 2025-03-20 15:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition はコメントを受け付けていません

From Monocular Vision to Autonomous Action: Guiding Tumor Resection via 3D Reconstruction

要約

外科的自動化には、正確なガイダンスとシーンの理解が必要です。
文献の現在の方法は、かさばる深度カメラに依存して解剖学の地図を作成しますが、これは宇宙制限された臨床アプリケーションにうまく変換されません。
単眼カメラは小さく、狭いスペースでの低侵襲手術を許可しますが、3Dシーンの理解を生成するには追加の処理が必要です。
RGB画像のみを使用してターゲット解剖学のセグメント化されたポイントクラウドを作成する3Dマッピングパイプラインを提案します。
最も正確な再構成を確保するために、中央気道閉塞のマッピングに関するモーションアルゴリズムのパフォーマンスと異なる構造を比較し、腫瘍切除の下流タスクでパイプラインをテストします。
ポストプロークア編集モデルの評価を含むいくつかのメトリックでは、パイプラインはRGB-Dカメラと同等に機能し、場合によってはパフォーマンスを上回ります。
これらの有望な結果は、単眼カメラを使用した低侵襲手順で自動化ガイダンスが達成できることを示しています。
この研究は、手術ロボットの完全な自律性に向けた一歩です。

要約(オリジナル)

Surgical automation requires precise guidance and understanding of the scene. Current methods in the literature rely on bulky depth cameras to create maps of the anatomy, however this does not translate well to space-limited clinical applications. Monocular cameras are small and allow minimally invasive surgeries in tight spaces but additional processing is required to generate 3D scene understanding. We propose a 3D mapping pipeline that uses only RGB images to create segmented point clouds of the target anatomy. To ensure the most precise reconstruction, we compare different structure from motion algorithms’ performance on mapping the central airway obstructions, and test the pipeline on a downstream task of tumor resection. In several metrics, including post-procedure tissue model evaluation, our pipeline performs comparably to RGB-D cameras and, in some cases, even surpasses their performance. These promising results demonstrate that automation guidance can be achieved in minimally invasive procedures with monocular cameras. This study is a step toward the complete autonomy of surgical robots.

arxiv情報

著者 Ayberk Acar,Mariana Smith,Lidia Al-Zogbi,Tanner Watts,Fangjie Li,Hao Li,Nural Yilmaz,Paul Maria Scheikl,Jesse F. d’Almeida,Susheela Sharma,Lauren Branscombe,Tayfun Efe Ertop,Robert J. Webster III,Ipek Oguz,Alan Kuntz,Axel Krieger,Jie Ying Wu
発行日 2025-03-20 15:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | From Monocular Vision to Autonomous Action: Guiding Tumor Resection via 3D Reconstruction はコメントを受け付けていません

Do image and video quality metrics model low-level human vision?

要約

SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評価されたコンテンツの知覚品質を予測することを目的としており、しばしば「知覚」であると主張されています。
しかし、人間の視覚認識を直接モデル化するメトリックはほとんどなく、ほとんどが手作りのフォーミュラまたはトレーニングデータセットに依存して知覚データとの調整を実現します。
このホワイトペーパーでは、低レベルの人間の視力のいくつかの側面をモデル化する能力を調べるフルリファレンス品質メトリックの一連のテストを提案します:コントラスト感度、コントラストマスキング、コントラストマッチング。
このテストは、新たに提案されたメトリックをさらに精査することを目的としています。
テストを使用して、33の既存の画像とビデオの品質メトリックを分析し、LPIPやMS-SSIMの能力やこのタスクにおけるVMAFのパフォーマンスの低下などの長所と短所を見つけます。
さらに、一般的なSSIMメトリックは高空間周波数の違いを強調しているが、そのマルチスケールの対応物であるMSSIMはこの欠点に対処していることがわかります。
このような発見は、既存の評価プロトコルを使用して簡単に作成することはできません。

要約(オリジナル)

Image and video quality metrics, such as SSIM, LPIPS, and VMAF, are aimed to predict the perceived quality of the evaluated content and are often claimed to be ‘perceptual’. Yet, few metrics directly model human visual perception, and most rely on hand-crafted formulas or training datasets to achieve alignment with perceptual data. In this paper, we propose a set of tests for full-reference quality metrics that examine their ability to model several aspects of low-level human vision: contrast sensitivity, contrast masking, and contrast matching. The tests are meant to provide additional scrutiny for newly proposed metrics. We use our tests to analyze 33 existing image and video quality metrics and find their strengths and weaknesses, such as the ability of LPIPS and MS-SSIM to predict contrast masking and poor performance of VMAF in this task. We further find that the popular SSIM metric overemphasizes differences in high spatial frequencies, but its multi-scale counterpart, MS-SSIM, addresses this shortcoming. Such findings cannot be easily made using existing evaluation protocols.

arxiv情報

著者 Dounia Hammou,Yancheng Cai,Pavan Madhusudanarao,Christos G. Bampis,Rafał K. Mantiuk
発行日 2025-03-20 15:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, eess.IV | Do image and video quality metrics model low-level human vision? はコメントを受け付けていません

Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

要約

一般化された少数のショット3Dポイントクラウドセグメンテーション(GFS-PCS)は、ベースクラスのセグメンテーションを保持しながら、サポートサンプルがほとんどない新しいクラスにモデルを適応させます。
既存のGFS-PCSメソッドは、サポート機能やクエリ機能との対話を介してプロトタイプを強化しますが、少ないショットサンプルからのまばらな知識によって制限されたままです。
一方、オープンワールドの小説クラス全体に一般化する3Dビジョン言語モデル(3D VLMS)には、豊かではあるが騒々しい斬新なクラスの知識が含まれています。
この作業では、GFS-VLという名前の両方の強度を最大化するために、正確でありながらまばらな少数のサンプルを使用して、3D VLMSから密集したが騒々しい擬似ラベルを相乗的にするGFS-PCSフレームワークを導入します。
具体的には、低品質の領域をフィルタリングするためにプロトタイプ誘導の擬似ラベル選択を提示し、それに続いて、擬似ラベルのコンテキストと少数のショットサンプルからの知識を組み合わせて、フィルター処理された非標識領域に適応的にラベルを付ける適応浸透戦略が続きます。
さらに、少数のショットサンプルをトレーニングシーンに埋め込むための新しいベースミックス戦略を設計し、改善された新しいクラス学習のための本質的なコンテキストを維持します。
さらに、現在のGFS-PCSベンチマークの限られた多様性を認識して、包括的な一般化評価のために多様な新しいクラスを備えた2つの挑戦的なベンチマークを導入します。
実験では、モデルとデータセット全体のフレームワークの有効性を検証します。
私たちのアプローチとベンチマークは、現実の世界でGFS-PCSを前進させるための強固な基盤を提供します。
コードはhttps://github.com/zhaochongan/gfs-vlにあります

要約(オリジナル)

Generalized few-shot 3D point cloud segmentation (GFS-PCS) adapts models to new classes with few support samples while retaining base class segmentation. Existing GFS-PCS methods enhance prototypes via interacting with support or query features but remain limited by sparse knowledge from few-shot samples. Meanwhile, 3D vision-language models (3D VLMs), generalizing across open-world novel classes, contain rich but noisy novel class knowledge. In this work, we introduce a GFS-PCS framework that synergizes dense but noisy pseudo-labels from 3D VLMs with precise yet sparse few-shot samples to maximize the strengths of both, named GFS-VL. Specifically, we present a prototype-guided pseudo-label selection to filter low-quality regions, followed by an adaptive infilling strategy that combines knowledge from pseudo-label contexts and few-shot samples to adaptively label the filtered, unlabeled areas. Additionally, we design a novel-base mix strategy to embed few-shot samples into training scenes, preserving essential context for improved novel class learning. Moreover, recognizing the limited diversity in current GFS-PCS benchmarks, we introduce two challenging benchmarks with diverse novel classes for comprehensive generalization evaluation. Experiments validate the effectiveness of our framework across models and datasets. Our approach and benchmarks provide a solid foundation for advancing GFS-PCS in the real world. The code is at https://github.com/ZhaochongAn/GFS-VL

arxiv情報

著者 Zhaochong An,Guolei Sun,Yun Liu,Runjia Li,Junlin Han,Ender Konukoglu,Serge Belongie
発行日 2025-03-20 16:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model はコメントを受け付けていません