NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

要約

視覚言語モデル (VLM) は、複雑な視覚言語推論を評価する最近の視覚質問応答 (VQA) ベンチマークにおいて大幅な進歩を遂げました。
しかし、これらのモデルは本当に効果があるのでしょうか?
この研究では、VLM が依然として自然の画像や人間が簡単に答えられる質問 (自然敵対的サンプルと呼ぶ) に苦戦していることを示します。
また、CLIP や ChatGPT などの既製のモデルを使用して、自然な画像テキスト コーパスからこれらの VQA サンプルを生成するのが驚くほど簡単であることもわかりました。
私たちは、人間が検証した 10,000 個の VQA サンプルを使用して VLM を確実に評価するための、新しいベンチマークである NaturalBench を収集する半自動アプローチを提案します。
重要なのは、各質問を異なる回答をもたらす 2 つの画像と組み合わせることで、$\textbf{ビジョン中心}$ 設計を採用し、画像を使用せずに盲目的な解決策が回答されるのを防ぐことです。
このため、NaturalBench は、常識的な事前分布で解決できる以前のベンチマークよりも困難になります。
NaturalBench で 53 の最先端の VLM を評価したところ、LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL、さらには GPT-4o などのモデルが 50% ~ 70% 遅れていることがわかりました。
人間のパフォーマンス (90% 以上)。
NaturalBench が難しい理由を 2 つの角度から分析します。 (1) 構成性: NaturalBench を解決するには、属性バインディング、オブジェクトの関係、ロジックやカウントなどの高度な推論の理解など、多様な視覚言語スキルが必要です。
この目的を達成するために、サンプルごとに 1 つのタグを使用する以前の研究とは異なり、きめ細かい評価を行うために、各 NaturalBench サンプルに 1 ~ 8 個のスキル タグを付けます。
(2) バイアス: モデルは画像に関係なく同じ答えを選択することが多いため、NaturalBench は VLM の深刻なバイアスを明らかにします。
最後に、ベンチマーク キュレーション手法を、長いキャプション (100 単語以上) や中国語やヒンディー語などの英語以外の言語を含む多様なデータ ソースに適用し、VLM の動的な評価の可能性を強調します。

要約(オリジナル)

Vision-language models (VLMs) have made significant progress in recent visual-question-answering (VQA) benchmarks that evaluate complex visio-linguistic reasoning. However, are these models truly effective? In this work, we show that VLMs still struggle with natural images and questions that humans can easily answer, which we term natural adversarial samples. We also find it surprisingly easy to generate these VQA samples from natural image-text corpora using off-the-shelf models like CLIP and ChatGPT. We propose a semi-automated approach to collect a new benchmark, NaturalBench, for reliably evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a $\textbf{vision-centric}$ design by pairing each question with two images that yield different answers, preventing blind solutions from answering without using the images. This makes NaturalBench more challenging than previous benchmarks that can be solved with commonsense priors. We evaluate 53 state-of-the-art VLMs on NaturalBench, showing that models like LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is hard from two angles: (1) Compositionality: Solving NaturalBench requires diverse visio-linguistic skills, including understanding attribute bindings, object relationships, and advanced reasoning like logic and counting. To this end, unlike prior work that uses a single tag per sample, we tag each NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2) Biases: NaturalBench exposes severe biases in VLMs, as models often choose the same answer regardless of the image. Lastly, we apply our benchmark curation method to diverse data sources, including long captions (over 100 words) and non-English languages like Chinese and Hindi, highlighting its potential for dynamic evaluations of VLMs.

arxiv情報

著者 Baiqi Li,Zhiqiu Lin,Wenxuan Peng,Jean de Dieu Nyandwi,Daniel Jiang,Zixian Ma,Simran Khanuja,Ranjay Krishna,Graham Neubig,Deva Ramanan
発行日 2024-10-22 16:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples はコメントを受け付けていません

AlphaChimp: Tracking and Behavior Recognition of Chimpanzees

要約

ヒト以外の霊長類の行動を理解することは、動物福祉を改善し、社会的行動をモデル化し、人間特有の行動と共通の行動の両方について洞察を得るために非常に重要です。
コンピュータービジョンの最近の進歩にもかかわらず、霊長類の行動の自動分析は、霊長類の社会的相互作用の複雑さと特殊なアルゴリズムの欠如により依然として困難です。
既存の手法は、霊長類の社会力学に特徴的な微妙な行動や頻繁なオクルージョンに苦戦することがよくあります。
この研究は、ビデオ映像内のチンパンジーの行動を自動検出、追跡、認識するための効果的な方法を開発することを目的としています。
今回我々は、ビデオからチンパンジーの位置検出と行動カテゴリの推定を同時に行うエンドツーエンドのアプローチである我々の提案手法である AlphaChimp が、行動認識において既存の手法を大幅に上回る性能を示すことを示す。
AlphaChimp は、最先端の手法と比較して約 10% 高い追跡精度と 20% 高い行動認識の向上を実現しており、特に社会的行動の認識に優れています。
この優れたパフォーマンスは、時間的特徴の融合とトランスフォーマーベースの自己注意メカニズムを統合する AlphaChimp の革新的なアーキテクチャに由来しており、チンパンジー間の複雑な社会的相互作用のより効果的な捕捉と解釈を可能にします。
私たちのアプローチはコンピュータービジョンと霊長類学の間のギャップを埋め、技術的能力を強化し、霊長類のコミュニケーションと社会性についての理解を深めます。
私たちはコードとモデルを公開し、これが動物の社会動態における将来の研究を促進することを願っています。
この研究は動物行動学、認知科学、人工知能に貢献し、社会的知性に関する新たな視点を提供します。

要約(オリジナル)

Understanding non-human primate behavior is crucial for improving animal welfare, modeling social behavior, and gaining insights into both distinctly human and shared behaviors. Despite recent advances in computer vision, automated analysis of primate behavior remains challenging due to the complexity of their social interactions and the lack of specialized algorithms. Existing methods often struggle with the nuanced behaviors and frequent occlusions characteristic of primate social dynamics. This study aims to develop an effective method for automated detection, tracking, and recognition of chimpanzee behaviors in video footage. Here we show that our proposed method, AlphaChimp, an end-to-end approach that simultaneously detects chimpanzee positions and estimates behavior categories from videos, significantly outperforms existing methods in behavior recognition. AlphaChimp achieves approximately 10% higher tracking accuracy and a 20% improvement in behavior recognition compared to state-of-the-art methods, particularly excelling in the recognition of social behaviors. This superior performance stems from AlphaChimp’s innovative architecture, which integrates temporal feature fusion with a Transformer-based self-attention mechanism, enabling more effective capture and interpretation of complex social interactions among chimpanzees. Our approach bridges the gap between computer vision and primatology, enhancing technical capabilities and deepening our understanding of primate communication and sociality. We release our code and models and hope this will facilitate future research in animal social dynamics. This work contributes to ethology, cognitive science, and artificial intelligence, offering new perspectives on social intelligence.

arxiv情報

著者 Xiaoxuan Ma,Yutang Lin,Yuan Xu,Stephan P. Kaufhold,Jack Terwilliger,Andres Meza,Yixin Zhu,Federico Rossano,Yizhou Wang
発行日 2024-10-22 16:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AlphaChimp: Tracking and Behavior Recognition of Chimpanzees はコメントを受け付けていません

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

要約

ビジュアル データは、わずか数ピクセルの小さなアイコンから数時間にわたる長いビデオに至るまで、さまざまな形式で提供されます。
既存のマルチモーダル LLM は通常、これらの多様なビジュアル入力をビジュアル エンコーダの固定解像度に標準化し、LLM に対して同様の数のトークンを生成します。
このアプローチは、マルチモーダルな理解には最適ではなく、長短のビジュアル コンテンツを含む入力を処理するには非効率的です。
この問題を解決するために、画像、ビデオ、およびマルチビュー 3D シーンの時空間理解のための統合マルチモーダル アーキテクチャである Oryx を提案します。
Oryx は、次の 2 つの核となるイノベーションを通じて、任意の空間サイズと時間長を持つ視覚入力をシームレスかつ効率的に処理するオンデマンド ソリューションを提供します。1) 任意の解像度の画像を LLM に適した視覚表現にエンコードできる事前トレーニング済みの OryxViT モデル。
2) リクエストに応じてビジュアル トークンの 1 倍から 16 倍の圧縮をサポートする動的圧縮モジュール。
これらの設計機能により、Oryx は、ビデオなどの非常に長い視覚コンテキストを低解像度かつ高圧縮で対応しながら、ネイティブ解像度および非圧縮による文書理解などのタスクで高い認識精度を維持できます。
アーキテクチャの改善を超えて、強化されたデータキュレーションと、長いコンテキストの検索と空間認識データに関する専門的なトレーニングにより、Oryx は画像、ビデオ、および 3D マルチモーダル理解における強力な機能を同時に達成することができます。
私たちの作品は https://github.com/Oryx-mllm/Oryx でオープンソース化されています。

要約(オリジナル)

Visual data comes in various forms, ranging from small icons of just a few pixels to long videos spanning hours. Existing multi-modal LLMs usually standardize these diverse visual inputs to a fixed resolution for visual encoders and yield similar numbers of tokens for LLMs. This approach is non-optimal for multimodal understanding and inefficient for processing inputs with long and short visual contents. To solve the problem, we propose Oryx, a unified multimodal architecture for the spatial-temporal understanding of images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to seamlessly and efficiently process visual inputs with arbitrary spatial sizes and temporal lengths through two core innovations: 1) a pre-trained OryxViT model that can encode images at any resolution into LLM-friendly visual representations; 2) a dynamic compressor module that supports 1x to 16x compression on visual tokens by request. These design features enable Oryx to accommodate extremely long visual contexts, such as videos, with lower resolution and high compression while maintaining high recognition precision for tasks like document understanding with native resolution and no compression. Beyond the architectural improvements, enhanced data curation and specialized training on long-context retrieval and spatial-aware data help Oryx achieve strong capabilities in image, video, and 3D multimodal understanding simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.

arxiv情報

著者 Zuyan Liu,Yuhao Dong,Ziwei Liu,Winston Hu,Jiwen Lu,Yongming Rao
発行日 2024-10-22 16:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution はコメントを受け付けていません

YOLO-TS: Real-Time Traffic Sign Detection with Enhanced Accuracy Using Optimized Receptive Fields and Anchor-Free Fusion

要約

自動運転と先進運転支援システム (ADAS) の両方における安全性の確保は、交通標識認識テクノロジーの効率的な展開に大きく依存しています。
現在の方法は有効性を示していますが、速度と精度の間で妥協することがよくあります。
この問題に対処するために、新しいリアルタイムで効率的な道路標識検出ネットワーク YOLO-TS を紹介します。
このネットワークは、マルチスケール フィーチャ マップの受容野を最適化して、さまざまなデータセット内の交通標識のサイズ分布とより厳密に一致させることで、パフォーマンスを大幅に向上させます。
さらに、アンカーフリー手法の柔軟性を活用した革新的な特徴融合戦略により、コンテキスト情報が豊富な高解像度の特徴マップ上でマルチスケールの物体検出が可能になり、精度と速度の両方で大幅な向上を実現します。
より小さいオブジェクトの検出における拡張畳み込みによって引き起こされるグリッド パターンの悪影響を軽減するために、このグリッド効果を軽減するだけでなく、広範な空間コンテキスト情報を包含するように受容野を広げる独自のモジュールを考案しました。
情報利用の効率を高めます。
挑戦的な公開データセットである TT100K および CCTSDB2021 の評価では、YOLO-TS が精度と速度の両方の点で既存の最先端の手法を上回っていることが実証されています。
私たちのメソッドのコードが利用可能になります。

要約(オリジナル)

Ensuring safety in both autonomous driving and advanced driver-assistance systems (ADAS) depends critically on the efficient deployment of traffic sign recognition technology. While current methods show effectiveness, they often compromise between speed and accuracy. To address this issue, we present a novel real-time and efficient road sign detection network, YOLO-TS. This network significantly improves performance by optimizing the receptive fields of multi-scale feature maps to align more closely with the size distribution of traffic signs in various datasets. Moreover, our innovative feature-fusion strategy, leveraging the flexibility of Anchor-Free methods, allows for multi-scale object detection on a high-resolution feature map abundant in contextual information, achieving remarkable enhancements in both accuracy and speed. To mitigate the adverse effects of the grid pattern caused by dilated convolutions on the detection of smaller objects, we have devised a unique module that not only mitigates this grid effect but also widens the receptive field to encompass an extensive range of spatial contextual information, thus boosting the efficiency of information usage. Evaluation on challenging public datasets, TT100K and CCTSDB2021, demonstrates that YOLO-TS surpasses existing state-of-the-art methods in terms of both accuracy and speed. The code for our method will be available.

arxiv情報

著者 Junzhou Chen,Heqiang Huang,Ronghui Zhang,Nengchao Lyu,Yanyong Guo,Hong-Ning Dai,Hong Yan
発行日 2024-10-22 16:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO-TS: Real-Time Traffic Sign Detection with Enhanced Accuracy Using Optimized Receptive Fields and Anchor-Free Fusion はコメントを受け付けていません

LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging

要約

大規模な事前トレーニング済みモデルは、さまざまなタスクにわたって優れたゼロショット パフォーマンスを示しますが、微調整は多くの場合壊滅的な忘却につながり、ターゲット ドメインの改善によって他のタスクの一般化が低下します。
この課題に対処するために、微調整されたタスクのパフォーマンスを向上させながら、事前トレーニングされた一般化を維持するように設計されたトレーニング後の編集手法である LiNeS (Layer-increeasing Network Scaling) を導入します。
LiNeS は、ネットワーク内の層の深さに基づいてパラメータの更新を線形にスケーリングし、浅い層を事前トレーニングされた値に近づけて一般的な特徴を維持しながら、より深い層がタスク固有の表現を保持できるようにします。
このアプローチをマルチタスク モデルのマージ シナリオにさらに拡張し、マージされたパラメーターのレイヤーごとのスケーリングによってマイナスのタスク干渉が軽減されます。
LiNeS は、ビジョンおよび自然言語処理のさまざまなベンチマークにわたって、シングルタスク設定とマルチタスク設定の両方で大幅な改善を示しています。
忘却を軽減し、分布外の一般化を強化し、ベースラインをマージする既存のマルチタスク モデルとシームレスに統合して、ベンチマークやモデル サイズ全体でパフォーマンスを向上させます。また、RLHF を介してさまざまな報酬に合わせた LLM ポリシーをマージするときに一般化を促進できます。
重要なのは、私たちの方法は実装が簡単で、多くの既存の技術を補完するものです。

要約(オリジナル)

Large pre-trained models exhibit impressive zero-shot performance across diverse tasks, but fine-tuning often leads to catastrophic forgetting, where improvements on a target domain degrade generalization on other tasks. To address this challenge, we introduce LiNeS, Layer-increasing Network Scaling, a post-training editing technique designed to preserve pre-trained generalization while enhancing fine-tuned task performance. LiNeS scales parameter updates linearly based on their layer depth within the network, maintaining shallow layers close to their pre-trained values to preserve general features while allowing deeper layers to retain task-specific representations. We further extend this approach to multi-task model merging scenarios, where layer-wise scaling of merged parameters reduces negative task interference. LiNeS demonstrates significant improvements in both single-task and multi-task settings across various benchmarks in vision and natural language processing. It mitigates forgetting, enhances out-of-distribution generalization, integrates seamlessly with existing multi-task model merging baselines improving their performance across benchmarks and model sizes, and can boost generalization when merging LLM policies aligned with different rewards via RLHF. Importantly, our method is simple to implement and complementary to many existing techniques.

arxiv情報

著者 Ke Wang,Nikolaos Dimitriadis,Alessandro Favero,Guillermo Ortiz-Jimenez,Francois Fleuret,Pascal Frossard
発行日 2024-10-22 16:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging はコメントを受け付けていません

Are Visual-Language Models Effective in Action Recognition? A Comparative Study

要約

CLIP などの現在のビジョン言語基盤モデルは、最近、さまざまな下流タスクにわたってパフォーマンスが大幅に向上していることが示されています。
ただし、そのような基礎モデルが、より複雑で詳細な動作認識タスクを大幅に改善するかどうかは、まだ未解決の問題です。
この質問に答え、野外での人間の行動分析に関する将来の研究の方向性をより良く知るために、この論文は、現在の最先端の視覚基盤モデルの大規模な研究と洞察を提供します。
ゼロショットおよびフレームごとのアクション認識タスク。
アクションの分類とセグメンテーションを含む、最新のきめ細かい人間中心のアクション認識データセット (Toyota Smarthome、Penn Action、UAV-Human、TSU、Charade など) に対して広範な実験が行われています。

要約(オリジナル)

Current vision-language foundation models, such as CLIP, have recently shown significant improvement in performance across various downstream tasks. However, whether such foundation models significantly improve more complex fine-grained action recognition tasks is still an open question. To answer this question and better find out the future research direction on human behavior analysis in-the-wild, this paper provides a large-scale study and insight on current state-of-the-art vision foundation models by comparing their transfer ability onto zero-shot and frame-wise action recognition tasks. Extensive experiments are conducted on recent fine-grained, human-centric action recognition datasets (e.g., Toyota Smarthome, Penn Action, UAV-Human, TSU, Charades) including action classification and segmentation.

arxiv情報

著者 Mahmoud Ali,Di Yang,François Brémond
発行日 2024-10-22 16:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Are Visual-Language Models Effective in Action Recognition? A Comparative Study はコメントを受け付けていません

KANICE: Kolmogorov-Arnold Networks with Interactive Convolutional Elements

要約

畳み込みニューラル ネットワーク (CNN) とコルモゴロフ アーノルド ネットワーク (KAN) の原理を組み合わせた新しいニューラル アーキテクチャである KANICE (Kolmogorov-Arnold Networks with Interactive Convolutional Elements) を紹介します。
KANICE は、対話型畳み込みブロック (ICB) と KAN 線形層を CNN フレームワークに統合します。
これは、KAN の汎用近似機能と ICB の適応特徴学習を活用します。
KANICE は、コルモゴロフ-アーノルド表現定理に基づいて動的なコンテキスト依存の特徴抽出を可能にしながら、複雑な非線形データ関係をキャプチャします。
MNIST、Fashion-MNIST、EMNIST、SVHN の 4 つのデータセットで KANICE を評価し、標準 CNN、CNN-KAN ハイブリッド、ICB バリアントと比較しました。
KANICE は常にベースライン モデルを上回り、MNIST データセットでは 99.35%、SVHN データセットでは 90.05% の精度を達成しました。
さらに、効率性を追求したコンパクトタイプのKANICE-miniをご紹介します。
包括的なアブレーション研究により、KANICE-mini は大幅に少ないパラメータで KANICE と同等のパフォーマンスを達成できることが実証されています。
KANICE-mini は、KANICE の 25,432,000 パラメータと比較して、2,337,828 パラメータの SVHN で 90.00% の精度に達しました。
この研究は、画像分類タスクにおけるパフォーマンスと計算効率のバランスをとる上での KAN ベースのアーキテクチャの可能性を強調しています。
私たちの研究は、適応ニューラル ネットワークの研究に貢献し、数学的定理を深層学習アーキテクチャに統合し、モデルの複雑さとパフォーマンスの間のトレードオフを調査し、コンピューター ビジョンとパターン認識を進歩させています。
この論文のソース コードは、GitHub リポジトリ (https://github.com/m-ferdaus/kanice) を通じて公開されています。

要約(オリジナル)

We introduce KANICE (Kolmogorov-Arnold Networks with Interactive Convolutional Elements), a novel neural architecture that combines Convolutional Neural Networks (CNNs) with Kolmogorov-Arnold Network (KAN) principles. KANICE integrates Interactive Convolutional Blocks (ICBs) and KAN linear layers into a CNN framework. This leverages KANs’ universal approximation capabilities and ICBs’ adaptive feature learning. KANICE captures complex, non-linear data relationships while enabling dynamic, context-dependent feature extraction based on the Kolmogorov-Arnold representation theorem. We evaluated KANICE on four datasets: MNIST, Fashion-MNIST, EMNIST, and SVHN, comparing it against standard CNNs, CNN-KAN hybrids, and ICB variants. KANICE consistently outperformed baseline models, achieving 99.35% accuracy on MNIST and 90.05% on the SVHN dataset. Furthermore, we introduce KANICE-mini, a compact variant designed for efficiency. A comprehensive ablation study demonstrates that KANICE-mini achieves comparable performance to KANICE with significantly fewer parameters. KANICE-mini reached 90.00% accuracy on SVHN with 2,337,828 parameters, compared to KANICE’s 25,432,000. This study highlights the potential of KAN-based architectures in balancing performance and computational efficiency in image classification tasks. Our work contributes to research in adaptive neural networks, integrates mathematical theorems into deep learning architectures, and explores the trade-offs between model complexity and performance, advancing computer vision and pattern recognition. The source code for this paper is publicly accessible through our GitHub repository (https://github.com/m-ferdaus/kanice).

arxiv情報

著者 Md Meftahul Ferdaus,Mahdi Abdelguerfi,Elias Ioup,David Dobson,Kendall N. Niles,Ken Pathak,Steven Sloan
発行日 2024-10-22 16:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | KANICE: Kolmogorov-Arnold Networks with Interactive Convolutional Elements はコメントを受け付けていません

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results

要約

ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与えるため、ビデオ圧縮標準の開発において重要なタスクです。
このペーパーでは、ECCV 2024 の画像操作の進歩 (AIM) ワークショップと併せて開催された圧縮ビデオ品質評価チャレンジの結果を紹介します。このチャレンジは、次のコードでエンコードされた 459 ビデオの多様なデータセットに対する VQA 手法のパフォーマンスを評価することを目的としていました。
さまざまな圧縮規格 (AVC/H.264、HEVC/H.265、AV1、および VVC/H.266) の 14 コーデックと圧縮アーティファクトの包括的なコレクションが含まれています。
メソッドのパフォーマンスを測定するために、大規模なクラウドソーシングによる人間によるペアごとの比較によって収集された、予測と主観的スコアの間の従来の相関係数を使用しました。
トレーニングの目的で、参加者には、以前に開発された 1,022 個のビデオのデータセットである圧縮ビデオ品質評価データセット (CVQAD) が提供されました。
最大 30 の参加チームがこのチャレンジに登録しましたが、有効な最終ソリューションと結果を再現するコードを提出した 6 チームの結果を報告します。
さらに、開発されたデータセットに対する最先端の VQA 手法のパフォーマンスを計算して提示し、将来の研究のための包括的なベンチマークを提供しました。
データセット、結果、オンライン リーダーボードは、https://challenges.videoprocessing.ai/challenges/compressedvideo-quality-assessment.html で公開されています。

要約(オリジナル)

Video quality assessment (VQA) is a crucial task in the development of video compression standards, as it directly impacts the viewer experience. This paper presents the results of the Compressed Video Quality Assessment challenge, held in conjunction with the Advances in Image Manipulation (AIM) workshop at ECCV 2024. The challenge aimed to evaluate the performance of VQA methods on a diverse dataset of 459 videos, encoded with 14 codecs of various compression standards (AVC/H.264, HEVC/H.265, AV1, and VVC/H.266) and containing a comprehensive collection of compression artifacts. To measure the methods performance, we employed traditional correlation coefficients between their predictions and subjective scores, which were collected via large-scale crowdsourced pairwise human comparisons. For training purposes, participants were provided with the Compressed Video Quality Assessment Dataset (CVQAD), a previously developed dataset of 1022 videos. Up to 30 participating teams registered for the challenge, while we report the results of 6 teams, which submitted valid final solutions and code for reproducing the results. Moreover, we calculated and present the performance of state-of-the-art VQA methods on the developed dataset, providing a comprehensive benchmark for future research. The dataset, results, and online leaderboard are publicly available at https://challenges.videoprocessing.ai/challenges/compressedvideo-quality-assessment.html.

arxiv情報

著者 Maksim Smirnov,Aleksandr Gushchin,Anastasia Antsiferova,Dmitry Vatolin,Radu Timofte,Ziheng Jia,Zicheng Zhang,Wei Sun,Jiaying Qian,Yuqin Cao,Yinan Sun,Yuxin Zhu,Xiongkuo Min,Guangtao Zhai,Kanjar De,Qing Luo,Ao-Xiang Zhang,Peng Zhang,Haibo Lei,Linyan Jiang,Yaqing Li,Wenhui Meng,Zhenzhong Chen,Zhengxue Cheng,Jiahao Xiao,Jun Xu,Chenlong He,Qi Zheng,Ruoxi Zhu,Min Li,Yibo Fan,Zhengzhong Tu
発行日 2024-10-22 16:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, eess.IV | AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results はコメントを受け付けていません

Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios

要約

データセットの蒸留は、CIFAR、MNIST、TinyImageNet などの単純なデータセットでは優れたパフォーマンスを示していますが、より複雑なシナリオでは同様の結果を達成するのに苦労しています。
本稿では、Grad-CAM活性化マップを用いて合成画像中の重要な識別領域を強調するデータセット抽出手法であるEDF(識別特徴の強調)を提案する。
私たちのアプローチは、重要な観察からインスピレーションを受けています。単純なデータセットでは、通常、高活性化領域が画像の大部分を占めるのに対し、複雑なシナリオでは、これらの領域のサイズははるかに小さくなります。
画像を合成するときにすべてのピクセルを均等に扱う以前の方法とは異なり、EDF は Grad-CAM 活性化マップを使用して高活性化領域を強化します。
監視の観点からは、一般的なパターンが含まれているため、損失が低い監視信号は軽視されます。
さらに、DD コミュニティが複雑なシナリオをより適切に探索できるようにするために、ImageNet-1K から 16 個のサブセット (イージー 8 個とハード 8 個) を慎重に選択して、Complex Dataset Distillation (Comp-DD) ベンチマークを構築しました。
特に、EDF は、ImageNet-1K サブセットなどの複雑なシナリオにおいて、一貫して SOTA の結果を上回ります。
願わくば、より多くの研究者が DD の実用性と有効性を向上させるよう刺激を受け、奨励されることを願っています。
私たちのコードとベンチマークは https://github.com/NUS-HPC-AI-Lab/EDF で公開されます。

要約(オリジナル)

Dataset distillation has demonstrated strong performance on simple datasets like CIFAR, MNIST, and TinyImageNet but struggles to achieve similar results in more complex scenarios. In this paper, we propose EDF (emphasizes the discriminative features), a dataset distillation method that enhances key discriminative regions in synthetic images using Grad-CAM activation maps. Our approach is inspired by a key observation: in simple datasets, high-activation areas typically occupy most of the image, whereas in complex scenarios, the size of these areas is much smaller. Unlike previous methods that treat all pixels equally when synthesizing images, EDF uses Grad-CAM activation maps to enhance high-activation areas. From a supervision perspective, we downplay supervision signals that have lower losses, as they contain common patterns. Additionally, to help the DD community better explore complex scenarios, we build the Complex Dataset Distillation (Comp-DD) benchmark by meticulously selecting sixteen subsets, eight easy and eight hard, from ImageNet-1K. In particular, EDF consistently outperforms SOTA results in complex scenarios, such as ImageNet-1K subsets. Hopefully, more researchers will be inspired and encouraged to improve the practicality and efficacy of DD. Our code and benchmark will be made public at https://github.com/NUS-HPC-AI-Lab/EDF.

arxiv情報

著者 Kai Wang,Zekai Li,Zhi-Qi Cheng,Samir Khaki,Ahmad Sajedi,Ramakrishna Vedantam,Konstantinos N Plataniotis,Alexander Hauptmann,Yang You
発行日 2024-10-22 17:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios はコメントを受け付けていません

EPContrast: Effective Point-level Contrastive Learning for Large-scale Point Cloud Understanding

要約

点レベルの対比学習による帰納的バイアスの獲得は、点群の事前トレーニングにおいて最も重要な意味を持ちます。
ただし、点群の規模に応じて計算要件が二乗増加するため、実際の展開と実行には大きな障害が生じます。
この課題に対処するために、この論文では、AGContrast と ChannelContrast で構成される \textbf{EPContrast} と呼ばれる、大規模な点群を理解するための効果的な点レベルの対照学習方法を提案します。
実際には、AGContrast は非対称粒度埋め込みに基づいて正と負のペアを構築しますが、ChannelContrast はチャネル特徴マップ間に対照的な監視を課します。
EPContrast は、計算リソースの負担を軽減しながら、ポイントレベルのコントラスト損失を提供します。
EPContrast の有効性は、セマンティック セグメンテーション、インスタンス セグメンテーション、オブジェクト検出などのタスクを含む、S3DIS および ScanNetV2 の包括的な検証を通じて実証されています。
さらに、豊富なアブレーション実験により、ラベル効率の高いワンエポックトレーニング設定下での顕著なバイアス誘導能力が実証されています。

要約(オリジナル)

The acquisition of inductive bias through point-level contrastive learning holds paramount significance in point cloud pre-training. However, the square growth in computational requirements with the scale of the point cloud poses a substantial impediment to the practical deployment and execution. To address this challenge, this paper proposes an Effective Point-level Contrastive Learning method for large-scale point cloud understanding dubbed \textbf{EPContrast}, which consists of AGContrast and ChannelContrast. In practice, AGContrast constructs positive and negative pairs based on asymmetric granularity embedding, while ChannelContrast imposes contrastive supervision between channel feature maps. EPContrast offers point-level contrastive loss while concurrently mitigating the computational resource burden. The efficacy of EPContrast is substantiated through comprehensive validation on S3DIS and ScanNetV2, encompassing tasks such as semantic segmentation, instance segmentation, and object detection. In addition, rich ablation experiments demonstrate remarkable bias induction capabilities under label-efficient and one-epoch training settings.

arxiv情報

著者 Zhiyi Pan,Guoqing Liu,Wei Gao,Thomas H. Li
発行日 2024-10-22 17:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EPContrast: Effective Point-level Contrastive Learning for Large-scale Point Cloud Understanding はコメントを受け付けていません