KANICE: Kolmogorov-Arnold Networks with Interactive Convolutional Elements

要約

畳み込みニューラル ネットワーク (CNN) とコルモゴロフ アーノルド ネットワーク (KAN) の原理を組み合わせた新しいニューラル アーキテクチャである KANICE (Kolmogorov-Arnold Networks with Interactive Convolutional Elements) を紹介します。
KANICE は、対話型畳み込みブロック (ICB) と KAN 線形層を CNN フレームワークに統合します。
これは、KAN の汎用近似機能と ICB の適応特徴学習を活用します。
KANICE は、コルモゴロフ-アーノルド表現定理に基づいて動的なコンテキスト依存の特徴抽出を可能にしながら、複雑な非線形データ関係をキャプチャします。
MNIST、Fashion-MNIST、EMNIST、SVHN の 4 つのデータセットで KANICE を評価し、標準 CNN、CNN-KAN ハイブリッド、ICB バリアントと比較しました。
KANICE は常にベースライン モデルを上回り、MNIST データセットでは 99.35%、SVHN データセットでは 90.05% の精度を達成しました。
さらに、効率性を追求したコンパクトタイプのKANICE-miniをご紹介します。
包括的なアブレーション研究により、KANICE-mini は大幅に少ないパラメータで KANICE と同等のパフォーマンスを達成できることが実証されています。
KANICE-mini は、KANICE の 25,432,000 パラメータと比較して、2,337,828 パラメータの SVHN で 90.00% の精度に達しました。
この研究は、画像分類タスクにおけるパフォーマンスと計算効率のバランスをとる上での KAN ベースのアーキテクチャの可能性を強調しています。
私たちの研究は、適応ニューラル ネットワークの研究に貢献し、数学的定理を深層学習アーキテクチャに統合し、モデルの複雑さとパフォーマンスの間のトレードオフを調査し、コンピューター ビジョンとパターン認識を進歩させています。
この論文のソース コードは、GitHub リポジトリ (https://github.com/m-ferdaus/kanice) を通じて公開されています。

要約(オリジナル)

We introduce KANICE (Kolmogorov-Arnold Networks with Interactive Convolutional Elements), a novel neural architecture that combines Convolutional Neural Networks (CNNs) with Kolmogorov-Arnold Network (KAN) principles. KANICE integrates Interactive Convolutional Blocks (ICBs) and KAN linear layers into a CNN framework. This leverages KANs’ universal approximation capabilities and ICBs’ adaptive feature learning. KANICE captures complex, non-linear data relationships while enabling dynamic, context-dependent feature extraction based on the Kolmogorov-Arnold representation theorem. We evaluated KANICE on four datasets: MNIST, Fashion-MNIST, EMNIST, and SVHN, comparing it against standard CNNs, CNN-KAN hybrids, and ICB variants. KANICE consistently outperformed baseline models, achieving 99.35% accuracy on MNIST and 90.05% on the SVHN dataset. Furthermore, we introduce KANICE-mini, a compact variant designed for efficiency. A comprehensive ablation study demonstrates that KANICE-mini achieves comparable performance to KANICE with significantly fewer parameters. KANICE-mini reached 90.00% accuracy on SVHN with 2,337,828 parameters, compared to KANICE’s 25,432,000. This study highlights the potential of KAN-based architectures in balancing performance and computational efficiency in image classification tasks. Our work contributes to research in adaptive neural networks, integrates mathematical theorems into deep learning architectures, and explores the trade-offs between model complexity and performance, advancing computer vision and pattern recognition. The source code for this paper is publicly accessible through our GitHub repository (https://github.com/m-ferdaus/kanice).

arxiv情報

著者 Md Meftahul Ferdaus,Mahdi Abdelguerfi,Elias Ioup,David Dobson,Kendall N. Niles,Ken Pathak,Steven Sloan
発行日 2024-10-22 16:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | KANICE: Kolmogorov-Arnold Networks with Interactive Convolutional Elements はコメントを受け付けていません

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results

要約

ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与えるため、ビデオ圧縮標準の開発において重要なタスクです。
このペーパーでは、ECCV 2024 の画像操作の進歩 (AIM) ワークショップと併せて開催された圧縮ビデオ品質評価チャレンジの結果を紹介します。このチャレンジは、次のコードでエンコードされた 459 ビデオの多様なデータセットに対する VQA 手法のパフォーマンスを評価することを目的としていました。
さまざまな圧縮規格 (AVC/H.264、HEVC/H.265、AV1、および VVC/H.266) の 14 コーデックと圧縮アーティファクトの包括的なコレクションが含まれています。
メソッドのパフォーマンスを測定するために、大規模なクラウドソーシングによる人間によるペアごとの比較によって収集された、予測と主観的スコアの間の従来の相関係数を使用しました。
トレーニングの目的で、参加者には、以前に開発された 1,022 個のビデオのデータセットである圧縮ビデオ品質評価データセット (CVQAD) が提供されました。
最大 30 の参加チームがこのチャレンジに登録しましたが、有効な最終ソリューションと結果を再現するコードを提出した 6 チームの結果を報告します。
さらに、開発されたデータセットに対する最先端の VQA 手法のパフォーマンスを計算して提示し、将来の研究のための包括的なベンチマークを提供しました。
データセット、結果、オンライン リーダーボードは、https://challenges.videoprocessing.ai/challenges/compressedvideo-quality-assessment.html で公開されています。

要約(オリジナル)

Video quality assessment (VQA) is a crucial task in the development of video compression standards, as it directly impacts the viewer experience. This paper presents the results of the Compressed Video Quality Assessment challenge, held in conjunction with the Advances in Image Manipulation (AIM) workshop at ECCV 2024. The challenge aimed to evaluate the performance of VQA methods on a diverse dataset of 459 videos, encoded with 14 codecs of various compression standards (AVC/H.264, HEVC/H.265, AV1, and VVC/H.266) and containing a comprehensive collection of compression artifacts. To measure the methods performance, we employed traditional correlation coefficients between their predictions and subjective scores, which were collected via large-scale crowdsourced pairwise human comparisons. For training purposes, participants were provided with the Compressed Video Quality Assessment Dataset (CVQAD), a previously developed dataset of 1022 videos. Up to 30 participating teams registered for the challenge, while we report the results of 6 teams, which submitted valid final solutions and code for reproducing the results. Moreover, we calculated and present the performance of state-of-the-art VQA methods on the developed dataset, providing a comprehensive benchmark for future research. The dataset, results, and online leaderboard are publicly available at https://challenges.videoprocessing.ai/challenges/compressedvideo-quality-assessment.html.

arxiv情報

著者 Maksim Smirnov,Aleksandr Gushchin,Anastasia Antsiferova,Dmitry Vatolin,Radu Timofte,Ziheng Jia,Zicheng Zhang,Wei Sun,Jiaying Qian,Yuqin Cao,Yinan Sun,Yuxin Zhu,Xiongkuo Min,Guangtao Zhai,Kanjar De,Qing Luo,Ao-Xiang Zhang,Peng Zhang,Haibo Lei,Linyan Jiang,Yaqing Li,Wenhui Meng,Zhenzhong Chen,Zhengxue Cheng,Jiahao Xiao,Jun Xu,Chenlong He,Qi Zheng,Ruoxi Zhu,Min Li,Yibo Fan,Zhengzhong Tu
発行日 2024-10-22 16:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, eess.IV | AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results はコメントを受け付けていません

Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios

要約

データセットの蒸留は、CIFAR、MNIST、TinyImageNet などの単純なデータセットでは優れたパフォーマンスを示していますが、より複雑なシナリオでは同様の結果を達成するのに苦労しています。
本稿では、Grad-CAM活性化マップを用いて合成画像中の重要な識別領域を強調するデータセット抽出手法であるEDF(識別特徴の強調)を提案する。
私たちのアプローチは、重要な観察からインスピレーションを受けています。単純なデータセットでは、通常、高活性化領域が画像の大部分を占めるのに対し、複雑なシナリオでは、これらの領域のサイズははるかに小さくなります。
画像を合成するときにすべてのピクセルを均等に扱う以前の方法とは異なり、EDF は Grad-CAM 活性化マップを使用して高活性化領域を強化します。
監視の観点からは、一般的なパターンが含まれているため、損失が低い監視信号は軽視されます。
さらに、DD コミュニティが複雑なシナリオをより適切に探索できるようにするために、ImageNet-1K から 16 個のサブセット (イージー 8 個とハード 8 個) を慎重に選択して、Complex Dataset Distillation (Comp-DD) ベンチマークを構築しました。
特に、EDF は、ImageNet-1K サブセットなどの複雑なシナリオにおいて、一貫して SOTA の結果を上回ります。
願わくば、より多くの研究者が DD の実用性と有効性を向上させるよう刺激を受け、奨励されることを願っています。
私たちのコードとベンチマークは https://github.com/NUS-HPC-AI-Lab/EDF で公開されます。

要約(オリジナル)

Dataset distillation has demonstrated strong performance on simple datasets like CIFAR, MNIST, and TinyImageNet but struggles to achieve similar results in more complex scenarios. In this paper, we propose EDF (emphasizes the discriminative features), a dataset distillation method that enhances key discriminative regions in synthetic images using Grad-CAM activation maps. Our approach is inspired by a key observation: in simple datasets, high-activation areas typically occupy most of the image, whereas in complex scenarios, the size of these areas is much smaller. Unlike previous methods that treat all pixels equally when synthesizing images, EDF uses Grad-CAM activation maps to enhance high-activation areas. From a supervision perspective, we downplay supervision signals that have lower losses, as they contain common patterns. Additionally, to help the DD community better explore complex scenarios, we build the Complex Dataset Distillation (Comp-DD) benchmark by meticulously selecting sixteen subsets, eight easy and eight hard, from ImageNet-1K. In particular, EDF consistently outperforms SOTA results in complex scenarios, such as ImageNet-1K subsets. Hopefully, more researchers will be inspired and encouraged to improve the practicality and efficacy of DD. Our code and benchmark will be made public at https://github.com/NUS-HPC-AI-Lab/EDF.

arxiv情報

著者 Kai Wang,Zekai Li,Zhi-Qi Cheng,Samir Khaki,Ahmad Sajedi,Ramakrishna Vedantam,Konstantinos N Plataniotis,Alexander Hauptmann,Yang You
発行日 2024-10-22 17:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios はコメントを受け付けていません

EPContrast: Effective Point-level Contrastive Learning for Large-scale Point Cloud Understanding

要約

点レベルの対比学習による帰納的バイアスの獲得は、点群の事前トレーニングにおいて最も重要な意味を持ちます。
ただし、点群の規模に応じて計算要件が二乗増加するため、実際の展開と実行には大きな障害が生じます。
この課題に対処するために、この論文では、AGContrast と ChannelContrast で構成される \textbf{EPContrast} と呼ばれる、大規模な点群を理解するための効果的な点レベルの対照学習方法を提案します。
実際には、AGContrast は非対称粒度埋め込みに基づいて正と負のペアを構築しますが、ChannelContrast はチャネル特徴マップ間に対照的な監視を課します。
EPContrast は、計算リソースの負担を軽減しながら、ポイントレベルのコントラスト損失を提供します。
EPContrast の有効性は、セマンティック セグメンテーション、インスタンス セグメンテーション、オブジェクト検出などのタスクを含む、S3DIS および ScanNetV2 の包括的な検証を通じて実証されています。
さらに、豊富なアブレーション実験により、ラベル効率の高いワンエポックトレーニング設定下での顕著なバイアス誘導能力が実証されています。

要約(オリジナル)

The acquisition of inductive bias through point-level contrastive learning holds paramount significance in point cloud pre-training. However, the square growth in computational requirements with the scale of the point cloud poses a substantial impediment to the practical deployment and execution. To address this challenge, this paper proposes an Effective Point-level Contrastive Learning method for large-scale point cloud understanding dubbed \textbf{EPContrast}, which consists of AGContrast and ChannelContrast. In practice, AGContrast constructs positive and negative pairs based on asymmetric granularity embedding, while ChannelContrast imposes contrastive supervision between channel feature maps. EPContrast offers point-level contrastive loss while concurrently mitigating the computational resource burden. The efficacy of EPContrast is substantiated through comprehensive validation on S3DIS and ScanNetV2, encompassing tasks such as semantic segmentation, instance segmentation, and object detection. In addition, rich ablation experiments demonstrate remarkable bias induction capabilities under label-efficient and one-epoch training settings.

arxiv情報

著者 Zhiyi Pan,Guoqing Liu,Wei Gao,Thomas H. Li
発行日 2024-10-22 17:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EPContrast: Effective Point-level Contrastive Learning for Large-scale Point Cloud Understanding はコメントを受け付けていません

Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models

要約

最近、マルチモーダル大規模言語モデル (MLLM) は、その卓越したクロスモーダル インタラクションと理解能力により、数多くのゼロショット タスクで目覚ましいパフォーマンスを達成しています。
しかし、MLLM は人間が感知できない敵対的な例に対して依然として脆弱であることがわかっています。
現実世界のシナリオにおけるセキュリティ脆弱性の調査では、モデル間で影響を与える可能性がある転送可能性が、敵対的な例によってもたらされる最大の脅威と考えられます。
しかし、現時点では、MLLM 間の敵対的移転可能性の脅威に関する体系的な研究はありません。
したがって、このペーパーは、さまざまな MLLM によって生成された敵対的な例の移転可能性の包括的な評価を提供する最初のステップとして提供されます。
さらに、転送可能性のパフォーマンスに影響を与える 2 つの重要な要素を活用します。1) 敵対的生成プロセスに関与する情報の多様性の強さ。
2) 視覚と言語のモダリティ情報を横断して編集する。
MLLM 間の敵対的転送可能性のパフォーマンスをさらに調査するために、Typography Augment Transferability Method (TATM) と呼ばれる強化方法を提案します。
広範な実験検証を通じて、当社の TATM は、「有害な単語の挿入」と「重要な情報の保護」の実世界のアプリケーションで優れたパフォーマンスを実証しています。

要約(オリジナル)

Recently, Multimodal Large Language Models (MLLMs) achieve remarkable performance in numerous zero-shot tasks due to their outstanding cross-modal interaction and comprehension abilities. However, MLLMs are found to still be vulnerable to human-imperceptible adversarial examples. In the exploration of security vulnerabilities in real-world scenarios, transferability, which can achieve cross-model impact, is considered the greatest threat posed by adversarial examples. However, there is currently no systematic research on the threat of cross-MLLMs adversarial transferability. Therefore, this paper as the first step to provide a comprehensive evaluation of the transferability of adversarial examples generated by various MLLMs. Furthermore, leveraging two key factors that influence transferability performance: 1) The strength of information diversity involved in the adversarial generation process; 2) Editing across vision-language modality information. We propose a boosting method called Typography Augment Transferability Method (TATM) to investigate the adversarial transferability performance across MLLMs further. Through extensive experimental validation, our TATM demonstrates exceptional performance in real-world applications of ‘Harmful Word Insertion’ and ‘Important Information Protection’.

arxiv情報

著者 Hao Cheng,Erjia Xiao,Jiayan Yang,Jiahang Cao,Qiang Zhang,Le Yang,Jize Zhang,Kaidi Xu,Jindong Gu,Renjing Xu
発行日 2024-10-22 17:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models はコメントを受け付けていません

Automated Spinal MRI Labelling from Reports Using a Large Language Model

要約

私たちは、大規模な言語モデルを使用して放射線医学レポートからのラベルの抽出を自動化する一般的なパイプラインを提案し、脊椎 MRI レポートで検証します。
当社の標識法の有効性は、脊椎がん、狭窄、脊椎すべり症、馬尾圧迫、ヘルニアという 5 つの異なる条件で測定されます。
オープンソース モデルを使用する私たちの手法は、保持されている一連のレポートに関して GPT-4 と同等かそれを上回っています。
さらに、抽出されたラベルを使用して画像モデルをトレーニングし、付随する MR スキャンで特定された状態を分類できることを示します。
自動ラベルを使用してトレーニングされたすべての分類器は、臨床医が手動で注釈を付けたスキャンを使用してトレーニングされたモデルと同等のパフォーマンスを達成します。
コードは https://github.com/robinyjpark/AutoLabelClassifier にあります。

要約(オリジナル)

We propose a general pipeline to automate the extraction of labels from radiology reports using large language models, which we validate on spinal MRI reports. The efficacy of our labelling method is measured on five distinct conditions: spinal cancer, stenosis, spondylolisthesis, cauda equina compression and herniation. Using open-source models, our method equals or surpasses GPT-4 on a held-out set of reports. Furthermore, we show that the extracted labels can be used to train imaging models to classify the identified conditions in the accompanying MR scans. All classifiers trained using automated labels achieve comparable performance to models trained using scans manually annotated by clinicians. Code can be found at https://github.com/robinyjpark/AutoLabelClassifier.

arxiv情報

著者 Robin Y. Park,Rhydian Windsor,Amir Jamaludin,Andrew Zisserman
発行日 2024-10-22 17:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, eess.IV | Automated Spinal MRI Labelling from Reports Using a Large Language Model はコメントを受け付けていません

Frontiers in Intelligent Colonoscopy

要約

結腸内視鏡検査は現在、結腸直腸がんの最も感度の高いスクリーニング法の 1 つです。
この研究では、インテリジェントな結腸内視鏡検査技術の最前線と、マルチモーダルな医療応用に対するその将来的な影響を調査します。
この目標を達成するには、分類、検出、セグメンテーション、視覚言語理解など、結腸内視鏡シーン認識のための 4 つのタスクを通じて、現在のデータ中心およびモデル中心の状況を評価することから始めます。
この評価により、領域固有の課題を特定できるようになり、結腸内視鏡検査における複合的な研究にはさらなる探求の余地が残されていることが明らかになりました。
来るべきマルチモーダル時代を受け入れるために、私たちは 3 つの基本的な取り組みを確立します。それは、大規模なマルチモーダル命令チューニング データセット ColonINST、結腸内視鏡検査によって設計されたマルチモーダル言語モデル ColonGPT、およびマルチモーダル ベンチマークです。
この急速に進化する分野の継続的な監視を容易にするために、最新の更新情報を公開する公開 Web サイト (https://github.com/ai4colonoscopy/IntelliScope) を提供しています。

要約(オリジナル)

Colonoscopy is currently one of the most sensitive screening methods for colorectal cancer. This study investigates the frontiers of intelligent colonoscopy techniques and their prospective implications for multimodal medical applications. With this goal, we begin by assessing the current data-centric and model-centric landscapes through four tasks for colonoscopic scene perception, including classification, detection, segmentation, and vision-language understanding. This assessment enables us to identify domain-specific challenges and reveals that multimodal research in colonoscopy remains open for further exploration. To embrace the coming multimodal era, we establish three foundational initiatives: a large-scale multimodal instruction tuning dataset ColonINST, a colonoscopy-designed multimodal language model ColonGPT, and a multimodal benchmark. To facilitate ongoing monitoring of this rapidly evolving field, we provide a public website for the latest updates: https://github.com/ai4colonoscopy/IntelliScope.

arxiv情報

著者 Ge-Peng Ji,Jingyi Liu,Peng Xu,Nick Barnes,Fahad Shahbaz Khan,Salman Khan,Deng-Ping Fan
発行日 2024-10-22 17:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Frontiers in Intelligent Colonoscopy はコメントを受け付けていません

LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

要約

我々は、ラージ ビュー合成モデル (LVSM) を提案します。これは、スパース ビュー入力からのスケーラブルかつ一般化可能な新しいビュー合成のための新しいトランスフォーマー ベースのアプローチです。
2 つのアーキテクチャを導入します。(1) エンコーダ/デコーダ LVSM は、入力画像トークンを固定数の 1D 潜在トークンにエンコードし、完全に学習されたシーン表現として機能し、それらからノベルビュー画像をデコードします。
(2) デコーダ専用の LVSM は、入力画像をノベルビュー出力に直接マッピングし、中間シーン表現を完全に排除します。
どちらのモデルも、3D 表現 (NeRF、3DGS など) からネットワーク設計 (エピポーラ投影、プレーン スイープなど) まで、以前の方法で使用されていた 3D 誘導バイアスをバイパスし、完全なデータ駆動型アプローチで新しいビュー合成に取り組みます。
エンコーダ-デコーダ モデルは独立した潜在表現により高速な推論を提供しますが、デコーダ専用 LVSM は優れた品質、スケーラビリティ、およびゼロショット汎化を実現し、以前の最先端の方法を 1.5 ~ 3.5 dB PSNR 上回ります。
複数のデータセットにわたる包括的な評価により、両方の LVSM バリアントが最先端の新規ビュー合成品質を達成していることが実証されています。
特に、私たちのモデルは、計算リソースが削減された場合でも (1 ~ 2 GPU)、以前のすべての方法を上回っています。
詳細については、当社の Web サイトをご覧ください: https://haian-jin.github.io/projects/LVSM/ 。

要約(オリジナル)

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods — from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) — addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

arxiv情報

著者 Haian Jin,Hanwen Jiang,Hao Tan,Kai Zhang,Sai Bi,Tianyuan Zhang,Fujun Luan,Noah Snavely,Zexiang Xu
発行日 2024-10-22 17:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias はコメントを受け付けていません

Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

要約

対比損失は表現学習の強力なアプローチであり、バッチ サイズが大きくなると、より多くの負のサンプルが提供され、類似データと類似データをより適切に区別できるため、パフォーマンスが向上します。
ただし、バッチ サイズのスケーリングは、主に類似性行列の完全なインスタンス化による GPU メモリ消費の二次的な増加によって制限されます。
これに対処するために、類似性行列の完全な具体化を回避し、コントラスト損失計算を任意の小さなブロックに分割するタイルベースの計算戦略を提案します。
さらに、分散システムの階層構造を活用するマルチレベル タイル戦略を導入し、GPU レベルでリングベースの通信を採用して同期を最適化し、CUDA コア レベルで融合カーネルを使用して I/O オーバーヘッドを削減します。
実験結果は、提案された方法がバッチサイズを前例のないレベルに拡張することを示しています。
たとえば、精度を犠牲にすることなく、8 個または 32 個の A800 80GB を使用して、バッチ サイズ 4M または 12M の CLIP-ViT-L/14 モデルの対比トレーニングが可能になります。
SOTA のメモリ効率の高いソリューションと比較して、同等の速度を維持しながらメモリを 2 桁削減できます。
コードは公開されます。

要約(オリジナル)

Contrastive loss is a powerful approach for representation learning, where larger batch sizes enhance performance by providing more negative samples to better distinguish between similar and dissimilar data. However, scaling batch sizes is constrained by the quadratic growth in GPU memory consumption, primarily due to the full instantiation of the similarity matrix. To address this, we propose a tile-based computation strategy that partitions the contrastive loss calculation into arbitrary small blocks, avoiding full materialization of the similarity matrix. Furthermore, we introduce a multi-level tiling strategy to leverage the hierarchical structure of distributed systems, employing ring-based communication at the GPU level to optimize synchronization and fused kernels at the CUDA core level to reduce I/O overhead. Experimental results show that the proposed method scales batch sizes to unprecedented levels. For instance, it enables contrastive training of a CLIP-ViT-L/14 model with a batch size of 4M or 12M using 8 or 32 A800 80GB without sacrificing any accuracy. Compared to SOTA memory-efficient solutions, it achieves a two-order-of-magnitude reduction in memory while maintaining comparable speed. The code will be made publicly available.

arxiv情報

著者 Zesen Cheng,Hang Zhang,Kehan Li,Sicong Leng,Zhiqiang Hu,Fei Wu,Deli Zhao,Xin Li,Lidong Bing
発行日 2024-10-22 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss はコメントを受け付けていません

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

要約

Large Vision-Language Model (LVLM) では、画像は豊富な情報を運ぶ入力として機能します。
「百聞は一見に如かず」という慣用句が示すように、現在の LVLM で 1 つの画像を表現するには、数百、場合によっては数千のトークンが必要になる場合があります。
その結果、計算コストが大幅に増加し、入力画像の解像度が増加するにつれて二次関数的に増加し、トレーニングと推論の両方の効率に重大な影響を与えます。
これまでのアプローチでは、LVLM の初期層の前または内部でイメージ トークンの数を削減しようとしました。
ただし、これらの戦略では必然的に重要な画像情報が失われ、最終的にはモデルのパフォーマンスが低下します。
この課題に対処するために、私たちは実証研究を実施し、浅いレイヤーの LVLM にはすべてのビジュアル トークンが必要であり、モデルの深いレイヤーではトークンの冗長性が徐々に増加することを明らかにしました。
この目的を達成するために、無視できるパフォーマンス損失でトレーニングと推論の両方の効率を高める LVLM の視覚的な冗長性削減戦略である PyramidDrop を提案します。
具体的には、LVLM をいくつかのステージに分割し、各ステージの最後に事前定義された比率でイメージ トークンの一部をドロップし、モデル レイヤー全体にピラミッド状のビジュアル トークンを作成します。
削除は、時間のオーバーヘッドが無視できる軽量の類似度計算に基づいています。
広範な実験により、PyramidDrop が同等のパフォーマンスで LLaVA-NeXT の 40% のトレーニング時間と 55% の推論 FLOP 加速を達成できることが実証されました。
さらに、PyramidDrop は、トレーニングなしで推論を高速化するためのプラグアンドプレイ戦略としても機能し、対応するものよりも優れたパフォーマンスと低い推論コストを実現できます。
PyramidDrop によって導入された洞察とアプローチが、LVLM におけるイメージ トークンの役割をさらに調査する将来の研究に影響を与えることを願っています。

要約(オリジナル)

In large vision-language models (LVLMs), images serve as inputs that carry a wealth of information. As the idiom ‘A picture is worth a thousand words’ implies, representing a single image in current LVLMs can require hundreds or even thousands of tokens. This results in significant computational costs, which grow quadratically as input image resolution increases, thereby severely impacting the efficiency of both training and inference. Previous approaches have attempted to reduce the number of image tokens either before or within the early layers of LVLMs. However, these strategies inevitably result in the loss of crucial image information, ultimately diminishing model performance. To address this challenge, we conduct an empirical study revealing that all visual tokens are necessary for LVLMs in the shallow layers, and token redundancy progressively increases in the deeper layers of the model. To this end, we propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost their efficiency in both training and inference with neglectable performance loss. Specifically, we partition the LVLM into several stages and drop part of the image tokens at the end of each stage with a pre-defined ratio, creating pyramid-like visual tokens across model layers. The dropping is based on a lightweight similarity calculation with a negligible time overhead. Extensive experiments demonstrate that PyramidDrop can achieve a 40% training time and 55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance. Besides, the PyramidDrop could also serve as a plug-and-play strategy for inference acceleration without training, with better performance and lower inference cost than counterparts. We hope that the insights and approach introduced by PyramidDrop will inspire future research to further investigate the role of image tokens in LVLMs.

arxiv情報

著者 Long Xing,Qidong Huang,Xiaoyi Dong,Jiajie Lu,Pan Zhang,Yuhang Zang,Yuhang Cao,Conghui He,Jiaqi Wang,Feng Wu,Dahua Lin
発行日 2024-10-22 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction はコメントを受け付けていません