An Explainable Contrastive-based Dilated Convolutional Network with Transformer for Pediatric Pneumonia Detection

要約

小児肺炎は依然として世界的な重大な脅威であり、他のどの感染症よりも高い死亡リスクをもたらしています。
ユニセフによると、これは5歳未満の子供の死亡の主な原因であり、迅速な診断が必要です。
胸部 X 線写真を使用した早期診断が一般的な標準ですが、未処理の画像の放射線レベルが低いことやデータの不均衡の問題などの制限があります。
そのためには、コンピュータを利用した効率的な診断技術の開発が必要です。
この目的を達成するために、我々は、小児肺炎検出のための新しい EXplainable Contrastive-based Dirated Convolutional Network with Transformer (XCCNet) を提案します。
XCCNet は、拡張畳み込みの空間パワーと、コントラストベースのトランスフォーマーからのグローバルな洞察を利用して、効果的な機能改善を実現します。
堅牢な胸部 X 線処理モジュールは低強度の X 線写真に取り組み、敵対的ベースのデータ拡張によりデータセット内の胸部 X 線の偏った分布が軽減されます。
さらに、特徴の視覚化による説明可能性のアプローチを積極的に統合し、X線写真で肺炎の存在または正常性を正確に示す注目領域と直接位置合わせします。
XCCNet の有効性は、公開されている 4 つのデータセットに基づいて包括的に評価されます。
広範なパフォーマンス評価により、最先端の方法と比較した XCCNet の優位性が実証されています。

要約(オリジナル)

Pediatric pneumonia remains a significant global threat, posing a larger mortality risk than any other communicable disease. According to UNICEF, it is a leading cause of mortality in children under five and requires prompt diagnosis. Early diagnosis using chest radiographs is the prevalent standard, but limitations include low radiation levels in unprocessed images and data imbalance issues. This necessitates the development of efficient, computer-aided diagnosis techniques. To this end, we propose a novel EXplainable Contrastive-based Dilated Convolutional Network with Transformer (XCCNet) for pediatric pneumonia detection. XCCNet harnesses the spatial power of dilated convolutions and the global insights from contrastive-based transformers for effective feature refinement. A robust chest X-ray processing module tackles low-intensity radiographs, while adversarial-based data augmentation mitigates the skewed distribution of chest X-rays in the dataset. Furthermore, we actively integrate an explainability approach through feature visualization, directly aligning it with the attention region that pinpoints the presence of pneumonia or normality in radiographs. The efficacy of XCCNet is comprehensively assessed on four publicly available datasets. Extensive performance evaluation demonstrates the superiority of XCCNet compared to state-of-the-art methods.

arxiv情報

著者 Chandravardhan Singh Raghaw,Parth Shirish Bhore,Mohammad Zia Ur Rehman,Nagendra Kumar
発行日 2024-10-21 16:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | An Explainable Contrastive-based Dilated Convolutional Network with Transformer for Pediatric Pneumonia Detection はコメントを受け付けていません

Towards Combating Frequency Simplicity-biased Learning for Domain Generalization

要約

ドメイン一般化手法は、目に見えないターゲット ドメインに適切に一般化できる移転可能な知識をソース ドメインから学習することを目的としています。
最近の研究では、ニューラル ネットワークは単純性に偏った学習動作に頻繁に悩まされ、意味情報ではなく特定の周波数セット、つまり周波数ショートカットに過度に依存し、汎化パフォーマンスが低下することが示されています。
以前のデータ拡張技術は汎化パフォーマンスの向上に成功したにもかかわらず、より多くの頻度のショートカットを適用することを意図しており、それによって汎化が改善されたという幻覚を引き起こします。
この論文では、データ駆動型の観点から、頻度のショートカットを適用するこのような学習行為を防止することを目的としています。
データセットの周波数特性に基づく、さまざまな空間周波数成分に対するモデルの偏った学習動作の理論的正当性を考慮すると、フーリエ領域でデータセットの統計構造を変更することで、さまざまな周波数成分に対する学習動作を操作できると主張します。
直感的には、周波数ショートカットはデータセット構造の支配的で依存性の高い周波数に隠されているため、依存しすぎた周波数成分を動的に混乱させると、周波数ショートカットの適用が妨げられる可能性があります。
この目的を達成するために、モデルの学習動作に動的に影響を与え、最終的にショートカット学習を軽減する戦略として機能することを目的として、データセットの周波数特性を協調的かつ適応的に調整するように設計された 2 つの効果的なデータ拡張モジュールを提案します。
コードは AdvFrequency (https://github.com/C0notSilly/AdvFrequency) で入手できます。

要約(オリジナル)

Domain generalization methods aim to learn transferable knowledge from source domains that can generalize well to unseen target domains. Recent studies show that neural networks frequently suffer from a simplicity-biased learning behavior which leads to over-reliance on specific frequency sets, namely as frequency shortcuts, instead of semantic information, resulting in poor generalization performance. Despite previous data augmentation techniques successfully enhancing generalization performances, they intend to apply more frequency shortcuts, thereby causing hallucinations of generalization improvement. In this paper, we aim to prevent such learning behavior of applying frequency shortcuts from a data-driven perspective. Given the theoretical justification of models’ biased learning behavior on different spatial frequency components, which is based on the dataset frequency properties, we argue that the learning behavior on various frequency components could be manipulated by changing the dataset statistical structure in the Fourier domain. Intuitively, as frequency shortcuts are hidden in the dominant and highly dependent frequencies of dataset structure, dynamically perturbating the over-reliance frequency components could prevent the application of frequency shortcuts. To this end, we propose two effective data augmentation modules designed to collaboratively and adaptively adjust the frequency characteristic of the dataset, aiming to dynamically influence the learning behavior of the model and ultimately serving as a strategy to mitigate shortcut learning. Code is available at AdvFrequency (https://github.com/C0notSilly/AdvFrequency).

arxiv情報

著者 Xilin He,Jingyu Hu,Qinliang Lin,Cheng Luo,Weicheng Xie,Siyang Song,Muhammad Haris Khan,Linlin Shen
発行日 2024-10-21 16:17:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Towards Combating Frequency Simplicity-biased Learning for Domain Generalization はコメントを受け付けていません

RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives

要約

最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて注意深く書かれたテキスト プロンプトに依存しています。
入力ビデオに対して多大な労力を要するテキストによる説明が必要となり、個人/生のビデオをユーザーの仕様に適応させる柔軟性が妨げられます。
この論文では、統一されたパイプラインを通じて、削除、追加、変更などの複数のビデオ編集機能をサポートする、多用途でユーザーフレンドリーなビデオから段落からビデオへの生成フレームワークである RACCooN を提案します。
RACCooN は、ビデオから段落へ (V2P) と段落からビデオへ (P2V) という 2 つの主要なステージで構成されます。
V2P 段階では、ビデオ シーンを適切に構造化された自然言語で自動的に記述し、全体的なコンテキストと焦点を絞ったオブジェクトの詳細の両方をキャプチャします。
その後、P2V 段階で、ユーザーは必要に応じてこれらの記述を調整してビデオ拡散モデルをガイドし、主題の削除、変更、および/または新しいオブジェクトの追加など、入力ビデオに対するさまざまな変更を可能にすることができます。
提案されたアプローチは、いくつかの重要な貢献を通じて他の方法よりも際立っています。 (1) RACCooN は、適切に構造化されたビデオ記述を生成するための多粒度の時空間プーリング戦略を提案し、人間による複雑な注釈を必要とせずに広範なコンテキストとオブジェクトの詳細の両方をキャプチャし、正確なビデオを簡素化します。
ユーザー向けのテキストに基づいたコンテンツ編集。
(2) 当社のビデオ生成モデルには、生成されたコンテンツの品質と正確性を高めるために、自動生成されたナラティブまたは指示が組み込まれています。
(3) RACCooN は、特定のビデオ内で新しいオブジェクトを想像することも計画しているため、ユーザーはモデルに、複雑なビデオ編集のための詳細なビデオ編集計画を受け取るよう促すだけです。
提案されたフレームワークは、ビデオから段落への生成、ビデオコンテンツ編集において優れた多用途機能を実証しており、さらなる機能強化のために他の SoTA ビデオ生成モデルに組み込むことができます。

要約(オリジナル)

Recent video generative models primarily rely on carefully written text prompts for specific tasks, like inpainting or style editing. They require labor-intensive textual descriptions for input videos, hindering their flexibility to adapt personal/raw videos to user specifications. This paper proposes RACCooN, a versatile and user-friendly video-to-paragraph-to-video generative framework that supports multiple video editing capabilities such as removal, addition, and modification, through a unified pipeline. RACCooN consists of two principal stages: Video-to-Paragraph (V2P) and Paragraph-to-Video (P2V). In the V2P stage, we automatically describe video scenes in well-structured natural language, capturing both the holistic context and focused object details. Subsequently, in the P2V stage, users can optionally refine these descriptions to guide the video diffusion model, enabling various modifications to the input video, such as removing, changing subjects, and/or adding new objects. The proposed approach stands out from other methods through several significant contributions: (1) RACCooN suggests a multi-granular spatiotemporal pooling strategy to generate well-structured video descriptions, capturing both the broad context and object details without requiring complex human annotations, simplifying precise video content editing based on text for users. (2) Our video generative model incorporates auto-generated narratives or instructions to enhance the quality and accuracy of the generated content. (3) RACCooN also plans to imagine new objects in a given video, so users simply prompt the model to receive a detailed video editing plan for complex video editing. The proposed framework demonstrates impressive versatile capabilities in video-to-paragraph generation, video content editing, and can be incorporated into other SoTA video generative models for further enhancement.

arxiv情報

著者 Jaehong Yoon,Shoubin Yu,Mohit Bansal
発行日 2024-10-21 16:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives はコメントを受け付けていません

Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models

要約

逆ビデオ問題を解決するために画像モデルを単純に使用すると、生成されたビデオのちらつき、テクスチャの固着、および時間的不一致が発生することがよくあります。
これらの問題に取り組むために、この論文では、フレームを 2D 空間の連続関数と見なし、ビデオを異なるフレーム間の一連の連続ワーピング変換と見なします。
この観点により、関数空間拡散モデルを画像上でのみトレーニングし、それらを利用して時間的に相関する逆問題を解決することができます。
関数空間拡散モデルは、基礎となる空間変換に関して等変である必要があります。
時間的な一貫性を確保するために、(自己) 等変ソリューションに向けた単純な事後テスト時のガイダンスを導入します。
私たちの方法では、Stable Diffusion XL などの最先端の潜在拡散モデルを導入してビデオ逆問題を解決できます。
私たちは、ビデオ修復と $8\times$ のビデオ超解像度に対する私たちの手法の有効性を実証し、ノイズ変換に基づく既存の手法を上回ります。
生成されたビデオ結果は https://giannisdaras.github.io/warped\_diffusion.github.io/ から提供されます。

要約(オリジナル)

Using image models naively for solving inverse video problems often suffers from flickering, texture-sticking, and temporal inconsistency in generated videos. To tackle these problems, in this paper, we view frames as continuous functions in the 2D space, and videos as a sequence of continuous warping transformations between different frames. This perspective allows us to train function space diffusion models only on images and utilize them to solve temporally correlated inverse problems. The function space diffusion models need to be equivariant with respect to the underlying spatial transformations. To ensure temporal consistency, we introduce a simple post-hoc test-time guidance towards (self)-equivariant solutions. Our method allows us to deploy state-of-the-art latent diffusion models such as Stable Diffusion XL to solve video inverse problems. We demonstrate the effectiveness of our method for video inpainting and $8\times$ video super-resolution, outperforming existing techniques based on noise transformations. We provide generated video results: https://giannisdaras.github.io/warped\_diffusion.github.io/.

arxiv情報

著者 Giannis Daras,Weili Nie,Karsten Kreis,Alex Dimakis,Morteza Mardani,Nikola Borislavov Kovachki,Arash Vahdat
発行日 2024-10-21 16:19:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models はコメントを受け付けていません

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩にもかかわらず、その開発は主に英語と西洋中心のデータセットとタスクに焦点を当てており、世界の言語のほとんどと多様な文化的背景は過小評価されています。
この論文では、39 言語にわたる多様な 6M 命令データセットである PangeaIns でトレーニングされた多言語マルチモーダル LLM である Pangea を紹介します。
PangeaIns の特徴: 1) 高品質の英語の指示、2) 注意深く機械翻訳された指示、3) 異文化を確実にカバーするための文化的に関連したマルチモーダルなタスク。
モデルの機能を厳密に評価するために、47 言語をカバーする 14 のデータセットを含む総合的な評価スイートである PangeaBench を導入します。
結果は、Pangea が多言語環境や多様な文化的背景において既存のオープンソース モデルよりも大幅に優れたパフォーマンスを発揮することを示しています。
アブレーション研究では、全体的なパフォーマンスに対する英語のデータの割合、言語の人気、マルチモーダル トレーニング サンプルの数の重要性がさらに明らかになりました。
当社はデータ、コード、トレーニングされたチェックポイントを完全にオープンソースにし、包括的で堅牢な多言語 MLLM の開発を促進し、より幅広い言語および文化の範囲にわたる公平性とアクセシビリティを促進します。

要約(オリジナル)

Despite recent advances in multimodal large language models (MLLMs), their development has predominantly focused on English- and western-centric datasets and tasks, leaving most of the world’s languages and diverse cultural contexts underrepresented. This paper introduces Pangea, a multilingual multimodal LLM trained on PangeaIns, a diverse 6M instruction dataset spanning 39 languages. PangeaIns features: 1) high-quality English instructions, 2) carefully machine-translated instructions, and 3) culturally relevant multimodal tasks to ensure cross-cultural coverage. To rigorously assess models’ capabilities, we introduce PangeaBench, a holistic evaluation suite encompassing 14 datasets covering 47 languages. Results show that Pangea significantly outperforms existing open-source models in multilingual settings and diverse cultural contexts. Ablation studies further reveal the importance of English data proportions, language popularity, and the number of multimodal training samples on overall performance. We fully open-source our data, code, and trained checkpoints, to facilitate the development of inclusive and robust multilingual MLLMs, promoting equity and accessibility across a broader linguistic and cultural spectrum.

arxiv情報

著者 Xiang Yue,Yueqi Song,Akari Asai,Seungone Kim,Jean de Dieu Nyandwi,Simran Khanuja,Anjali Kantharuban,Lintang Sutawika,Sathyanarayanan Ramamoorthy,Graham Neubig
発行日 2024-10-21 16:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages はコメントを受け付けていません

Metric as Transform: Exploring beyond Affine Transform for Interpretable Neural Network

要約

さまざまなアーキテクチャの人工ニューラル ネットワークは、通常、中核でアフィン変換と組み合わせられます。
ただし、グローバルな影響を持つ内積ニューロンは、(Radial Basis Function Network で使用される) ユークリッド距離のローカルな影響と比較して解釈しにくいことがわかります。
この研究では、内積ニューロンの $l^p$-norm や計量などへの一般化を探ります。
変換としてのメトリックは、多層パーセプトロンまたは畳み込みニューラル ネットワークで使用される場合、アフィン変換と同様に実行されることがわかります。
さらに、メトリクスのさまざまなプロパティを調査し、Affine と比較し、メトリクスがより良い解釈を提供すると思われる複数のケースを示します。
私たちは解釈可能なローカル辞書ベースのニューラル ネットワークを開発し、それを敵対的な例を理解して拒否するために使用します。

要約(オリジナル)

Artificial Neural Networks of varying architectures are generally paired with affine transformation at the core. However, we find dot product neurons with global influence less interpretable as compared to local influence of euclidean distance (as used in Radial Basis Function Network). In this work, we explore the generalization of dot product neurons to $l^p$-norm, metrics, and beyond. We find that metrics as transform performs similarly to affine transform when used in MultiLayer Perceptron or Convolutional Neural Network. Moreover, we explore various properties of Metrics, compare it with Affine, and present multiple cases where metrics seem to provide better interpretability. We develop an interpretable local dictionary based Neural Networks and use it to understand and reject adversarial examples.

arxiv情報

著者 Suman Sapkota
発行日 2024-10-21 16:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE | Metric as Transform: Exploring beyond Affine Transform for Interpretable Neural Network はコメントを受け付けていません

Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning

要約

ビジョン言語モデル (VLM) は、幅広い下流タスクにわたって優れたパフォーマンスを実証しています。
しかし、ナビゲーションや物理的環境との相互作用を伴うタスクにおいて重要な役割を果たしているにもかかわらず、彼らの空間推論の熟練度は依然として限られています。
具体的には、これらのタスクにおける空間推論の多くは 2 次元 (2D) 環境で行われ、私たちの評価では、最先端の VLM が、単純な経路探索タスクを含む複合空間推論問題に対して、ありえない不正確な応答を頻繁に生成することが明らかになりました。
人間は一目見て簡単に解決できます。
これに対処するために、基本的な空間機能に基づいてモデルをトレーニングすることで、VLM 内の 2D 空間推論を強化する効果的なアプローチを検討します。
まず、2D 空間推論の主要なコンポーネントである方向理解、距離推定、位置特定を解きほぐすことから始めます。
私たちの中心的な仮説は、これらの基本的な空間機能を習得することで、高度な空間理解と組み合わせの問題解決を必要とする複合空間タスクにおけるモデルのパフォーマンスを大幅に向上できるということです。
この仮説を調査するために、合成データ生成とターゲットを絞った監視によってこれら 3 つの基本的な空間機能に基づいて VLM を微調整し、各機能の命令データセットを形成するフレームワークである Sparkle を導入します。
私たちの実験では、Sparkle で微調整された VLM が、基本的なタスク自体だけでなく、複合タスクや分散外の空間推論タスクに一般化した場合でも、大幅なパフォーマンス向上を達成することを実証しています (たとえば、最短タスクでは 13.5% から 40.0% に向上)。
パスの問題)。
これらの発見は、複合空間問題解決を強化する上で基本的な空間能力を習得することの有効性を強調し、VLM の空間推論能力を向上させるための洞察を提供します。

要約(オリジナル)

Vision language models (VLMs) have demonstrated impressive performance across a wide range of downstream tasks. However, their proficiency in spatial reasoning remains limited, despite its crucial role in tasks involving navigation and interaction with physical environments. Specifically, much of the spatial reasoning in these tasks occurs in two-dimensional (2D) environments, and our evaluation reveals that state-of-the-art VLMs frequently generate implausible and incorrect responses to composite spatial reasoning problems, including simple pathfinding tasks that humans can solve effortlessly at a glance. To address this, we explore an effective approach to enhance 2D spatial reasoning within VLMs by training the model on basic spatial capabilities. We begin by disentangling the key components of 2D spatial reasoning: direction comprehension, distance estimation, and localization. Our central hypothesis is that mastering these basic spatial capabilities can significantly enhance a model’s performance on composite spatial tasks requiring advanced spatial understanding and combinatorial problem-solving. To investigate this hypothesis, we introduce Sparkle, a framework that fine-tunes VLMs on these three basic spatial capabilities by synthetic data generation and targeted supervision to form an instruction dataset for each capability. Our experiments demonstrate that VLMs fine-tuned with Sparkle achieve significant performance gains, not only in the basic tasks themselves but also in generalizing to composite and out-of-distribution spatial reasoning tasks (e.g., improving from 13.5% to 40.0% on the shortest path problem). These findings underscore the effectiveness of mastering basic spatial capabilities in enhancing composite spatial problem-solving, offering insights for improving VLMs’ spatial reasoning capabilities.

arxiv情報

著者 Yihong Tang,Ao Qu,Zhaokai Wang,Dingyi Zhuang,Zhaofeng Wu,Wei Ma,Shenhao Wang,Yunhan Zheng,Zhan Zhao,Jinhua Zhao
発行日 2024-10-21 16:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning はコメントを受け付けていません

Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models

要約

大規模マルチモーダル モデル (LMM) は、自己回帰モデリングに基づいたさまざまな視覚言語および視覚中心のタスクにおいて大きな進歩を遂げました。
ただし、これらのモデルは通常、視覚的なグラウンディングや領域の説明などの視覚中心のタスク、または画像キャプションやマルチシナリオ VQA などの視覚言語タスクのいずれかに焦点を当てています。
自然言語処理分野の大規模言語モデルに見られるように、両方のタイプのタスクを 1 つのモデル内で包括的に統合している LMM はまだありません。
さらに、豊富なマルチタスク命令追従データがあっても、ユニバーサル機能を拡張するためにこれらのデータを直接スタックすることは依然として困難です。
これらの問題に対処するために、CCMD-8M という新しい多次元のキュレーションおよび統合されたマルチモーダル データセットを導入します。これは、マルチレベルのデータ キュレーションとマルチタスクの統合を通じて、視覚中心のタスクと視覚言語のタスクを統合するというデータの壁を克服します。
さらに重要なのは、単一のエンドツーエンド パラダイム内で視覚中心のタスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダル モデルである Griffon-G を紹介することです。
Griffon-G は、これらのタスクの共同最適化中に発生したトレーニング崩壊の問題を解決し、トレーニング効率の向上を実現します。
マルチモーダル ベンチマーク、一般的なビジュアル質問応答 (VQA) タスク、シーン テキスト中心の VQA タスク、ドキュメント関連の VQA タスク、参照式理解、オブジェクト検出にわたる評価では、Griffon-G が高度な LMM を上回り、次の分野でエキスパート レベルのパフォーマンスを達成していることが実証されています。
複雑な視覚中心のタスク。

要約(オリジナル)

Large Multimodal Models (LMMs) have achieved significant breakthroughs in various vision-language and vision-centric tasks based on auto-regressive modeling. However, these models typically focus on either vision-centric tasks, such as visual grounding and region description, or vision-language tasks, like image caption and multi-scenario VQAs. None of the LMMs have yet comprehensively unified both types of tasks within a single model, as seen in Large Language Models in the natural language processing field. Furthermore, even with abundant multi-task instruction-following data, directly stacking these data for universal capabilities extension remains challenging. To address these issues, we introduce a novel multi-dimension curated and consolidated multimodal dataset, named CCMD-8M, which overcomes the data barriers of unifying vision-centric and vision-language tasks through multi-level data curation and multi-task consolidation. More importantly, we present Griffon-G, a general large multimodal model that addresses both vision-centric and vision-language tasks within a single end-to-end paradigm. Griffon-G resolves the training collapse issue encountered during the joint optimization of these tasks, achieving better training efficiency. Evaluations across multimodal benchmarks, general Visual Question Answering (VQA) tasks, scene text-centric VQA tasks, document-related VQA tasks, Referring Expression Comprehension, and object detection demonstrate that Griffon-G surpasses the advanced LMMs and achieves expert-level performance in complicated vision-centric tasks.

arxiv情報

著者 Yufei Zhan,Hongyin Zhao,Yousong Zhu,Fan Yang,Ming Tang,Jinqiao Wang
発行日 2024-10-21 16:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models はコメントを受け付けていません

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

要約

マルチモーダル大規模言語モデル (MLLM) は、ビジュアル モダリティとテキスト モダリティを統合することによって大幅に進歩しました。
MLLM のトレーニングにおける重要な要素は、マルチモーダル事前トレーニング データセット内の画像とテキストのペアの品質です。
しかし、$\textit {事実上}$ フィルターベースのデータ品質向上パラダイムでは、画像とテキスト間の意味論的な整合性が不十分であるため、高品質の画像データのかなりの部分が破棄されることが多く、データ利用とスケーラビリティの非効率につながります。
この論文では、画像とテキストのペアの品質を動的に評価して向上させるモデルである、Adaptive Image-Text Quality Enhancer (AITQE) を提案します。
AITQE は、低品質のペアに対してテキスト書き換えメカニズムを採用し、トレーニング中に意図的に選択された低品質のサンプルを統合することで評価機能を向上させるネガティブ サンプル学習戦略を組み込んでいます。
テキストの分布を大幅に変更する従来のアプローチとは異なり、私たちの方法では、品質を向上させながらデータ量を維持するためにテキストを最小限に調整します。
実験結果は、AITQE がさまざまなベンチマークで既存の手法を上回り、生データを効果的に活用し、データ量の増加に応じて効率的に拡張できることを示しています。
私たちの作品が将来の作品にインスピレーションを与えることを願っています。
コードとモデルは https://github.com/hanhuang22/AITQE から入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have made significant strides by integrating visual and textual modalities. A critical factor in training MLLMs is the quality of image-text pairs within multimodal pretraining datasets. However, $\textit {de facto}$ filter-based data quality enhancement paradigms often discard a substantial portion of high-quality image data due to inadequate semantic alignment between images and texts, leading to inefficiencies in data utilization and scalability. In this paper, we propose the Adaptive Image-Text Quality Enhancer (AITQE), a model that dynamically assesses and enhances the quality of image-text pairs. AITQE employs a text rewriting mechanism for low-quality pairs and incorporates a negative sample learning strategy to improve evaluative capabilities by integrating deliberately selected low-quality samples during training. Unlike prior approaches that significantly alter text distributions, our method minimally adjusts text to preserve data volume while enhancing quality. Experimental results demonstrate that AITQE surpasses existing methods on various benchmark, effectively leveraging raw data and scaling efficiently with increasing data volumes. We hope our work will inspire future works. The code and model are available at: https://github.com/hanhuang22/AITQE.

arxiv情報

著者 Han Huang,Yuqi Huo,Zijia Zhao,Haoyu Lu,Shu Wu,Bingning Wang,Qiang Liu,Weipeng Chen,Liang Wang
発行日 2024-10-21 16:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining はコメントを受け付けていません

A Framework for Evaluating Predictive Models Using Synthetic Image Covariates and Longitudinal Data

要約

私たちは、複雑な共変量(目のスキャンなど)と長期的な観察(経時的な視力など)を組み合わせた患者データを合成するための新しいフレームワークを提示し、医療研究におけるプライバシーの懸念に対処します。
私たちのアプローチは、各データモダリティを生成する潜在空間に制御された関連付けを導入し、複雑な共変量と縦方向の観測ペアの作成を可能にします。
このフレームワークは、予測モデルの開発を促進し、医療研究向けにオープンに利用可能なベンチマーク データセットを提供します。
光コヒーレンストモグラフィー (OCT) スキャンを使用してフレームワークを実証しますが、これはドメイン全体に適用できます。
109,309 の 2D OCT スキャン スライスを使用して、変分オートエンコーダーと拡散モデルを組み合わせた画像生成モデルをトレーニングしました。
縦断観測は、ランダム効果の低次元空間からの非線形混合効果 (NLME) モデルを使用してシミュレートされました。
制御された関連レベル(被験者間の変動の100%、50%、10%、5.26%、および2%)での5セットの縦断観察とペアになった110万のOCTスキャンスライスを生成しました。
このフレームワークを評価するために、別の NLME モデルを使用して合成縦断観測をモデル化し、変量効果の経験的ベイズ推定値を計算し、合成 OCT スキャンからこれらの推定値を予測するように ResNet をトレーニングしました。
次に、患者個別の予測のために ResNet 予測を NLME モデルに組み込みました。
保留されたデータの予測精度は、画像と縦方向の測定値の間の関連性が低下したため、意図したとおり低下しました。
特に、2% を除くすべてのケースで、保留されたデータに関する理論上の可能な限り最良の予測の 50% 以内を達成し、弱いシグナルさえも検出できる能力を実証しました。
これは、関連レベルが制御された合成データを生成する際のフレームワークの有効性を裏付け、ヘルスケア研究に貴重なツールを提供します。

要約(オリジナル)

We present a novel framework for synthesizing patient data with complex covariates (e.g., eye scans) paired with longitudinal observations (e.g., visual acuity over time), addressing privacy concerns in healthcare research. Our approach introduces controlled association in latent spaces generating each data modality, enabling the creation of complex covariate-longitudinal observation pairs. This framework facilitates the development of predictive models and provides openly available benchmarking datasets for healthcare research. We demonstrate our framework using optical coherence tomography (OCT) scans, though it is applicable across domains. Using 109,309 2D OCT scan slices, we trained an image generative model combining a variational autoencoder and a diffusion model. Longitudinal observations were simulated using a nonlinear mixed effect (NLME) model from a low-dimensional space of random effects. We generated 1.1M OCT scan slices paired with five sets of longitudinal observations at controlled association levels (100%, 50%, 10%, 5.26%, and 2% of between-subject variability). To assess the framework, we modeled synthetic longitudinal observations with another NLME model, computed empirical Bayes estimates of random effects, and trained a ResNet to predict these estimates from synthetic OCT scans. We then incorporated ResNet predictions into the NLME model for patient-individualized predictions. Prediction accuracy on withheld data declined as intended with reduced association between images and longitudinal measurements. Notably, in all but the 2% case, we achieved within 50% of the theoretical best possible prediction on withheld data, demonstrating our ability to detect even weak signals. This confirms the effectiveness of our framework in generating synthetic data with controlled levels of association, providing a valuable tool for healthcare research.

arxiv情報

著者 Simon Deltadahl,Andreu Vall,Vijay Ivaturi,Niklas Korsbo
発行日 2024-10-21 16:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Framework for Evaluating Predictive Models Using Synthetic Image Covariates and Longitudinal Data はコメントを受け付けていません