SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer

要約

このペーパーでは、リップリーディング用の効率的な視覚音声エンコーダーを紹介します。
最新の唇の読みの研究はResNetアーキテクチャに基づいており、大成功を収めていますが、時空間情報のモデリングにおける計算の複雑さが高いため、唇の読みの特徴を効率的にキャプチャするのに十分な適切ではありません。
さらに、複雑な視覚モデルを使用すると、唇の読みモデルの複雑さを高めるだけでなく、マルチモーダル研究のネットワーク全体の遅延を誘導します(例えば、視聴覚音声認識、音声拡張、音声分離など)。
畳み込みニューラルネットワーク(CNN)ベースのモデルの限界を克服するために、swin変圧器の階層構造と窓の自己触媒を唇の読みに適用します。
リップリーディングデータの処理に適したSWIN変圧器の新しい軽量スケールを構成し、Swinlip Visual Speech Encoderを提示します。これにより、修正された畳み込み高度変圧器(コンフォーマー)の時間埋め込みが階層構造の従来の空間埋め込みを統合することにより、計算負荷を効率的に削減します。
広範な実験を通じて、単語と文の認識のためにさまざまなバックボーンに適用され、計算負荷が削減された場合、Swinlipがリップリーディングネットワークのパフォーマンスと推論速度を正常に改善することを検証しました。
特に、Swinlipは、英語のLRWおよびMandarin LRW-1000データセットの両方で堅牢なパフォーマンスを実証し、既存の最先端モデルと比較して、計算が少ないマンダリンLRW-1000データセットで最先端のパフォーマンスを達成しました。

要約(オリジナル)

This paper presents an efficient visual speech encoder for lip reading. While most recent lip reading studies have been based on the ResNet architecture and have achieved significant success, they are not sufficiently suitable for efficiently capturing lip reading features due to high computational complexity in modeling spatio-temporal information. Additionally, using a complex visual model not only increases the complexity of lip reading models but also induces delays in the overall network for multi-modal studies (e.g., audio-visual speech recognition, speech enhancement, and speech separation). To overcome the limitations of Convolutional Neural Network (CNN)-based models, we apply the hierarchical structure and window self-attention of the Swin Transformer to lip reading. We configure a new lightweight scale of the Swin Transformer suitable for processing lip reading data and present the SwinLip visual speech encoder, which efficiently reduces computational load by integrating modified Convolution-augmented Transformer (Conformer) temporal embeddings with conventional spatial embeddings in the hierarchical structure. Through extensive experiments, we have validated that our SwinLip successfully improves the performance and inference speed of the lip reading network when applied to various backbones for word and sentence recognition, reducing computational load. In particular, our SwinLip demonstrated robust performance in both English LRW and Mandarin LRW-1000 datasets and achieved state-of-the-art performance on the Mandarin LRW-1000 dataset with less computation compared to the existing state-of-the-art model.

arxiv情報

著者 Young-Hu Park,Rae-Hong Park,Hyung-Min Park
発行日 2025-05-07 13:18:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.AS | SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer はコメントを受け付けていません

Deep residual learning with product units

要約

製品ユニットを残留ブロックに統合して、深い畳み込みネットワークの表現力とパラメーター効率を改善する深い製品ユニットの残留ニューラルネットワーク(PURE)を提案します。
標準の合計ニューロンとは異なり、製品ユニットは乗算的特徴の相互作用を有効にし、複雑なパターンのより強力な表現を提供する可能性があります。
Pureは、各残差ブロックの2番目の層に従来の畳み込み層を2D製品ユニットに置き換え、構造情報を維持するために非線形活性化関数を排除します。
3つのベンチマークデータセットでPureを検証します。
Galaxy10デカールでは、Pure34は84.89%の最高のテスト精度を達成し、はるかに深いResnet152を超え、ほぼ5倍速く収束し、ポアソンノイズに強い堅牢性を示します。
Imagenetでは、純粋なアーキテクチャは同様の深さで標準のResnetモデルを上回り、Pure34は80.27%の上位1精度と95.78%の上位5精度を達成し、より深いResNetバリエーション(ResNet50、ResNet101)を超え、パラメーターと計算リソースを大幅に少なくします。
CIFAR-10では、Pureはさまざまな深さにわたって一貫してresnetバリアントを上回り、Pure272はResNet1001に匹敵するが、モデルサイズの半分未満で95.01%のテスト精度に達します。
これらの結果は、純粋が精度、効率、堅牢性の間の好ましいバランスを達成することを示しています。
従来の残留ネットワークと比較して、Pureは、収束が速く、パラメーターが少ない競争力のある分類パフォーマンスを達成するだけでなく、ノイズに対する堅牢性を高めます。
多様なデータセット全体のその効果は、コンピュータービジョンにおけるスケーラブルで信頼できる深い学習のための製品ユニットベースのアーキテクチャの可能性を強調しています。

要約(オリジナル)

We propose a deep product-unit residual neural network (PURe) that integrates product units into residual blocks to improve the expressiveness and parameter efficiency of deep convolutional networks. Unlike standard summation neurons, product units enable multiplicative feature interactions, potentially offering a more powerful representation of complex patterns. PURe replaces conventional convolutional layers with 2D product units in the second layer of each residual block, eliminating nonlinear activation functions to preserve structural information. We validate PURe on three benchmark datasets. On Galaxy10 DECaLS, PURe34 achieves the highest test accuracy of 84.89%, surpassing the much deeper ResNet152, while converging nearly five times faster and demonstrating strong robustness to Poisson noise. On ImageNet, PURe architectures outperform standard ResNet models at similar depths, with PURe34 achieving a top-1 accuracy of 80.27% and top-5 accuracy of 95.78%, surpassing deeper ResNet variants (ResNet50, ResNet101) while utilizing significantly fewer parameters and computational resources. On CIFAR-10, PURe consistently outperforms ResNet variants across varying depths, with PURe272 reaching 95.01% test accuracy, comparable to ResNet1001 but at less than half the model size. These results demonstrate that PURe achieves a favorable balance between accuracy, efficiency, and robustness. Compared to traditional residual networks, PURe not only achieves competitive classification performance with faster convergence and fewer parameters, but also demonstrates greater robustness to noise. Its effectiveness across diverse datasets highlights the potential of product-unit-based architectures for scalable and reliable deep learning in computer vision.

arxiv情報

著者 Ziyuan Li,Uwe Jaekel,Babette Dellen
発行日 2025-05-07 13:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Deep residual learning with product units はコメントを受け付けていません

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

要約

近年、マルチモーダル理解モデルと画像生成モデルの両方で顕著な進歩が見られています。
それぞれの成功にもかかわらず、これらの2つのドメインは独立して進化し、明確なアーキテクチャパラダイムにつながりました。自己回帰ベースのアーキテクチャはマルチモーダルの理解を支配していますが、拡散ベースのモデルは画像生成の基礎になりました。
最近、これらのタスクを統合する統合フレームワークの開発に関心が高まっています。
GPT-4Oの新しい機能の出現は、この傾向を例示しており、統一の可能性を強調しています。
ただし、2つのドメイン間のアーキテクチャの違いは、大きな課題をもたらします。
統一に向けた現在の取り組みの明確な概要を提供するために、将来の研究を導くことを目的とした包括的な調査を提示します。
まず、マルチモーダルの理解とテキストから画像の生成モデルの基礎概念と最近の進歩を紹介します。
次に、既存の統一モデルをレビューし、それらを3つの主要なアーキテクチャパラダイムに分類します:拡散ベース、自己回帰ベース、およびハイブリッドアプローチを融合させる自己回帰および拡散メカニズムを融合します。
各カテゴリについて、関連する作品によって導入された構造設計と革新を分析します。
さらに、統一されたモデル用に合わせたデータセットとベンチマークをコンパイルし、将来の探索のためのリソースを提供します。
最後に、トークン化戦略、クロスモーダルの注意、データなど、この初期の分野が直面している重要な課題について説明します。
この領域はまだ初期段階にあるため、急速な進歩を予想し、この調査を定期的に更新します。
私たちの目標は、さらなる研究を促し、コミュニティに貴重な参照を提供することです。
この調査に関連付けられた参照は、github(https://github.com/aidc-ai/awesome-unified-multimodal-models)で入手できます。

要約(オリジナル)

Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o’s new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey are available on GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

arxiv情報

著者 Xinjie Zhang,Jintao Guo,Shanshan Zhao,Minghao Fu,Lunhao Duan,Guo-Hua Wang,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang
発行日 2025-05-07 13:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities はコメントを受け付けていません

MFSeg: Efficient Multi-frame 3D Semantic Segmentation

要約

効率的なマルチフレーム3DセマンティックセグメンテーションフレームワークであるMFSEGを提案します。
特徴レベルでポイントクラウドシーケンスを集約し、特徴抽出と集約プロセスを正規化することにより、MFSEGは高精度を維持しながら計算オーバーヘッドを削減します。
さらに、軽量のMLPベースのポイントデコーダーを使用することにより、この方法は、過去のフレームから冗長ポイントをアップサンプリングする必要性を排除します。
ヌスセンとWaymoデータセットの実験は、MFSEGが既存の方法を上回り、その有効性と効率性を実証することを示しています。

要約(オリジナル)

We propose MFSeg, an efficient multi-frame 3D semantic segmentation framework. By aggregating point cloud sequences at the feature level and regularizing the feature extraction and aggregation process, MFSeg reduces computational overhead while maintaining high accuracy. Moreover, by employing a lightweight MLP-based point decoder, our method eliminates the need to upsample redundant points from past frames. Experiments on the nuScenes and Waymo datasets show that MFSeg outperforms existing methods, demonstrating its effectiveness and efficiency.

arxiv情報

著者 Chengjie Huang,Krzysztof Czarnecki
発行日 2025-05-07 13:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MFSeg: Efficient Multi-frame 3D Semantic Segmentation はコメントを受け付けていません

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

要約

高密度の視覚的予測タスクは、事前定義されたカテゴリへの依存によって制約されており、視覚概念が無制限の現実世界のシナリオでの適用性を制限しています。
クリップのようなビジョン言語モデル(VLMS)は、オープンボキャブラリータスクで有望であることを示していますが、密な予測への直接の適用は、しばしばローカルの特徴表現の制限により最適ではないパフォーマンスにつながります。
この作業では、Clipの画像トークンが空間的または意味的に関連する領域からの情報を効果的に集約するのに苦労しているという観察結果を提示し、地域の識別性と空間的一貫性を欠く機能をもたらします。
この問題に対処するために、それぞれ自己関節モジュールを分離して「コンテンツ」と「コンテキスト」機能を取得することにより、クリップを強化する新しいフレームワークであるレフリップを提案します。
「コンテンツ」機能は、局所的な識別性を改善するための画像作物の表現と一致していますが、「コンテキスト」機能は、ディノなどのビジョンファンデーションモデルのガイダンスの下で空間相関を維持することを学びます。
広範な実験では、削減は、オブジェクトの検出やセマンティックセグメンテーションなど、複数のオープンボキャブラリー密度の高い予測タスクにわたって既存の方法を大幅に上回ることが示されています。
コードは\ textcolor {magenta} {https://github.com/xiaomoguhz/declip}で利用できます。

要約(オリジナル)

Dense visual prediction tasks have been constrained by their reliance on predefined categories, limiting their applicability in real-world scenarios where visual concepts are unbounded. While Vision-Language Models (VLMs) like CLIP have shown promise in open-vocabulary tasks, their direct application to dense prediction often leads to suboptimal performance due to limitations in local feature representation. In this work, we present our observation that CLIP’s image tokens struggle to effectively aggregate information from spatially or semantically related regions, resulting in features that lack local discriminability and spatial consistency. To address this issue, we propose DeCLIP, a novel framework that enhances CLIP by decoupling the self-attention module to obtain “content” and “context” features respectively. The “content” features are aligned with image crop representations to improve local discriminability, while “context” features learn to retain the spatial correlations under the guidance of vision foundation models, such as DINO. Extensive experiments demonstrate that DeCLIP significantly outperforms existing methods across multiple open-vocabulary dense prediction tasks, including object detection and semantic segmentation. Code is available at \textcolor{magenta}{https://github.com/xiaomoguhz/DeCLIP}.

arxiv情報

著者 Junjie Wang,Bin Chen,Yulin Li,Bin Kang,Yichi Chen,Zhuotao Tian
発行日 2025-05-07 13:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception はコメントを受け付けていません

RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation

要約

任意のスタイル転送は、特定の芸術的画像のスタイルを別のコンテンツ画像に適用することを目的としています。
それでも、既存の深い学習ベースの方法では、多様な定型化された結果を生成するために、多くの場合、大幅な計算コストが必要です。
これに動機付けられて、私たちは任意のスタイル転送rlministylerのための新しい強化学習ベースのフレームワークを提案します。
このフレームワークは、統一された補強学習ポリシーを活用して、スタイリライゼーションのフィードバックを調査および悪用することにより、スタイル転送プロセスを繰り返し導き、モデルの軽量を達成しながらスタイリングされた結果のスムーズなシーケンスを生成します。
さらに、さまざまなトレーニング段階でコンテンツとスタイルのバランス要件に適応するために損失の重みを自動的に調整する不確実なマルチタスク学習戦略を導入し、それによりモデルの収束を加速します。
画像のさまざまな解像度を越えた一連の実験を通じて、高品質で多様な芸術的画像シーケンスを低コストで生成する際の他の最先端の方法よりもRLMinistylerの利点を検証しました。
コードはhttps://github.com/fengxiaoming520/rlministylerで入手できます。

要約(オリジナル)

Arbitrary style transfer aims to apply the style of any given artistic image to another content image. Still, existing deep learning-based methods often require significant computational costs to generate diverse stylized results. Motivated by this, we propose a novel reinforcement learning-based framework for arbitrary style transfer RLMiniStyler. This framework leverages a unified reinforcement learning policy to iteratively guide the style transfer process by exploring and exploiting stylization feedback, generating smooth sequences of stylized results while achieving model lightweight. Furthermore, we introduce an uncertainty-aware multi-task learning strategy that automatically adjusts loss weights to adapt to the content and style balance requirements at different training stages, thereby accelerating model convergence. Through a series of experiments across image various resolutions, we have validated the advantages of RLMiniStyler over other state-of-the-art methods in generating high-quality, diverse artistic image sequences at a lower cost. Codes are available at https://github.com/fengxiaoming520/RLMiniStyler.

arxiv情報

著者 Jing Hu,Chengming Feng,Shu Hu,Ming-Ching Chang,Xin Li,Xi Wu,Xin Wang
発行日 2025-05-07 13:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation はコメントを受け付けていません

Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models

要約

頭の回転中の照明と影の影響を正確にモデル化することは、画像のリアリズムを強化し、アーティファクトを減らすためのコンピュータービジョンで重要です。
この研究では、拡散モデルを除去する潜在的な空間を掘り下げて、さまざまな照明条件下で連続的な頭部回転を表現できる説得力のある軌跡を特定します。
私たちの作品の重要な貢献は、celebaデータセットからの追加のラベルの生成であり、左、中央、右の一般的な照明方向に基づいて、画像を3つのグループに分類します。
これらのラベルは、私たちのアプローチで重要な役割を果たし、より正確な操作を可能にし、照明のバリエーションの取り扱いを改善します。
拡散暗黙モデル(DDIM)を除去するための最近の埋め込み手法を活用すると、我々の方法は注目に値する操作を実現し、$ \ PM 30 $の幅の広い回転角を含み、困難な照明条件下でも個々の異なる特性を保存します。
私たちの方法論には、線形回帰を介して異なるヨー回転でデータセットサンプルの潜在的な表現の雲を近似する軌跡を計算することが含まれます。
特定の軌道は、光方向を含むソース画像と重要な属性を共有するデータのサブセットを分析することによって取得されます。
特に、私たちのアプローチでは、回転タスクの生成モデルの特定のトレーニングは必要ありません。
事前に訓練された顔生成モデルの潜在空間で特定の軌跡を計算して追跡するだけです。
この記事では、顕著な例の定性的な議論を通じて、私たちのアプローチの可能性とその現在の制限を紹介しています。
この研究は、生成モデルの潜在空間の表現学習とセマンティック調査の進行中の進歩に貢献しています。

要約(オリジナル)

Accurately modeling the effects of illumination and shadows during head rotation is critical in computer vision for enhancing image realism and reducing artifacts. This study delves into the latent space of denoising diffusion models to identify compelling trajectories that can express continuous head rotation under varying lighting conditions. A key contribution of our work is the generation of additional labels from the CelebA dataset,categorizing images into three groups based on prevalent illumination direction: left, center, and right. These labels play a crucial role in our approach, enabling more precise manipulations and improved handling of lighting variations. Leveraging a recent embedding technique for Denoising Diffusion Implicit Models (DDIM), our method achieves noteworthy manipulations, encompassing a wide rotation angle of $\pm 30$ degrees, while preserving individual distinct characteristics even under challenging illumination conditions. Our methodology involves computing trajectories that approximate clouds of latent representations of dataset samples with different yaw rotations through linear regression. Specific trajectories are obtained by analyzing subsets of data that share significant attributes with the source image, including light direction. Notably, our approach does not require any specific training of the generative model for the task of rotation; we merely compute and follow specific trajectories in the latent space of a pre-trained face generation model. This article showcases the potential of our approach and its current limitations through a qualitative discussion of notable examples. This study contributes to the ongoing advancements in representation learning and the semantic investigation of the latent space of generative models.

arxiv情報

著者 Andrea Asperti,Gabriele Colasuonno,Antonio Guerra
発行日 2025-05-07 14:05:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models はコメントを受け付けていません

Deep Learning for Sea Surface Temperature Reconstruction under Cloud Occlusion

要約

雲のギャップの影響を受けた衛星画像からの海面温度(SST)の再構築は、過去30年間に広範囲に文書化されてきました。
ここでは、Modis Aqua Nighttime L3画像から始まる雲に閉じ込められた領域を埋めるためのいくつかの機械学習モデルについて説明します。
この課題に取り組むために、私たちは、雲のない領域で観察された値の完全性を維持しながら、衛星画像のクラウドで覆われた部分を再構築するために、一種の畳み込みニューラルネットワークモデル(U-NET)を採用しました。
OI補間アルゴリズムを使用して行われた利用可能な製品に関して、U-NETの優れた精度を示します。
当社の最高のパフォーマンスのアーキテクチャは、確立されたギャップを埋める方法よりも50%低い根平均平方根誤差を示しています。

要約(オリジナル)

Sea Surface Temperature (SST) reconstructions from satellite images affected by cloud gaps have been extensively documented in the past three decades. Here we describe several Machine Learning models to fill the cloud-occluded areas starting from MODIS Aqua nighttime L3 images. To tackle this challenge, we employed a type of Convolutional Neural Network model (U-net) to reconstruct cloud-covered portions of satellite imagery while preserving the integrity of observed values in cloud-free areas. We demonstrate the outstanding precision of U-net with respect to available products done using OI interpolation algorithms. Our best-performing architecture show 50% lower root mean square errors over established gap-filling methods.

arxiv情報

著者 Andrea Asperti,Ali Aydogdu,Angelo Greco,Fabio Merizzi,Pietro Miraglio,Beniamino Tartufoli,Alessandro Testa,Nadia Pinardi,Paolo Oddo
発行日 2025-05-07 14:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.5 | Deep Learning for Sea Surface Temperature Reconstruction under Cloud Occlusion はコメントを受け付けていません

Sharpness-Aware Minimization with Z-Score Gradient Filtering for Neural Networks

要約

Sharpness-Aware Minimization(SAM)は、パラメーターの近傍で最悪の症状の損失を最適化することにより、ニューラルネットワークの一般化を改善しますが、統計的有意性の低いコンポーネントを含む勾配ベクトル全体を使用してパラメーターを摂動します。
レイヤーごとのZスコア正規化に続いてパーセンタイルベースのフィルタリングを組み込んだ洗練されたシャープネスアウェア最適化方法であるZsharpを紹介します。
このプロセスは、摂動方向を構築するために大きな標準化された大きさを備えた最も統計的に有意な勾配コンポーネントのみを選択します。
Zsharpは、上昇と降下の標準的な2相SAM構造を保持しながら、上昇ステップを変更して、より鋭い曲率関連の方向に焦点を合わせます。
RESNET、VGG、Vision Transformersなどのさまざまなモデルを使用して、CIFAR-10、CIFAR-100、およびTiny-ImagenetのZsharpを評価します。
すべてのアーキテクチャとデータセットにわたって、ZsharpはSAM、ASAM、およびフレンドリーサムに比べて、一貫してテスト精度が高いことを常に達成します。
これらの結果は、Zスコアベースのグラデーションフィルタリングが更新方向のシャープネス感度を高め、深部ニューラルネットワークトレーニングの一般化の改善につながることを示しています。

要約(オリジナル)

Sharpness-Aware Minimization (SAM) improves neural network generalization by optimizing the worst-case loss within a neighborhood of parameters, yet it perturbs parameters using the entire gradient vector, including components with low statistical significance. We introduce ZSharp, a refined sharpness-aware optimization method that incorporates layer-wise Z-score normalization followed by percentile-based filtering. This process selects only the most statistically significant gradient components-those with large standardized magnitudes-for constructing the perturbation direction. ZSharp retains the standard two-phase SAM structure of ascent and descent while modifying the ascent step to focus on sharper, curvature-relevant directions. We evaluate ZSharp on CIFAR-10, CIFAR-100, and Tiny-ImageNet using a range of models including ResNet, VGG, and Vision Transformers. Across all architectures and datasets, ZSharp consistently achieves higher test accuracy compared to SAM, ASAM, and Friendly-SAM. These results indicate that Z-score-based gradient filtering can enhance the sharpness sensitivity of the update direction, leading to improved generalization in deep neural network training.

arxiv情報

著者 Juyoung Yun
発行日 2025-05-07 14:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, cs.NE, math.IT | Sharpness-Aware Minimization with Z-Score Gradient Filtering for Neural Networks はコメントを受け付けていません

XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models

要約

BardやGPT-4などの大規模なビジョン言語モデルの最新のブレークスルーは、幅広いタスクを実行する際に並外れた能力を示しています。
このようなモデルは、多様なタスクを備えた数十億のパブリックイメージテキストペアで構成される大規模なデータセットでトレーニングされています。
ただし、放射線学などのタスク固有のドメインでのパフォーマンスは、生物医学的画像を理解する際の洗練度がないため、調査を受けていない可能性があり、潜在的に制限されています。
一方、会話の医療モデルは驚くべき成功を示していますが、主にテキストベースの分析に焦点を当てています。
このペーパーでは、胸部X線写真に関する自由回答形式の質問を分析および回答できる新しい会話型の医療視覚言語モデルであるXrayGPTを紹介します。
具体的には、単純な線形変換を使用して、両方のMedical Visual Encoder(MedClip)を微調整した大手言語モデル(Vicuna)に揃えます。
このアラインメントにより、私たちのモデルは、X線写真や医療ドメインの知識の深い理解に基づいた、例外的な視覚的な会話能力を持つことができます。
医療コンテキストでのLLMSのパフォーマンスを向上させるために、フリーテキスト放射線レポートから約217Kインタラクティブおよび高品質の要約を生成します。
これらの要約は、微調整プロセスを通じてLLMSのパフォーマンスを向上させるのに役立ちます。
私たちのアプローチは、胸部レントゲン写真の自動分析を進めるための新しい手段を開きます。
オープンソースのデモ、モデル、および命令セットは、https://github.com/mbzuai-oryx/xarygptで入手できます。

要約(オリジナル)

The latest breakthroughs in large vision-language models, such as Bard and GPT-4, have showcased extraordinary abilities in performing a wide range of tasks. Such models are trained on massive datasets comprising billions of public image-text pairs with diverse tasks. However, their performance on task-specific domains, such as radiology, is still under-investigated and potentially limited due to a lack of sophistication in understanding biomedical images. On the other hand, conversational medical models have exhibited remarkable success but have mainly focused on text-based analysis. In this paper, we introduce XrayGPT, a novel conversational medical vision-language model that can analyze and answer open-ended questions about chest radiographs. Specifically, we align both medical visual encoder (MedClip) with a fine-tuned large language model (Vicuna), using a simple linear transformation. This alignment enables our model to possess exceptional visual conversation abilities, grounded in a deep understanding of radiographs and medical domain knowledge. To enhance the performance of LLMs in the medical context, we generate ~217k interactive and high-quality summaries from free-text radiology reports. These summaries serve to enhance the performance of LLMs through the fine-tuning process. Our approach opens up new avenues the research for advancing the automated analysis of chest radiographs. Our open-source demos, models, and instruction sets are available at: https://github.com/mbzuai-oryx/XrayGPT.

arxiv情報

著者 Omkar Thawakar,Abdelrahman Shaker,Sahal Shaji Mullappilly,Hisham Cholakkal,Rao Muhammad Anwer,Salman Khan,Jorma Laaksonen,Fahad Shahbaz Khan
発行日 2025-05-07 14:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models はコメントを受け付けていません