Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering

要約

ミームはユーモアや文化的な解説に広く使用されていますが、憎悪なコンテンツを広めるためにますます悪用されています。
マルチモーダルの性質のため、憎悪なミームは、特に微妙またはコード化された参照を使用する場合、従来のテキストのみまたは画像のみの検出システムを回避することがよくあります。
これらの課題に対処するために、主要なコンポーネントを統合するための主要なコンポーネントを統合するマルチモーダル憎悪検出フレームワークを提案します。OCRは、埋め込みテキストを抽出し、視覚コンテンツを中立的に記述するためのキャプション、憎悪的なコンテンツの粒状分類のためのサブラベル分類、文脈的に依存性のある回復のためのrag、およびシンボリックおよびコンテキストキューの反復分析のためのVQAを提案します。
これにより、フレームワークは、より単純なパイプラインが検出されないという潜在的な信号を明らかにすることができます。
Facebookの憎しみのあるミームデータセットでの実験結果は、提案されたフレームワークが、精度とAUC-ROCの両方における単峰性および従来のマルチモーダルモデルのパフォーマンスを超えることを明らかにしています。

要約(オリジナル)

Memes are widely used for humor and cultural commentary, but they are increasingly exploited to spread hateful content. Due to their multimodal nature, hateful memes often evade traditional text-only or image-only detection systems, particularly when they employ subtle or coded references. To address these challenges, we propose a multimodal hate detection framework that integrates key components: OCR to extract embedded text, captioning to describe visual content neutrally, sub-label classification for granular categorization of hateful content, RAG for contextually relevant retrieval, and VQA for iterative analysis of symbolic and contextual cues. This enables the framework to uncover latent signals that simpler pipelines fail to detect. Experimental results on the Facebook Hateful Memes dataset reveal that the proposed framework exceeds the performance of unimodal and conventional multimodal models in both accuracy and AUC-ROC.

arxiv情報

著者 Ali Anaissi,Junaid Akram,Kunal Chaturvedi,Ali Braytee
発行日 2025-04-23 13:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering はコメントを受け付けていません

V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations

要約

大規模なビジョン言語モデル(LVLMS)は、さまざまなビジョン言語タスクに優れています。
しかし、視点と環境の変化のために必然的に示す自然なシーンでオブジェクトが示す位置、スケール、方向、およびコンテキストの視覚的変動に対するそれらの堅牢性。
このギャップを埋めるために、自動化された評価データセット生成と徹底的な堅牢性評価のための原理化されたメトリックを含むLVLMSの視覚的変動の堅牢性を評価するための包括的なベンチマークフレームワークであるv $^2 $ r-benchを導入します。
21 LVLMSでの広範な評価を通じて、視覚的バリエーションに対する驚くべき脆弱性を明らかにします。そこでは、オブジェクト認識などの単純なタスクで複雑なビジョン言語タスクに優れている高度なモデルでさえもパフォーマンスが低いことを明らかにします。
興味深いことに、これらのモデルは、効果的な受容フィールドの理論と矛盾する明確な視覚位置バイアスを示し、人間のような視力閾値を実証します。
これらの脆弱性のソースを特定するために、コンポーネントレベルの分析のための体系的なフレームワークを提示し、整列した視覚的特徴のための新しい視覚化アプローチを特徴としています。
結果は、これらの脆弱性がパイプラインアーキテクチャにおけるエラーの蓄積と不十分なマルチモーダルアライメントに起因することを示しています。
合成データを伴う補完的な実験はさらに、これらの制限が基本的に建築的欠陥であり、将来のLVLMデザインにおける建築革新の必要性を採点していることを示しています。

要約(オリジナル)

Large Vision Language Models (LVLMs) excel in various vision-language tasks. Yet, their robustness to visual variations in position, scale, orientation, and context that objects in natural scenes inevitably exhibit due to changes in viewpoint and environment remains largely underexplored. To bridge this gap, we introduce V$^2$R-Bench, a comprehensive benchmark framework for evaluating Visual Variation Robustness of LVLMs, which encompasses automated evaluation dataset generation and principled metrics for thorough robustness assessment. Through extensive evaluation on 21 LVLMs, we reveal a surprising vulnerability to visual variations, in which even advanced models that excel at complex vision-language tasks significantly underperform on simple tasks such as object recognition. Interestingly, these models exhibit a distinct visual position bias that contradicts theories of effective receptive fields, and demonstrate a human-like visual acuity threshold. To identify the source of these vulnerabilities, we present a systematic framework for component-level analysis, featuring a novel visualization approach for aligned visual features. Results show that these vulnerabilities stem from error accumulation in the pipeline architecture and inadequate multimodal alignment. Complementary experiments with synthetic data further demonstrate that these limitations are fundamentally architectural deficiencies, scoring the need for architectural innovations in future LVLM designs.

arxiv情報

著者 Zhiyuan Fan,Yumeng Wang,Sandeep Polisetty,Yi R.,Fung
発行日 2025-04-23 14:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations はコメントを受け付けていません

Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images

要約

Segment Anyny Anything Model(SAM)は、ポイントや境界ボックスなどの単純なユーザープロンプトから、自然画像の多様なオブジェクトをセグメント化するために広く使用されています。
ただし、SAMのパフォーマンスは、顕微鏡イメージングのような非天然ドメインに適用すると大幅に減少します。
さらに、SAMのインタラクティブなデザインにより、多くの自動化された生物医学的アプリケーションでは実行不可能な各画像とオブジェクトに正確なプロンプトが必要です。
以前のソリューションは、モデルまたはアダプター層の大部分を微調整することにより、何百万ものパラメーターをトレーニングすることにより、SAMを適応させます。
対照的に、SAMを特定のダウンストリームタスクのユースケーススペシャリストに変えるのに、わずか2,048の追加パラメーターで十分であることを示しています。
私たちの新規PTSAM(プロンプトチューニングSAM)メソッドでは、パラメーター効率の高い微調整技術であるプロンプトチューニングを使用して、SAMを特定のタスクに適応させます。
複数の顕微鏡と1つの医療データセットでのアプローチのパフォーマンスを検証します。
私たちの結果は、Samのマスクのみの迅速なデコーダーのみが、最先端の技術を備えたパフォーマンスにつながるが、約2,000倍の訓練可能なパラメーターが必要であることを示しています。
ドメインのギャップに対処するために、Samの画像エンコーダーをさらに迅速に調整することが有益であり、最新の結果よりも最大18%セグメンテーションの精度を改善することがわかります。
PTSAMは、わずか16の注釈付き画像で確実にトレーニングできるため、トレーニングデータとドメインシフトが限られているアプリケーションに特に役立ちます。

要約(オリジナル)

The Segment Anything Model (SAM) is widely used for segmenting a diverse range of objects in natural images from simple user prompts like points or bounding boxes. However, SAM’s performance decreases substantially when applied to non-natural domains like microscopic imaging. Furthermore, due to SAM’s interactive design, it requires a precise prompt for each image and object, which is unfeasible in many automated biomedical applications. Previous solutions adapt SAM by training millions of parameters via fine-tuning large parts of the model or of adapter layers. In contrast, we show that as little as 2,048 additional parameters are sufficient for turning SAM into a use-case specialist for a certain downstream task. Our novel PTSAM (prompt-tuned SAM) method uses prompt-tuning, a parameter-efficient fine-tuning technique, to adapt SAM for a specific task. We validate the performance of our approach on multiple microscopic and one medical dataset. Our results show that prompt-tuning only SAM’s mask decoder already leads to a performance on-par with state-of-the-art techniques while requiring roughly 2,000x less trainable parameters. For addressing domain gaps, we find that additionally prompt-tuning SAM’s image encoder is beneficial, further improving segmentation accuracy by up to 18% over state-of-the-art results. Since PTSAM can be reliably trained with as little as 16 annotated images, we find it particularly helpful for applications with limited training data and domain shifts.

arxiv情報

著者 Tristan Piater,Björn Barz,Alexander Freytag
発行日 2025-04-23 14:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images はコメントを受け付けていません

Gaussian Splatting is an Effective Data Generator for 3D Object Detection

要約

自律運転における3Dオブジェクト検出のデータ増強を調査します。
私たちは、運転シーンでの3Dオブジェクトの配置のためのガウスのスプラッティングに基づいて、3D再建の最近の進歩を利用しています。
BEVレイアウトに条件付けられた画像を合成する既存の拡散ベースの方法とは異なり、私たちのアプローチは、幾何学的変換を明示的に課した再構築された3D空間に直接3Dオブジェクトを配置します。
これにより、オブジェクト配置の物理的な妥当性と、非常に正確な3Dポーズと位置注釈の両方が保証されます。
私たちの実験は、限られた数の外部3Dオブジェクトを実際のシーンに統合することで、拡張データが3Dオブジェクト検出パフォーマンスを大幅に向上させ、オブジェクト検出のための既存の拡散ベースの3D増強を上回ることを示しています。
ヌスセンデータセットでの広範なテストは、オブジェクトの配置に高い幾何学的多様性を課すことが、オブジェクトの外観の多様性と比較して大きな影響を与えることを明らかにしています。
さらに、検出損失を最大化するか、カメラ画像に高い視覚閉塞を課すことにより、ハード例を生成しても、自律運転におけるカメラベースの3Dオブジェクト検出のためのより効率的な3Dデータ増強につながることはないことを示しています。

要約(オリジナル)

We investigate data augmentation for 3D object detection in autonomous driving. We utilize recent advancements in 3D reconstruction based on Gaussian Splatting for 3D object placement in driving scenes. Unlike existing diffusion-based methods that synthesize images conditioned on BEV layouts, our approach places 3D objects directly in the reconstructed 3D space with explicitly imposed geometric transformations. This ensures both the physical plausibility of object placement and highly accurate 3D pose and position annotations. Our experiments demonstrate that even by integrating a limited number of external 3D objects into real scenes, the augmented data significantly enhances 3D object detection performance and outperforms existing diffusion-based 3D augmentation for object detection. Extensive testing on the nuScenes dataset reveals that imposing high geometric diversity in object placement has a greater impact compared to the appearance diversity of objects. Additionally, we show that generating hard examples, either by maximizing detection loss or imposing high visual occlusion in camera images, does not lead to more efficient 3D data augmentation for camera-based 3D object detection in autonomous driving.

arxiv情報

著者 Farhad G. Zanjani,Davide Abati,Auke Wiggers,Dimitris Kalatzis,Jens Petersen,Hong Cai,Amirhossein Habibian
発行日 2025-04-23 14:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gaussian Splatting is an Effective Data Generator for 3D Object Detection はコメントを受け付けていません

MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion

要約

ビデオには、視覚イベント、テキストオーバーレイ、サウンド、音声など、複数のモダリティが本質的に含まれています。これらはすべて検索に重要​​です。
ただし、VastやLanguageBindなどの最先端のマルチモーダル言語モデルは、Vision言語モデル(VLM)に基づいて構築されているため、視覚信号を過度に優先します。
検索ベンチマークは、視覚的なクエリに焦点を当て、他のモダリティを無視することにより、このバイアスをさらに強化します。
視覚モダリティとオーディオモダリティの両方からテキストと機能を抽出し、新しいモダリティを認識した加重相互ランク融合と統合する検索システムmmmorrfを作成します。
Mmmorrfは効果的かつ効率的であり、視覚的な記述クエリの代わりにユーザーの情報ニーズに基づいてビデオを検索する際の実用性を示しています。
Multivent 2.0とTVRのMmmorrfを評価します。これは、よりターゲットを絞った情報ニーズに合わせて設計された2つのマルチモーダルベンチマークであり、主要なマルチモーダルエンコーダーよりもNDCG@20 x 81%、単一モダリティの検索よりも37%を改善し、多様なモダリティを統合する価値を示しています。

要約(オリジナル)

Videos inherently contain multiple modalities, including visual events, text overlays, sounds, and speech, all of which are important for retrieval. However, state-of-the-art multimodal language models like VAST and LanguageBind are built on vision-language models (VLMs), and thus overly prioritize visual signals. Retrieval benchmarks further reinforce this bias by focusing on visual queries and neglecting other modalities. We create a search system MMMORRF that extracts text and features from both visual and audio modalities and integrates them with a novel modality-aware weighted reciprocal rank fusion. MMMORRF is both effective and efficient, demonstrating practicality in searching videos based on users’ information needs instead of visual descriptive queries. We evaluate MMMORRF on MultiVENT 2.0 and TVR, two multimodal benchmarks designed for more targeted information needs, and find that it improves nDCG@20 by 81% over leading multimodal encoders and 37% over single-modality retrieval, demonstrating the value of integrating diverse modalities.

arxiv情報

著者 Saron Samuel,Dan DeGenaro,Jimena Guallar-Blasco,Kate Sanders,Oluwaseun Eisape,Arun Reddy,Alexander Martin,Andrew Yates,Eugene Yang,Cameron Carpenter,David Etter,Efsun Kayi,Matthew Wiesner,Kenton Murray,Reno Kriz
発行日 2025-04-23 14:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion はコメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約

オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上していますが、既存のアプローチは大きな制限に直面しています。それらは、モダリティ全体で統一された機能なしで単独で動作し、高品質のマルチモーダルトレーニングデータに苦しみ、多様な入力を効果的に統合するのに苦労します。
この作業では、あらゆるものと音楽生成のための統一された拡散トランスモデルであるAudioxを提案します。
以前のドメイン固有のモデルとは異なり、Audioxは一般的なオーディオと音楽の両方を高品質の音楽と生成でき、テキスト、ビデオ、画像、音楽、オーディオなどのさまざまなモダリティの柔軟な自然言語制御とシームレスな処理を提供します。
その重要な革新は、モダリティ全体の入力をマスクし、マスクされた入力からモデルを学習させ、堅牢で統一されたクロスモーダル表現を生み出すマルチモーダルマスクトレーニング戦略です。
データ不足に対処するために、VGGSoundデータセットに基づいた190Kオーディオキャプションを備えたVggSound-Capsと、V2Mデータセットから派生した600万の音楽キャプションを備えたV2Mキャップの2つの包括的なデータセットをキュレートします。
広範な実験は、オーディオックスが最先端の専門モデルに一致またはパフォーマンスするだけでなく、統一されたアーキテクチャ内の多様な入力モダリティと生成タスクの処理において顕著な汎用性を提供することを示しています。
コードとデータセットはhttps://zeyuet.github.io/audiox/で入手できます

要約(オリジナル)

Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

arxiv情報

著者 Zeyue Tian,Yizhu Jin,Zhaoyang Liu,Ruibin Yuan,Xu Tan,Qifeng Chen,Wei Xue,Yike Guo
発行日 2025-04-23 14:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AudioX: Diffusion Transformer for Anything-to-Audio Generation はコメントを受け付けていません

Frequency-Compensated Network for Daily Arctic Sea Ice Concentration Prediction

要約

北極圏の海氷濃度(原文)を正確に予測することは、世界の生態系の健康と航海の安全性にとって重要です。
ただし、現在の方法には、2つの課題に直面しています。1)これらのメソッドは、周波数領域の長期的な特徴依存関係をめったに探求しません。
2)高周波の詳細を維持することはほとんどできず、海氷の周辺地域の変化は正確に捕捉できません。
この目的のために、日常的に北極SIC予測のための周波数補償ネットワーク(FCNET)を提示します。
特に、周波数特徴の抽出や畳み込み特徴抽出のための分岐を含むデュアルブランチネットワークを設計します。
周波数機能抽出のために、トレーニング可能な層をフーリエベースのフィルターと統合する適応周波数フィルターブロックを設計します。
周波数機能を追加することにより、FCNETはエッジと詳細の洗練された予測を実現できます。
畳み込み特徴抽出のために、高周波および低周波情報情報を分離するための高周波強化ブロックを提案します。
さらに、高頻度の特徴はチャネルごとの注意によって強化され、時間周波数の特徴抽出には時間的な注意ユニットが使用され、長距離の海氷の変化をキャプチャします。
広範な実験は、衛星由来の毎日のSICデータセットで行われ、結果は提案されたFCNETの有効性を検証します。
私たちのコードとデータは、https://github.com/oucailab/fcnetで公開されます。

要約(オリジナル)

Accurately forecasting sea ice concentration (SIC) in the Arctic is critical to global ecosystem health and navigation safety. However, current methods still is confronted with two challenges: 1) these methods rarely explore the long-term feature dependencies in the frequency domain. 2) they can hardly preserve the high-frequency details, and the changes in the marginal area of the sea ice cannot be accurately captured. To this end, we present a Frequency-Compensated Network (FCNet) for Arctic SIC prediction on a daily basis. In particular, we design a dual-branch network, including branches for frequency feature extraction and convolutional feature extraction. For frequency feature extraction, we design an adaptive frequency filter block, which integrates trainable layers with Fourier-based filters. By adding frequency features, the FCNet can achieve refined prediction of edges and details. For convolutional feature extraction, we propose a high-frequency enhancement block to separate high and low-frequency information. Moreover, high-frequency features are enhanced via channel-wise attention, and temporal attention unit is employed for low-frequency feature extraction to capture long-range sea ice changes. Extensive experiments are conducted on a satellite-derived daily SIC dataset, and the results verify the effectiveness of the proposed FCNet. Our codes and data will be made public available at: https://github.com/oucailab/FCNet .

arxiv情報

著者 Jialiang Zhang,Feng Gao,Yanhai Gan,Junyu Dong,Qian Du
発行日 2025-04-23 14:15:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Frequency-Compensated Network for Daily Arctic Sea Ice Concentration Prediction はコメントを受け付けていません

Feature Mixing Approach for Detecting Intraoperative Adverse Events in Laparoscopic Roux-en-Y Gastric Bypass Surgery

要約

出血や熱損傷などの術中の有害事象(IAE)は、検出されない場合、重度の術後合併症につながる可能性があります。
ただし、それらの希少性は非常に不均衡なデータセットをもたらし、AIベースの検出と重大度の定量化の課題をもたらします。
ベータ分布ベースの混合アプローチを介してこれらの課題に対処する新しいディープラーニングモデルであるベタミクサーを提案し、離散IAEの重症度スコアを正確な重大度回帰(0-5スケール)の連続値に変換します。
Betamixerは、ベータ配布ベースのサンプリングを採用して、過小評価されたクラスを強化し、中間埋め込みを正規化して構造化された機能空間を維持します。
生成アプローチは、特徴空間をIAEの重症度をサンプリングし、変圧器を介して堅牢な分類と重大度回帰を可能にします。
IAEラベルで拡張したMultiByPass140データセットで評価されたBetamixerは、0.81の重み付けF1スコア、0.81、PPV 0.73、および0.84のNPVを達成し、不均衡なデータの強力なパフォーマンスを示します。
ベータ分布ベースのサンプリング、特徴の混合、および生成モデリングを統合することにより、ベタミクサーは、臨床設定でのIAEの検出と定量化のための堅牢なソリューションを提供します。

要約(オリジナル)

Intraoperative adverse events (IAEs), such as bleeding or thermal injury, can lead to severe postoperative complications if undetected. However, their rarity results in highly imbalanced datasets, posing challenges for AI-based detection and severity quantification. We propose BetaMixer, a novel deep learning model that addresses these challenges through a Beta distribution-based mixing approach, converting discrete IAE severity scores into continuous values for precise severity regression (0-5 scale). BetaMixer employs Beta distribution-based sampling to enhance underrepresented classes and regularizes intermediate embeddings to maintain a structured feature space. A generative approach aligns the feature space with sampled IAE severity, enabling robust classification and severity regression via a transformer. Evaluated on the MultiBypass140 dataset, which we extended with IAE labels, BetaMixer achieves a weighted F1 score of 0.76, recall of 0.81, PPV of 0.73, and NPV of 0.84, demonstrating strong performance on imbalanced data. By integrating Beta distribution-based sampling, feature mixing, and generative modeling, BetaMixer offers a robust solution for IAE detection and quantification in clinical settings.

arxiv情報

著者 Rupak Bose,Chinedu Innocent Nwoye,Jorge Lazo,Joël Lukas Lavanchy,Nicolas Padoy
発行日 2025-04-23 14:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Feature Mixing Approach for Detecting Intraoperative Adverse Events in Laparoscopic Roux-en-Y Gastric Bypass Surgery はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約

HyperComplex画像処理は、代数および幾何学的原理を含む統一されたパラダイムで従来の技術を拡張します。
この作業は、次の計算ワークフローとアウトカムを介した自然/生物医学的画像分析のために、四項と2次元の直交飛行機がフレームワークを分割する(四項 – 正弦2Dプレーンのペアへの分割 – 四角形のペアへの分割)を活用しています:自然/生物医学的イメージ、自然イメージの抑制型抑制型のイメージ、自然/生物医学的イメージの再溶解、自然/生物医学的なイメージ化を活用してください。
組織画像の染色分離、および組織学的画像のための機械/深い学習パイプラインのパフォーマンスの向上。
ワークフローは、提案されたアプローチの有効性を紹介するために、自然および生物医学の画像について個別に分析されます。
提案されたワークフローは、色の外観を調節することができます(たとえば、代替レンディションやグレースケール変換など)と画像のコントラストは、自動化された画像処理パイプライン(例えば、ステイン成分の分離、学習モデルの増加)の一部であり、デジタル病理アプリケーション(例えば、バイオマーカーの視認性の向上、色炎のようなレンディションの拡大)を支援することができます。
基本的な算術操作とマトリックス操作のみを採用して、この作業は、画像処理タスク全体で汎用性と一貫性を示し、コンピュータービジョンと生物医学的アプリケーションの範囲を紹介する計算的にアクセス可能な方法論を提供します。
提案されている非DATA駆動型の方法は、文献で報告されているものと同等の結果またはより良い結果(特によく知られている方法を含む場合)を実用的な有効性を備えた堅牢な理論的枠組みの可能性を示しています。
結果、方法、制限は、有望な拡張の議論とともに詳細に詳述されており、自然および生物医学画像のための機能が豊富な数学的/計算フレームワークの可能性を強調しています。

要約(オリジナル)

Hypercomplex image processing extends conventional techniques in a unified paradigm encompassing algebraic and geometric principles. This work leverages quaternions and the two-dimensional orthogonal planes split framework (splitting of a quaternion – representing a pixel – into pairs of orthogonal 2D planes) for natural/biomedical image analysis through the following computational workflows and outcomes: natural/biomedical image re-colorization, natural image de-colorization, natural/biomedical image contrast enhancement, computational re-staining and stain separation in histological images, and performance gains in machine/deep learning pipelines for histological images. The workflows are analyzed separately for natural and biomedical images to showcase the effectiveness of the proposed approaches. The proposed workflows can regulate color appearance (e.g. with alternative renditions and grayscale conversion) and image contrast, be part of automated image processing pipelines (e.g. isolating stain components, boosting learning models), and assist in digital pathology applications (e.g. enhancing biomarker visibility, enabling colorblind-friendly renditions). Employing only basic arithmetic and matrix operations, this work offers a computationally accessible methodology – in the hypercomplex domain – that showcases versatility and consistency across image processing tasks and a range of computer vision and biomedical applications. The proposed non-data-driven methods achieve comparable or better results (particularly in cases involving well-known methods) to those reported in the literature, showcasing the potential of robust theoretical frameworks with practical effectiveness. Results, methods, and limitations are detailed alongside discussion of promising extensions, emphasizing the potential of feature-rich mathematical/computational frameworks for natural and biomedical images.

arxiv情報

著者 Nektarios A. Valous,Eckhard Hitzer,Dragoş Duşe,Rodrigo Rojas Moraleda,Ferdinand Popp,Meggy Suarez-Carmona,Anna Berthel,Ismini Papageorgiou,Carlo Fremd,Alexander Rölle,Christina C. Westhoff,Bénédicte Lenoir,Niels Halama,Inka Zörnig,Dirk Jäger
発行日 2025-04-23 14:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism

要約

画像の説明の生成は、視覚コンテンツのアクセシビリティとAIの理解に不可欠です。
深い学習の最近の進歩により、自然言語の処理とコンピュータービジョンが大幅に改善されました。
この作業では、トランスモジュールを統合する新しい画像説明生成モデルであるTri-FusionNetを提案します:Dual Attentionメカニズムを備えたVision Transformer(VIT)エンコーダーモジュール、堅牢に最適化されたBERTアプローチ(Roberta)デコーダーモジュール、および対照的な言語イメージ(CLIP)統合モジュール。
二重の注意を払って強化されたVITエンコーダーは、関連する空間領域と言語コンテキストに焦点を当て、画像機能の抽出を改善します。
Robertaデコーダーは、正確なテキストの説明を生成するために採用されています。
Clipの統合モジュールは、対照的な学習を通じて視覚データとテキストデータを調整し、両方のモダリティの効果的な組み合わせを確保します。
このVit、Roberta、およびClipの融合は、二重の注意とともに、モデルがより正確で、文脈的に豊富で柔軟な説明を生成できるようにします。
提案されたフレームワークは、FlickR30KおよびFlickR8Kデータセットで競争力のあるパフォーマンスを示しました。BLEUスコアは0.767から0.456および0.784から0.479、1.679および1.483のサイダースコア、0.478および0.358のMeteorスコア、および0.567および0.789のRouge-Lスコアの範囲です。
MS-COCOでは、フレームワークでは、0.893(B-1)、0.821(B-2)、0.794(B-3)、および0.725(B-4)のBLEUスコアが得られました。
結果は、高品質の画像の説明を生成する際のTri-FusionNetの有効性を示しています。

要約(オリジナル)

Image description generation is essential for accessibility and AI understanding of visual content. Recent advancements in deep learning have significantly improved natural language processing and computer vision. In this work, we propose Tri-FusionNet, a novel image description generation model that integrates transformer modules: a Vision Transformer (ViT) encoder module with dual-attention mechanism, a Robustly Optimized BERT Approach (RoBERTa) decoder module, and a Contrastive Language-Image Pre-Training (CLIP) integrating module. The ViT encoder, enhanced with dual attention, focuses on relevant spatial regions and linguistic context, improving image feature extraction. The RoBERTa decoder is employed to generate precise textual descriptions. CLIP’s integrating module aligns visual and textual data through contrastive learning, ensuring effective combination of both modalities. This fusion of ViT, RoBERTa, and CLIP, along with dual attention, enables the model to produce more accurate, contextually rich, and flexible descriptions. The proposed framework demonstrated competitive performance on the Flickr30k and Flickr8k datasets, with BLEU scores ranging from 0.767 to 0.456 and 0.784 to 0.479, CIDEr scores of 1.679 and 1.483, METEOR scores of 0.478 and 0.358, and ROUGE-L scores of 0.567 and 0.789, respectively. On MS-COCO, the framework obtained BLEU scores of 0.893 (B-1), 0.821 (B-2), 0.794 (B-3), and 0.725 (B-4). The results demonstrate the effectiveness of Tri-FusionNet in generating high-quality image descriptions.

arxiv情報

著者 Lakshita Agarwal,Bindu Verma
発行日 2025-04-23 14:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism はコメントを受け付けていません