Not All Frame Features Are Equal: Video-to-4D Generation via Decoupling Dynamic-Static Features

要約

最近、ビデオからの動的な3Dオブジェクトの生成が印象的な結果を示しています。
既存の方法は、フレーム内の情報全体を使用してガウスを直接最適化します。
ただし、特に静的領域が大きな割合を占める場合、動的領域にフレーム内の静的領域が織り込まれている場合、既存の方法は動的領域の情報を見落とし、静的領域で過剰に適合する傾向があります。
これにより、ぼやけたテクスチャで結果が生成されます。
動的表現を強化するための動的な静的特徴を分離すると、この問題を軽減できると考えています。
したがって、動的な静的機能デカップリングモジュール(DSFD)を提案します。
時間軸に沿って、基準フレームの特徴と比較して大きな違いをダイナミックな特徴として持つ現在のフレーム機能の一部を考慮しています。
逆に、残りの部分は静的な特徴です。
次に、動的な機能と現在のフレーム機能によって駆動される分離された機能を取得します。
さらに、異なる視点から分離された特徴の動的表現をさらに強化し、正確なモーション予測を確保するために、時間空間類似性融合モジュール(TSSF)を設計します。
空間軸に沿って、動的領域の同様の情報を適応的に選択します。
上記のヒンジで、新しいアプローチ、DS4Dを構築します。
実験結果を確認する方法は、ビデオから4Dで最先端の(SOTA)結果を達成します。
さらに、実際のシナリオデータセットでの実験は、4Dシーンでの有効性を示しています。
私たちのコードは公開されます。

要約(オリジナル)

Recently, the generation of dynamic 3D objects from a video has shown impressive results. Existing methods directly optimize Gaussians using whole information in frames. However, when dynamic regions are interwoven with static regions within frames, particularly if the static regions account for a large proportion, existing methods often overlook information in dynamic regions and are prone to overfitting on static regions. This leads to producing results with blurry textures. We consider that decoupling dynamic-static features to enhance dynamic representations can alleviate this issue. Thus, we propose a dynamic-static feature decoupling module (DSFD). Along temporal axes, it regards the portions of current frame features that possess significant differences relative to reference frame features as dynamic features. Conversely, the remaining parts are the static features. Then, we acquire decoupled features driven by dynamic features and current frame features. Moreover, to further enhance the dynamic representation of decoupled features from different viewpoints and ensure accurate motion prediction, we design a temporal-spatial similarity fusion module (TSSF). Along spatial axes, it adaptively selects a similar information of dynamic regions. Hinging on the above, we construct a novel approach, DS4D. Experimental results verify our method achieves state-of-the-art (SOTA) results in video-to-4D. In addition, the experiments on a real-world scenario dataset demonstrate its effectiveness on the 4D scene. Our code will be publicly available.

arxiv情報

著者 Liying Yang,Chen Liu,Zhenwei Zhu,Ajian Liu,Hui Ma,Jian Nong,Yanyan Liang
発行日 2025-02-12 13:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Not All Frame Features Are Equal: Video-to-4D Generation via Decoupling Dynamic-Static Features はコメントを受け付けていません

Robust Visual Representation Learning with Multi-modal Prior Knowledge for Image Classification Under Distribution Shift

要約

コンピュータービジョンにおける深いニューラルネットワーク(DNNS)の顕著な成功にもかかわらず、トレーニングとテストデータの間の分布シフトに直面する場合、それらは高性能のままではありません。
この論文では、分布シフトの下での一般化を改善するために、マルチモーダルの事前知識を活用する分布ベースの学習アプローチである知識誘導視覚表現学習(KGV)を提案します。
2つの異なるモダリティからの知識を統合します。1)階層的および関連性のある関係を持つ知識グラフ(kg)。
2)KGで意味的に表される視覚要素の合成画像を生成しました。
それぞれの埋め込みは、一般的な潜在空間の与えられたモダリティから生成されます。つまり、元の画像と合成画像からの視覚埋め込み、および知識グラフ埋め込み(KGE)。
これらの埋め込みは、翻訳ベースのKGEメソッドの新しいバリアントを介して整列します。ここでは、KGのノードと関係の埋め込みは、それぞれガウス分布と翻訳としてモデル化されています。
マルチモデルの事前知識を組み込むことで、画像表現のより正規化された学習が可能になると主張しています。
したがって、モデルは、異なるデータ分布でよりよく一般化することができます。
主要またはマイナーな分布シフトを備えたさまざまな画像分類タスク、すなわちドイツ、中国、ロシアのデータセット間の道路標識分類、Mini-ImagenetデータセットとそのバリエーションとDVM-CARデータセットによる画像分類でKGVを評価します。
結果は、KGVがすべての実験でより高い精度とデータ効率を一貫して示すことを示しています。

要約(オリジナル)

Despite the remarkable success of deep neural networks (DNNs) in computer vision, they fail to remain high-performing when facing distribution shifts between training and testing data. In this paper, we propose Knowledge-Guided Visual representation learning (KGV) – a distribution-based learning approach leveraging multi-modal prior knowledge – to improve generalization under distribution shift. It integrates knowledge from two distinct modalities: 1) a knowledge graph (KG) with hierarchical and association relationships; and 2) generated synthetic images of visual elements semantically represented in the KG. The respective embeddings are generated from the given modalities in a common latent space, i.e., visual embeddings from original and synthetic images as well as knowledge graph embeddings (KGEs). These embeddings are aligned via a novel variant of translation-based KGE methods, where the node and relation embeddings of the KG are modeled as Gaussian distributions and translations, respectively. We claim that incorporating multi-model prior knowledge enables more regularized learning of image representations. Thus, the models are able to better generalize across different data distributions. We evaluate KGV on different image classification tasks with major or minor distribution shifts, namely road sign classification across datasets from Germany, China, and Russia, image classification with the mini-ImageNet dataset and its variants, as well as the DVM-CAR dataset. The results demonstrate that KGV consistently exhibits higher accuracy and data efficiency across all experiments.

arxiv情報

著者 Hongkuan Zhou,Lavdim Halilaj,Sebastian Monka,Stefan Schmid,Yuqicheng Zhu,Bo Xiong,Steffen Staab
発行日 2025-02-12 13:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Robust Visual Representation Learning with Multi-modal Prior Knowledge for Image Classification Under Distribution Shift はコメントを受け付けていません

Gramian Multimodal Representation Learning and Alignment

要約

人間の知覚は、ビジョン、聴覚、言語などの複数のモダリティを、周囲の現実の統一された理解に統合します。
最近のマルチモーダルモデルは、対照学習を介してモダリティのペアを調整することにより大きな進歩を遂げましたが、複数のモダリティにスケーリングする場合、そのソリューションは不適切です。
これらのモデルは通常、すべてのモダリティの整合性を互いに確実にすることなく、各モダリティを指定されたアンカーに整列させ、複数のモダリティの共同理解を必要とするタスクの最適ではないパフォーマンスにつながります。
この論文では、マルチモーダル学習に対するペアワイズの従来のアプローチを構造的に再考し、上記の制限を克服する新しいグラミアン表現アライメント測定(GRAM)を提示します。
GRAMは、モダリティベクトルに及ぶ$ k $ dimensional ParelalElotopeのグラミア容積を最小限に抑え、すべてのモダリティの幾何学的アライメントを同時に確保することにより、モダリティ埋め込みが嘘をつく高次元空間に$ n $モダリティを直接学習し、整列させます。
グラムは、下流の方法でコサインの類似性を置き換え、2〜 $ n $モダリティを保持し、以前の類似性測定に関してより意味のあるアライメントを提供できます。
新しいグラムベースのコントラスト損失関数は、高次元の埋め込み空間におけるマルチモーダルモデルのアラインメントを強化し、ビデオオーディオテキスト検索やオーディオビデオ分類などの下流タスクで新しい最先端のパフォーマンスをもたらします。
プロジェクトページ、コード、および事前に処理されたモデルは、https://ispamm.github.io/gram/で入手できます。

要約(オリジナル)

Human perception integrates multiple modalities, such as vision, hearing, and language, into a unified understanding of the surrounding reality. While recent multimodal models have achieved significant progress by aligning pairs of modalities via contrastive learning, their solutions are unsuitable when scaling to multiple modalities. These models typically align each modality to a designated anchor without ensuring the alignment of all modalities with each other, leading to suboptimal performance in tasks requiring a joint understanding of multiple modalities. In this paper, we structurally rethink the pairwise conventional approach to multimodal learning and we present the novel Gramian Representation Alignment Measure (GRAM), which overcomes the above-mentioned limitations. GRAM learns and then aligns $n$ modalities directly in the higher-dimensional space in which modality embeddings lie by minimizing the Gramian volume of the $k$-dimensional parallelotope spanned by the modality vectors, ensuring the geometric alignment of all modalities simultaneously. GRAM can replace cosine similarity in any downstream method, holding for 2 to $n$ modalities and providing more meaningful alignment with respect to previous similarity measures. The novel GRAM-based contrastive loss function enhances the alignment of multimodal models in the higher-dimensional embedding space, leading to new state-of-the-art performance in downstream tasks such as video-audio-text retrieval and audio-video classification. The project page, the code, and the pretrained models are available at https://ispamm.github.io/GRAM/.

arxiv情報

著者 Giordano Cicchetti,Eleonora Grassucci,Luigi Sigillo,Danilo Comminiello
発行日 2025-02-12 13:25:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Gramian Multimodal Representation Learning and Alignment はコメントを受け付けていません

A Survey on Video Analytics in Cloud-Edge-Terminal Collaborative Systems

要約

ビデオデータの爆発的な成長により、クラウドエッジターミナルコラボレーティブ(CETC)システムにおける分散ビデオ分析の開発が促進され、効率的なビデオ処理、リアルタイム推論、プライバシー推定分析が可能になりました。
複数の利点の中には、CETCシステムはビデオ処理タスクを配布し、クラウド、エッジ、および端末デバイス全体で適応的な分析を可能にし、ビデオ監視、自律運転、スマートシティのブレークスルーにつながります。
この調査では、エッジコンピューティングプラットフォームとリソース管理メカニズムとともに、階層、分散、ハイブリッドフレームワークを含む基本的なアーキテクチャコンポーネントを最初に分析します。
これらの基礎に基づいて、エッジ中心のアプローチは、オンデバイス処理、エッジアシストオフロード、およびエッジインテリジェンスを強調し、クラウド中心の方法は複雑なビデオ理解とモデルトレーニングのための強力な計算機能を活用します。
また、私たちの調査では、システム全体でパフォーマンスを最適化するリソースを意識するスケジューリング手法を組み込んだ適応タスクを組み込んだハイブリッドビデオ分析もカバーしています。
従来のアプローチを超えて、最近の大規模な言語モデルとマルチモーダル統合の進歩により、プラットフォームのスケーラビリティ、データ保護、システムの信頼性における機会と課題の両方が明らかになりました。
将来の方向には、説明可能なシステム、効率的な処理メカニズム、高度なビデオ分析も含まれ、この動的分野で研究者と実践者に貴重な洞察を提供します。

要約(オリジナル)

The explosive growth of video data has driven the development of distributed video analytics in cloud-edge-terminal collaborative (CETC) systems, enabling efficient video processing, real-time inference, and privacy-preserving analysis. Among multiple advantages, CETC systems can distribute video processing tasks and enable adaptive analytics across cloud, edge, and terminal devices, leading to breakthroughs in video surveillance, autonomous driving, and smart cities. In this survey, we first analyze fundamental architectural components, including hierarchical, distributed, and hybrid frameworks, alongside edge computing platforms and resource management mechanisms. Building upon these foundations, edge-centric approaches emphasize on-device processing, edge-assisted offloading, and edge intelligence, while cloud-centric methods leverage powerful computational capabilities for complex video understanding and model training. Our investigation also covers hybrid video analytics incorporating adaptive task offloading and resource-aware scheduling techniques that optimize performance across the entire system. Beyond conventional approaches, recent advances in large language models and multimodal integration reveal both opportunities and challenges in platform scalability, data protection, and system reliability. Future directions also encompass explainable systems, efficient processing mechanisms, and advanced video analytics, offering valuable insights for researchers and practitioners in this dynamic field.

arxiv情報

著者 Linxiao Gong,Hao Yang,Gaoyun Fang,Bobo Ju,Juncen Guo,Xiaoguang Zhu,Yan Wang,Xiping Hu,Peng Sun,Azzedine Boukerche
発行日 2025-02-12 13:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NI | A Survey on Video Analytics in Cloud-Edge-Terminal Collaborative Systems はコメントを受け付けていません

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification

要約

複数のインスタンス学習(MIL)ベースのフレームワークは、デジタル病理におけるギガピクセルサイズと階層画像コンテキストを備えたスライド画像(WSI)全体を処理するための主流になりました。
ただし、これらの方法は、かなりの数のバッグレベルのラベルに大きく依存しており、データ分布のばらつきによって簡単に影響を受ける元のスライドからのみ学習します。
最近、Vision Language Model(VLM)ベースのメソッドが、大規模な病理学的画像テキストペアでトレーニング前に事前に言語を導入しました。
ただし、以前のテキストプロンプトには病理学的事前知識の考慮が欠けているため、モデルのパフォーマンスを大幅に向上させません。
さらに、そのようなペアとトレーニング前のプロセスの収集は非常に時間がかかり、ソース集約型です。上記の問題を解決するために、スライド全体のデュアルスケールビジョン言語複数インスタンス学習(VILA-MIL)フレームワークを提案します。
画像分類。
具体的には、VLMのパフォーマンスを効果的に向上させるために、凍結した大手言語モデル(LLM)に基づいて、デュアルスケールの視覚的記述テキストプロンプトを提案します。
VLMを転送してWSIを効率的に処理するために、画像ブランチの場合、同様のパッチを同じプロトタイプにグループ化することにより、パッチ機能を徐々に集計するためにプロトタイプ誘導パッチデコーダーを提案します。
テキストブランチには、マルチ粒画像のコンテキストを組み込むことにより、テキスト機能を強化するためのコンテキストガイド付きテキストデコーダーを紹介します。
3つのマルチキャンサーとマルチセンターサブタイピングデータセットに関する広範な研究は、Vila-Milの優位性を示しています。

要約(オリジナル)

Multiple instance learning (MIL)-based framework has become the mainstream for processing the whole slide image (WSI) with giga-pixel size and hierarchical image context in digital pathology. However, these methods heavily depend on a substantial number of bag-level labels and solely learn from the original slides, which are easily affected by variations in data distribution. Recently, vision language model (VLM)-based methods introduced the language prior by pre-training on large-scale pathological image-text pairs. However, the previous text prompt lacks the consideration of pathological prior knowledge, therefore does not substantially boost the model’s performance. Moreover, the collection of such pairs and the pre-training process are very time-consuming and source-intensive.To solve the above problems, we propose a dual-scale vision-language multiple instance learning (ViLa-MIL) framework for whole slide image classification. Specifically, we propose a dual-scale visual descriptive text prompt based on the frozen large language model (LLM) to boost the performance of VLM effectively. To transfer the VLM to process WSI efficiently, for the image branch, we propose a prototype-guided patch decoder to aggregate the patch features progressively by grouping similar patches into the same prototype; for the text branch, we introduce a context-guided text decoder to enhance the text features by incorporating the multi-granular image contexts. Extensive studies on three multi-cancer and multi-center subtyping datasets demonstrate the superiority of ViLa-MIL.

arxiv情報

著者 Jiangbo Shi,Chen Li,Tieliang Gong,Yefeng Zheng,Huazhu Fu
発行日 2025-02-12 13:28:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification はコメントを受け付けていません

X-Diffusion: Generating Detailed 3D MRI Volumes From a Single Image Using Cross-Sectional Diffusion Models

要約

磁気共鳴イメージング(MRI)は重要な診断ツールですが、高解像度スキャンは、広範なデータ収集要件のために遅くて高価なことがよくあります。
従来のMRI再構成方法は、Kスペースで欠落している周波数コンポーネントを埋め、完全な3Dスキャンを必要とする3Dツー3D再構成を実行することにより、このプロセスを促進することを目的としています。
対照的に、非常にまばらな空間ドメイン入力から詳細な3D MRIボリュームを再構築する新しい断面拡散モデルであるX-diffusionを導入し、単一の2D MRIスライスまたは少数のスライスから2D-3D再構成を達成します。
X拡散の重要な側面は、MRIスキャンを標準平面(冠状、軸、矢状)の2Dスライスのコレクションとして扱う以前の学習アプローチとは異なり、断面トレーニングと推論中にMRIデータを断面トレーニングおよび推論中にホリスティックな3Dボリュームとしてモデル化することです。
Bratsデータセットの脳腫瘍MRIのX拡散と、英国Biobankデータセットの全身MRIを評価しました。
我々の結果は、X拡散が目に見えないデータの定量精度(PSNR)の最先端の方法を上回るだけでなく、腫瘍プロファイル、脊椎の湾曲、脳の体積などの重要な解剖学的特徴を維持することを示しています。
驚くべきことに、このモデルはトレーニングドメインを超えて一般化し、脳データのみでトレーニングされているにもかかわらず、膝MRIの再構築に成功します。
医療専門家の評価により、生成された画像の臨床的関連性と忠実度がさらに確認されます。X-diffusionは、非常に限られた2D入力データから詳細な3D MRIを生成できる最初の方法であり、MRIの獲得を加速し、関連するコストを削減する可能性があります。
このコードは、プロジェクトWebサイトhttps://emmanuelleb985.github.io/xdiffusion/で入手できます。

要約(オリジナル)

Magnetic Resonance Imaging (MRI) is a crucial diagnostic tool, but high-resolution scans are often slow and expensive due to extensive data acquisition requirements. Traditional MRI reconstruction methods aim to expedite this process by filling in missing frequency components in the K-space, performing 3D-to-3D reconstructions that demand full 3D scans. In contrast, we introduce X-Diffusion, a novel cross-sectional diffusion model that reconstructs detailed 3D MRI volumes from extremely sparse spatial-domain inputs, achieving 2D-to-3D reconstruction from as little as a single 2D MRI slice or few slices. A key aspect of X-Diffusion is that it models MRI data as holistic 3D volumes during the cross-sectional training and inference, unlike previous learning approaches that treat MRI scans as collections of 2D slices in standard planes (coronal, axial, sagittal). We evaluated X-Diffusion on brain tumor MRIs from the BRATS dataset and full-body MRIs from the UK Biobank dataset. Our results demonstrate that X-Diffusion not only surpasses state-of-the-art methods in quantitative accuracy (PSNR) on unseen data but also preserves critical anatomical features such as tumor profiles, spine curvature, and brain volume. Remarkably, the model generalizes beyond the training domain, successfully reconstructing knee MRIs despite being trained exclusively on brain data. Medical expert evaluations further confirm the clinical relevance and fidelity of the generated images.To our knowledge, X-Diffusion is the first method capable of producing detailed 3D MRIs from highly limited 2D input data, potentially accelerating MRI acquisition and reducing associated costs. The code is available on the project website https://emmanuelleb985.github.io/XDiffusion/ .

arxiv情報

著者 Emmanuelle Bourigault,Abdullah Hamdi,Amir Jamaludin
発行日 2025-02-12 13:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | X-Diffusion: Generating Detailed 3D MRI Volumes From a Single Image Using Cross-Sectional Diffusion Models はコメントを受け付けていません

Handwritten Text Recognition: A Survey

要約

手書きのテキスト認識(HTR)は、パターン認識と機械学習の中で重要な分野になりました。アプリケーションは、最新のデータ入力とアクセシビリティソリューションに歴史的な文書の保存にまたがっています。
HTRの複雑さは、手書きの高い変動性にあり、これにより、堅牢な認識システムを開発することが困難になります。
この調査では、HTRモデルの進化を調べ、初期のヒューリスティックベースのアプローチから、深い学習技術を活用する現代の最先端のニューラルモデルへの進行を追跡します。
フィールドの範囲も拡張されており、最初は最近のエンドツーエンドのドキュメントレベルのアプローチに進行する単語レベルのコンテンツのみを認識することができました。
私たちの論文は、既存の作業を2つの主要レベルの認識に分類します:(1)\ emph {up to Line-level}、単語とラインの認識を含み、(2)\ emph {beyond level}、パラグラフとドキュメントに対処します –
レベルの課題。
研究方法論、ベンチマークの最近の進歩、フィールドの主要なデータセット、および文献で報告された結果の議論を調べる統一されたフレームワークを提供します。
最後に、私たちは、研究者と実践者にフィールドを進めるためのロードマップを装備することを目指して、迫りつつある研究の課題を特定し、将来の方向性を有望で概説します。

要約(オリジナル)

Handwritten Text Recognition (HTR) has become an essential field within pattern recognition and machine learning, with applications spanning historical document preservation to modern data entry and accessibility solutions. The complexity of HTR lies in the high variability of handwriting, which makes it challenging to develop robust recognition systems. This survey examines the evolution of HTR models, tracing their progression from early heuristic-based approaches to contemporary state-of-the-art neural models, which leverage deep learning techniques. The scope of the field has also expanded, with models initially capable of recognizing only word-level content progressing to recent end-to-end document-level approaches. Our paper categorizes existing work into two primary levels of recognition: (1) \emph{up to line-level}, encompassing word and line recognition, and (2) \emph{beyond line-level}, addressing paragraph- and document-level challenges. We provide a unified framework that examines research methodologies, recent advances in benchmarking, key datasets in the field, and a discussion of the results reported in the literature. Finally, we identify pressing research challenges and outline promising future directions, aiming to equip researchers and practitioners with a roadmap for advancing the field.

arxiv情報

著者 Carlos Garrido-Munoz,Antonio Rios-Vila,Jorge Calvo-Zaragoza
発行日 2025-02-12 13:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Handwritten Text Recognition: A Survey はコメントを受け付けていません

Vision Transformer for Classification of Breast Ultrasound Images

要約

医療超音波(米国)イメージングは​​、使いやすさ、低コスト、安​​全性により、乳がんイメージングの顕著なモダリティになりました。
過去10年間で、畳み込みアプリケーションの選択方法として畳み込みニューラルネットワーク(CNNS)が登場し、US画像の自動分類において優れた可能性を示してきました。
彼らの成功にもかかわらず、彼らの制限されたローカル受容フィールドは、グローバルなコンテキスト情報を学習する能力を制限します。
最近、画像パッチ間の自己関節に基づいたVision Transformer(VIT)設計は、CNNSの代替品である可能性があることを示しています。
この研究では、初めて、VITを利用して、さまざまな増強戦略を使用して乳房米国の画像を分類します。
結果は、分類精度と曲線下面積(AUC)メトリックとして提供され、パフォーマンスは最先端のCNNと比較されます。
結果は、VITモデルが米国の乳房画像の分類においてCNNと同等の効率性またはさらに優れていることを示しています。

要約(オリジナル)

Medical ultrasound (US) imaging has become a prominent modality for breast cancer imaging due to its ease-of-use, low-cost and safety. In the past decade, convolutional neural networks (CNNs) have emerged as the method of choice in vision applications and have shown excellent potential in automatic classification of US images. Despite their success, their restricted local receptive field limits their ability to learn global context information. Recently, Vision Transformer (ViT) designs that are based on self-attention between image patches have shown great potential to be an alternative to CNNs. In this study, for the first time, we utilize ViT to classify breast US images using different augmentation strategies. The results are provided as classification accuracy and Area Under the Curve (AUC) metrics, and the performance is compared with the state-of-the-art CNNs. The results indicate that the ViT models have comparable efficiency with or even better than the CNNs in classification of US breast images.

arxiv情報

著者 Behnaz Gheflati,Hassan Rivaz
発行日 2025-02-12 14:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vision Transformer for Classification of Breast Ultrasound Images はコメントを受け付けていません

Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions

要約

限られた語彙を持つ非ネイティブスピーカーは、それらを視覚化することができたにもかかわらず、特定のオブジェクトを名前を付けるのに苦労しています。
さらに、ユーザーは、地面を掘る麻痺しているもの、たとえば、スケッチが困難な相互作用を備えたこのようなとらえどころのないオブジェクトを検索したい場合があります。
このような一般的で複雑な状況では、ユーザーは、名前が困難であるが描画しやすいオブジェクトの手描きのスケッチと、スケッチが困難であるが簡単なオブジェクトを説明するテキストを含む複合マルチモーダルクエリを受け入れる検索インターフェイスを希望します。
シーンとの属性または相互作用。
この新しい問題ステートメントは、以前によく研究されていたTBIR(テキストベースの画像検索)およびSBIR(スケッチベースの画像検索)の問題とはっきりと異なります。
この経験不足のタスクを研究するために、データセット、CSTBIR(Composite Sketch+Textベースの画像検索)をキュレートします。
2mクエリと108kの自然シーン画像。
さらに、この問題の解決策として、手描きのスケッチを使用して自然なシーンイメージに関連するオブジェクトをローカライズし、テキストと画像をエンコードする、この問題の解決策として、前提条件のマルチモーダルトランスベースのベースライン(Sketch+Text Network)を提案します。
画像検索を実行します。
対照学習に加えて、モデルのパフォーマンスを改善する複数のトレーニング目標を提案します。
広範な実験では、提案された方法が、テキストのみ、スケッチのみ、および複合クエリのモダリティのためのいくつかの最先端の検索方法よりも優れていることが示されています。
データセットとコードをプロジェクトWebサイトで利用できるようにします。

要約(オリジナル)

Non-native speakers with limited vocabulary often struggle to name specific objects despite being able to visualize them, e.g., people outside Australia searching for numbats. Further, users may want to search for such elusive objects with difficult-to-sketch interactions, e.g., numbat digging in the ground. In such common but complex situations, users desire a search interface that accepts composite multimodal queries comprising hand-drawn sketches of difficult-to-name but easy-to-draw objects and text describing difficult-to-sketch but easy-to-verbalize object attributes or interaction with the scene. This novel problem statement distinctly differs from the previously well-researched TBIR (text-based image retrieval) and SBIR (sketch-based image retrieval) problems. To study this under-explored task, we curate a dataset, CSTBIR (Composite Sketch+Text Based Image Retrieval), consisting of approx. 2M queries and 108K natural scene images. Further, as a solution to this problem, we propose a pretrained multimodal transformer-based baseline, STNET (Sketch+Text Network), that uses a hand-drawn sketch to localize relevant objects in the natural scene image, and encodes the text and image to perform image retrieval. In addition to contrastive learning, we propose multiple training objectives that improve the performance of our model. Extensive experiments show that our proposed method outperforms several state-of-the-art retrieval methods for text-only, sketch-only, and composite query modalities. We make the dataset and code available at our project website.

arxiv情報

著者 Prajwal Gatti,Kshitij Parikh,Dhriti Prasanna Paul,Manish Gupta,Anand Mishra
発行日 2025-02-12 14:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM | Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions はコメントを受け付けていません

Survey on AI-Generated Media Detection: From Non-MLLM to MLLM

要約

AIに生成されたメディアの急増は、情報の信頼性と社会的信頼に大きな課題をもたらし、信頼できる検出方法を非常に要求します。
AIに生成された培地を検出する方法は、マルチモーダル大手言語モデル(MLLM)の進歩と並行して、急速に進化しました。
現在の検出アプローチは、非MLLMベースとMLLMベースのメソッドの2つの主要なグループに分類できます。
前者は、深い学習技術を搭載した高精度のドメイン固有の検出器を採用していますが、後者は、信頼性の検証、説明可能性、ローカリゼーション機能を統合するMLLMSに基づく汎用検出器を利用します。
この分野では大きな進歩にもかかわらず、ドメイン固有から汎用検出方法への移行を調べる包括的な調査に関する文献にはギャップが残っています。
このペーパーでは、両方のアプローチの系統的レビューを提供し、シングルモーダルとマルチモーダルの視点から分析することにより、このギャップに対処します。
これらのカテゴリの詳細な比較分析を提示し、それらの方法論的な類似点と相違点を調べます。
この分析を通じて、潜在的なハイブリッドアプローチを調査し、偽造検出における重要な課題を特定し、将来の研究の方向性を提供します。
さらに、MLLMが検出タスクでますます一般的になるにつれて、倫理的およびセキュリティ上の考慮事項が重要な世界的な懸念として浮上しています。
私たちは、さまざまな管轄区域にわたって生成AI(Genai)を取り巻く規制環境を調べ、この分野の研究者と実践者に貴重な洞察を提供します。

要約(オリジナル)

The proliferation of AI-generated media poses significant challenges to information authenticity and social trust, making reliable detection methods highly demanded. Methods for detecting AI-generated media have evolved rapidly, paralleling the advancement of Multimodal Large Language Models (MLLMs). Current detection approaches can be categorized into two main groups: Non-MLLM-based and MLLM-based methods. The former employs high-precision, domain-specific detectors powered by deep learning techniques, while the latter utilizes general-purpose detectors based on MLLMs that integrate authenticity verification, explainability, and localization capabilities. Despite significant progress in this field, there remains a gap in literature regarding a comprehensive survey that examines the transition from domain-specific to general-purpose detection methods. This paper addresses this gap by providing a systematic review of both approaches, analyzing them from single-modal and multi-modal perspectives. We present a detailed comparative analysis of these categories, examining their methodological similarities and differences. Through this analysis, we explore potential hybrid approaches and identify key challenges in forgery detection, providing direction for future research. Additionally, as MLLMs become increasingly prevalent in detection tasks, ethical and security considerations have emerged as critical global concerns. We examine the regulatory landscape surrounding Generative AI (GenAI) across various jurisdictions, offering valuable insights for researchers and practitioners in this field.

arxiv情報

著者 Yueying Zou,Peipei Li,Zekun Li,Huaibo Huang,Xing Cui,Xuannan Liu,Chenghanyu Zhang,Ran He
発行日 2025-02-12 14:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Survey on AI-Generated Media Detection: From Non-MLLM to MLLM はコメントを受け付けていません