月別アーカイブ: 2025年3月

TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

投稿日: 2025年3月14日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）はますます人気が高まっていますが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Hoi2Anomaly: An Explainable Anomaly Detection Approach Guided by Human-Object Interaction

投稿日: 2025年3月14日作成者: jarxiv

要約画像の異常検出（IAD）の領域では、既存の方法はしばしば細粒の解釈可能なセ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CountPath: Automating Fragment Counting in Digital Pathology

投稿日: 2025年3月14日作成者: jarxiv

要約医療画像の品質管理は、デジタル病理の重要な要素であり、診断画像が必要な基準 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | コメントを受け付けていません

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

投稿日: 2025年3月14日作成者: jarxiv

要約継続的な視覚情報をモデル化するための自己回帰パラダイムと拡散パラダイムを革 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

投稿日: 2025年3月14日作成者: jarxiv

要約オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Interactive Multimodal Fusion with Temporal Modeling

投稿日: 2025年3月14日作成者: jarxiv

要約この論文では、第8回の感情的行動分析（ABAW）競争における価数覚醒（VA … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval

投稿日: 2025年3月14日作成者: jarxiv

要約クロスモーダル検索は、視覚データやテキストデータなど、さまざまなモダリティ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

How Should We Evaluate Uncertainty in Accelerated MRI Reconstruction?

投稿日: 2025年3月14日作成者: jarxiv

要約加速MRIの再構築は、不適切な問題です。機械学習は最近、このタスクに大き … 続きを読む →

カテゴリー: cs.CV, eess.IV, physics.med-ph | コメントを受け付けていません

PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models

投稿日: 2025年3月14日作成者: jarxiv

要約 3Dマルチモーダル大手言語モデル（MLLM）は最近、実質的な進歩を遂げまし … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Lightweight Models for Emotional Analysis in Video

投稿日: 2025年3月14日作成者: jarxiv

要約この研究では、MobileNETV4とマルチスケール3D MLPミキサーベ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

Hoi2Anomaly: An Explainable Anomaly Detection Approach Guided by Human-Object Interaction

CountPath: Automating Fragment Counting in Digital Pathology

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

AudioX: Diffusion Transformer for Anything-to-Audio Generation

Interactive Multimodal Fusion with Temporal Modeling

NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval

How Should We Evaluate Uncertainty in Accelerated MRI Reconstruction?

PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models

Lightweight Models for Emotional Analysis in Video

最近の投稿

最近のコメント

アーカイブ

カテゴリー