月別アーカイブ: 2025年3月

TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

要約 マルチモーダル大手言語モデル(MLLM)はますます人気が高まっていますが、 … 続きを読む

カテゴリー: cs.CV | TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models はコメントを受け付けていません

Hoi2Anomaly: An Explainable Anomaly Detection Approach Guided by Human-Object Interaction

要約 画像の異常検出(IAD)の領域では、既存の方法はしばしば細粒の解釈可能なセ … 続きを読む

カテゴリー: cs.CV | Hoi2Anomaly: An Explainable Anomaly Detection Approach Guided by Human-Object Interaction はコメントを受け付けていません

CountPath: Automating Fragment Counting in Digital Pathology

要約 医療画像の品質管理は、デジタル病理の重要な要素であり、診断画像が必要な基準 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | CountPath: Automating Fragment Counting in Digital Pathology はコメントを受け付けていません

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

要約 継続的な視覚情報をモデル化するための自己回帰パラダイムと拡散パラダイムを革 … 続きを読む

カテゴリー: cs.CV | ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer はコメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AudioX: Diffusion Transformer for Anything-to-Audio Generation はコメントを受け付けていません

Interactive Multimodal Fusion with Temporal Modeling

要約 この論文では、第8回の感情的行動分析(ABAW)競争における価数覚醒(VA … 続きを読む

カテゴリー: cs.CV | Interactive Multimodal Fusion with Temporal Modeling はコメントを受け付けていません

NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval

要約 クロスモーダル検索は、視覚データやテキストデータなど、さまざまなモダリティ … 続きを読む

カテゴリー: cs.CV | NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval はコメントを受け付けていません

How Should We Evaluate Uncertainty in Accelerated MRI Reconstruction?

要約 加速MRIの再構築は、不適切な問題です。 機械学習は最近、このタスクに大き … 続きを読む

カテゴリー: cs.CV, eess.IV, physics.med-ph | How Should We Evaluate Uncertainty in Accelerated MRI Reconstruction? はコメントを受け付けていません

PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models

要約 3Dマルチモーダル大手言語モデル(MLLM)は最近、実質的な進歩を遂げまし … 続きを読む

カテゴリー: cs.AI, cs.CV | PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models はコメントを受け付けていません

Lightweight Models for Emotional Analysis in Video

要約 この研究では、MobileNETV4とマルチスケール3D MLPミキサーベ … 続きを読む

カテゴリー: cs.AI, cs.CV | Lightweight Models for Emotional Analysis in Video はコメントを受け付けていません