月別アーカイブ: 2025年4月

TransientTables: Evaluating LLMs’ Reasoning on Temporally Evolving Semi-structured Tables

要約 人間は継続的に新しい発見をし、これらのブレークスルーにつながる一連の出来事 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR | TransientTables: Evaluating LLMs’ Reasoning on Temporally Evolving Semi-structured Tables はコメントを受け付けていません

GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning

要約 一般的な医療AIの最近の進歩は大きな進歩を遂げていますが、既存のモデルには … 続きを読む

カテゴリー: cs.CV | GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning はコメントを受け付けていません

Meta ControlNet: Enhancing Task Adaptation via Meta Learning

要約 拡散ベースの画像合成は最近、広範囲にわたる注目を集めています。 特に、画像 … 続きを読む

カテゴリー: cs.CV, cs.LG | Meta ControlNet: Enhancing Task Adaptation via Meta Learning はコメントを受け付けていません

Is Temporal Prompting All We Need For Limited Labeled Action Recognition?

要約 ビデオの理解は、近年、顕著な改善を示しており、大規模な標識データセットの可 … 続きを読む

カテゴリー: cs.CV | Is Temporal Prompting All We Need For Limited Labeled Action Recognition? はコメントを受け付けていません

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

要約 2D画像とビデオ用の大規模なマルチモーダルモデル(LMMS)の急速な開発に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness はコメントを受け付けていません

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

要約 物理的なAIシステムは、物理的な世界で複雑な行動を認識し、理解し、実行する … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning はコメントを受け付けていません

FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs

要約 先駆的なビジョン言語モデルとして、Clip(コントラスト言語イメージのプリ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs はコメントを受け付けていません

Equivariant Spherical CNNs for Accurate Fiber Orientation Distribution Estimation in Neonatal Diffusion MRI with Reduced Acquisition Time

要約 拡散磁気共鳴イメージング(DMRI)を使用した脳微細構造の早期かつ正確な評 … 続きを読む

カテゴリー: cs.AI, cs.CV | Equivariant Spherical CNNs for Accurate Fiber Orientation Distribution Estimation in Neonatal Diffusion MRI with Reduced Acquisition Time はコメントを受け付けていません

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

要約 デュアルビジュアルトークン化と拡散デコーダーを活用して、深いセマンティック … 続きを読む

カテゴリー: cs.CV | ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement はコメントを受け付けていません

End-to-End Driving with Online Trajectory Evaluation via BEV World Model

要約 エンドツーエンドの自律運転は、認識、予測、および計画を完全に微分可能なフレ … 続きを読む

カテゴリー: cs.CV | End-to-End Driving with Online Trajectory Evaluation via BEV World Model はコメントを受け付けていません