月別アーカイブ: 2025年4月

TransientTables: Evaluating LLMs’ Reasoning on Temporally Evolving Semi-structured Tables

投稿日: 2025年4月3日作成者: jarxiv

要約人間は継続的に新しい発見をし、これらのブレークスルーにつながる一連の出来事 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.IR | コメントを受け付けていません

GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning

投稿日: 2025年4月3日作成者: jarxiv

要約一般的な医療AIの最近の進歩は大きな進歩を遂げていますが、既存のモデルには … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Meta ControlNet: Enhancing Task Adaptation via Meta Learning

投稿日: 2025年4月3日作成者: jarxiv

要約拡散ベースの画像合成は最近、広範囲にわたる注目を集めています。特に、画像 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Is Temporal Prompting All We Need For Limited Labeled Action Recognition?

投稿日: 2025年4月3日作成者: jarxiv

要約ビデオの理解は、近年、顕著な改善を示しており、大規模な標識データセットの可 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

投稿日: 2025年4月3日作成者: jarxiv

要約 2D画像とビデオ用の大規模なマルチモーダルモデル（LMMS）の急速な開発に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | コメントを受け付けていません

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

投稿日: 2025年4月3日作成者: jarxiv

要約物理的なAIシステムは、物理的な世界で複雑な行動を認識し、理解し、実行する … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs

投稿日: 2025年4月3日作成者: jarxiv

要約先駆的なビジョン言語モデルとして、Clip（コントラスト言語イメージのプリ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Equivariant Spherical CNNs for Accurate Fiber Orientation Distribution Estimation in Neonatal Diffusion MRI with Reduced Acquisition Time

投稿日: 2025年4月3日作成者: jarxiv

要約拡散磁気共鳴イメージング（DMRI）を使用した脳微細構造の早期かつ正確な評 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

投稿日: 2025年4月3日作成者: jarxiv

要約デュアルビジュアルトークン化と拡散デコーダーを活用して、深いセマンティック … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

End-to-End Driving with Online Trajectory Evaluation via BEV World Model

投稿日: 2025年4月3日作成者: jarxiv

要約エンドツーエンドの自律運転は、認識、予測、および計画を完全に微分可能なフレ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年4月

TransientTables: Evaluating LLMs’ Reasoning on Temporally Evolving Semi-structured Tables

GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning

Meta ControlNet: Enhancing Task Adaptation via Meta Learning

Is Temporal Prompting All We Need For Limited Labeled Action Recognition?

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs

Equivariant Spherical CNNs for Accurate Fiber Orientation Distribution Estimation in Neonatal Diffusion MRI with Reduced Acquisition Time

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

End-to-End Driving with Online Trajectory Evaluation via BEV World Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー