月別アーカイブ: 2025年3月

MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions

投稿日: 2025年3月13日作成者: jarxiv

要約大規模なビジョン言語モデル（VLM）は、労働集約型のマニュアル指導データセ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Double-Stage Feature-Level Clustering-Based Mixture of Experts Framework

投稿日: 2025年3月13日作成者: jarxiv

要約 Experts（MOE）の混合モデルは、深い学習（DL）に成功しました。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.LO | コメントを受け付けていません

ViM-VQ: Efficient Post-Training Vector Quantization for Visual Mamba

投稿日: 2025年3月13日作成者: jarxiv

要約 Visual Mamba Networks（VIMS）は、選択的宇宙状態モ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images

投稿日: 2025年3月13日作成者: jarxiv

要約画像翻訳方法は、赤外線および目に見えるモダリティの情報欠陥を緩和するための … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation

投稿日: 2025年3月13日作成者: jarxiv

要約空間的および時間的ダイナミクスとハードウェアの制限の複雑な相互作用により、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Patch-Wise Hypergraph Contrastive Learning with Dual Normal Distribution Weighting for Multi-Domain Stain Transfer

投稿日: 2025年3月13日作成者: jarxiv

要約仮想染色転送は、コンピューター支援技術を活用して、組織サンプルの組織化学染 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

投稿日: 2025年3月13日作成者: jarxiv

要約ビジョン言語アクションモデル（VLA）の最近の進歩により、具体化された知性 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Evaluating Visual Explanations of Attention Maps for Transformer-based Medical Imaging

投稿日: 2025年3月13日作成者: jarxiv

要約視覚変圧器（VITS）は最近、医療画像の問題で優れた性能を示していますが、 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals

投稿日: 2025年3月13日作成者: jarxiv

要約人間のポーズ推定（HPE）は、さまざまな用途の人体関節の位置を検出します。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, eess.SP | コメントを受け付けていません

Grounding Video Models to Actions through Goal Conditioned Exploration

投稿日: 2025年3月13日作成者: jarxiv

要約大量のインターネットビデオで事前に処理された大規模なビデオモデルは、オブジ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

月別アーカイブ: 2025年3月

MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions

Double-Stage Feature-Level Clustering-Based Mixture of Experts Framework

ViM-VQ: Efficient Post-Training Vector Quantization for Visual Mamba

CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images

MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation

Patch-Wise Hypergraph Contrastive Learning with Dual Normal Distribution Weighting for Multi-Domain Stain Transfer

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

Evaluating Visual Explanations of Attention Maps for Transformer-based Medical Imaging

GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals

Grounding Video Models to Actions through Goal Conditioned Exploration

最近の投稿

最近のコメント

アーカイブ

カテゴリー