投稿者「jarxiv」のアーカイブ

Robust Multimodal Learning via Cross-Modal Proxy Tokens

投稿日: 2025年6月3日作成者: jarxiv

要約マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、多 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Benchmarking 3D Human Pose Estimation Models under Occlusions

投稿日: 2025年6月3日作成者: jarxiv

要約人間のポーズ推定（HPE）には、視覚データから人体のキーポイントを検出およ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Survey of 3D Reconstruction with Event Cameras

投稿日: 2025年6月3日作成者: jarxiv

要約イベントカメラは、3D再建のための強力な視覚センサーとして急速に浮上してお … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

投稿日: 2025年6月3日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、視覚的な質問応答と画像キャプションで印象的 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

MaxSup: Overcoming Representation Collapse in Label Smoothing

投稿日: 2025年6月3日作成者: jarxiv

要約ラベルスムージング（LS）は、ニューラルネットワークの予測への自信過剰を減 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward

投稿日: 2025年6月3日作成者: jarxiv

要約大規模なビジョン言語モデル（LVLMS）は、さまざまなビジョン言語タスクに … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

投稿日: 2025年6月3日作成者: jarxiv

要約拡散モデルは、さまざまなドメインにわたって強力な生成ツールとして浮上してい … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty

投稿日: 2025年6月3日作成者: jarxiv

要約このペーパーでは、骨格データとアクションのテキスト記述を統合および同期する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Accurate Differential Operators for Hybrid Neural Fields

投稿日: 2025年6月3日作成者: jarxiv

要約ニューラルフィールドは、形状の表現から神経レンダリングまで、および部分的な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Fact-Checking of AI-Generated Reports

投稿日: 2025年6月3日作成者: jarxiv

要約生成人工知能（AI）の進歩により、放射線画像の予備読み取りのために現実的に … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Robust Multimodal Learning via Cross-Modal Proxy Tokens

Benchmarking 3D Human Pose Estimation Models under Occlusions

A Survey of 3D Reconstruction with Event Cameras

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

MaxSup: Overcoming Representation Collapse in Label Smoothing

Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty

Accurate Differential Operators for Hybrid Neural Fields

Fact-Checking of AI-Generated Reports

最近の投稿

最近のコメント

アーカイブ

カテゴリー