cs.CV」カテゴリーアーカイブ

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

要約 ビジョン言語モデル(VLM)は、視覚的な質問応答と画像キャプションで印象的 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? はコメントを受け付けていません

MaxSup: Overcoming Representation Collapse in Label Smoothing

要約 ラベルスムージング(LS)は、ニューラルネットワークの予測への自信過剰を減 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MaxSup: Overcoming Representation Collapse in Label Smoothing はコメントを受け付けていません

Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward

要約 大規模なビジョン言語モデル(LVLMS)は、さまざまなビジョン言語タスクに … 続きを読む

カテゴリー: cs.AI, cs.CV | Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward はコメントを受け付けていません

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

要約 拡散モデルは、さまざまなドメインにわたって強力な生成ツールとして浮上してい … 続きを読む

カテゴリー: cs.CV, cs.LG | VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL はコメントを受け付けていません

MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty

要約 このペーパーでは、骨格データとアクションのテキスト記述を統合および同期する … 続きを読む

カテゴリー: cs.CV | MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty はコメントを受け付けていません

Accurate Differential Operators for Hybrid Neural Fields

要約 ニューラルフィールドは、形状の表現から神経レンダリングまで、および部分的な … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Accurate Differential Operators for Hybrid Neural Fields はコメントを受け付けていません

Fact-Checking of AI-Generated Reports

要約 生成人工知能(AI)の進歩により、放射線画像の予備読み取りのために現実的に … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, eess.IV | Fact-Checking of AI-Generated Reports はコメントを受け付けていません

Enhancing Large Vision Model in Street Scene Semantic Understanding through Leveraging Posterior Optimization Trajectory

要約 自律運転(AD)知覚モデルの一般化を改善するには、継続的に収集されたデータ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Enhancing Large Vision Model in Street Scene Semantic Understanding through Leveraging Posterior Optimization Trajectory はコメントを受け付けていません

SurgRIPE challenge: Benchmark of Surgical Robot Instrument Pose Estimation

要約 正確な機器のポーズ推定は、ロボット手術の将来に向けた重要なステップであり、 … 続きを読む

カテゴリー: cs.CV, cs.RO | SurgRIPE challenge: Benchmark of Surgical Robot Instrument Pose Estimation はコメントを受け付けていません

View-Invariant Policy Learning via Zero-Shot Novel View Synthesis

要約 大規模な視覚運動政策学習は、一般化可能な操作システムの開発に向けた有望なア … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | View-Invariant Policy Learning via Zero-Shot Novel View Synthesis はコメントを受け付けていません