cs.AI」カテゴリーアーカイブ

Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation

要約 小さなサンプル インスタンスのセグメンテーションは非常に困難なタスクであり … 続きを読む

カテゴリー: cs.AI, cs.CV | Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation はコメントを受け付けていません

Multimodal Flare Forecasting with Deep Learning

要約 太陽フレアの予測は、主に光球磁力線とそれに関連する物理的特徴に基づいて今後 … 続きを読む

カテゴリー: astro-ph.IM, astro-ph.SR, cs.AI, cs.CV | Multimodal Flare Forecasting with Deep Learning はコメントを受け付けていません

Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition

要約 デモンストレーション収集に遠隔操作システムを採用することで、より効率的にロ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.RO | Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition はコメントを受け付けていません

RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives

要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives はコメントを受け付けていません

Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models

要約 逆ビデオ問題を解決するために画像モデルを単純に使用すると、生成されたビデオ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models はコメントを受け付けていません

Improve Vision Language Model Chain-of-thought Reasoning

要約 ビジョン言語モデル (VLM) における思考連鎖 (CoT) 推論は、解釈 … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CV | Improve Vision Language Model Chain-of-thought Reasoning はコメントを受け付けていません

MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report

要約 この論文では、X 線、心電図 (ECG)、および放射線学/心臓病学のレポー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report はコメントを受け付けていません

3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

要約 ノベルビュー合成は、複数の入力画像またはビデオからシーンの新しいビューを生 … 続きを読む

カテゴリー: cs.AI, cs.CV | 3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors はコメントを受け付けていません

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

要約 我々は、xGen-MM-Vid (BLIP-3-Video) を紹介します … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs はコメントを受け付けていません

Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems

要約 自律兵器システム (AWS) を軍事作戦に統合することは、重要な機会と課題 … 続きを読む

カテゴリー: cs.AI, cs.CY, cs.RO | Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems はコメントを受け付けていません