-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation
要約 小さなサンプル インスタンスのセグメンテーションは非常に困難なタスクであり … 続きを読む
Multimodal Flare Forecasting with Deep Learning
要約 太陽フレアの予測は、主に光球磁力線とそれに関連する物理的特徴に基づいて今後 … 続きを読む
カテゴリー: astro-ph.IM, astro-ph.SR, cs.AI, cs.CV
Multimodal Flare Forecasting with Deep Learning はコメントを受け付けていません
Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition
要約 デモンストレーション収集に遠隔操作システムを採用することで、より効率的にロ … 続きを読む
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives
要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む
Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models
要約 逆ビデオ問題を解決するために画像モデルを単純に使用すると、生成されたビデオ … 続きを読む
Improve Vision Language Model Chain-of-thought Reasoning
要約 ビジョン言語モデル (VLM) における思考連鎖 (CoT) 推論は、解釈 … 続きを読む
MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report
要約 この論文では、X 線、心電図 (ECG)、および放射線学/心臓病学のレポー … 続きを読む
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors
要約 ノベルビュー合成は、複数の入力画像またはビデオからシーンの新しいビューを生 … 続きを読む
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
要約 我々は、xGen-MM-Vid (BLIP-3-Video) を紹介します … 続きを読む
Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems
要約 自律兵器システム (AWS) を軍事作戦に統合することは、重要な機会と課題 … 続きを読む