-
最近の投稿
- START: Self-taught Reasoner with Tools
- Spatial regularisation for improved accuracy and interpretability in keypoint-based registration
- Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
- Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models
- TACO: General Acrobatic Flight Control via Target-and-Command-Oriented Reinforcement Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (34743) cs.CL (26267) cs.CR (2665) cs.CV (40574) cs.LG (39744) cs.RO (20350) cs.SY (3091) eess.IV (4818) eess.SY (3085) stat.ML (5229)
「cs.CV」カテゴリーアーカイブ
4D Radar Ground Truth Augmentation with LiDAR-to-4D Radar Data Synthesis
要約 グラウンドトゥルースの増強(GT-8月)は、グラウンドトゥルース境界ボック … 続きを読む
An Adaptive Underwater Image Enhancement Framework via Multi-Domain Fusion and Color Compensation
要約 水中光学イメージングは、光吸収、散乱、色の歪みにより、視界と正確な画像 … 続きを読む
DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
要約 Dongbaの絵文字は、世界でまだ使用されている唯一の絵文字です。 それら … 続きを読む
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
要約 生成モデルを特定のドメインに適応させることは、特殊な要件を満たすための効果 … 続きを読む
Improving 6D Object Pose Estimation of metallic Household and Industry Objects
要約 6Dオブジェクトのポーズ推定は、金属オブジェクトに適用すると精度が低下する … 続きを読む
What to align in multimodal contrastive learning?
要約 人間は多感覚統合を通じて世界を認識し、さまざまなモダリティの情報を混ぜ合わ … 続きを読む
LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant
要約 一人称ビデオアシスタントは、オンラインビデオの対話を通じて私たちの日常生活 … 続きを読む
A Generative Approach to High Fidelity 3D Reconstruction from Text Data
要約 生成的人工知能と高度なコンピュータービジョンテクノロジーの収束は、テキスト … 続きを読む
DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance
要約 正確で忠実な運転シーンの再構築には、包括的なシーン情報を条件付き入力として … 続きを読む