-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年2月
SteROI-D: System Design and Mapping for Stereo Depth Inference on Regions of Interest
要約 機械学習アルゴリズムにより、高品質のステレオ深度推定は、拡張および仮想現実 … 続きを読む
Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model
要約 条件付き拡散モデルの最近の進歩により、現実的なトーキングフェイスビデオを生 … 続きを読む
カテゴリー: cs.CV
Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model はコメントを受け付けていません
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
要約 オブジェクトの検出、特にオープンボキャブラリーオブジェクトの検出は、環境監 … 続きを読む
カテゴリー: cs.CV
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community はコメントを受け付けていません
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
要約 具体化されたエージェントを作成するためにマルチモーダルの大手言語モデル(M … 続きを読む
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
要約 この作品は、画像とビデオの両方を密集した理解のための最初の統一モデルである … 続きを読む
カテゴリー: cs.CV
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません
Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction
要約 このペーパーでは、カメラパラメーター、レンズの歪み、3Dガウス表現を共同で … 続きを読む
Diffusing DeBias: a Recipe for Turning a Bug into a Feature
要約 分類タスクにおける深い学習モデルの有効性は、特定の属性とターゲットラベルの … 続きを読む
Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery
要約 Vision Transformers(VIT)は最近、コンピュータービジ … 続きを読む
Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering
要約 この調査では、ビデオ品質の7つの重要なカテゴリにわたってゼロショット分類の … 続きを読む
GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis
要約 地球軌道衛星の連続動作は、リモートセンシング(RS)画像の広大で成長し続け … 続きを読む
カテゴリー: cs.CV
GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis はコメントを受け付けていません