-
最近の投稿
- Design of an End-effector with Application to Avocado Harvesting
- Active Human Pose Estimation via an Autonomous UAV Agent
- Equivariant Diffusion Policy
- Empathic Grounding: Explorations using Multimodal Interaction and Large Language Models with Conversational Agents
- LHManip: A Dataset for Long-Horizon Language-Grounded Manipulation Tasks in Cluttered Tabletop Environments
-
最近のコメント
表示できるコメントはありません。 cs.AI (23553) cs.CL (17693) cs.CR (1841) cs.CV (30612) cs.LG (28313) cs.RO (13198) cs.SY (2095) eess.IV (3775) eess.SY (2090) stat.ML (3894)
「cs.CV」カテゴリーアーカイブ
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition
要約 オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) … 続きを読む
Aligning Human Motion Generation with Human Perceptions
要約 人間の動きの生成は、幅広い用途に関わる重要なタスクです。 生成されたモーシ … 続きを読む
FedIA: Federated Medical Image Segmentation with Heterogeneous Annotation Completeness
要約 フェデレーテッド ラーニングは、特にプライバシーへの懸念の高まりを考慮して … 続きを読む
A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling
要約 特徴アップサンプリングは、画像セグメンテーション タスクのための現在のほぼ … 続きを読む
Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather
要約 既存の LiDAR セマンティック セグメンテーション手法は、悪天候時のパ … 続きを読む
Semantically Guided Representation Learning For Action Anticipation
要約 アクションの予測は、部分的に観察された一連のイベントから将来のアクティビテ … 続きを読む
VFIMamba: Video Frame Interpolation with State Space Models
要約 フレーム間モデリングは、ビデオ フレーム補間 (VFI) の中間フレームを … 続きを読む
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis
要約 マルチインスタンス生成 (MIG) タスクを導入します。このタスクは、単一 … 続きを読む
Why do LLaVA Vision-Language Models Reply to Images in English?
要約 私たちは、人気のあるクラスのマルチモーダル視覚言語モデル (VLM) で発 … 続きを読む