-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
C3T: Cross-modal Transfer Through Time for Human Action Recognition
要約 多様なセンサーの可能性を解き放つために、人間行動認識 (HAR) のための … 続きを読む
Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis
要約 QUIC は、ますます使用されている新しいトランスポート プロトコルであり … 続きを読む
In the Era of Prompt Learning with Vision-Language Models
要約 CLIP のような大規模な基盤モデルは、強力なゼロショット汎化を示していま … 続きを読む
カテゴリー: cs.CV
In the Era of Prompt Learning with Vision-Language Models はコメントを受け付けていません
Robust Iris Centre Localisation for Assistive Eye-Gaze Tracking
要約 この研究作業では、視線追跡プラットフォームの中核コンポーネントとして、制約 … 続きを読む
カテゴリー: cs.CV
Robust Iris Centre Localisation for Assistive Eye-Gaze Tracking はコメントを受け付けていません
Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion
要約 視覚模倣学習方法は強力なパフォーマンスを示しますが、照明やテクスチャの変化 … 続きを読む
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
要約 ビデオ内の複雑な空間的および時間的ダイナミクスのため、ビデオとテキストの間 … 続きを読む
カテゴリー: cs.CV
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos はコメントを受け付けていません
MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views
要約 私たちは、まばらな観測のみを使用して、現実世界の多様なシーンの 360{\ … 続きを読む
カテゴリー: cs.CV
MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views はコメントを受け付けていません
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration
要約 AI 生成コンテンツ (AIGC) の出現により、従来のプロセスを合理化す … 続きを読む
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion
要約 このペーパーでは、ビデオ拡散を使用して単一の画像からフォトリアリスティック … 続きを読む
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering
要約 Audio-Visual Question Answering (AVQA … 続きを読む
カテゴリー: cs.CV
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering はコメントを受け付けていません