-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年7月
Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images
要約 Visual Question Answering for Remote … 続きを読む
カテゴリー: cs.CV
Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images はコメントを受け付けていません
High-resolution open-vocabulary object 6D pose estimation
要約 6D 姿勢推定タスクにおける目に見えないオブジェクトへの一般化は非常に困難 … 続きを読む
カテゴリー: cs.CV
High-resolution open-vocabulary object 6D pose estimation はコメントを受け付けていません
NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning
要約 本稿ではプロトタイプベースの視覚言語推論問題について考察する。 既存の手法 … 続きを読む
カテゴリー: cs.CV
NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning はコメントを受け付けていません
Still-Moving: Customized Video Generation without Customized Video Data
要約 Text-to-Image (T2I) モデルのカスタマイズは、最近、特に … 続きを読む
カテゴリー: cs.CV
Still-Moving: Customized Video Generation without Customized Video Data はコメントを受け付けていません
Generalizable Implicit Motion Modeling for Video Frame Interpolation
要約 モーション モデリングは、フローベースのビデオ フレーム補間 (VFI) … 続きを読む
カテゴリー: cs.CV
Generalizable Implicit Motion Modeling for Video Frame Interpolation はコメントを受け付けていません
SEED-Story: Multimodal Long Story Generation with Large Language Model
要約 画像生成とオープンフォームテキスト生成の目覚ましい進歩により、インターリー … 続きを読む
カテゴリー: cs.CV
SEED-Story: Multimodal Long Story Generation with Large Language Model はコメントを受け付けていません
SLEDGE: Synthesizing Driving Environments with Generative Models and Rule-Based Traffic
要約 SLEDGE は、現実世界の運転ログでトレーニングされた、車両動作計画のた … 続きを読む
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
要約 大規模言語モデルは、現在のトークンと以前のトークンの間の相関関係をモデル化 … 続きを読む
カテゴリー: cs.CV
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models はコメントを受け付けていません
Towards Efficient Deployment of Hybrid SNNs on Neuromorphic and Edge AI Hardware
要約 この論文では、ダイナミック ビジョン センサーによってキャプチャされたデー … 続きを読む
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models
要約 高解像度入力により、Large Vision-Language Model … 続きを読む
カテゴリー: cs.CV
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models はコメントを受け付けていません