-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes
要約 深度推定はロボット工学において重要な技術です。 最近、自己教師あり深度推定 … 続きを読む
A multi-purpose automatic editing system based on lecture semantics for remote education
要約 遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む
ZAHA: Introducing the Level of Facade Generalization and the Large-Scale Point Cloud Facade Semantic Segmentation Benchmark Dataset
要約 ファサードのセマンティック セグメンテーションは、写真測量とコンピュータ … 続きを読む
C3T: Cross-modal Transfer Through Time for Human Action Recognition
要約 多様なセンサーの可能性を解き放つために、人間行動認識 (HAR) のための … 続きを読む
Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis
要約 QUIC は、ますます使用されている新しいトランスポート プロトコルであり … 続きを読む
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration
要約 AI 生成コンテンツ (AIGC) の出現により、従来のプロセスを合理化す … 続きを読む
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion
要約 このペーパーでは、ビデオ拡散を使用して単一の画像からフォトリアリスティック … 続きを読む
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
要約 ドキュメントからの質問に答えるドキュメント ビジュアル質問応答 (DocV … 続きを読む
Uncovering Hidden Subspaces in Video Diffusion Models Using Re-Identification
要約 潜在ビデオ拡散モデルは、生成された画質と時間的一貫性のおかげで、一般の観察 … 続きを読む
HourVideo: 1-Hour Video-Language Understanding
要約 1 時間のビデオ言語理解のためのベンチマーク データセットである Hour … 続きを読む