-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年1月
PixArt-$α$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
要約 最先端の Text-to-Image (T2I) モデルには多額のトレーニ … 続きを読む
カテゴリー: cs.CV
PixArt-$α$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis はコメントを受け付けていません
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
要約 拡散モデルは画像間 (I2I) 合成を変革し、現在ではビデオに浸透していま … 続きを読む
Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization
要約 アクションの位置特定は、検出タスクと認識タスクを組み合わせた難しい問題であ … 続きを読む
カテゴリー: cs.CV
Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization はコメントを受け付けていません
Comparing the robustness of modern no-reference image- and video-quality metrics to adversarial attacks
要約 現在、ニューラル ネットワーク ベースの画像およびビデオ品質メトリクスは、 … 続きを読む
Toward Spatial Temporal Consistency of Joint Visual Tactile Perception in VR Applications
要約 VR テクノロジーの発展、特にメタバース概念の出現により、視覚と触覚の統合 … 続きを読む
カテゴリー: cs.RO
Toward Spatial Temporal Consistency of Joint Visual Tactile Perception in VR Applications はコメントを受け付けていません
Difficulties in Dynamic Analysis of Drone Firmware and Its Solutions
要約 モノのインターネット (IoT) テクノロジーの進歩により、その応用は公共 … 続きを読む
Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding
要約 Transformer は、シーケンス内の複雑な依存関係をモデル化する優れ … 続きを読む
カテゴリー: cs.CL
Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding はコメントを受け付けていません
Experiential Co-Learning of Software-Developing Agents
要約 大規模言語モデル (LLM) の最近の進歩により、特に LLM 駆動の自律 … 続きを読む
AccidentGPT: Accident Analysis and Prevention from V2X Environmental Perception with Multi-modal Large Model
要約 交通事故は人的被害と物的損害の両方に大きく寄与しており、交通安全分野の多く … 続きを読む
DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation
要約 言語の指示に従って目に見えない環境をナビゲートすることは、自律的に身体化さ … 続きを読む
カテゴリー: cs.CV
DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation はコメントを受け付けていません