-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Can We Edit Multimodal Large Language Models?
要約 このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む
Generalizable Face Landmarking Guided by Conditional Face Warping
要約 人間の顔のモデリング、編集、生成の重要なステップとして、顔ランドマークは画 … 続きを読む
Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery
要約 Generalized Class Discovery (GCD) は、ラ … 続きを読む
V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
要約 ビデオの要約は、長いビデオの短く、正確で、まとまりのある要約を作成すること … 続きを読む
6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction
要約 現在の 3D 再構成技術では、少数の画像から境界のないシーンを忠実に推測す … 続きを読む
Lazy Diffusion Transformer for Interactive Image Editing
要約 部分的な画像更新を効率的に生成する新しい拡散変換器 LazyDiffusi … 続きを読む
BLINK: Multimodal Large Language Models Can See but Not Perceive
要約 他の評価では見られない中核的な視覚認識能力に焦点を当てた、マルチモーダル言 … 続きを読む
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
要約 ニューラル フィールドは、セマンティクス、幾何学、ダイナミクスの推論など、 … 続きを読む
Can LLMs perform structured graph reasoning?
要約 事前トレーニングされた大規模言語モデル (LLM) は、特に非構造化タスク … 続きを読む
End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving
要約 現在の自律スタックは十分にモジュール化されており、手作りのフレームワークで … 続きを読む