-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Reparameterized LLM Training via Orthogonal Equivalence Transformation
要約 大規模な言語モデル(LLM)が人工知能の急速な進歩を推進していますが、これ … 続きを読む
FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity
要約 この論文では、3Dシーンのジオメトリ、外観、および基礎となる物理学を純粋に … 続きを読む
Diffusion Counterfactual Generation with Semantic Abduction
要約 反事実的な画像生成は、アイデンティティの保存、知覚の質の維持、根本的な因果 … 続きを読む
GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution
要約 ネイティブトレーニングの解決を超えて、3Dガウススプラッティング(3DG) … 続きを読む
Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces
要約 拡散モデルは、画像、ビデオ、テキスト生成など、さまざまなタスクで単峰性デー … 続きを読む
RONA: Pragmatically Diverse Image Captioning with Coherence Relations
要約 ライティングアシスタント(Grammarly、Microsoft Copi … 続きを読む
Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models
要約 ビジョン言語モデル(VLM)は、言語のみの対応物の特性と同様の特性であるコ … 続きを読む
Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features
要約 LlavaやQwen-VLのような生成的大規模マルチモーダルモデル(LMM … 続きを読む
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations
要約 推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいてオブジェク … 続きを読む