-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年3月
From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities
要約 大規模なビジョン言語モデル(LVLMS)は、ビデオ理解における印象的な能力 … 続きを読む
カテゴリー: cs.CV
From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities はコメントを受け付けていません
CoLLM: A Large Language Model for Composed Image Retrieval
要約 構成された画像検索(CIR)は、マルチモーダルクエリに基づいて画像を取得す … 続きを読む
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining
要約 LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための … 続きを読む
Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models
要約 事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用する … 続きを読む
カテゴリー: cs.CV
Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models はコメントを受け付けていません
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model
要約 現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、 … 続きを読む
カテゴリー: cs.CV
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model はコメントを受け付けていません
EventFly: Event Camera Perception from Ground to the Sky
要約 イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ド … 続きを読む
Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations
要約 大規模な言語モデルの出現は、科学的知識の構造化された探求のための新しい可能 … 続きを読む
カテゴリー: cs.AI
Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations はコメントを受け付けていません
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
要約 現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタス … 続きを読む
Aether: Geometric-Aware Unified World Modeling
要約 幾何学的再構築と生成モデリングの統合は、人間のような空間的推論が可能なAI … 続きを読む
LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL
要約 スキーマリンクは、テキスト間タスク、特に実際の大規模なマルチデータベースシ … 続きを読む
カテゴリー: cs.CL
LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL はコメントを受け付けていません