投稿者「jarxiv」のアーカイブ

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

要約 現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当て … 続きを読む

カテゴリー: cs.CV | FullDiT: Multi-Task Video Generative Foundation Model with Full Attention はコメントを受け付けていません

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

要約 大規模なビジョン言語モデル(LVLMS)は、ビデオ理解における印象的な能力 … 続きを読む

カテゴリー: cs.CV | From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities はコメントを受け付けていません

CoLLM: A Large Language Model for Composed Image Retrieval

要約 構成された画像検索(CIR)は、マルチモーダルクエリに基づいて画像を取得す … 続きを読む

カテゴリー: cs.CV, cs.IR | CoLLM: A Large Language Model for Composed Image Retrieval はコメントを受け付けていません

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

要約 LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining はコメントを受け付けていません

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

要約 事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用する … 続きを読む

カテゴリー: cs.CV | Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models はコメントを受け付けていません

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

要約 現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、 … 続きを読む

カテゴリー: cs.CV | PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model はコメントを受け付けていません

EventFly: Event Camera Perception from Ground to the Sky

要約 イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ド … 続きを読む

カテゴリー: cs.CV, cs.RO | EventFly: Event Camera Perception from Ground to the Sky はコメントを受け付けていません

Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations

要約 大規模な言語モデルの出現は、科学的知識の構造化された探求のための新しい可能 … 続きを読む

カテゴリー: cs.AI | Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations はコメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

要約 現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタス … 続きを読む

カテゴリー: cs.AI, cs.CV | MC-LLaVA: Multi-Concept Personalized Vision-Language Model はコメントを受け付けていません

Aether: Geometric-Aware Unified World Modeling

要約 幾何学的再構築と生成モデリングの統合は、人間のような空間的推論が可能なAI … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Aether: Geometric-Aware Unified World Modeling はコメントを受け付けていません