投稿者「jarxiv」のアーカイブ

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

投稿日: 2025年3月26日作成者: jarxiv

要約現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当て … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

投稿日: 2025年3月26日作成者: jarxiv

要約大規模なビジョン言語モデル（LVLMS）は、ビデオ理解における印象的な能力 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CoLLM: A Large Language Model for Composed Image Retrieval

投稿日: 2025年3月26日作成者: jarxiv

要約構成された画像検索（CIR）は、マルチモーダルクエリに基づいて画像を取得す … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

投稿日: 2025年3月26日作成者: jarxiv

要約 LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

投稿日: 2025年3月26日作成者: jarxiv

要約事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

投稿日: 2025年3月26日作成者: jarxiv

要約現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EventFly: Event Camera Perception from Ground to the Sky

投稿日: 2025年3月26日作成者: jarxiv

要約イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ド … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations

投稿日: 2025年3月26日作成者: jarxiv

要約大規模な言語モデルの出現は、科学的知識の構造化された探求のための新しい可能 … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

投稿日: 2025年3月26日作成者: jarxiv

要約現在のビジョン言語モデル（VLM）は、視覚的な質問応答など、さまざまなタス … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Aether: Geometric-Aware Unified World Modeling

投稿日: 2025年3月26日作成者: jarxiv

要約幾何学的再構築と生成モデリングの統合は、人間のような空間的推論が可能なAI … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

CoLLM: A Large Language Model for Composed Image Retrieval

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

EventFly: Event Camera Perception from Ground to the Sky

Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

Aether: Geometric-Aware Unified World Modeling

最近の投稿

最近のコメント

アーカイブ

カテゴリー