月別アーカイブ: 2024年6月

SpatialBot: Precise Spatial Understanding with Vision Language Models

投稿日: 2024年6月28日作成者: jarxiv

要約ビジョン言語モデル (VLM) は、2D 画像理解において目覚ましいパフォ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation

投稿日: 2024年6月28日作成者: jarxiv

要約この研究は、シーングラフ生成 (SGG) のための有益なリレーショナル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient World Models with Context-Aware Tokenization

投稿日: 2024年6月28日作成者: jarxiv

要約深い強化学習 (RL) 手法をスケールアップするには、大きな課題が伴います … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs

投稿日: 2024年6月28日作成者: jarxiv

要約ビジュアルプログラムは、視覚的な推論の問題に対処するために大規模な言語モ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans

投稿日: 2024年6月28日作成者: jarxiv

要約体積測定のための肝臓の 3D 再構成は、定性分析と疾患診断にとって重要です … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation

投稿日: 2024年6月28日作成者: jarxiv

要約完全なテスト時適応は、ディープニューラルネットワークのクロスドメインの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Physics-Guided Neural Networks for Intraventricular Vector Flow Mapping

投稿日: 2024年6月28日作成者: jarxiv

要約心室内ベクトルフローマッピング (iVFM) は、心臓イメージングにお … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement

投稿日: 2024年6月28日作成者: jarxiv

要約 VR/AR および人間とロボットのインタラクションにとって、人間がどのよう … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Semantic Equivalence of Tokenization in Multimodal LLM

投稿日: 2024年6月28日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、視覚言語タスクの処理にお … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

STAL3D: Unsupervised Domain Adaptation for 3D Object Detection via Collaborating Self-Training and Adversarial Learning

投稿日: 2024年6月28日作成者: jarxiv

要約既存の 3D オブジェクト検出は、高価なアノテーションコストと、ドメイン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年6月

SpatialBot: Precise Spatial Understanding with Vision Language Models

Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation

Efficient World Models with Context-Aware Tokenization

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs

LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans

Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation

Physics-Guided Neural Networks for Intraventricular Vector Flow Mapping

CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement

Towards Semantic Equivalence of Tokenization in Multimodal LLM

STAL3D: Unsupervised Domain Adaptation for 3D Object Detection via Collaborating Self-Training and Adversarial Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー