月別アーカイブ: 2024年3月

GRAM: Global Reasoning for Multi-Page VQA

投稿日: 2024年3月19日作成者: jarxiv

要約トランスフォーマーベースの大規模言語モデルの使用が増加しているため、長いシ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception

投稿日: 2024年3月19日作成者: jarxiv

要約マルチビュービデオを受け入れるビデオベースのアクション認識モデルをトレーニ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving

投稿日: 2024年3月19日作成者: jarxiv

要約大規模言語モデル (LLM) は、テキストと画像を理解し、人間のようなテキ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Matching Non-Identical Objects

投稿日: 2024年3月19日作成者: jarxiv

要約全く同じではありませんが、似たような物体は世界中のどこにでも存在します。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GaussNav: Gaussian Splatting for Visual Navigation

投稿日: 2024年3月19日作成者: jarxiv

要約身体化されたビジョンでは、インスタンスイメージゴールナビゲーション ( … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

投稿日: 2024年3月19日作成者: jarxiv

要約音楽生成ダンスの研究は、斬新かつ挑戦的なイメージ生成タスクです。音楽とシ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models

投稿日: 2024年3月19日作成者: jarxiv

要約カスタマイズ生成技術により、さまざまなコンテキストにわたる特定の概念の統合 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Compositional Kronecker Context Optimization for Vision-Language Models

投稿日: 2024年3月19日作成者: jarxiv

要約コンテキスト最適化 (CoOp) は、CLIP のような視覚言語モデルを下 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Personalized 3D Human Pose and Shape Refinement

投稿日: 2024年3月19日作成者: jarxiv

要約最近、回帰ベースの手法が 3D 人間の姿勢と形状の推定の分野を支配していま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

An Accurate and Real-time Relative Pose Estimation from Triple Point-line Images by Decoupling Rotation and Translation

投稿日: 2024年3月19日作成者: jarxiv

要約ラインフィーチャは、人工環境におけるポイントフィーチャを補完する有効な … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

月別アーカイブ: 2024年3月

GRAM: Global Reasoning for Multi-Page VQA

Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception

Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving

Matching Non-Identical Objects

GaussNav: Gaussian Splatting for Visual Navigation

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models

Compositional Kronecker Context Optimization for Vision-Language Models

Personalized 3D Human Pose and Shape Refinement

An Accurate and Real-time Relative Pose Estimation from Triple Point-line Images by Decoupling Rotation and Translation

最近の投稿

最近のコメント

アーカイブ

カテゴリー