月別アーカイブ: 2024年3月

CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

投稿日: 2024年3月4日作成者: jarxiv

要約近年、視覚と言語のタスクの性能が著しく向上している。CLIPのような基礎的 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

投稿日: 2024年3月4日作成者: jarxiv

要約ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Inter-object Discriminative Graph Modeling for Indoor Scene Recognition

投稿日: 2024年3月4日作成者: jarxiv

要約多様なシーンレイアウトとシーン間に共存するオブジェクトにより、屋内シーン認 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling

投稿日: 2024年3月4日作成者: jarxiv

要約 LiDAR点群から3Dシーンフローを学習することは、合成データセットから実 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

投稿日: 2024年3月4日作成者: jarxiv

要約 Vision-and-Language Navigation (VLN)は … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution

投稿日: 2024年3月4日作成者: jarxiv

要約ディープラーニングは近年、単一画像超解像（Single Image Sup … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MagicDrive: Street View Generation with Diverse 3D Geometry Control

投稿日: 2024年3月4日作成者: jarxiv

要約近年の拡散モデルの進歩により、2D制御によるデータ合成が大幅に向上した。し … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Learning to Estimate Critical Gait Parameters from Single-View RGB Videos with Transformer-Based Attention Network

投稿日: 2024年3月4日作成者: jarxiv

要約筋骨格系疾患や患者の認知障害は、動作の困難だけでなく、心理的健康にも悪影響 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition

投稿日: 2024年3月4日作成者: jarxiv

要約視覚的関係認識(VRR)のタスクは、画像中の2つの相互作用するオブジェクト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach

投稿日: 2024年3月4日作成者: jarxiv

要約心臓超音波(US)の診断を容易にするために、臨床では心臓のいくつかの標準ビ … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

月別アーカイブ: 2024年3月

CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

Inter-object Discriminative Graph Modeling for Indoor Scene Recognition

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution

MagicDrive: Street View Generation with Diverse 3D Geometry Control

Learning to Estimate Critical Gait Parameters from Single-View RGB Videos with Transformer-Based Attention Network

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition

Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach

最近の投稿

最近のコメント

アーカイブ

カテゴリー