月別アーカイブ: 2024年3月

CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

要約 近年、視覚と言語のタスクの性能が著しく向上している。CLIPのような基礎的 … 続きを読む

カテゴリー: cs.CL, cs.CV | CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models はコメントを受け付けていません

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

要約 ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling はコメントを受け付けていません

Inter-object Discriminative Graph Modeling for Indoor Scene Recognition

要約 多様なシーンレイアウトとシーン間に共存するオブジェクトにより、屋内シーン認 … 続きを読む

カテゴリー: cs.CV | Inter-object Discriminative Graph Modeling for Indoor Scene Recognition はコメントを受け付けていません

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling

要約 LiDAR点群から3Dシーンフローを学習することは、合成データセットから実 … 続きを読む

カテゴリー: cs.CV | 3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling はコメントを受け付けていません

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

要約 Vision-and-Language Navigation (VLN)は … 続きを読む

カテゴリー: cs.CV, cs.RO | NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation はコメントを受け付けていません

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution

要約 ディープラーニングは近年、単一画像超解像(Single Image Sup … 続きを読む

カテゴリー: cs.AI, cs.CV | Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution はコメントを受け付けていません

MagicDrive: Street View Generation with Diverse 3D Geometry Control

要約 近年の拡散モデルの進歩により、2D制御によるデータ合成が大幅に向上した。し … 続きを読む

カテゴリー: cs.AI, cs.CV | MagicDrive: Street View Generation with Diverse 3D Geometry Control はコメントを受け付けていません

Learning to Estimate Critical Gait Parameters from Single-View RGB Videos with Transformer-Based Attention Network

要約 筋骨格系疾患や患者の認知障害は、動作の困難だけでなく、心理的健康にも悪影響 … 続きを読む

カテゴリー: cs.CV | Learning to Estimate Critical Gait Parameters from Single-View RGB Videos with Transformer-Based Attention Network はコメントを受け付けていません

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition

要約 視覚的関係認識(VRR)のタスクは、画像中の2つの相互作用するオブジェクト … 続きを読む

カテゴリー: cs.CV | DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition はコメントを受け付けていません

Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach

要約 心臓超音波(US)の診断を容易にするために、臨床では心臓のいくつかの標準ビ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach はコメントを受け付けていません