月別アーカイブ: 2024年1月

TIER: Text and Image Encoder-based Regression for AIGC Image Quality Assessment

投稿日: 2024年1月9日作成者: jarxiv

要約最近、人間の知覚の観点から AI が生成した画像の品質を評価することを目的 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

A Contrastive Learning Scheme with Transformer Innate Patches

投稿日: 2024年1月9日作成者: jarxiv

要約この論文では、Transformer の固有パッチを使用した対照学習スキー … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Gramformer: Learning Crowd Counting via Graph-Modulated Transformer

投稿日: 2024年1月9日作成者: jarxiv

要約 Transformer は、従来の CNN の限られた受容領域を打ち破るた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A New Dataset and a Distractor-Aware Architecture for Transparent Object Tracking

投稿日: 2024年1月9日作成者: jarxiv

要約最新のトラッカーのパフォーマンスは、不透明なオブジェクトに比べて透明なオブ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric

投稿日: 2024年1月9日作成者: jarxiv

要約カラーカメラとイベントカメラ (ダイナミックビジョンセンサー、DV … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.NE | コメントを受け付けていません

DamWorld: Progressive Reasoning with World Models for Robotic Manipulation

投稿日: 2024年1月9日作成者: jarxiv

要約身体化された AI の研究は、ロボット操作の開発を大きく促進しました。た … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Unlocking Pre-trained Image Backbones for Semantic Image Synthesis

投稿日: 2024年1月9日作成者: jarxiv

要約セマンティック画像合成、つまりユーザーが提供したセマンティックラベルマップ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Ranking-based Adaptive Query Generation for DETRs in Crowded Pedestrian Detection

投稿日: 2024年1月9日作成者: jarxiv

要約 DEtection TRansformer (DETR) とそのバリアント … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Survey on 3D Gaussian Splatting

投稿日: 2024年1月9日作成者: jarxiv

要約 3D ガウススプラッティング (3D GS) は、明示的な放射輝度フィー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering

投稿日: 2024年1月9日作成者: jarxiv

要約最近、ビデオ質問応答モデルの急速な発展を目の当たりにしました。ただし、ほ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年1月

TIER: Text and Image Encoder-based Regression for AIGC Image Quality Assessment

A Contrastive Learning Scheme with Transformer Innate Patches

Gramformer: Learning Crowd Counting via Graph-Modulated Transformer

A New Dataset and a Distractor-Aware Architecture for Transparent Object Tracking

Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric

DamWorld: Progressive Reasoning with World Models for Robotic Manipulation

Unlocking Pre-trained Image Backbones for Semantic Image Synthesis

Ranking-based Adaptive Query Generation for DETRs in Crowded Pedestrian Detection

A Survey on 3D Gaussian Splatting

STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering

最近の投稿

最近のコメント

アーカイブ

カテゴリー