月別アーカイブ: 2023年3月

CRIN: Rotation-Invariant Point Cloud Analysis and Rotation Estimation via Centrifugal Reference Frame

投稿日: 2023年3月7日作成者: jarxiv

要約最近の様々な手法は、入力された点の座標を相対的な距離や角度に置き換えること … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CLIP the Gap: A Single Domain Generalization Approach for Object Detection

投稿日: 2023年3月7日作成者: jarxiv

要約単一領域汎化（SDG）は、単一のソース領域でモデルを学習し、それが未見のタ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting

投稿日: 2023年3月7日作成者: jarxiv

要約エンドツーエンドのテキストスポッティングは、シーンのテキスト検出と認識を統 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents

投稿日: 2023年3月7日作成者: jarxiv

要約歴史的な文書におけるキーワードスポッティング（KWS）は、デジタル化された … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Video Question Answering Using CLIP-Guided Visual-Text Attention

投稿日: 2023年3月7日作成者: jarxiv

要約 Video Question Answering (VideoQA)では、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, I.2.10 | コメントを受け付けていません

Faster Learning of Temporal Action Proposal via Sparse Multilevel Boundary Generator

投稿日: 2023年3月7日作成者: jarxiv

要約動画像における時間的な行動定位は、コンピュータビジョンの分野において重要な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Understanding and Improving Visual Prompting: A Label-Mapping Perspective

投稿日: 2023年3月7日作成者: jarxiv

要約我々は、視覚タスクのための入力プロンプト技術であるビジュアルプロンプト（V … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Provably Uncertainty-Guided Universal Domain Adaptation

投稿日: 2023年3月7日作成者: jarxiv

要約ユニバーサルドメインアダプテーション（UniDA）は、ラベルセットに関する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Neighborhood Contrastive Transformer for Change Captioning

投稿日: 2023年3月7日作成者: jarxiv

要約チェンジキャプションとは、類似した画像のペア間の意味的な変化を自然言語で記 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

A System for Generalized 3D Multi-Object Search

投稿日: 2023年3月7日作成者: jarxiv

要約物体の探索は、ロボットにとって基本的なスキルである。そのため、物体探索は、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

月別アーカイブ: 2023年3月

CRIN: Rotation-Invariant Point Cloud Analysis and Rotation Estimation via Centrifugal Reference Frame

CLIP the Gap: A Single Domain Generalization Approach for Object Detection

DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting

ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents

Video Question Answering Using CLIP-Guided Visual-Text Attention

Faster Learning of Temporal Action Proposal via Sparse Multilevel Boundary Generator

Understanding and Improving Visual Prompting: A Label-Mapping Perspective

Provably Uncertainty-Guided Universal Domain Adaptation

Neighborhood Contrastive Transformer for Change Captioning

A System for Generalized 3D Multi-Object Search

最近の投稿

最近のコメント

アーカイブ

カテゴリー