月別アーカイブ: 2025年1月

Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training

投稿日: 2025年1月23日作成者: jarxiv

要約自己監視型事前トレーニングの使用は、さまざまな視覚タスクのパフォーマンスを … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary Learning

投稿日: 2025年1月23日作成者: jarxiv

要約手書き文書認識 (HDR) は最近大幅に進歩しましたが、複雑な背景、多様な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PreciseCam: Precise Camera Control for Text-to-Image Generation

投稿日: 2025年1月23日作成者: jarxiv

要約芸術的な媒体としての画像は、アイデアや感情を伝えるために特定のカメラアン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Capsule Vision 2024 Challenge: Multi-Class Abnormality Classification for Video Capsule Endoscopy

投稿日: 2025年1月23日作成者: jarxiv

要約 Capsule Vision 2024 チャレンジ: ビデオカプセル内視 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DynamicEarth: How Far are We from Open-Vocabulary Change Detection?

投稿日: 2025年1月23日作成者: jarxiv

要約進化する地球の土地被覆を監視するには、幅広いカテゴリーや状況にわたる変化を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

3D Object Manipulation in a Single Image using Generative Models

投稿日: 2025年1月23日作成者: jarxiv

要約画像内のオブジェクト操作は、オブジェクトのプレゼンテーションを編集するだけ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Search3D: Hierarchical Open-Vocabulary 3D Segmentation

投稿日: 2025年1月23日作成者: jarxiv

要約オープンボキャブラリーの 3D セグメンテーションにより、自由形式のテキス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Novel Tracking Framework for Devices in X-ray Leveraging Supplementary Cue-Driven Self-Supervised Features

投稿日: 2025年1月23日作成者: jarxiv

要約血管形成術によって閉塞した冠動脈の適切な血流を回復するには、ライブ透視また … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Pay Attention and Move Better: Harnessing Attention for Interactive Motion Generation and Training-free Editing

投稿日: 2025年1月23日作成者: jarxiv

要約この研究では、人間のモーション生成のインタラクティブな編集の問題を詳しく調 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Boosting Diffusion Guidance via Learning Degradation-Aware Models for Blind Super Resolution

投稿日: 2025年1月23日作成者: jarxiv

要約最近、拡散ベースのブラインド超解像 (SR) 手法は、豊富な高周波ディテー … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2025年1月

Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training

DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary Learning

PreciseCam: Precise Camera Control for Text-to-Image Generation

Capsule Vision 2024 Challenge: Multi-Class Abnormality Classification for Video Capsule Endoscopy

DynamicEarth: How Far are We from Open-Vocabulary Change Detection?

3D Object Manipulation in a Single Image using Generative Models

Search3D: Hierarchical Open-Vocabulary 3D Segmentation

A Novel Tracking Framework for Devices in X-ray Leveraging Supplementary Cue-Driven Self-Supervised Features

Pay Attention and Move Better: Harnessing Attention for Interactive Motion Generation and Training-free Editing

Boosting Diffusion Guidance via Learning Degradation-Aware Models for Blind Super Resolution

最近の投稿

最近のコメント

アーカイブ

カテゴリー