月別アーカイブ: 2025年4月

AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

投稿日: 2025年4月30日作成者: jarxiv

要約この論文では、複数の入力モダリティ（テキスト、ビデオ、および参照オーディオ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping

投稿日: 2025年4月30日作成者: jarxiv

要約高解像度の航空画像からの多角形の道路の抽出は、大規模な地形マッピングの重要 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data

投稿日: 2025年4月30日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、画像キャプションから視覚的な質問応答（VQ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Image deidentification in the XNAT ecosystem: use cases and solutions

投稿日: 2025年4月30日作成者: jarxiv

要約 XNATは、研究プロジェクトのためにDICOM画像の大規模なデータベースを … 続きを読む →

カテゴリー: cs.CV, J.3 | コメントを受け付けていません

TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

投稿日: 2025年4月30日作成者: jarxiv

要約 AI生成された合成メディアは、実際のシナリオでますます使用されており、多く … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification

投稿日: 2025年4月30日作成者: jarxiv

要約人間の知性は、視覚と言語の両方の説明に従って、すべての人を取得できます。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Advance Fake Video Detection via Vision Transformers

投稿日: 2025年4月30日作成者: jarxiv

要約 AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection

投稿日: 2025年4月30日作成者: jarxiv

要約視覚機能を備えた埋め込みフライトデバイスは、幅広いアプリケーションに不可欠 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Two-stage deep learning framework for the restoration of incomplete-ring PET images

投稿日: 2025年4月30日作成者: jarxiv

要約ポジトロン放出断層撮影（PET）は、医学で広く使用されている重要な分子イメ … 続きを読む →

カテゴリー: cs.CV, physics.med-ph | コメントを受け付けていません

Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset

投稿日: 2025年4月30日作成者: jarxiv

要約このホワイトペーパーでは、ドライバー監視データセット（DMD）を利用して、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年4月

AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping

SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data

Image deidentification in the XNAT ecosystem: use cases and solutions

TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification

Advance Fake Video Detection via Vision Transformers

FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection

Two-stage deep learning framework for the restoration of incomplete-ring PET images

Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset

最近の投稿

最近のコメント

アーカイブ

カテゴリー