月別アーカイブ: 2025年4月

AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

要約 この論文では、複数の入力モダリティ(テキスト、ビデオ、および参照オーディオ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation はコメントを受け付けていません

LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping

要約 高解像度の航空画像からの多角形の道路の抽出は、大規模な地形マッピングの重要 … 続きを読む

カテゴリー: cs.CV | LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping はコメントを受け付けていません

SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data

要約 ビジョン言語モデル(VLM)は、画像キャプションから視覚的な質問応答(VQ … 続きを読む

カテゴリー: cs.AI, cs.CV | SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data はコメントを受け付けていません

Image deidentification in the XNAT ecosystem: use cases and solutions

要約 XNATは、研究プロジェクトのためにDICOM画像の大規模なデータベースを … 続きを読む

カテゴリー: cs.CV, J.3 | Image deidentification in the XNAT ecosystem: use cases and solutions はコメントを受け付けていません

TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

要約 AI生成された合成メディアは、実際のシナリオでますます使用されており、多く … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks はコメントを受け付けていません

Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification

要約 人間の知性は、視覚と言語の両方の説明に従って、すべての人を取得できます。 … 続きを読む

カテゴリー: cs.CV | Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification はコメントを受け付けていません

Advance Fake Video Detection via Vision Transformers

要約 AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Advance Fake Video Detection via Vision Transformers はコメントを受け付けていません

FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection

要約 視覚機能を備えた埋め込みフライトデバイスは、幅広いアプリケーションに不可欠 … 続きを読む

カテゴリー: cs.CV | FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection はコメントを受け付けていません

Two-stage deep learning framework for the restoration of incomplete-ring PET images

要約 ポジトロン放出断層撮影(PET)は、医学で広く使用されている重要な分子イメ … 続きを読む

カテゴリー: cs.CV, physics.med-ph | Two-stage deep learning framework for the restoration of incomplete-ring PET images はコメントを受け付けていません

Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset

要約 このホワイトペーパーでは、ドライバー監視データセット(DMD)を利用して、 … 続きを読む

カテゴリー: cs.CV | Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset はコメントを受け付けていません