月別アーカイブ: 2025年3月

UniSync: A Unified Framework for Audio-Visual Synchronization

要約 スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | UniSync: A Unified Framework for Audio-Visual Synchronization はコメントを受け付けていません

Karyotype AI for Precision Oncology

要約 細胞分裂の中期段階の顕微鏡画像から直接血液がんを引き起こす染色体異常を正確 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | Karyotype AI for Precision Oncology はコメントを受け付けていません

ReLearn: Unlearning via Learning for Large Language Models

要約 大規模な言語モデルの現在の学習方法は、通常、ターゲットトークンの確率を減ら … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | ReLearn: Unlearning via Learning for Large Language Models はコメントを受け付けていません

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

要約 最近、オープンワールド環境でのアクションベースの意思決定は大きな注目を集め … 続きを読む

カテゴリー: cs.AI, cs.CV | JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse はコメントを受け付けていません

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

要約 この論文では、城から高層ビルまでの広大な屋外シーンを生成するタスクを探りま … 続きを読む

カテゴリー: cs.CV | NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes はコメントを受け付けていません

LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images

要約 特に顔の翻訳ネットワークでの最新の機械学習の成功は、高品質でペアの大規模な … 続きを読む

カテゴリー: cs.CV | LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images はコメントを受け付けていません

Panoptic-CUDAL Technical Report: Rural Australia Point Cloud Dataset in Rainy Conditions

要約 既存の自律運転データセットは、主に構造化された都市の環境と好ましい気象条件 … 続きを読む

カテゴリー: cs.CV | Panoptic-CUDAL Technical Report: Rural Australia Point Cloud Dataset in Rainy Conditions はコメントを受け付けていません

Attentional Triple-Encoder Network in Spatiospectral Domains for Medical Image Segmentation

要約 網膜の光コヒーレンス断層撮影(OCT)セグメンテーションは、病理を診断する … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Attentional Triple-Encoder Network in Spatiospectral Domains for Medical Image Segmentation はコメントを受け付けていません

Do Visual Imaginations Improve Vision-and-Language Navigation Agents?

要約 Vision-and-Language Navigation(VLN)エー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | Do Visual Imaginations Improve Vision-and-Language Navigation Agents? はコメントを受け付けていません

SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation

要約 動的3Dアセット生成のためのマルチビュービデオ拡散モデルであるStable … 続きを読む

カテゴリー: cs.CV | SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation はコメントを受け付けていません