月別アーカイブ: 2025年3月

UniSync: A Unified Framework for Audio-Visual Synchronization

投稿日: 2025年3月21日作成者: jarxiv

要約スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Karyotype AI for Precision Oncology

投稿日: 2025年3月21日作成者: jarxiv

要約細胞分裂の中期段階の顕微鏡画像から直接血液がんを引き起こす染色体異常を正確 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | コメントを受け付けていません

ReLearn: Unlearning via Learning for Large Language Models

投稿日: 2025年3月21日作成者: jarxiv

要約大規模な言語モデルの現在の学習方法は、通常、ターゲットトークンの確率を減ら … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | コメントを受け付けていません

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

投稿日: 2025年3月21日作成者: jarxiv

要約最近、オープンワールド環境でのアクションベースの意思決定は大きな注目を集め … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

投稿日: 2025年3月21日作成者: jarxiv

要約この論文では、城から高層ビルまでの広大な屋外シーンを生成するタスクを探りま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images

投稿日: 2025年3月21日作成者: jarxiv

要約特に顔の翻訳ネットワークでの最新の機械学習の成功は、高品質でペアの大規模な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Panoptic-CUDAL Technical Report: Rural Australia Point Cloud Dataset in Rainy Conditions

投稿日: 2025年3月21日作成者: jarxiv

要約既存の自律運転データセットは、主に構造化された都市の環境と好ましい気象条件 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Attentional Triple-Encoder Network in Spatiospectral Domains for Medical Image Segmentation

投稿日: 2025年3月21日作成者: jarxiv

要約網膜の光コヒーレンス断層撮影（OCT）セグメンテーションは、病理を診断する … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Do Visual Imaginations Improve Vision-and-Language Navigation Agents?

投稿日: 2025年3月21日作成者: jarxiv

要約 Vision-and-Language Navigation（VLN）エー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | コメントを受け付けていません

SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation

投稿日: 2025年3月21日作成者: jarxiv

要約動的3Dアセット生成のためのマルチビュービデオ拡散モデルであるStable … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

UniSync: A Unified Framework for Audio-Visual Synchronization

Karyotype AI for Precision Oncology

ReLearn: Unlearning via Learning for Large Language Models

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images

Panoptic-CUDAL Technical Report: Rural Australia Point Cloud Dataset in Rainy Conditions

Attentional Triple-Encoder Network in Spatiospectral Domains for Medical Image Segmentation

Do Visual Imaginations Improve Vision-and-Language Navigation Agents?

SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー