月別アーカイブ: 2025年5月

WATCH: Weighted Adaptive Testing for Changepoint Hypotheses via Weighted-Conformal Martingales

要約 ハイステークス設定で人工知能(AI) /機械学習(ML)システムを責任を持 … 続きを読む

カテゴリー: cs.AI, cs.LG, stat.ML | WATCH: Weighted Adaptive Testing for Changepoint Hypotheses via Weighted-Conformal Martingales はコメントを受け付けていません

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

要約 オーディオSDSを紹介します。オーディオSDは、テキストコンディショニング … 続きを読む

カテゴリー: 68T07, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, H.5.1 | Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond はコメントを受け付けていません

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

要約 Audio-Visuual Speech Speech Septureat … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition はコメントを受け付けていません

Geometry-Aware Texture Generation for 3D Head Modeling with Artist-driven Control

要約 正確な芸術的ビジョンに一致する仮想キャラクターのための現実的な3Dヘッド資 … 続きを読む

カテゴリー: cs.CV, cs.GR | Geometry-Aware Texture Generation for 3D Head Modeling with Artist-driven Control はコメントを受け付けていません

Predicting Road Surface Anomalies by Visual Tracking of a Preceding Vehicle

要約 前の車両の視覚的追跡により、路面の異常を検出するための新しいアプローチが提 … 続きを読む

カテゴリー: cs.CV | Predicting Road Surface Anomalies by Visual Tracking of a Preceding Vehicle はコメントを受け付けていません

SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer

要約 このペーパーでは、リップリーディング用の効率的な視覚音声エンコーダーを紹介 … 続きを読む

カテゴリー: cs.CV, eess.AS | SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer はコメントを受け付けていません

Deep residual learning with product units

要約 製品ユニットを残留ブロックに統合して、深い畳み込みネットワークの表現力とパ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Deep residual learning with product units はコメントを受け付けていません

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

要約 近年、マルチモーダル理解モデルと画像生成モデルの両方で顕著な進歩が見られて … 続きを読む

カテゴリー: cs.CV | Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities はコメントを受け付けていません

MFSeg: Efficient Multi-frame 3D Semantic Segmentation

要約 効率的なマルチフレーム3Dセマンティックセグメンテーションフレームワークで … 続きを読む

カテゴリー: cs.CV | MFSeg: Efficient Multi-frame 3D Semantic Segmentation はコメントを受け付けていません

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

要約 高密度の視覚的予測タスクは、事前定義されたカテゴリへの依存によって制約され … 続きを読む

カテゴリー: cs.CV | DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception はコメントを受け付けていません