月別アーカイブ: 2025年1月

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

要約 テキストと画像の両方を有機的に推論する能力は人間の知能の柱ですが、そのよう … 続きを読む

カテゴリー: cs.CV | Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark はコメントを受け付けていません

Consistent Flow Distillation for Text-to-3D Generation

要約 スコア蒸留サンプリング (SDS) は、3D 生成用の画像生成モデルの蒸留 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Consistent Flow Distillation for Text-to-3D Generation はコメントを受け付けていません

Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

要約 単眼深度推定 (MDE) モデルは、近年大幅な進歩を遂げてきました。 多く … 続きを読む

カテゴリー: cs.CV | Relative Pose Estimation through Affine Corrections of Monocular Depth Priors はコメントを受け付けていません

Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures

要約 カボチャの葉の病気は農業生産性に対する重大な脅威であり、効果的な管理のため … 続きを読む

カテゴリー: cs.CV | Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures はコメントを受け付けていません

Decentralized Diffusion Models

要約 大規模な AI モデルのトレーニングでは、数千の GPU に作業を分割し、 … 続きを読む

カテゴリー: cs.CV, cs.DC, cs.LG | Decentralized Diffusion Models はコメントを受け付けていません

An Empirical Study of Autoregressive Pre-training from Videos

要約 私たちはビデオからの自己回帰事前トレーニングを実証的に研究しています。 研 … 続きを読む

カテゴリー: cs.AI, cs.CV | An Empirical Study of Autoregressive Pre-training from Videos はコメントを受け付けていません

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

要約 表やチャートの解釈など、構造化された画像を理解するには、画像内のさまざまな … 続きを読む

カテゴリー: cs.CL, cs.CV | ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding はコメントを受け付けていません

OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

要約 オムニモーダル学習の最近の進歩は、主に独自のモデル内ではあるものの、画像、 … 続きを読む

カテゴリー: cs.CL, cs.CV | OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis はコメントを受け付けていません

Identity-Preserving Video Dubbing Using Motion Warping

要約 ビデオダビングは、リファレンスビデオと運転音声信号からリアルなリップシンク … 続きを読む

カテゴリー: cs.CV | Identity-Preserving Video Dubbing Using Motion Warping はコメントを受け付けていません

Human Delegation Behavior in Human-AI Collaboration: The Effect of Contextual Information

要約 人工知能 (AI) を職場での人間の意思決定プロセスに統合すると、機会と課 … 続きを読む

カテゴリー: cs.HC, cs.LG | Human Delegation Behavior in Human-AI Collaboration: The Effect of Contextual Information はコメントを受け付けていません