-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年1月
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
要約 テキストと画像の両方を有機的に推論する能力は人間の知能の柱ですが、そのよう … 続きを読む
カテゴリー: cs.CV
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark はコメントを受け付けていません
Consistent Flow Distillation for Text-to-3D Generation
要約 スコア蒸留サンプリング (SDS) は、3D 生成用の画像生成モデルの蒸留 … 続きを読む
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors
要約 単眼深度推定 (MDE) モデルは、近年大幅な進歩を遂げてきました。 多く … 続きを読む
カテゴリー: cs.CV
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors はコメントを受け付けていません
Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures
要約 カボチャの葉の病気は農業生産性に対する重大な脅威であり、効果的な管理のため … 続きを読む
カテゴリー: cs.CV
Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures はコメントを受け付けていません
Decentralized Diffusion Models
要約 大規模な AI モデルのトレーニングでは、数千の GPU に作業を分割し、 … 続きを読む
An Empirical Study of Autoregressive Pre-training from Videos
要約 私たちはビデオからの自己回帰事前トレーニングを実証的に研究しています。 研 … 続きを読む
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
要約 表やチャートの解釈など、構造化された画像を理解するには、画像内のさまざまな … 続きを読む
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
要約 オムニモーダル学習の最近の進歩は、主に独自のモデル内ではあるものの、画像、 … 続きを読む
Identity-Preserving Video Dubbing Using Motion Warping
要約 ビデオダビングは、リファレンスビデオと運転音声信号からリアルなリップシンク … 続きを読む
カテゴリー: cs.CV
Identity-Preserving Video Dubbing Using Motion Warping はコメントを受け付けていません
Human Delegation Behavior in Human-AI Collaboration: The Effect of Contextual Information
要約 人工知能 (AI) を職場での人間の意思決定プロセスに統合すると、機会と課 … 続きを読む