月別アーカイブ: 2024年9月

LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba

要約 最近の Transformer ベースの拡散モデルは、顕著なパフォーマンス … 続きを読む

カテゴリー: cs.CV | LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba はコメントを受け付けていません

Massively Multi-Person 3D Human Motion Forecasting with Scene Context

要約 長期的な 3D 人間の動きを予測することは困難です。人間の行動には確率性が … 続きを読む

カテゴリー: cs.CV, cs.LG, I.2 | Massively Multi-Person 3D Human Motion Forecasting with Scene Context はコメントを受け付けていません

Bundle Adjustment in the Eager Mode

要約 バンドル調整 (BA) は、同時位置特定とマッピング (SLAM)、拡張現 … 続きを読む

カテゴリー: cs.CV, cs.RO | Bundle Adjustment in the Eager Mode はコメントを受け付けていません

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

要約 我々は、視覚処理における従来の所定解像度アプローチを再定義する、以前の Q … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution はコメントを受け付けていません

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

要約 模倣学習は、複雑な視覚運動ポリシーをトレーニングするための強力なツールであ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control はコメントを受け付けていません

Vista3D: Unravel the 3D Darkside of a Single Image

要約 私たちは、目に見える部分を垣間見るだけで、オブジェクトの隠された次元を明ら … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GT, cs.MM | Vista3D: Unravel the 3D Darkside of a Single Image はコメントを受け付けていません

Autonomous Navigation in Ice-Covered Waters with Learned Predictions on Ship-Ice Interactions

要約 氷に覆われた水域での自律航行は、実行可能な衝突のない軌道が頻繁に欠如してい … 続きを読む

カテゴリー: cs.RO | Autonomous Navigation in Ice-Covered Waters with Learned Predictions on Ship-Ice Interactions はコメントを受け付けていません

BEATLE — Self-Reconfigurable Aerial Robot: Design, Control and Experimental Validation

要約 モジュール式自己再構成ロボット (MSRR) は、各タスクに適したさまざま … 続きを読む

カテゴリー: cs.RO | BEATLE — Self-Reconfigurable Aerial Robot: Design, Control and Experimental Validation はコメントを受け付けていません

The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives

要約 この論文では、子供向けのストーリーテリングを強化するために生成人工知能 ( … 続きを読む

カテゴリー: cs.CL | The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives はコメントを受け付けていません

LOLA — An Open-Source Massively Multilingual Large Language Model

要約 この論文では、疎な専門家混合トランスフォーマー アーキテクチャを使用して … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | LOLA — An Open-Source Massively Multilingual Large Language Model はコメントを受け付けていません