月別アーカイブ: 2024年5月

MambaOut: Do We Really Need Mamba for Vision?

要約 Mamba は、状態空間モデル (SSM) の RNN のようなトークン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MambaOut: Do We Really Need Mamba for Vision? はコメントを受け付けていません

A Unified Sequence Parallelism Approach for Long Context Generative AI

要約 入力テンソルのシーケンス次元を複数の計算デバイスに分割するシーケンス並列処 … 続きを読む

カテゴリー: cs.AI, cs.LG | A Unified Sequence Parallelism Approach for Long Context Generative AI はコメントを受け付けていません

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues

要約 表情認識 (FER) 用の最先端の分類器は高レベルの精度を達成できますが、 … 続きを読む

カテゴリー: cs.CV | Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues はコメントを受け付けていません

OpenLLM-Ro — Technical Report on Open-source Romanian LLMs trained starting from Llama 2

要約 近年、大規模言語モデル (LLM) は、さまざまなタスクにおいてほぼ人間と … 続きを読む

カテゴリー: cs.CL | OpenLLM-Ro — Technical Report on Open-source Romanian LLMs trained starting from Llama 2 はコメントを受け付けていません

Are Sounds Sound for Phylogenetic Reconstruction?

要約 言語進化に関する伝統的な研究では、学者は言語家系図の系統推論における健全な … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Are Sounds Sound for Phylogenetic Reconstruction? はコメントを受け付けていません

MoDem-V2: Visuo-Motor World Models for Real-World Robot Manipulation

要約 計測機器のない現実世界の環境で動作することを目指すロボット システムは、オ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | MoDem-V2: Visuo-Motor World Models for Real-World Robot Manipulation はコメントを受け付けていません

ViPlanner: Visual Semantic Imperative Learning for Local Navigation

要約 屋外環境におけるリアルタイムの経路計画は、地形の通過性の違い、多様な障害物 … 続きを読む

カテゴリー: cs.RO | ViPlanner: Visual Semantic Imperative Learning for Local Navigation はコメントを受け付けていません

BeautyMap: Binary-Encoded Adaptable Ground Matrix for Dynamic Points Removal in Global Maps

要約 静的環境フィーチャを正確に表すグローバル点群により、正確な位置特定と堅牢な … 続きを読む

カテゴリー: cs.CV, cs.RO | BeautyMap: Binary-Encoded Adaptable Ground Matrix for Dynamic Points Removal in Global Maps はコメントを受け付けていません

Online Robot Navigation and Manipulation with Distilled Vision-Language Models

要約 動的な未知の環境内での自律ロボットナビゲーションは、ラストワンマイル配送に … 続きを読む

カテゴリー: cs.RO | Online Robot Navigation and Manipulation with Distilled Vision-Language Models はコメントを受け付けていません

DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model

要約 シミュレーションを通じてロボットのデモンストレーションを生成することは、ロ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model はコメントを受け付けていません