月別アーカイブ: 2024年5月

MambaOut: Do We Really Need Mamba for Vision?

投稿日: 2024年5月15日作成者: jarxiv

要約 Mamba は、状態空間モデル (SSM) の RNN のようなトークン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

A Unified Sequence Parallelism Approach for Long Context Generative AI

投稿日: 2024年5月15日作成者: jarxiv

要約入力テンソルのシーケンス次元を複数の計算デバイスに分割するシーケンス並列処 … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues

投稿日: 2024年5月15日作成者: jarxiv

要約表情認識 (FER) 用の最先端の分類器は高レベルの精度を達成できますが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OpenLLM-Ro — Technical Report on Open-source Romanian LLMs trained starting from Llama 2

投稿日: 2024年5月15日作成者: jarxiv

要約近年、大規模言語モデル (LLM) は、さまざまなタスクにおいてほぼ人間と … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Are Sounds Sound for Phylogenetic Reconstruction?

投稿日: 2024年5月15日作成者: jarxiv

要約言語進化に関する伝統的な研究では、学者は言語家系図の系統推論における健全な … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MoDem-V2: Visuo-Motor World Models for Real-World Robot Manipulation

投稿日: 2024年5月14日作成者: jarxiv

要約計測機器のない現実世界の環境で動作することを目指すロボットシステムは、オ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

ViPlanner: Visual Semantic Imperative Learning for Local Navigation

投稿日: 2024年5月14日作成者: jarxiv

要約屋外環境におけるリアルタイムの経路計画は、地形の通過性の違い、多様な障害物 … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

BeautyMap: Binary-Encoded Adaptable Ground Matrix for Dynamic Points Removal in Global Maps

投稿日: 2024年5月14日作成者: jarxiv

要約静的環境フィーチャを正確に表すグローバル点群により、正確な位置特定と堅牢な … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Online Robot Navigation and Manipulation with Distilled Vision-Language Models

投稿日: 2024年5月14日作成者: jarxiv

要約動的な未知の環境内での自律ロボットナビゲーションは、ラストワンマイル配送に … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model

投稿日: 2024年5月14日作成者: jarxiv

要約シミュレーションを通じてロボットのデモンストレーションを生成することは、ロ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

月別アーカイブ: 2024年5月

MambaOut: Do We Really Need Mamba for Vision?

A Unified Sequence Parallelism Approach for Long Context Generative AI

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues

OpenLLM-Ro — Technical Report on Open-source Romanian LLMs trained starting from Llama 2

Are Sounds Sound for Phylogenetic Reconstruction?

MoDem-V2: Visuo-Motor World Models for Real-World Robot Manipulation

ViPlanner: Visual Semantic Imperative Learning for Local Navigation

BeautyMap: Binary-Encoded Adaptable Ground Matrix for Dynamic Points Removal in Global Maps

Online Robot Navigation and Manipulation with Distilled Vision-Language Models

DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー