-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Interspatial Attention for Efficient 4D Human Video Generation
要約 デジタル人間のフォトリアリックなビデオを制御可能な方法で生成することは、多 … 続きを読む
カテゴリー: cs.CV
Interspatial Attention for Efficient 4D Human Video Generation はコメントを受け付けていません
STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs
要約 マルチモーダル大手言語モデル(MLLM)は、多様なタスク全体で顕著な能力を … 続きを読む
カテゴリー: cs.CV
STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs はコメントを受け付けていません
Symmetry-Robust 3D Orientation Estimation
要約 方向推定は、形状の方向軸を推定することで構成される3D形状分析の基本的なタ … 続きを読む
MMaDA: Multimodal Large Diffusion Language Models
要約 テキストの推論、マルチモーダル理解、テキストからイメージの生成などの多様な … 続きを読む
カテゴリー: cs.CV
MMaDA: Multimodal Large Diffusion Language Models はコメントを受け付けていません
GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents
要約 最近のグラフィカルユーザーインターフェイス(GUI)エージェントは、R1- … 続きを読む
Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization
要約 模範ベースの画像色付けは、参照色の画像を使用してグレースケール画像を色付け … 続きを読む
カテゴリー: cs.CV
Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization はコメントを受け付けていません
A Taxonomy of Structure from Motion Methods
要約 構造からの構造(SFM)とは、複数の画像のポイント対応から始まる構造(つま … 続きを読む
カテゴリー: cs.CV
A Taxonomy of Structure from Motion Methods はコメントを受け付けていません
Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM
要約 大規模なマルチモーダルモデルはマルチモーダルタスクに優れていますが、視覚ト … 続きを読む
カテゴリー: cs.CV
Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM はコメントを受け付けていません
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition
要約 リモートセンシング画像における言語誘導オブジェクト認識は、大規模なマッピン … 続きを読む
カテゴリー: cs.CV
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition はコメントを受け付けていません
General-Reasoner: Advancing LLM Reasoning Across All Domains
要約 強化学習(RL)は最近、大規模な言語モデル(LLM)の推論能力を高める上で … 続きを読む
カテゴリー: cs.CL
General-Reasoner: Advancing LLM Reasoning Across All Domains はコメントを受け付けていません