-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Steering CLIP’s vision transformer with sparse autoencoders
要約 ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。 … 続きを読む
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
要約 自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在 … 続きを読む
カテゴリー: cs.CV
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません
ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis
要約 シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地するこ … 続きを読む
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering
要約 機械翻訳評価の着実な進歩にもかかわらず、既存の自動メトリックは、文の境界を … 続きを読む
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
要約 1,350億パラメーターとAscend Neural Processing … 続きを読む
Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers
要約 高齢者の人口が増加すると、人間とロボットのケア提供者の両方が必要になります … 続きを読む
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions
要約 継続的なトレーニングのための高品質の推論データの合成は、大規模な言語モデル … 続きを読む
カテゴリー: cs.CL
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions はコメントを受け付けていません
Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition
要約 手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚 … 続きを読む
カテゴリー: cs.CV
Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations
要約 Visual Grounding(VG)は、自然言語の説明に基づいて画像に … 続きを読む
Scaling Laws for Native Multimodal Models
要約 マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年 … 続きを読む
カテゴリー: cs.CV
Scaling Laws for Native Multimodal Models はコメントを受け付けていません