-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年4月
EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage
要約 表現力豊かな人間のポーズおよび形状推定(EHPS)は、単眼画像からの人間の … 続きを読む
カテゴリー: cs.CV
EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage はコメントを受け付けていません
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images
要約 マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化 … 続きを読む
Steering CLIP’s vision transformer with sparse autoencoders
要約 ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。 … 続きを読む
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
要約 自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在 … 続きを読む
カテゴリー: cs.CV
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません
ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis
要約 シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地するこ … 続きを読む
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering
要約 機械翻訳評価の着実な進歩にもかかわらず、既存の自動メトリックは、文の境界を … 続きを読む
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
要約 1,350億パラメーターとAscend Neural Processing … 続きを読む
Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers
要約 高齢者の人口が増加すると、人間とロボットのケア提供者の両方が必要になります … 続きを読む
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions
要約 継続的なトレーニングのための高品質の推論データの合成は、大規模な言語モデル … 続きを読む
カテゴリー: cs.CL
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions はコメントを受け付けていません
Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition
要約 手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚 … 続きを読む
カテゴリー: cs.CV
Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません