月別アーカイブ: 2025年4月

EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage

要約 表現力豊かな人間のポーズおよび形状推定(EHPS)は、単眼画像からの人間の … 続きを読む

カテゴリー: cs.CV | EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約 マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません

Steering CLIP’s vision transformer with sparse autoencoders

要約 ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Steering CLIP’s vision transformer with sparse autoencoders はコメントを受け付けていません

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

要約 自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在 … 続きを読む

カテゴリー: cs.CV | GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

要約 シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地するこ … 続きを読む

カテゴリー: cs.CV, cs.RO | ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis はコメントを受け付けていません

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering

要約 機械翻訳評価の着実な進歩にもかかわらず、既存の自動メトリックは、文の境界を … 続きを読む

カテゴリー: cs.CL, cs.LG | Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering はコメントを受け付けていません

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

要約 1,350億パラメーターとAscend Neural Processing … 続きを読む

カテゴリー: cs.AI, cs.CL | Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs はコメントを受け付けていません

Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers

要約 高齢者の人口が増加すると、人間とロボットのケア提供者の両方が必要になります … 続きを読む

カテゴリー: cs.HC, cs.RO | Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers はコメントを受け付けていません

A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions

要約 継続的なトレーニングのための高品質の推論データの合成は、大規模な言語モデル … 続きを読む

カテゴリー: cs.CL | A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions はコメントを受け付けていません

Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition

要約 手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚 … 続きを読む

カテゴリー: cs.CV | Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません