投稿者「jarxiv」のアーカイブ

Steering CLIP’s vision transformer with sparse autoencoders

要約 ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Steering CLIP’s vision transformer with sparse autoencoders はコメントを受け付けていません

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

要約 自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在 … 続きを読む

カテゴリー: cs.CV | GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

要約 シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地するこ … 続きを読む

カテゴリー: cs.CV, cs.RO | ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis はコメントを受け付けていません

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering

要約 機械翻訳評価の着実な進歩にもかかわらず、既存の自動メトリックは、文の境界を … 続きを読む

カテゴリー: cs.CL, cs.LG | Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering はコメントを受け付けていません

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

要約 1,350億パラメーターとAscend Neural Processing … 続きを読む

カテゴリー: cs.AI, cs.CL | Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs はコメントを受け付けていません

Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers

要約 高齢者の人口が増加すると、人間とロボットのケア提供者の両方が必要になります … 続きを読む

カテゴリー: cs.HC, cs.RO | Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers はコメントを受け付けていません

A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions

要約 継続的なトレーニングのための高品質の推論データの合成は、大規模な言語モデル … 続きを読む

カテゴリー: cs.CL | A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions はコメントを受け付けていません

Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition

要約 手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚 … 続きを読む

カテゴリー: cs.CV | Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません

AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

要約 Visual Grounding(VG)は、自然言語の説明に基づいて画像に … 続きを読む

カテゴリー: cs.AI, cs.CV | AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations はコメントを受け付けていません

Scaling Laws for Native Multimodal Models

要約 マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年 … 続きを読む

カテゴリー: cs.CV | Scaling Laws for Native Multimodal Models はコメントを受け付けていません