Hypergraph Vision Transformers: Images are More than Nodes, More than Edges

要約

コンピュータービジョンの最近の進歩により、さまざまなタスクにわたる視覚変圧器(VIT)のスケーラビリティが強調されていますが、課題は適応性、計算効率、および高次の関係をモデル化する能力のバランスをとっています。
Vision Graph Neural Networks(VIGS)は、グラフベースの方法論を活用することにより代替案を提供しますが、エッジ生成に使用されるクラスタリングアルゴリズムの計算ボトルネックによって妨げられます。
これらの問題に対処するために、階層的な二部ハイパーグラフ構造をビジョントランスフレームワークに組み込んで、計算効率を維持しながら高次のセマンティック関係をキャプチャするハイパーグラフビジョントランス(HGVT)を提案します。
HGVTは、クラスタリングなしで動的なハイパーグラフ構造のための母集団と多様性の正則化を活用し、セマンティック抽出を強化し、グラフベースの画像検索を促進するためのエキスパートエッジプーリングを活用します。
経験的な結果は、HGVTが画像分類と取得で強力なパフォーマンスを達成し、セマンティックベースのビジョンタスクの効率的なフレームワークとして位置付けていることを示しています。

要約(オリジナル)

Recent advancements in computer vision have highlighted the scalability of Vision Transformers (ViTs) across various tasks, yet challenges remain in balancing adaptability, computational efficiency, and the ability to model higher-order relationships. Vision Graph Neural Networks (ViGs) offer an alternative by leveraging graph-based methodologies but are hindered by the computational bottlenecks of clustering algorithms used for edge generation. To address these issues, we propose the Hypergraph Vision Transformer (HgVT), which incorporates a hierarchical bipartite hypergraph structure into the vision transformer framework to capture higher-order semantic relationships while maintaining computational efficiency. HgVT leverages population and diversity regularization for dynamic hypergraph construction without clustering, and expert edge pooling to enhance semantic extraction and facilitate graph-based image retrieval. Empirical results demonstrate that HgVT achieves strong performance on image classification and retrieval, positioning it as an efficient framework for semantic-based vision tasks.

arxiv情報

著者 Joshua Fixelle
発行日 2025-04-11 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hypergraph Vision Transformers: Images are More than Nodes, More than Edges はコメントを受け付けていません

Generating Fine Details of Entity Interactions

要約

画像は、オブジェクトを描写するだけでなく、それらの間の豊富な相互作用もカプセル化します。
ただし、互いに相互作用する複数のエンティティを含む忠実で忠実な画像を生成することは、長年にわたる課題です。
事前に訓練されたテキストから画像から画像からイメージまでのモデルは大規模なデータセットでトレーニングされ、多様なテキストの指示に従うことができますが、おそらく、珍しいオブジェクトの相互作用のためのトレーニングデータが不足しているため、正確な相互作用を生成するのに苦労しています。
このペーパーでは、3つの重要なシナリオをカバーする1000個のファイングレインプロンプトを備えた相互作用範囲のデータセットである相互作用を紹介します。(1)機能およびアクションベースの相互作用、(2)組成空間関係、および(3)マルチサブジェクトの相互作用。
相互作用の生成の課題に対処するために、分解された精製手順を提案します。
安定した拡散3.5に基づいて構築された私たちのアプローチは、LLMを活用して相互作用をより細かい粒子の概念に分解し、VLMを使用して生成された画像を批評し、洗練の拡散プロセス内で標的介入を適用します。
自動および人間の評価により、画質が大幅に改善され、推論戦略が強化される可能性が示されています。
データセットとコードは、https://concepts-ai.com/p/detailscribe/で入手でき、相互作用が豊富な画像生成の将来の調査を促進します。

要約(オリジナル)

Images not only depict objects but also encapsulate rich interactions between them. However, generating faithful and high-fidelity images involving multiple entities interacting with each other, is a long-standing challenge. While pre-trained text-to-image models are trained on large-scale datasets to follow diverse text instructions, they struggle to generate accurate interactions, likely due to the scarcity of training data for uncommon object interactions. This paper introduces InterActing, an interaction-focused dataset with 1000 fine-grained prompts covering three key scenarios: (1) functional and action-based interactions, (2) compositional spatial relationships, and (3) multi-subject interactions. To address interaction generation challenges, we propose a decomposition-augmented refinement procedure. Our approach, DetailScribe, built on Stable Diffusion 3.5, leverages LLMs to decompose interactions into finer-grained concepts, uses a VLM to critique generated images, and applies targeted interventions within the diffusion process in refinement. Automatic and human evaluations show significantly improved image quality, demonstrating the potential of enhanced inference strategies. Our dataset and code are available at https://concepts-ai.com/p/detailscribe/ to facilitate future exploration of interaction-rich image generation.

arxiv情報

著者 Xinyi Gu,Jiayuan Mao
発行日 2025-04-11 17:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Generating Fine Details of Entity Interactions はコメントを受け付けていません

EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage

要約

表現力豊かな人間のポーズおよび形状推定(EHPS)は、単眼画像からの人間のポーズ、手のジェスチャー、表情を共同で推定することを目的としています。
既存の方法は、主に変圧器ベースのアーキテクチャに依存しており、それは自己関節における二次的な複雑さに悩まされており、特にマルチパーソンシナリオではかなりの計算オーバーヘッドにつながります。
最近、マンバは、その効率的なグローバルモデリング機能により、トランスの有望な代替手段として浮上しています。
ただし、正確なEHPに不可欠な、きめ細かい局所依存関係をキャプチャすることは限られたままです。
これらの問題に対処するために、マルチパーソンEHPの効率的なマルチパーソン1ステージモデルであるEMO-Xを提案します。
具体的には、グローバルコンテキストをスケルトンを意識したローカル機能と統合して、ヒトのトークンを繰り返し強化するスキャンベースのグローバルローカルデコーダー(SGLD)を探索します。
私たちのEMO-Xは、Mambaの優れたグローバルモデリング機能を活用し、スケルトンを認識している局所洗練のための局所的な双方向スキャンメカニズムを設計しています。
包括的な実験は、EMO-Xが効率と精度の間の優れたバランスをとることを示しています。
特に、計算の複雑さが大幅に削減され、最先端の(SOTA)方法と比較して69.8%の推論時間が必要になり、それらのほとんどを精度で上回ります。

要約(オリジナル)

Expressive Human Pose and Shape Estimation (EHPS) aims to jointly estimate human pose, hand gesture, and facial expression from monocular images. Existing methods predominantly rely on Transformer-based architectures, which suffer from quadratic complexity in self-attention, leading to substantial computational overhead, especially in multi-person scenarios. Recently, Mamba has emerged as a promising alternative to Transformers due to its efficient global modeling capability. However, it remains limited in capturing fine-grained local dependencies, which are essential for precise EHPS. To address these issues, we propose EMO-X, the Efficient Multi-person One-stage model for multi-person EHPS. Specifically, we explore a Scan-based Global-Local Decoder (SGLD) that integrates global context with skeleton-aware local features to iteratively enhance human tokens. Our EMO-X leverages the superior global modeling capability of Mamba and designs a local bidirectional scan mechanism for skeleton-aware local refinement. Comprehensive experiments demonstrate that EMO-X strikes an excellent balance between efficiency and accuracy. Notably, it achieves a significant reduction in computational complexity, requiring 69.8% less inference time compared to state-of-the-art (SOTA) methods, while outperforming most of them in accuracy.

arxiv情報

著者 Haohang Jian,Jinlu Zhang,Junyi Wu,Zhigang Tu
発行日 2025-04-11 17:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約

マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化のパターンを発見することを目的として、さまざまな時期に数千万の画像がキャプチャされた大きなデータベースを分析します。
具体的には、一定の期間にわたって都市全体で頻繁に共発生する変化(「傾向」)を獲得することを目指しています。
以前の視覚分析とは異なり、分析は、事前に決められたターゲット被験者やトレーニングラベルなしで、オープンエンドのクエリ(たとえば、「都市の頻繁な種類の変更は何ですか?」)に答えます。
これらのプロパティは、以前の学習ベースまたは監視なしの視覚分析ツールを不適切にキャストします。
MLLMSを、オープンエンドのセマンティック理解機能のための新しいツールとして識別します。
しかし、私たちのデータセットは、MLLMがコンテキストとして摂取するには4桁大きすぎます。
そこで、大規模な視覚分析の問題をより扱いやすいサブ問題に分解するボトムアップ手順を導入します。
各サブ問題に対してMLLMベースのソリューションを慎重に設計します。
私たちのシステムでの実験とアブレーション研究中、私たちはそれがベースラインを大幅に上回ることがわかり、大都市で撮影された画像から興味深いトレンドを発見することができます(例:「屋外ダイニングの追加」、「青」など)。
https://boyangdeng.com/visual-chroniclesでより多くの結果とインタラクティブなデモをご覧ください。

要約(オリジナル)

We present a system using Multimodal LLMs (MLLMs) to analyze a large database with tens of millions of images captured at different times, with the aim of discovering patterns in temporal changes. Specifically, we aim to capture frequent co-occurring changes (‘trends’) across a city over a certain period. Unlike previous visual analyses, our analysis answers open-ended queries (e.g., ‘what are the frequent types of changes in the city?’) without any predetermined target subjects or training labels. These properties cast prior learning-based or unsupervised visual analysis tools unsuitable. We identify MLLMs as a novel tool for their open-ended semantic understanding capabilities. Yet, our datasets are four orders of magnitude too large for an MLLM to ingest as context. So we introduce a bottom-up procedure that decomposes the massive visual analysis problem into more tractable sub-problems. We carefully design MLLM-based solutions to each sub-problem. During experiments and ablation studies with our system, we find it significantly outperforms baselines and is able to discover interesting trends from images captured in large cities (e.g., ‘addition of outdoor dining,’, ‘overpass was painted blue,’ etc.). See more results and interactive demos at https://boyangdeng.com/visual-chronicles.

arxiv情報

著者 Boyang Deng,Songyou Peng,Kyle Genova,Gordon Wetzstein,Noah Snavely,Leonidas Guibas,Thomas Funkhouser
発行日 2025-04-11 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません

Steering CLIP’s vision transformer with sparse autoencoders

要約

ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。これは、まばらな自動エンコーダー(SAE)が言語で対処するのに役立っている課題ですが、ビジョンでは採用されていないままです。
ClipのビジョントランスでSAEをトレーニングすることにより、このギャップに対処し、レイヤーとトークンタイプを介したSAEの明確なスパース性パターンを含む、ビジョンと言語処理の重要な違いを明らかにします。
次に、メトリックを導入して、SAE機能を正確に操縦してモデルの出力に影響を与える方法を定量化することにより、Clipのビジョントランスの操縦性に関する最初の体系的な分析を提供します。
ニューロンと特徴の10〜15%が操縦可能であり、SAEはベースモデルよりも数千の操縦可能な機能を提供していることがわかります。
SAE機能のターゲットを絞った抑制を通じて、3つの視力解除タスク(セレバ、水鳥、タイポグラフィ攻撃)のパフォーマンスの向上を実証し、中間モデル層で最適な解散を見つけ、タイポグラフィ攻撃に対する防御に関する最先端のパフォーマンスを達成します。

要約(オリジナル)

While vision models are highly capable, their internal mechanisms remain poorly understood — a challenge which sparse autoencoders (SAEs) have helped address in language, but which remains underexplored in vision. We address this gap by training SAEs on CLIP’s vision transformer and uncover key differences between vision and language processing, including distinct sparsity patterns for SAEs trained across layers and token types. We then provide the first systematic analysis on the steerability of CLIP’s vision transformer by introducing metrics to quantify how precisely SAE features can be steered to affect the model’s output. We find that 10-15\% of neurons and features are steerable, with SAEs providing thousands more steerable features than the base model. Through targeted suppression of SAE features, we then demonstrate improved performance on three vision disentanglement tasks (CelebA, Waterbirds, and typographic attacks), finding optimal disentanglement in middle model layers, and achieving state-of-the-art performance on defense against typographic attacks.

arxiv情報

著者 Sonia Joseph,Praneet Suresh,Ethan Goldfarb,Lorenz Hufe,Yossi Gandelsman,Robert Graham,Danilo Bzdok,Wojciech Samek,Blake Aaron Richards
発行日 2025-04-11 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Steering CLIP’s vision transformer with sparse autoencoders はコメントを受け付けていません

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

要約

自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在トークンに圧縮し、次のトークン予測を介した視覚生成のための下流の自己回帰モデルの効率的なトレーニングを可能にします。
視覚トークンザーをスケーリングすると画像の再構成の品質が向上しますが、多くの場合、下流の生成品質を低下させます。これは、既存の文献では適切に対処されていない課題です。
これに対処するために、視覚トークナーをスケーリングするときに画像の再構築、生成、および表現学習を同時に改善する最初のアプローチであるGigatokを紹介します。
潜在空間の複雑さの増大は、再構築と世代のジレンマの背後にある重要な要因として特定します。
これを緩和するために、セマンティックの正則化を提案します。これは、トークン剤機能を事前に訓練した視覚エンコーダーの意味的に一貫した機能と並べることを提案します。
この制約により、スケーリング中の過度の潜在スペースの複雑さが防止され、再構築と下流の自己回帰生成の両方で一貫した改善が得られます。
セマンティックな正則化に基づいて、トークン剤のスケーリングのための3つの重要なプラクティスを探ります。(1)1Dトーナイザーを使用して、より良いスケーラビリティを使用して、(2)エンコーダーとデコーダーの両方を拡張するときにデコーダースケーリングを優先し、(3)エントロピー損失を使用して、BELLIONSCALEトークンザーのトレーニングを安定化するためにエントロピー損失を使用します。
Gigatokは、$ \ BF {3 \ space 10億} $パラメーターにスケーリングすることにより、再構築、下流のAR生成、および下流のAR表現品質の最先端のパフォーマンスを達成します。

要約(オリジナル)

In autoregressive (AR) image generation, visual tokenizers compress images into compact discrete latent tokens, enabling efficient training of downstream autoregressive models for visual generation via next-token prediction. While scaling visual tokenizers improves image reconstruction quality, it often degrades downstream generation quality — a challenge not adequately addressed in existing literature. To address this, we introduce GigaTok, the first approach to simultaneously improve image reconstruction, generation, and representation learning when scaling visual tokenizers. We identify the growing complexity of latent space as the key factor behind the reconstruction vs. generation dilemma. To mitigate this, we propose semantic regularization, which aligns tokenizer features with semantically consistent features from a pre-trained visual encoder. This constraint prevents excessive latent space complexity during scaling, yielding consistent improvements in both reconstruction and downstream autoregressive generation. Building on semantic regularization, we explore three key practices for scaling tokenizers:(1) using 1D tokenizers for better scalability, (2) prioritizing decoder scaling when expanding both encoder and decoder, and (3) employing entropy loss to stabilize training for billion-scale tokenizers. By scaling to $\bf{3 \space billion}$ parameters, GigaTok achieves state-of-the-art performance in reconstruction, downstream AR generation, and downstream AR representation quality.

arxiv情報

著者 Tianwei Xiong,Jun Hao Liew,Zilong Huang,Jiashi Feng,Xihui Liu
発行日 2025-04-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

要約

シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地することで進歩しましたが、3Dシーンへの抽象的な高レベルの指示を接地することは依然として困難です。
高レベルの命令は、シーン内のセマンティック要素を明示的に呼び出さない場合があり、高レベルのタスクをより具体的なサブタスクのセットに分割するプロセスでさえ、階層タスク分析と呼ばれるプロセスが環境に依存します。
この作業では、高レベルのタスクを接地されたサブタスクに分解することにより、3Dシーングラフに接地されたタスク階層を生成する最初のフレームワークであるAshitaを提案します。
ASHITAは、LLM支援の階層タスク分析を交互にして、タスク駆動型の3Dシーングラフ構造を使用して、環境の適切な表現を生成します。
私たちの実験は、AshitaがLLMベースラインよりも高レベルのタスクを環境依存のサブタスクに分解する際に大幅に優れていることを示しており、さらに最先端の方法に匹敵する接地性能を達成できることが示されています。

要約(オリジナル)

While recent work in scene reconstruction and understanding has made strides in grounding natural language to physical 3D environments, it is still challenging to ground abstract, high-level instructions to a 3D scene. High-level instructions might not explicitly invoke semantic elements in the scene, and even the process of breaking a high-level task into a set of more concrete subtasks, a process called hierarchical task analysis, is environment-dependent. In this work, we propose ASHiTA, the first framework that generates a task hierarchy grounded to a 3D scene graph by breaking down high-level tasks into grounded subtasks. ASHiTA alternates LLM-assisted hierarchical task analysis, to generate the task breakdown, with task-driven 3D scene graph construction to generate a suitable representation of the environment. Our experiments show that ASHiTA performs significantly better than LLM baselines in breaking down high-level tasks into environment-dependent subtasks and is additionally able to achieve grounding performance comparable to state-of-the-art methods.

arxiv情報

著者 Yun Chang,Leonor Fermoselle,Duy Ta,Bernadette Bucher,Luca Carlone,Jiuguang Wang
発行日 2025-04-11 12:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis はコメントを受け付けていません

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering

要約

機械翻訳評価の着実な進歩にもかかわらず、既存の自動メトリックは、文の境界を超えて意味がどれほどうまく保持されているかを把握するのに苦労しています。
人間の判断を模倣するために訓練された単一の内因性の品質スコアへの依存は、長く複雑な文章の翻訳を評価するには不十分である可能性があり、より正確に重要な情報がコンテキストの翻訳によって伝えられるかを評価する「実用的」アプローチが必要であると仮定します。
TREQA(質問回答による翻訳評価)を紹介します。これは、元のソースまたはリファレンステキストの重要な情報をターゲットにする翻訳の正確な翻訳に正確な候補にどのように回答するかを評価することにより、翻訳の品質を補外的に評価するフレームワークです。
文学テキストなどの長期的な理解を必要とする挑戦的なドメインでは、TREQAが競争力があり、場合によっては、人間の判断と相関するように明示的に最適化されることはありませんが、ランキングの代替段落レベルの翻訳で最先端のニューラルおよびLLMベースのメトリックを上回ることを示します。
さらに、生成された質問と回答は解釈可能性を提供します。経験的分析は、評価されたデータセットの専門家によって特定された翻訳エラーを効果的にターゲットにしていることを示しています。
私たちのコードは、https://github.com/deep-spin/treqaで入手できます

要約(オリジナル)

Despite the steady progress in machine translation evaluation, existing automatic metrics struggle to capture how well meaning is preserved beyond sentence boundaries. We posit that reliance on a single intrinsic quality score, trained to mimic human judgments, might be insufficient for evaluating translations of long, complex passages, and a more “pragmatic” approach that assesses how accurately key information is conveyed by a translation in context is needed. We introduce TREQA (Translation Evaluation via Question-Answering), a framework that extrinsically evaluates translation quality by assessing how accurately candidate translations answer reading comprehension questions that target key information in the original source or reference texts. In challenging domains that require long-range understanding, such as literary texts, we show that TREQA is competitive with and, in some cases, outperforms state-of-the-art neural and LLM-based metrics in ranking alternative paragraph-level translations, despite never being explicitly optimized to correlate with human judgments. Furthermore, the generated questions and answers offer interpretability: empirical analysis shows that they effectively target translation errors identified by experts in evaluated datasets. Our code is available at https://github.com/deep-spin/treqa

arxiv情報

著者 Patrick Fernandes,Sweta Agrawal,Emmanouil Zaranis,André F. T. Martins,Graham Neubig
発行日 2025-04-11 08:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering はコメントを受け付けていません

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

要約

1,350億パラメーターとAscend Neural Processingユニット(NPU)で訓練された密なトランスモジュールを備えた大規模な言語モデル(LLM)であるPangu Ultraを紹介します。
LLMの分野は、近年、LLMのスケールと能力を推進することに前例のない進歩を目撃していますが、このような大規模なモデルをトレーニングするには、依然として大きな最適化とシステムの課題が含まれます。
トレーニングプロセスを安定させるために、深いモデルのトレーニングプロセス中に損失スパイクを効果的に排除する深さスケールのサンドイッチ正規化を提案します。
モデルを13.2兆個の多様で高品質のトークンで事前に訓練し、トレーニング後の推論機能をさらに強化します。
このような大規模なトレーニングを効率的に実行するために、一連のシステム最適化で8,192 Ascend NPUを利用します。
複数の多様なベンチマークの評価は、Pangu UltraがLlama 405BやMistral Large 2などの密なLLMの最先端の機能を大幅に進歩させ、DeepSeek-R1との競争結果を達成することさえ、より多くのモデル構造がより多くのパラメーターを含むことを示しています。
私たちの調査は、Ascend NPUが1,000億以上のパラメーターで密なモデルを効率的かつ効果的にトレーニングできることを示しています。
私たちのモデルとシステムは、商業顧客が利用できるようになります。

要約(オリジナル)

We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.

arxiv情報

著者 Yichun Yin,Wenyong Huang,Kaikai Song,Yehui Tang,Xueyu Wu,Wei Guo,Peng Guo,Yaoyuan Wang,Xiaojun Meng,Yasheng Wang,Dong Li,Can Chen,Dandan Tu,Yin Li,Fisher Yu,Ruiming Tang,Yunhe Wang,Baojun Wang,Bin Wang,Bo Wang,Boxiao Liu,Changzheng Zhang,Duyu Tang,Fei Mi,Hui Jin,Jiansheng Wei,Jiarui Qin,Jinpeng Li,Jun Zhao,Liqun Deng,Lin Li,Minghui Xu,Naifu Zhang,Nianzu Zheng,Qiang Li,Rongju Ruan,Shengjun Cheng,Tianyu Guo,Wei He,Wei Li,Weiwen Liu,Wulong Liu,Xinyi Dai,Yonghan Dong,Yu Pan,Yue Li,Yufei Wang,Yujun Li,Yunsheng Ni,Zhe Liu,Zhenhe Zhang,Zhicheng Liu
発行日 2025-04-11 07:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs はコメントを受け付けていません

Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers

要約

高齢者の人口が増加すると、人間とロボットのケア提供者の両方が必要になります。
伝統的な慣行には、食事を提供し、基本的なニーズに応えるために人間の介護者を雇うことが含まれますが、高齢者は継続的な交際と健康監視を必要とすることがよくあります。
ただし、この仕事のために人間の介護者を雇うには多くのお金がかかります。
ただし、NAOのようなロボットを使用することは、より安くて役立つ可能性があります。
この研究では、高齢者の健康監視と介護におけるヒューマノイドロボット、特にNAOの統合を調査します。
被験者内の要因設計で混合メソッドアプローチを使用して、人間とロボットの相互作用を強化する際に、タッチ、ジェスチャー、LEDパターンなどの非言語コミュニケーションモダリティの有効性を調査しました。
我々の結果は、NAOのタッチベースの健康監視が参加者によって好評であり、さまざまな次元にわたってプラスの評価があることを示しています。
LEDパターンは、手とヘッドのジェスチャーと比較して、より効果的で正確であると認識されていました。
さらに、より長い相互作用は、より高い信頼レベルと知覚される共感と関連しており、人間とロボットの相互作用に対する信頼を促進する上で長期にわたる関与の重要性を強調しています。
制限にもかかわらず、私たちの研究は、高齢者の健康監視と介護を改善するためのヒューマノイドロボットの可能性についての貴重な洞察を提供しています。

要約(オリジナル)

As the population of older adults increases, so will the need for both human and robot care providers. While traditional practices involve hiring human caregivers to serve meals and attend to basic needs, older adults often require continuous companionship and health monitoring. However, hiring human caregivers for this job costs a lot of money. However, using a robot like Nao could be cheaper and still helpful. This study explores the integration of humanoid robots, particularly Nao, in health monitoring and caregiving for older adults. Using a mixed-methods approach with a within-subject factorial design, we investigated the effectiveness of nonverbal communication modalities, including touch, gestures, and LED patterns, in enhancing human-robot interactions. Our results indicate that Nao’s touch-based health monitoring was well-received by participants, with positive ratings across various dimensions. LED patterns were perceived as more effective and accurate compared to hand and head gestures. Moreover, longer interactions were associated with higher trust levels and perceived empathy, highlighting the importance of prolonged engagement in fostering trust in human-robot interactions. Despite limitations, our study contributes valuable insights into the potential of humanoid robots to improve health monitoring and caregiving for older adults.

arxiv情報

著者 S M Taslim Uddin Raju
発行日 2025-04-11 01:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers はコメントを受け付けていません