Real-Time Imitation of Human Head Motions, Blinks and Emotions by Nao Robot: A Closed-Loop Approach

要約

このペーパーでは、NAOロボットによる人間の頭の動きのリアルタイム模倣を可能にするための新しいアプローチを紹介し、人間とロボットの相互作用の向上に焦点を当てています。
Mediapipeの堅牢な機能をコンピュータービジョンライブラリとして、および感情認識ライブラリとしてディープフェイスを使用することにより、この研究は、瞬きアクションや感情表現など、人間の頭の動きの微妙さを捉えようと努力し、これらの指標をロボットの応答にシームレスに組み込みます。
その結果、ロボットの模倣パフォーマンスからリアルタイムのフィードバックを収集することを伴う閉ループアプローチを利用して、人間とロボットの相互作用内での正確な頭の模倣を促進する包括的なフレームワークが得られます。
このフィードバックループは、ピッチで96.3、ヨーで98.9の印象的なR2スコアによって証明されるように、ヘッドモーションのモデリングの精度を高度に保証します。
特に、提案されたアプローチは、自閉症の子供のコミュニケーションを改善することに有望であり、より効果的な相互作用のための貴重なツールを提供します。
本質的に、提案された作業では、リアルタイムの頭の模倣とリアルタイムの感情認識の統合を探り、人間とロボットの相互作用を強化し、独自のコミュニケーションニーズを持つ個人にとって潜在的な利点をもたらします。

要約(オリジナル)

This paper introduces a novel approach for enabling real-time imitation of human head motion by a Nao robot, with a primary focus on elevating human-robot interactions. By using the robust capabilities of the MediaPipe as a computer vision library and the DeepFace as an emotion recognition library, this research endeavors to capture the subtleties of human head motion, including blink actions and emotional expressions, and seamlessly incorporate these indicators into the robot’s responses. The result is a comprehensive framework which facilitates precise head imitation within human-robot interactions, utilizing a closed-loop approach that involves gathering real-time feedback from the robot’s imitation performance. This feedback loop ensures a high degree of accuracy in modeling head motion, as evidenced by an impressive R2 score of 96.3 for pitch and 98.9 for yaw. Notably, the proposed approach holds promise in improving communication for children with autism, offering them a valuable tool for more effective interaction. In essence, proposed work explores the integration of real-time head imitation and real-time emotion recognition to enhance human-robot interactions, with potential benefits for individuals with unique communication needs.

arxiv情報

著者 Keyhan Rayati,Amirhossein Feizi,Alireza Beigy,Pourya Shahverdi,Mehdi Tale Masouleh,Ahmad Kalhor
発行日 2025-04-28 17:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Real-Time Imitation of Human Head Motions, Blinks and Emotions by Nao Robot: A Closed-Loop Approach はコメントを受け付けていません

Mitigating Societal Cognitive Overload in the Age of AI: Challenges and Directions

要約

AI時代の情報と複雑さの大洪水によって推進される社会的認知過負荷は、人間の幸福と社会的回復力に重大な課題をもたらします。
このペーパーでは、認知過剰を緩和することは、現在の生活を改善するためだけでなく、実存的な脅威を含む高度なAIの潜在的なリスクをナビゲートするための重要な前提条件でもあると主張しています。
情報の拡散、アルゴリズム操作、自動化不安、規制緩和、意味の侵食など、さまざまなメカニズムを通じてAIがどのように認知的過負荷を悪化させるかを調べます。
この論文は、認知的過負荷に集中するためにAIの安全討論を再構成し、短期的な害と長期的なリスクとの橋渡しとしての役割を強調しています。
結論は、潜在的な制度的適応、研究の方向性、および人間とAIの調整に関する過負荷控えめな視点を採用することから生じる政策上の考慮事項について議論し、決定的な解決策を規定するのではなく、将来の探求のための経路を示唆しています。

要約(オリジナル)

Societal cognitive overload, driven by the deluge of information and complexity in the AI age, poses a critical challenge to human well-being and societal resilience. This paper argues that mitigating cognitive overload is not only essential for improving present-day life but also a crucial prerequisite for navigating the potential risks of advanced AI, including existential threats. We examine how AI exacerbates cognitive overload through various mechanisms, including information proliferation, algorithmic manipulation, automation anxieties, deregulation, and the erosion of meaning. The paper reframes the AI safety debate to center on cognitive overload, highlighting its role as a bridge between near-term harms and long-term risks. It concludes by discussing potential institutional adaptations, research directions, and policy considerations that arise from adopting an overload-resilient perspective on human-AI alignment, suggesting pathways for future exploration rather than prescribing definitive solutions.

arxiv情報

著者 Salem Lahlou
発行日 2025-04-28 17:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Mitigating Societal Cognitive Overload in the Age of AI: Challenges and Directions はコメントを受け付けていません

Simplified and Secure MCP Gateways for Enterprise AI Integration

要約

AIエージェント向けのモデルコンテキストプロトコル(MCP)の採用の増加は、エンタープライズ統合のための堅牢なセキュリティを必要とします。
このペーパーでは、MCPゲートウェイを紹介して、自己ホストされたMCPサーバーの統合を簡素化します。
提案されたアーキテクチャは、セキュリティ原則、認証、侵入検知、安全なトンネリングを統合し、インフラストラクチャを公開せずに安全な自己ホスティングを可能にします。
主な貢献には、参照アーキテクチャ、脅威モデルマッピング、簡素化された統合戦略、およびオープンソースの実装の推奨事項が含まれます。
この作業は、既存のパブリックMCPサーバーソリューションとは異なり、エンタープライズ中心の自己ホストのAI統合のユニークな課題に焦点を当てています。

要約(オリジナル)

The increased adoption of the Model Context Protocol (MCP) for AI Agents necessitates robust security for Enterprise integrations. This paper introduces the MCP Gateway to simplify self-hosted MCP server integration. The proposed architecture integrates security principles, authentication, intrusion detection, and secure tunneling, enabling secure self-hosting without exposing infrastructure. Key contributions include a reference architecture, threat model mapping, simplified integration strategies, and open-source implementation recommendations. This work focuses on the unique challenges of enterprise-centric, self-hosted AI integrations, unlike existing public MCP server solutions.

arxiv情報

著者 Ivo Brett
発行日 2025-04-28 17:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Simplified and Secure MCP Gateways for Enterprise AI Integration はコメントを受け付けていません

Towards Automated Scoping of AI for Social Good Projects

要約

社会的利益のための人工知能(AI4SG)は、AIシステムの強力な能力と複雑な社会的課題に対処することを目的とする新たな努力です。
これらの課題は、輸送ネットワークに関するローカルな問題から、世界の野生生物の保存にまで及びます。
ただし、規模に関係なく、多くのAI4SGイニシアチブにとって重要なボトルネックは、技術的およびドメインの専門知識の両方を持つ専門家が不足しているため、問題のスコープ(複雑でリソース集約的なタスク)の面倒なプロセスです。
大規模な言語モデル(LLM)の顕著なアプリケーションを考えると、LLMを使用して科学文献と実世界の知識に基づいた包括的なプロジェクト提案を生成する問題のスコーピングエージェント(PSA)を提案します。
私たちのPSAフレームワークは、盲目的なレビューとAI評価を通じて専門家が書いた提案に匹敵する提案を生成することを実証します。
最後に、現実世界の問題スコーピングの課題を文書化し、将来の作業のためのいくつかの領域に注意します。

要約(オリジナル)

Artificial Intelligence for Social Good (AI4SG) is an emerging effort that aims to address complex societal challenges with the powerful capabilities of AI systems. These challenges range from local issues with transit networks to global wildlife preservation. However, regardless of scale, a critical bottleneck for many AI4SG initiatives is the laborious process of problem scoping — a complex and resource-intensive task — due to a scarcity of professionals with both technical and domain expertise. Given the remarkable applications of large language models (LLM), we propose a Problem Scoping Agent (PSA) that uses an LLM to generate comprehensive project proposals grounded in scientific literature and real-world knowledge. We demonstrate that our PSA framework generates proposals comparable to those written by experts through a blind review and AI evaluations. Finally, we document the challenges of real-world problem scoping and note several areas for future work.

arxiv情報

著者 Jacob Emmerson,Rayid Ghani,Zheyuan Ryan Shi
発行日 2025-04-28 17:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Towards Automated Scoping of AI for Social Good Projects はコメントを受け付けていません

MINT: Multi-Vector Search Index Tuning

要約

ベクトル検索は、多くの現実世界のアプリケーションで重要な役割を果たします。
単一ベクトル検索に加えて、今日のマルチモーダルおよびマルチフィーチャーシナリオにとってマルチベクトル検索が重要になります。
マルチベクトルデータベースでは、各行はアイテムであり、各列はアイテムの機能を表し、各セルは高次元ベクトルです。
マルチベクトルデータベースでは、インデックスの選択がパフォーマンスに大きな影響を与える可能性があります。
リレーショナルデータベースのインデックスチューニングは広範囲に調査されていますが、マルチベクトル検索のインデックスチューニングは不明確で困難なままです。
この論文では、マルチベクトル検索インデックスのチューニングを定義し、それを解決するためのフレームワークを提案します。
具体的には、マルチベクトル検索ワークロードを考慮して、アルゴリズムを開発して、レイテンシを最小限に抑え、ストレージとリコールの制約を満たすインデックスを見つけます。
ベースラインと比較して、私たちの待ち時間は2.1倍から8.3倍のスピードアップを達成します。

要約(オリジナル)

Vector search plays a crucial role in many real-world applications. In addition to single-vector search, multi-vector search becomes important for multi-modal and multi-feature scenarios today. In a multi-vector database, each row is an item, each column represents a feature of items, and each cell is a high-dimensional vector. In multi-vector databases, the choice of indexes can have a significant impact on performance. Although index tuning for relational databases has been extensively studied, index tuning for multi-vector search remains unclear and challenging. In this paper, we define multi-vector search index tuning and propose a framework to solve it. Specifically, given a multi-vector search workload, we develop algorithms to find indexes that minimize latency and meet storage and recall constraints. Compared to the baseline, our latency achieves 2.1X to 8.3X speedup.

arxiv情報

著者 Jiongli Zhu,Yue Wang,Bailu Ding,Philip A. Bernstein,Vivek Narasayya,Surajit Chaudhuri
発行日 2025-04-28 17:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | MINT: Multi-Vector Search Index Tuning はコメントを受け付けていません

LightRAG: Simple and Fast Retrieval-Augmented Generation

要約

検索された生成(RAG)システムは、外部の知識ソースを統合し、ユーザーのニーズに合わせたより正確で文脈的に関連する応答を可能にすることにより、大規模な言語モデル(LLM)を強化します。
ただし、既存のRAGシステムには、フラットデータ表現への依存や不十分なコンテキスト認識など、大きな制限があり、複雑な相互依存関係をキャプチャできない断片化された答えにつながる可能性があります。
これらの課題に対処するために、グラフ構造をテキストインデックスおよび検索プロセスに組み込んだLightragを提案します。
この革新的なフレームワークは、低レベルと高レベルの知識発見の両方から包括的な情報検索を強化するデュアルレベルの検索システムを採用しています。
さらに、グラフ構造とベクトル表現との統合により、関連するエンティティとその関係の効率的な検索が容易になり、コンテキストの関連性を維持しながら応答時間が大幅に改善されます。
この機能は、新しいデータのタイムリーな統合を保証する増分更新アルゴリズムによってさらに強化され、急速に変化するデータ環境でシステムが効果的で応答性を維持できるようにします。
広範な実験的検証は、既存のアプローチと比較して、検索の精度と効率の大幅な改善を示しています。
Lightragをオープンソースにし、リンクで入手できます:https://github.com/hkuds/lightrag

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems enhance large language models (LLMs) by integrating external knowledge sources, enabling more accurate and contextually relevant responses tailored to user needs. However, existing RAG systems have significant limitations, including reliance on flat data representations and inadequate contextual awareness, which can lead to fragmented answers that fail to capture complex inter-dependencies. To address these challenges, we propose LightRAG, which incorporates graph structures into text indexing and retrieval processes. This innovative framework employs a dual-level retrieval system that enhances comprehensive information retrieval from both low-level and high-level knowledge discovery. Additionally, the integration of graph structures with vector representations facilitates efficient retrieval of related entities and their relationships, significantly improving response times while maintaining contextual relevance. This capability is further enhanced by an incremental update algorithm that ensures the timely integration of new data, allowing the system to remain effective and responsive in rapidly changing data environments. Extensive experimental validation demonstrates considerable improvements in retrieval accuracy and efficiency compared to existing approaches. We have made our LightRAG open-source and available at the link: https://github.com/HKUDS/LightRAG

arxiv情報

著者 Zirui Guo,Lianghao Xia,Yanhua Yu,Tu Ao,Chao Huang
発行日 2025-04-28 17:36:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | LightRAG: Simple and Fast Retrieval-Augmented Generation はコメントを受け付けていません

Modelling of Underwater Vehicles using Physics-Informed Neural Networks with Control

要約

物理学に基づいたニューラルネットワーク(PINN)物理法則をデータ駆動型モデルと統合して、一般化とサンプル効率を改善します。
この作業では、水中車両のダイナミクスをモデル化するように設計された、コントロール(PINC)フレームワークを備えた物理学に基づいたニューラルネットワークのオープンソースの実装を紹介します。
初期状態、制御アクション、および時間入力を使用して、PINCはPINNを拡張して、トレーニングドメインを超えて物理的に一貫した遷移を可能にします。
さまざまな損失関数、勾配重合スキーム、ハイパーパラメーターなど、さまざまなPINC構成がテストされています。
シミュレートされた水中車両の検証は、非物理学に基づいたベースラインと比較して、より正確な長期予測を示しています

要約(オリジナル)

Physics-informed neural networks (PINNs) integrate physical laws with data-driven models to improve generalization and sample efficiency. This work introduces an open-source implementation of the Physics-Informed Neural Network with Control (PINC) framework, designed to model the dynamics of an underwater vehicle. Using initial states, control actions, and time inputs, PINC extends PINNs to enable physically consistent transitions beyond the training domain. Various PINC configurations are tested, including differing loss functions, gradient-weighting schemes, and hyperparameters. Validation on a simulated underwater vehicle demonstrates more accurate long-horizon predictions compared to a non-physics-informed baseline

arxiv情報

著者 Abdelhakim Amer,David Felsager,Yury Brodskiy,Andriy Sarabakha
発行日 2025-04-28 17:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Modelling of Underwater Vehicles using Physics-Informed Neural Networks with Control はコメントを受け付けていません

Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models

要約

大規模な言語モデル(LLM)には、自然言語処理、コンピュータービジョン、データマイニングなどを含む機械学習研究が劇的に進歩していますが、それでも推論、事実の一貫性、および解釈可能性に重大な制限を示しています。
この論文では、新世代のLLMSに対する重要なアプローチとして、新しい学習パラダイム(MODULAR MACHIL LEANINAT(MML))を紹介します。
MMLは、LLMの複雑な構造を、モジュール表現、モジュラーモデル、およびモジュール推論の3つの相互依存コンポーネントに分解し、反事実的推論の能力を高め、幻覚を軽減し、公平性、安全性、透過性を促進することを目指しています。
具体的には、提案されているMMLパラダイムは次のとおりです。i)セマンティックコンポーネントの解体を通じてLLMの内部作業メカニズムを明確にする。
ii)柔軟でタスクに適したモデル設計を可能にします。
iii)解釈可能かつ論理駆動型の意思決定プロセスを有効にします。
Disentangled表現学習、ニューラルアーキテクチャ検索、ニューロシンボリック学習などの高度な技術を活用することにより、MMLベースのLLMの実現可能な実装を提示します。
連続した神経および離散の象徴的なプロセスの統合、共同最適化、計算スケーラビリティなど、重要な課題を批判的に特定し、さらなる調査に値する有望な将来の研究方向を提示します。
最終的に、MMLパラダイムとLLMSの統合は、統計的(深い)学習と正式な(論理的)推論との間のギャップを埋める可能性があり、それにより、幅広い現実世界のアプリケーションにわたる堅牢で適応性のある、信頼できるAIシステムへの道を開く可能性があります。

要約(オリジナル)

Large language models (LLMs) have dramatically advanced machine learning research including natural language processing, computer vision, data mining, etc., yet they still exhibit critical limitations in reasoning, factual consistency, and interpretability. In this paper, we introduce a novel learning paradigm — Modular Machine Learning (MML) — as an essential approach toward new-generation LLMs. MML decomposes the complex structure of LLMs into three interdependent components: modular representation, modular model, and modular reasoning, aiming to enhance LLMs’ capability of counterfactual reasoning, mitigating hallucinations, as well as promoting fairness, safety, and transparency. Specifically, the proposed MML paradigm can: i) clarify the internal working mechanism of LLMs through the disentanglement of semantic components; ii) allow for flexible and task-adaptive model design; iii) enable interpretable and logic-driven decision-making process. We present a feasible implementation of MML-based LLMs via leveraging advanced techniques such as disentangled representation learning, neural architecture search and neuro-symbolic learning. We critically identify key challenges, such as the integration of continuous neural and discrete symbolic processes, joint optimization, and computational scalability, present promising future research directions that deserve further exploration. Ultimately, the integration of the MML paradigm with LLMs has the potential to bridge the gap between statistical (deep) learning and formal (logical) reasoning, thereby paving the way for robust, adaptable, and trustworthy AI systems across a wide range of real-world applications.

arxiv情報

著者 Xin Wang,Haoyang Li,Zeyang Zhang,Haibo Chen,Wenwu Zhu
発行日 2025-04-28 17:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models はコメントを受け付けていません

RepText: Rendering Visual Text via Replicating

要約

現代のテキストからイメージへの生成モデルは、視覚的に魅力的な画像を作成する際に顕著なブレークスルーを達成していますが、正確で柔軟なタイポグラフィ要素、特に非ラチンアルファベットを生成する能力は抑制されたままです。
これらの制限に対処するために、テキストの理解はテキストレンダリングには十分な条件であるが、必要な条件ではないという素朴な仮定から始めます。
これに基づいて、reptextを提示します。これは、事前に訓練された単一言語のテキストからイメージへの生成モデルに、ユーザー指定のフォントで正確にレンダリングする、またはより正確に複製された多言語の視覚テキストを、実際に理解する必要なく、複製する能力を持つことを目的としています。
具体的には、コントロールネットから設定を採用し、レンダリングされたテキストの言語不可知論的グリフと位置をさらに統合して、調和のとれた視覚テキストを生成できるようにし、ユーザーがニーズに合わせてテキストコンテンツ、フォント、ポジションをカスタマイズできるようにします。
精度を向上させるために、テキストの知覚的損失が拡散損失とともに採用されます。
さらに、レンダリングプロセスを安定させるために、推論フェーズでは、ランダムな初期化の代わりにノイズの多いグリフ潜在性で直接初期化し、領域マスクを採用して、背景の歪みを避けるためにテキスト領域のみに特徴の注入を制限します。
既存の作業に関連する補強材の有効性を検証するために広範な実験を実施しました。当社のアプローチは、既存のオープンソース方法よりも優れており、ネイティブの多言語クローズドソースモデルに匹敵する結果を達成します。
より公平にするために、最終的にその限界についても徹底的に議論します。

要約(オリジナル)

Although contemporary text-to-image generation models have achieved remarkable breakthroughs in producing visually appealing images, their capacity to generate precise and flexible typographic elements, especially non-Latin alphabets, remains constrained. To address these limitations, we start from an naive assumption that text understanding is only a sufficient condition for text rendering, but not a necessary condition. Based on this, we present RepText, which aims to empower pre-trained monolingual text-to-image generation models with the ability to accurately render, or more precisely, replicate, multilingual visual text in user-specified fonts, without the need to really understand them. Specifically, we adopt the setting from ControlNet and additionally integrate language agnostic glyph and position of rendered text to enable generating harmonized visual text, allowing users to customize text content, font and position on their needs. To improve accuracy, a text perceptual loss is employed along with the diffusion loss. Furthermore, to stabilize rendering process, at the inference phase, we directly initialize with noisy glyph latent instead of random initialization, and adopt region masks to restrict the feature injection to only the text region to avoid distortion of the background. We conducted extensive experiments to verify the effectiveness of our RepText relative to existing works, our approach outperforms existing open-source methods and achieves comparable results to native multi-language closed-source models. To be more fair, we also exhaustively discuss its limitations in the end.

arxiv情報

著者 Haofan Wang,Yujia Xu,Yimeng Li,Junchen Li,Chaowei Zhang,Jing Wang,Kejia Yang,Zhibo Chen
発行日 2025-04-28 12:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RepText: Rendering Visual Text via Replicating はコメントを受け付けていません

Measuring Train Driver Performance as Key to Approval of Driverless Trains

要約

ポイント2.1.4(b)、2.4.2(b)、2.4.3(b)の併用規則(EU)No。402/2013の附属書Iでは、交換された人間のドライバーとして「同様の」機能とインターフェイスがある場合、ドライバーレストレインのコンピュータービジョンシステムの安全承認のための簡略化されたアプローチが可能になります。
人間のドライバーは、1対1の技術システムに置き換えられません – 限られたセットの認知機能のみが置き換えられます。
ただし、最も挑戦的な機能である障害物検出のパフォーマンスは、公開された測定結果の不足のために定量化することが困難です。
この記事は、これまでに公開されたデータをまとめたものです。
また、この記事は、制御された実験から711列車のドライバーパフォーマンス測定の新しい公開データセットと匿名化されたデータセットを提供することにより、この状況を改善するための長い道のりです。
測定は、それぞれさまざまな速度、障害物サイズ、列車保護システム、障害物の色のコントラストに対して行われます。
測定値は、障害物への反応時間と距離です。
この論文の目標は、研究、標準化、規制のための提示されたデータセットの偏りのない徹底的な説明です。
データセットやソースコードを含むさらなるプロジェクト関連情報は、https://atosense-02371c.usercontent.opencode.de/で入手できます。

要約(オリジナル)

Points 2.1.4(b), 2.4.2(b) and 2.4.3(b) in Annex I of Implementing Regulation (EU) No. 402/2013 allow a simplified approach for the safety approval of computer vision systems for driverless trains, if they have ‘similar’ functions and interfaces as the replaced human driver. The human driver is not replaced one-to-one by a technical system – only a limited set of cognitive functions are replaced. However, performance in the most challenging function, obstacle detection, is difficult to quantify due to the deficiency of published measurement results. This article summarizes the data published so far. This article also goes a long way to remedy this situation by providing a new public and anonymized dataset of 711 train driver performance measurements from controlled experiments. The measurements are made for different speeds, obstacle sizes, train protection systems and obstacle color contrasts respectively. The measured values are reaction time and distance to the obstacle. The goal of this paper is an unbiased and exhaustive description of the presented dataset for research, standardization and regulation. Further project related information including the dataset and source code is available at https://atosense-02371c.usercontent.opencode.de/

arxiv情報

著者 Rustam Tagiew,Prasannavenkatesh Balaji
発行日 2025-04-28 12:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Measuring Train Driver Performance as Key to Approval of Driverless Trains はコメントを受け付けていません