A Graph-to-Text Approach to Knowledge-Grounded Response Generation in Human-Robot Interaction

要約

ナレッジグラフは、構造化された情報を柔軟で効率的な方法で表すためによく使用されますが、そのような対話での使用は依存していないままです。
この論文では、対話状態のグラフベースの表現に基づいた、人間とロボットの相互作用のための新しい会話モデルを紹介します。
ダイアログ状態を表す知識グラフは、言語、位置、マルチモーダル入力を含むロボットセンサーからの新しい観測により継続的に更新され、特に空間的理解のために他のモジュールによってさらに濃縮されます。
ユーザーの発話に応答するために採用されたニューラル会話モデルは、ダイアログ状態グラフを通過し、トラバーサルを自然言語形式に変換する単純だが効果的なグラフからテキスト間メカニズムに依存しています。
この状態グラフのテキストへの変換は、パラメーター化された関数のセットを使用して実行され、それらのパラメーターの値は、ウィザードオブオンスの相互作用の小さなセットに基づいて最適化されます。
この変換の後、ダイアログ状態グラフのテキスト表現は、エージェントの応答を解読するために使用される大規模な言語モデルのプロンプトの一部として含まれています。
提案されたアプローチは、応答生成に対するグラフからテキストメカニズムの影響を評価するために会話パートナーとして機能するヒューマノイドロボットを使用したユーザー調査を通じて経験的に評価されます。
屋内環境のツアーに沿ってロボットを移動した後、参加者は話し言葉を使用してロボットと対話し、ロボットがツアー中にロボットが観察したことについての質問にどれだけよく答えることができるかを評価しました。
ユーザースコアは、セマンティックトリプルとして構成された入力を使用したベースラインと比較して、グラフからテキストアプローチが採用されている場合、ロボット応答の知覚された事実性の統計的に有意な改善を示しています。

要約(オリジナル)

Knowledge graphs are often used to represent structured information in a flexible and efficient manner, but their use in situated dialogue remains under-explored. This paper presents a novel conversational model for human–robot interaction that rests upon a graph-based representation of the dialogue state. The knowledge graph representing the dialogue state is continuously updated with new observations from the robot sensors, including linguistic, situated and multimodal inputs, and is further enriched by other modules, in particular for spatial understanding. The neural conversational model employed to respond to user utterances relies on a simple but effective graph-to-text mechanism that traverses the dialogue state graph and converts the traversals into a natural language form. This conversion of the state graph into text is performed using a set of parameterized functions, and the values for those parameters are optimized based on a small set of Wizard-of-Oz interactions. After this conversion, the text representation of the dialogue state graph is included as part of the prompt of a large language model used to decode the agent response. The proposed approach is empirically evaluated through a user study with a humanoid robot that acts as conversation partner to evaluate the impact of the graph-to-text mechanism on the response generation. After moving a robot along a tour of an indoor environment, participants interacted with the robot using spoken dialogue and evaluated how well the robot was able to answer questions about what the robot observed during the tour. User scores show a statistically significant improvement in the perceived factuality of the robot responses when the graph-to-text approach is employed, compared to a baseline using inputs structured as semantic triples.

arxiv情報

著者 Nicholas Thomas Walker,Stefan Ultes,Pierre Lison
発行日 2025-04-01 12:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク