要約
タイトル: リアルタイムの軌跡ベースの社会的グループ検出
要約:
– ロボットのナビゲーションや人間との対話など、さまざまなロボットアプリケーションにとって社会的グループ検出は重要な課題である。
– 現在までに、F-formationや軌跡の類似性の枠組みなど、さまざまなモデルベースの技術がこの課題に対処するために使用されてきた。
– しかし、これらのアプローチは、混雑した場所や動的なシナリオでは信頼性の高い結果を提供することができない。
– 最近の進歩は、主に視覚コンテンツや人のポーズを使用した深層ニューラルネットワークなどの学習ベースの方法に焦点を当てている。
– 視覚コンテンツベースの方法は大規模なデータセットで有望な性能を発揮しているが、その計算複雑性はリアルタイムアプリケーションでの実用化のための重要な障壁となる。
– これらの問題に対処するため、我々は簡単で効率的な社会的グループ検出のためのフレームワークを提案する。
– 我々のアプローチは、運動軌跡が社会的グルーピングに及ぼす影響を探究し、新しい、信頼性の高い、高速なデータ駆動型の方法を活用している。
– シーン内の個々をグラフとして定式化し、ノードはLSTMでエンコードされた軌跡で表され、エッジは各トラックの距離によって定義される。
– 我々のフレームワークは、変更されたグラフトランスフォーマー モジュールとグラフクラスタリングロスを使用して、社会的グループを検出する。
– 人気のあるJRDBActデータセットでの実験では、性能の著しい改善が見られ、相対的な改善幅は2%から11%に及ぶ。
– さらに、同じ計算リソースの下で最先端の手法に比べて最大12倍高速な推論時間を誇る。
– これらの結果は、我々の提案手法がリアルタイムのロボットアプリケーションに適していることを示している。
要約(オリジナル)
Social group detection is a crucial aspect of various robotic applications, including robot navigation and human-robot interactions. To date, a range of model-based techniques have been employed to address this challenge, such as the F-formation and trajectory similarity frameworks. However, these approaches often fail to provide reliable results in crowded and dynamic scenarios. Recent advancements in this area have mainly focused on learning-based methods, such as deep neural networks that use visual content or human pose. Although visual content-based methods have demonstrated promising performance on large-scale datasets, their computational complexity poses a significant barrier to their practical use in real-time applications. To address these issues, we propose a simple and efficient framework for social group detection. Our approach explores the impact of motion trajectory on social grouping and utilizes a novel, reliable, and fast data-driven method. We formulate the individuals in a scene as a graph, where the nodes are represented by LSTM-encoded trajectories and the edges are defined by the distances between each pair of tracks. Our framework employs a modified graph transformer module and graph clustering losses to detect social groups. Our experiments on the popular JRDBAct dataset reveal noticeable improvements in performance, with relative improvements ranging from 2% to 11%. Furthermore, our framework is significantly faster, with up to 12x faster inference times compared to state-of-the-art methods under the same computation resources. These results demonstrate that our proposed method is suitable for real-time robotic applications.
arxiv情報
著者 | Simindokht Jahangard,Munawar Hayat,Hamid Rezatofighi |
発行日 | 2023-04-12 08:01:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI