Tokenization Falling Short: On Subword Robustness in Large Language Models

要約

言語モデルは通常、生テキストを事前に定義された語彙からサブワード識別子のシーケンスにトークン化するが、このプロセスは本質的に誤字脱字や長さのばらつきに敏感であり、トークンの内部構造にはほとんど気づかない。本研究では、これらの欠点を掘り下げ、大規模言語モデル(LLM)が依然としてこれらの問題の影響を受けやすいことを実証する。本研究では、(1)複雑な問題解決、(2)トークン構造のプロービング、(3)タイポグラフィの変化への耐性という3つの重要な研究課題を通して、これらの課題とLLMへの影響を系統的に調査する。その結果、モデルパラメータをスケーリングすることで、トークン化の問題を軽減できることが明らかになった。しかし、LLMは依然として、誤字やその他のテキスト形式のバリエーションによって引き起こされるバイアスに悩まされている。我々の実験は、BPE-dropoutのようなサブワード正則化がこの問題を軽減できることを示している。評価コードとデータはhttps://github.com/FloatAI/TKEval。

要約(オリジナル)

Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens–issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We release our evaluation code and data at https://github.com/FloatAI/TKEval.

arxiv情報

著者 Yekun Chai,Yewei Fang,Qiwei Peng,Xuhong Li
発行日 2024-10-04 13:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Video Instruction Tuning With Synthetic Data

要約

動画ラージ・マルチモーダルモデル(LMM)の開発は、ウェブから大量の高品質な生データを収集することの困難さによって妨げられてきた。この問題に対処するため、我々はLLaVA-Video-178Kという、動画指示追従に特化した高品質な合成データセットを作成することで、代替アプローチを提案する。このデータセットには、詳細なキャプション、自由形式の質疑応答(QA)、多肢選択式のQAなどの主要なタスクが含まれている。このデータセットと既存の視覚命令チューニングデータを組み合わせて学習することで、新しいビデオLMMであるLLaVA-Videoを導入する。我々の実験により、LLaVA-Videoは様々なビデオベンチマークにおいて高い性能を達成し、我々のデータセットの有効性を明らかにした。今後、データセット、生成パイプライン、モデルのチェックポイントを公開する予定である。

要約(オリジナル)

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

arxiv情報

著者 Yuanhan Zhang,Jinming Wu,Wei Li,Bo Li,Zejun Ma,Ziwei Liu,Chunyuan Li
発行日 2024-10-04 13:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

StorySparkQA: Expert-Annotated QA Pairs with Real-World Knowledge for Children’s Story-Based Learning

要約

インタラクティブな絵本の読み聞かせは、一般的な親子活動であり、親は、絵本の内容を超えて、言語技能と実社会の知識の両方を教えることを期待している。この活動のために開発されたストーリーテリングや読み聞かせシステムは増えているが、実社会の知識を会話に取り入れることができないことが多い。この限界は、システムが構築されている既存の児童教育用質問応答(QA)データセットが、対話型読み聞かせ活動を行う際に教育専門家がどのように考えるかというニュアンスを捉え損ねていることに起因している。このギャップを埋めるために、我々は、専門家の注釈と思考プロセスを捕捉するために、既存の知識グラフによって強化された注釈フレームワークを設計し、このフレームワークを活用して、実世界の知識を持つ5,868の専門家が注釈を付けたQAペアからなるStorySparkQAデータセットを構築する。様々なQAペア生成設定において、自動評価と人間による専門家評価を実施し、我々のStorySparkQAが、ストーリーの内容を超えた実世界の知識を対象としたQAペアを生成するモデルを効果的にサポートできることを実証する。StorySparkQAはhttps://huggingface.co/datasets/NEU-HAI/StorySparkQA。

要約(オリジナル)

Interactive story reading is a common parent-child activity, where parents expect to teach both language skills and real-world knowledge beyond the story. While increasing storytelling and reading systems have been developed for this activity, they often fail to infuse real-world knowledge into the conversation. This limitation can be attributed to the existing question-answering (QA) datasets used for children’s education, upon which the systems are built, failing to capture the nuances of how education experts think when conducting interactive story reading activities. To bridge this gap, we design an annotation framework, empowered by existing knowledge graph to capture experts’ annotations and thinking process, and leverage this framework to construct StorySparkQA dataset, which comprises 5,868 expert-annotated QA pairs with real-world knowledge. We conduct automated and human expert evaluations across various QA pair generation settings to demonstrate that our StorySparkQA can effectively support models in generating QA pairs that target real-world knowledge beyond story content. StorySparkQA is available at https://huggingface.co/datasets/NEU-HAI/StorySparkQA.

arxiv情報

著者 Jiaju Chen,Yuxuan Lu,Shao Zhang,Bingsheng Yao,Yuanzhe Dong,Ying Xu,Yunyao Li,Qianwen Wang,Dakuo Wang,Yuling Sun
発行日 2024-10-04 05:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

要約

LLM-as-a-Judgeは、様々なベンチマークにおける評価手法として広く利用され、モデル学習における教師付き報酬として役立ってきた。しかし、多くの領域でLLM-as-a-Judgeが優れているにもかかわらず、潜在的な問題は十分に調査されておらず、LLM-as-a-Judgeの信頼性と有用性の範囲を損なっている。そこで、我々は12の主要な潜在的なバイアスを特定し、自動化されたバイアスを定量化するフレームワーク-CALM-を提案する。我々の実験は、複数の一般的な言語モデルを対象としており、その結果、先進的なモデルが総合的な性能は高く評価できるものの、特定のタスクでは重大なバイアスが残っていることが示された。実証結果は、LLM-as-a-Judgeの信頼性には改善の余地が残されていることを示唆している。さらに、これらのバイアスの明示的・暗黙的な影響についても議論し、LLM-as-a-Judgeの信頼性の高い適用のためのいくつかの提案を行う。我々の研究は、関係者がこれらの問題に取り組む必要性を強調し、LLM-as-a-Judgeの適用に注意を払うよう利用者に喚起する。

要約(オリジナル)

LLM-as-a-Judge has been widely utilized as an evaluation method in various benchmarks and served as supervised rewards in model training. However, despite their excellence in many domains, potential issues are under-explored, undermining their reliability and the scope of their utility. Therefore, we identify 12 key potential biases and propose a new automated bias quantification framework-CALM-which systematically quantifies and analyzes each type of bias in LLM-as-a-Judge by using automated and principle-guided modification. Our experiments cover multiple popular language models, and the results indicate that while advanced models have achieved commendable overall performance, significant biases persist in certain specific tasks. Empirical results suggest that there remains room for improvement in the reliability of LLM-as-a-Judge. Moreover, we also discuss the explicit and implicit influence of these biases and give some suggestions for the reliable application of LLM-as-a-Judge. Our work highlights the need for stakeholders to address these issues and remind users to exercise caution in LLM-as-a-Judge applications.

arxiv情報

著者 Jiayi Ye,Yanbo Wang,Yue Huang,Dongping Chen,Qihui Zhang,Nuno Moniz,Tian Gao,Werner Geyer,Chao Huang,Pin-Yu Chen,Nitesh V Chawla,Xiangliang Zhang
発行日 2024-10-04 03:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

要約

ジェネラリスト型ウェブエージェントは、実際のウェブサイト上で様々なタスクを自律的にこなし、人間の生産性を大幅に向上させるという驚くべき可能性を示してきた。しかしながら、航空券の予約のようなウェブタスクは、通常、ユーザの個人情報に関与しており、ウェブエージェントが誤って危険なウェブサイトと相互作用した場合、潜在的なプライバシーリスクにさらされる可能性がある。本研究では、敵対的環境におけるジェネラリスト型ウェブエージェントのプライバシーリスクに関する初めての研究を実施することで、このギャップを埋める。まず、Webサイトへの攻撃に対する現実的な脅威モデルを提示し、ユーザの特定のPIIを盗む、またはユーザリクエスト全体を盗むという2つの敵対的ターゲットを考える。次に、Environmental Injection Attack (EIA)と呼ばれる新しい攻撃方法を提案する。EIAは、エージェントが動作する環境に適応するように設計された悪意のあるコンテンツを注入し、我々の研究は、ウェブ環境におけるプライバシーシナリオのために特別にEIAをインスタンス化する。我々は、Mind2Webの現実的なウェブサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、今日まで最も有能なジェネラリストウェブエージェントフレームワークの1つを使用して実験を実施した。その結果、EIAは特定のPIIを盗む際に最大70%のASRを達成し、完全なユーザリクエストに対しては16%のASRを達成することが実証された。さらに、ステルス性にアクセスし、防御システムのプロンプトを実験することで、EIAは検出および軽減が困難であることを示す。注目すべきは、ウェブページにうまく適応していない攻撃は、人間の検査によって検出することができ、セキュリティと自律性の間のトレードオフについての議論につながる。しかし、攻撃者の余分な努力はEIAをシームレスに適応させることができ、そのような監視は効果がない。従って、我々はさらに、人間の監視に依存しないウェブサイトの展開前と展開後の段階における防御について議論し、より高度な防御戦略を呼びかける。

要約(オリジナル)

Generalist web agents have demonstrated remarkable potential in autonomously completing a wide range of tasks on real websites, significantly boosting human productivity. However, web tasks, such as booking flights, usually involve users’ PII, which may be exposed to potential privacy risks if web agents accidentally interact with compromised websites, a scenario that remains largely unexplored in the literature. In this work, we narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a realistic threat model for attacks on the website, where we consider two adversarial targets: stealing users’ specific PII or the entire user request. Then, we propose a novel attack method, termed Environmental Injection Attack (EIA). EIA injects malicious content designed to adapt well to environments where the agents operate and our work instantiates EIA specifically for privacy scenarios in web environments. We collect 177 action steps that involve diverse PII categories on realistic websites from the Mind2Web, and conduct experiments using one of the most capable generalist web agent frameworks to date. The results demonstrate that EIA achieves up to 70% ASR in stealing specific PII and 16% ASR for full user request. Additionally, by accessing the stealthiness and experimenting with a defensive system prompt, we indicate that EIA is hard to detect and mitigate. Notably, attacks that are not well adapted for a webpage can be detected via human inspection, leading to our discussion about the trade-off between security and autonomy. However, extra attackers’ efforts can make EIA seamlessly adapted, rendering such supervision ineffective. Thus, we further discuss the defenses at the pre- and post-deployment stages of the websites without relying on human supervision and call for more advanced defense strategies.

arxiv情報

著者 Zeyi Liao,Lingbo Mo,Chejian Xu,Mintong Kang,Jiawei Zhang,Chaowei Xiao,Yuan Tian,Bo Li,Huan Sun
発行日 2024-10-04 02:08:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントする

Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

要約

視覚に基づく意味的情景補完(Semantic Scene Completion: SSC)は、様々な3次元知覚タスクに広く応用されており、注目を集めている。既存のsparse-to-denseアプローチは、通常、様々な入力画像間で共有されたコンテキストに依存しないクエリを用いるが、これは異なる入力の焦点領域が異なるため、入力画像間の区別を捉えることができず、クロスアテンションの無向きの特徴集約を引き起こす可能性がある。さらに、奥行き情報がないため、画像平面に投影された点が同じ2次元位置を共有したり、特徴マップのサンプリング点が類似したりする可能性があり、奥行きの曖昧さが生じる。本論文では、コンテキストとジオメトリを意識した新しいボクセル変換器を提案する。これはコンテキストを意識したクエリ生成器を利用し、個々の入力画像に合わせたコンテキスト依存のクエリを初期化することで、その画像固有の特徴を効果的に捉え、関心領域内の情報を集約する。さらに、2Dから3Dピクセル空間への変形可能なクロスアテンションを拡張し、深度座標に基づいて類似した画像座標を持つ点の区別を可能にする。このモジュールをベースに、意味的なシーン補完を実現するために、CGFormerと名付けられたニューラルネットワークを導入する。同時に、CGFormerは複数の3D表現(ボクセルとTPV)を活用し、変換された3Dボリュームの意味的・幾何学的表現能力を局所的・大域的観点から高める。実験の結果、CGFormerは、SemanticKITTIおよびSSCBench-KITTI-360ベンチマークにおいて、それぞれ16.87および20.05のmIoU、45.99および48.07のIoUを達成し、最先端の性能を達成した。驚くべきことに、CGFormerは、入力として時間画像を用いたアプローチや、はるかに大規模な画像バックボーンネットワークをも凌駕している。

要約(オリジナル)

Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.

arxiv情報

著者 Zhu Yu,Runmin Zhang,Jiacheng Ying,Junchen Yu,Xiaohai Hu,Lun Luo,Si-Yuan Cao,Hui-Liang Shen
発行日 2024-10-04 03:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Topological mapping for traversability-aware long-range navigation in off-road terrain

要約

森林のようなオフロードを自律走行するロボットは、自動化の新たな可能性を開く。オフロードナビゲーションは研究されているが、既存の研究はしばしば明確に定義された経路に依存している。我々は、視覚とGPSのみを用いて、未知のオフロード森林地形における長距離計画、探索、および低レベル制御を可能にする方法を提示する。屋外地形をトポロジカルマップで表現する。トポロジカルマップは、トラバース可能性情報を含むエッジで接続されたパノラマスナップショットの集合である。画像中の目標に向かう安全な経路の存在を予測する、新しいトラバース可能性分析法を示す。ノード間の移動は、事前に訓練された視覚変換器の能力を活用し、目標条件付き行動クローニングを用いて行われる。探索プランナが提示され、フロンティアベースのアプローチを用いて、横断可能性が未知の未知のオフロードエリアを効率的にカバーする。本アプローチは、ナビゲーションが困難な条件下で、訓練中に未見であった400m四方の2つの森林を自律的に探索することに成功した。

要約(オリジナル)

Autonomous robots navigating in off-road terrain like forests open new opportunities for automation. While off-road navigation has been studied, existing work often relies on clearly delineated pathways. We present a method allowing for long-range planning, exploration and low-level control in unknown off-trail forest terrain, using vision and GPS only. We represent outdoor terrain with a topological map, which is a set of panoramic snapshots connected with edges containing traversability information. A novel traversability analysis method is demonstrated, predicting the existence of a safe path towards a target in an image. Navigating between nodes is done using goal-conditioned behavior cloning, leveraging the power of a pretrained vision transformer. An exploration planner is presented, efficiently covering an unknown off-road area with unknown traversability using a frontiers-based approach. The approach is successfully deployed to autonomously explore two 400 meters squared forest sites unseen during training, in difficult conditions for navigation.

arxiv情報

著者 Jean-François Tremblay,Julie Alhosh,Louis Petit,Faraz Lotfi,Lara Landauro,David Meger
発行日 2024-10-02 18:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Equality Constrained Diffusion for Direct Trajectory Optimization

要約

画像処理や自然言語処理における拡散に基づく生成モデルの最近の成功は、非線形制御システムのための拡散に基づく軌道最適化に対する興味に火をつけた。しかし、既存の手法では、直接軌道最適化に必要な非線形等式制約を扱うことができない。その結果、拡散に基づく軌道最適化手法は、現在のところ、非線形ダイナミクスが前方ロールアウトによって強制されるシューティング手法に限定されている。このため、柔軟な状態制約、数値感度の低減、容易な初期推測の指定など、直接法が享受している利点の多くが妨げられている。本論文では、等式制約を持つ拡散ベースの最適化手法を提案する。これにより、ロールアウトではなく、制約条件によって動的な実現可能性を強制しながら、直接軌道最適化を行うことができる。我々の知る限り、これは直接軌道最適化に必要な一般的な非線形等式制約をサポートする最初の拡散ベース最適化アルゴリズムである。

要約(オリジナル)

The recent success of diffusion-based generative models in image and natural language processing has ignited interest in diffusion-based trajectory optimization for nonlinear control systems. Existing methods cannot, however, handle the nonlinear equality constraints necessary for direct trajectory optimization. As a result, diffusion-based trajectory optimizers are currently limited to shooting methods, where the nonlinear dynamics are enforced by forward rollouts. This precludes many of the benefits enjoyed by direct methods, including flexible state constraints, reduced numerical sensitivity, and easy initial guess specification. In this paper, we present a method for diffusion-based optimization with equality constraints. This allows us to perform direct trajectory optimization, enforcing dynamic feasibility with constraints rather than rollouts. To the best of our knowledge, this is the first diffusion-based optimization algorithm that supports the general nonlinear equality constraints required for direct trajectory optimization.

arxiv情報

著者 Vince Kurtz,Joel W. Burdick
発行日 2024-10-02 18:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions

要約

血管内インターベンションは多くの疾患に対する救命治療であるが、放射線被曝や熟練した医師の不足といった欠点がある。このような問題に対して,インターベンション中のロボットによる支援は有望である。人工知能に基づく方法論を利用した自律的血管内インターベンションに焦点を当てた研究が人気を集めている。しかし、評価環境にばらつきがあるため、異なるアプローチの有効性を比較検討することができない。本研究では、3つの異なるデジタルベンチマークインターベンションにおける深層強化学習ベースの自律的血管内治療器ナビゲーションを紹介する:BasicWireNav,ArchVariety,DualDeviceNavである。ベンチマークとなるインターベンションは、われわれのモジュール式シミュレーションフレームワークstEVE(simulated EndoVascular Environment)を用いて実装した。自律制御装置はシミュレーションのみでトレーニングされ,シミュレーションと,カメラと透視によるフィードバックを備えた物理的なテストベンチで評価された。BasicWireNavとArchVarietyの自律制御は高い成功率に達し、シミュレーションのトレーニング環境から物理的なテストベンチへの移行に成功した一方、DualDeviceNavの自律制御は中程度の成功率にとどまった。この実験により、stEVEの実現可能性と、シミュレーションで訓練したコントローラを実世界のシナリオに移行できる可能性が実証された。とはいえ、今後の研究のチャンスとなる分野も明らかになった。本研究は、血管内ナビゲーションにおける自律型コントローラのシミュレーションから実世界への移行可能性を実証し、オープンソースのトレーニングスクリプト、ベンチマーク、stEVEフレームワークを提供することで、血管内補助システムに関する研究の参入障壁を下げ、比較可能性を高めるものである。

要約(オリジナル)

Endovascular interventions are a life-saving treatment for many diseases, yet suffer from drawbacks such as radiation exposure and potential scarcity of proficient physicians. Robotic assistance during these interventions could be a promising support towards these problems. Research focusing on autonomous endovascular interventions utilizing artificial intelligence-based methodologies is gaining popularity. However, variability in assessment environments hinders the ability to compare and contrast the efficacy of different approaches, primarily due to each study employing a unique evaluation framework. In this study, we present deep reinforcement learning-based autonomous endovascular device navigation on three distinct digital benchmark interventions: BasicWireNav, ArchVariety, and DualDeviceNav. The benchmark interventions were implemented with our modular simulation framework stEVE (simulated EndoVascular Environment). Autonomous controllers were trained solely in simulation and evaluated in simulation and on physical test benches with camera and fluoroscopy feedback. Autonomous control for BasicWireNav and ArchVariety reached high success rates and was successfully transferred from the simulated training environment to the physical test benches, while autonomous control for DualDeviceNav reached a moderate success rate. The experiments demonstrate the feasibility of stEVE and its potential for transferring controllers trained in simulation to real-world scenarios. Nevertheless, they also reveal areas that offer opportunities for future research. This study demonstrates the transferability of autonomous controllers from simulation to the real world in endovascular navigation and lowers the entry barriers and increases the comparability of research on endovascular assistance systems by providing open-source training scripts, benchmarks and the stEVE framework.

arxiv情報

著者 Lennart Karstensen,Harry Robertshaw,Johannes Hatzl,Benjamin Jackson,Jens Langejürgen,Katharina Breininger,Christian Uhl,S. M. Hadi Sadati,Thomas Booth,Christos Bergeles,Franziska Mathis-Ullrich
発行日 2024-10-02 18:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case

要約

人間の行動を検出することは、自律型ロボットや車両にとって重要なタスクであり、多くの場合、精度を向上させるために様々なデータモダリティを統合する必要がある。本研究では、スケルトンと視覚的手がかりに基づく人間行動認識(Human Action Recognition: HAR)の新しいアプローチを紹介する。我々の手法は、スケルトンエンコーダにおける特徴抽出プロセスをガイドするために言語モデルを活用する。具体的には、特徴表現を最適化するために、スケルトンモダリティを条件とした学習可能なプロンプトを言語モデルに採用する。さらに、モダリティの高次元性に対処するために、注意と変換機構を組み込んだ顕著な融合モジュールを用いて、デュアルモダリティ特徴を結合する融合機構を提案する。この融合処理により、情報量の多いビデオフレームと身体関節を優先し、人間の動作の認識精度を向上させる。さらに、建設現場における実際のロボットアプリケーションに合わせた、視覚、骨格、深度データのモダリティを特徴とする、VolvoConstActと名付けられた新しいデータセットを紹介する。このデータセットは、現実世界の建設現場で必要なタスクを自律型建設機械に指示するための機械学習モデルの訓練と評価を容易にする役割を果たす。我々のアプローチを評価するために、我々のデータセットと、広く使われている3つの公開データセット、NTU-RGB+D、NTU-RGB+D120、NW-UCLAで実験を行った。その結果、我々の提案手法は全てのデータセットにおいて有望な性能を達成し、その頑健性と様々なアプリケーションへの可能性を実証した。コードとデータセットは以下から入手可能: https://mmahdavian.github.io/ls_har/

要約(オリジナル)

Detecting human actions is a crucial task for autonomous robots and vehicles, often requiring the integration of various data modalities for improved accuracy. In this study, we introduce a novel approach to Human Action Recognition (HAR) based on skeleton and visual cues. Our method leverages a language model to guide the feature extraction process in the skeleton encoder. Specifically, we employ learnable prompts for the language model conditioned on the skeleton modality to optimize feature representation. Furthermore, we propose a fusion mechanism that combines dual-modality features using a salient fusion module, incorporating attention and transformer mechanisms to address the modalities’ high dimensionality. This fusion process prioritizes informative video frames and body joints, enhancing the recognition accuracy of human actions. Additionally, we introduce a new dataset tailored for real-world robotic applications in construction sites, featuring visual, skeleton, and depth data modalities, named VolvoConstAct. This dataset serves to facilitate the training and evaluation of machine learning models to instruct autonomous construction machines for performing necessary tasks in the real world construction zones. To evaluate our approach, we conduct experiments on our dataset as well as three widely used public datasets, NTU-RGB+D, NTU-RGB+D120 and NW-UCLA. Results reveal that our proposed method achieves promising performance across all datasets, demonstrating its robustness and potential for various applications. The codes and dataset are available at: https://mmahdavian.github.io/ls_har/

arxiv情報

著者 Mohammad Mahdavian,Mohammad Loni,Mo Chen
発行日 2024-10-02 19:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | コメントする