Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation

要約

継続的なスキル獲得のために事前知識を効果的に活用できる生涯ロボットを構築することは、依然として非常に困難です。
経験のリプレイとパラメーター効率の高い方法の成功にもかかわらず、壊滅的な忘却の問題を軽減する際のパラメーター効率の高い方法にもかかわらず、これらの方法を素朴に適用すると、スキル間で共有されたプリミティブを活用できなくなります。
これらの問題に取り組むために、再利用可能で拡張可能なプリミティブを介して生涯ロボット操作を達成するために、プリミティブ迅速学習(PPL)を提案します。
2つの段階学習スキーム内で、最初に、さまざまなスキルにわたってセマンティックとモーション共有のプリミティブをキャプチャするためにモーション認識プロンプトが学習されるマルチスキル前段階で共有されたプリミティブを表す一連のプリミティブプロンプトを学びます。
第二に、生涯にわたって新しいスキルを獲得するとき、新しいプロンプトが凍結された前提条件のプロンプトで追加され、最適化され、古いスキルから新しいスキルへの知識移転を介して学習を後押しします。
評価のために、大規模なスキルデータセットを構築し、シミュレーションと現実世界の両方のタスクの両方で広範な実験を実施し、最先端の方法よりもPPLの優れたパフォーマンスを実証します。

要約(オリジナル)

Building a lifelong robot that can effectively leverage prior knowledge for continuous skill acquisition remains significantly challenging. Despite the success of experience replay and parameter-efficient methods in alleviating catastrophic forgetting problem, naively applying these methods causes a failure to leverage the shared primitives between skills. To tackle these issues, we propose Primitive Prompt Learning (PPL), to achieve lifelong robot manipulation via reusable and extensible primitives. Within our two stage learning scheme, we first learn a set of primitive prompts to represent shared primitives through multi-skills pre-training stage, where motion-aware prompts are learned to capture semantic and motion shared primitives across different skills. Secondly, when acquiring new skills in lifelong span, new prompts are appended and optimized with frozen pretrained prompts, boosting the learning via knowledge transfer from old skills to new ones. For evaluation, we construct a large-scale skill dataset and conduct extensive experiments in both simulation and real-world tasks, demonstrating PPL’s superior performance over state-of-the-art methods.

arxiv情報

著者 Yuanqi Yao,Siao Liu,Haoming Song,Delin Qu,Qizhi Chen,Yan Ding,Bin Zhao,Zhigang Wang,Xuelong Li,Dong Wang
発行日 2025-06-01 18:46:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation はコメントを受け付けていません

Fall Prediction for Bipedal Robots: The Standing Phase

要約

この論文では、二足歩行ロボットの転倒予測への新しいアプローチを提示し、特に突然の断層、および断続的な断層によって引き起こされた潜在的な転倒の検出をターゲットにしています。
1D畳み込みニューラルネットワーク(CNN)を活用して、私たちの方法は、誤った陽性率を最小化しながら、転倒予測のリードタイムを最大化することを目的としています。
提案されたアルゴリズムは、さまざまな断層タイプの検出を一意に統合し、潜在的な転倒のリードタイムを推定します。
私たちの貢献には、フルサイズのロボットの突然、初期、および断続的な障害を検出できるアルゴリズムの開発、ヒューマノイドロボットのシミュレーションとハードウェアデータの両方を使用した実装、およびリードタイムを推定する方法が含まれます。
偽陽性率、リードタイム、応答時間を含む評価指標は、アプローチの有効性を示しています。
特に、私たちのモデルは、0の偽陽性率で、さまざまな障害シナリオにわたって印象的なリードタイムと応答時間を達成します。この研究の結果は、二足歩行ロボットシステムの安全性と信頼性を高めるために大きな意味を持ちます。

要約(オリジナル)

This paper presents a novel approach to fall prediction for bipedal robots, specifically targeting the detection of potential falls while standing caused by abrupt, incipient, and intermittent faults. Leveraging a 1D convolutional neural network (CNN), our method aims to maximize lead time for fall prediction while minimizing false positive rates. The proposed algorithm uniquely integrates the detection of various fault types and estimates the lead time for potential falls. Our contributions include the development of an algorithm capable of detecting abrupt, incipient, and intermittent faults in full-sized robots, its implementation using both simulation and hardware data for a humanoid robot, and a method for estimating lead time. Evaluation metrics, including false positive rate, lead time, and response time, demonstrate the efficacy of our approach. Particularly, our model achieves impressive lead times and response times across different fault scenarios with a false positive rate of 0. The findings of this study hold significant implications for enhancing the safety and reliability of bipedal robotic systems.

arxiv情報

著者 M. Eva Mungai,Gokul Prabhakaran,Jessy W. Grizzle
発行日 2025-06-01 20:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fall Prediction for Bipedal Robots: The Standing Phase はコメントを受け付けていません

Multimodal Sensing and Machine Learning to Compare Printed and Verbal Assembly Instructions Delivered by a Social Robot

要約

このホワイトペーパーでは、印刷された指示とロボット配信の両方の指示を使用して、労働者と通信された手動アセンブリタスクを比較します。
この比較は、実験的研究中に個人から収集された生理学的信号(血液量パルス(BVP)および電気皮膚活性(EDA))を使用して行われました。
さらに、NASAタスクロードインデックス(TLX)調査を使用して、個人の回答も収集しました。
さらに、収集された生理学的信号をNASA TLXの参加者の応答にマッピングして、ワークロードを予測しました。
両方の分類問題について、畳み込みニューラルネットワーク(CNNS)と長期記憶(LSTM)モデルの性能を比較します。
結果は、マルチモーダルデータ(BVPとEDAの両方)を使用したCNNベースのアプローチでは、BVP(約8.38%)およびEDA(約20.49%多く)を使用するよりも良い結果をもたらしたことを示しています。
私たちのLSTMベースのモデルも、マルチモーダルデータを使用した場合、より良い結果をもたらしました(BVPよりも約8.38%多く、EDAよりも6.70%多い)。
全体として、CNNSは、紙とロボットベースの指導の生理学を7.72%分類するためにLSTMよりも優れたパフォーマンスを発揮しました。
CNNベースのモデルは、LSTMベースのモデルと比較して、トレーニングから数分以内に、より良い分類結果(NASA TLXのすべての応答にわたって平均で約17.83%増加)を提供することができました。

要約(オリジナル)

In this paper, we compare a manual assembly task communicated to workers using both printed and robot-delivered instructions. The comparison was made using physiological signals (blood volume pulse (BVP) and electrodermal activity (EDA)) collected from individuals during an experimental study. In addition, we also collected responses of individuals using the NASA Task Load Index (TLX) survey. Furthermore, we mapped the collected physiological signals to the responses of participants for NASA TLX to predict their workload. For both the classification problems, we compare the performance of Convolutional Neural Networks (CNNs) and Long-Short-Term Memory (LSTM) models. Results show that for our CNN-based approach using multimodal data (both BVP and EDA) gave better results than using just BVP (approx. 8.38% more) and EDA (approx 20.49% more). Our LSTM-based model too had better results when we used multimodal data (approx 8.38% more than just BVP and 6.70% more than just EDA). Overall, CNNs performed better than LSTMs for classifying physiologies for paper vs robot-based instruction by 7.72%. The CNN-based model was able to give better classification results (approximately 17.83% more on an average across all responses of the NASA TLX) within a few minutes of training compared to the LSTM-based models.

arxiv情報

著者 Ruchik Mishra,Laksita Prasanna,Adair Adair,Dan O Popa
発行日 2025-06-01 21:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Multimodal Sensing and Machine Learning to Compare Printed and Verbal Assembly Instructions Delivered by a Social Robot はコメントを受け付けていません

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

要約

人間は、物理的な世界で複雑なタスクを処理するときに実際のアクションを実行する前にゆっくりと思考を実践します。
この思考パラダイムは、最近、デジタルドメインの複雑なタスクを解決するために、大規模な言語モデル(LLM)を強化する際に顕著な進歩を達成しました。
しかし、ゆっくりと思考の可能性は、物理的な世界と相互作用するロボット基礎モデルのためにほとんど未踏のままです。
この作業では、Humeを提案します。価値誘導システム-2思考とカスケードアクション除去を備えたデュアルシステムビジョン言語アクション(VLA)モデルを提案します。
HUMEのシステム2は、予測されたアクションの状態アクション価値を推定するために、視覚言語アクションモデルバックボーンを新しいバリュークエリヘッドで拡張することにより、価値誘導思考を実装します。
価値誘導思考は、複数のアクション候補を繰り返しサンプリングし、状態アクション値に応じて1つを選択することによって行われます。
Humeのシステム1は、システム2選択されたアクションを採用し、器用なロボット制御のためのカスケードアクション除去を実行する軽量の反応性視覚運動ポリシーです。
展開時に、システム2は低周波数で価値誘導思考を実行し、システム1はシステム2選択したアクション候補を非同期に受信し、リアルタイムで流体アクションを予測します。
Humeは、複数のシミュレーションベンチマークとリアルロボットの展開にわたる既存の最先端のビジョンアクションモデルを上回ることを示しています。

要約(オリジナル)

Humans practice slow thinking before performing actual actions when handling complex tasks in the physical world. This thinking paradigm, recently, has achieved remarkable advancement in boosting Large Language Models (LLMs) to solve complex tasks in digital domains. However, the potential of slow thinking remains largely unexplored for robotic foundation models interacting with the physical world. In this work, we propose Hume: a dual-system Vision-Language-Action (VLA) model with value-guided System-2 thinking and cascaded action denoising, exploring human-like thinking capabilities of Vision-Language-Action models for dexterous robot control. System 2 of Hume implements value-Guided thinking by extending a Vision-Language-Action Model backbone with a novel value-query head to estimate the state-action value of predicted actions. The value-guided thinking is conducted by repeat sampling multiple action candidates and selecting one according to state-action value. System 1 of Hume is a lightweight reactive visuomotor policy that takes System 2 selected action and performs cascaded action denoising for dexterous robot control. At deployment time, System 2 performs value-guided thinking at a low frequency while System 1 asynchronously receives the System 2 selected action candidate and predicts fluid actions in real time. We show that Hume outperforms the existing state-of-the-art Vision-Language-Action models across multiple simulation benchmark and real-robot deployments.

arxiv情報

著者 Haoming Song,Delin Qu,Yuanqi Yao,Qizhi Chen,Qi Lv,Yiwen Tang,Modi Shi,Guanghui Ren,Maoqing Yao,Bin Zhao,Dong Wang,Xuelong Li
発行日 2025-06-02 04:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Hume: Introducing System-2 Thinking in Visual-Language-Action Model はコメントを受け付けていません

Agile Decision-Making and Safety-Critical Motion Planning for Emergency Autonomous Vehicles

要約

効率は、特に緊急時のAVでは、自律車両(AVS)にとって重要です。
ただし、ほとんどの既存の方法は通常の車両に焦点を当てており、安全性を確保しながら効率を最大化するという課題に対処するために緊急車両が必要とする明確な戦略を見落としています。
この論文では、アクティブおよび安全性の高いモーションプランニングシステム(IDEAM)を使用した統合されたアジャイル意思決定を提案します。
Ideamは、救急車などの緊急AVが、安全を念頭に置いて密な交通シナリオで積極的に効率を達成できるようにすることに焦点を当てています。
第一に、長期間の短期間のグラフ中心の意思決定(LSGM)と名付けられた速度中心の意思決定アルゴリズムが示されています。
LSGMは、複数のパス生成の条件付き深度検索(C-DFS)と、速度の増加とパス選択のリスク評価の方法で構成されており、高効率と安全性の考慮のための堅牢なアルゴリズムを提示します。
第二に、LSGMからの出力パスを使用すると、モーションプランナーは環境条件を再考し、最終計画段階の制約状態を決定します。その中には、レーンプロビング状態は、空間的および速度の優位性を積極的に達成するために設計されています。
第三に、最終的な制約状態と選択されたパスを備えたフレネベースのモデル予測制御(MPC)フレームワークの下で、安全性クリティカルなモーションプランナーは、異なる駆動式に関連する制約をモデル化するために、分離された離散制御バリア機能(DCBF)および線形化された離散時間高次制御バリア機能(DHOCBF)を使用します。
最後に、ランダムに合成データセットのシナリオを使用してシステムを広範囲に検証し、速度の利点を達成し、安全性を同時に確保する能力を実証します。

要約(オリジナル)

Efficiency is critical for autonomous vehicles (AVs), especially for emergency AVs. However, most existing methods focus on regular vehicles, overlooking the distinct strategies required by emergency vehicles to address the challenge of maximizing efficiency while ensuring safety. In this paper, we propose an Integrated Agile Decision-Making with Active and Safety-Critical Motion Planning System (IDEAM). IDEAM focuses on enabling emergency AVs, such as ambulances, to actively attain efficiency in dense traffic scenarios with safety in mind. Firstly, the speed-centric decision-making algorithm named the long short-term spatio-temporal graph-centric decision-making (LSGM) is given. LSGM comprises conditional depth-first search (C-DFS) for multiple paths generation as well as methods for speed gains and risk evaluation for path selection, which presents a robust algorithm for high efficiency and safety consideration. Secondly, with an output path from LSGM, the motion planner reconsiders environmental conditions to decide constraints states for the final planning stage, among which the lane-probing state is designed for actively attaining spatial and speed advantage. Thirdly, under the Frenet-based model predictive control (MPC) framework with final constraints state and selected path, the safety-critical motion planner employs decoupled discrete control barrier functions (DCBFs) and linearized discrete-time high-order control barrier functions (DHOCBFs) to model the constraints associated with different driving behaviors, making the optimal optimization problem convex. Finally, we extensively validate our system using scenarios from a randomly synthetic dataset, demonstrating its capability to achieve speed benefits and assure safety simultaneously.

arxiv情報

著者 Yiming Shu,Jingyuan Zhou,Fu Zhang
発行日 2025-06-02 06:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Agile Decision-Making and Safety-Critical Motion Planning for Emergency Autonomous Vehicles はコメントを受け付けていません

Direct Kinematics, Inverse Kinematics, and Motion Planning of 1-DoF Rational Linkages

要約

この研究では、1つの自由度(DOF)を備えた合理的な単一ループメカニズムの軌道計画を扱う一連のアルゴリズムを提示します。
合理的な動きの二重の四項表現、直接(前方)運動学の式、数値逆運動アルゴリズム、および運転手の軌跡の生成の恩恵を受けます。
Gauss-Newton検索を使用した新しいアプローチを1パラメーターの逆運動学の問題を検索します。
さらに、ツールの滑らかな等距離走行を実行する方法は、ARC長の再評価を適用することにより提供されます。
この一般的なアプローチは、合理的な動きを特徴とする4〜7つのジョイントを備えた1-DOFメカニズムに適用できます。
実験室のセットアップでの使用を実証するために実験が行われました。

要約(オリジナル)

This study presents a set of algorithms that deal with trajectory planning of rational single-loop mechanisms with one degree of freedom (DoF). Benefiting from a dual quaternion representation of a rational motion, a formula for direct (forward) kinematics, a numerical inverse kinematics algorithm, and the generation of a driving-joint trajectory are provided. A novel approach using the Gauss-Newton search for the one-parameter inverse kinematics problem is presented. Additionally, a method for performing smooth equidistant travel of the tool is provided by applying arc-length reparameterization. This general approach can be applied to one-DoF mechanisms with four to seven joints characterized by a rational motion, without any additional geometrical analysis. An experiment was performed to demonstrate the usage in a laboratory setup.

arxiv情報

著者 Daniel Huczala,Andreas Mair,Tomas Postulka
発行日 2025-06-02 07:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Direct Kinematics, Inverse Kinematics, and Motion Planning of 1-DoF Rational Linkages はコメントを受け付けていません

Autonomous Robotic Radio Source Localization via a Novel Gaussian Mixture Filtering Approach

要約

この研究では、未知の環境での自律的なロボット無線信号ソースの検索とローカリゼーションの問題の推定パフォーマンスを改善するために、新しいガウス混合フィルター(GMF)を提案しています。
提案されたフィルターは、最初にベンチマーク数値問題でテストされ、粒子フィルター(PF)や粒子ガウス混合(PGM)フィルターなどの他の最先端のアプローチとのパフォーマンスを検証します。
次に、提案されたアプローチがテストされ、実際のロボットフィールド実験でPFおよびPGMフィルターに対して比較され、実際のアプリケーションへの影響を検証します。
考慮された現実世界のシナリオは、範囲のみの測定値と測定モデルでの不確実性で部分的に観察されます。
結果は、提案されたフィルターがPFと比較して改善されたパフォーマンスを示す一方で、この部分的な観測可能性を効果的に処理できることを示しており、比較技術よりも堅牢性が改善されたことを示しながら、計算要件を減らします。

要約(オリジナル)

This study proposes a new Gaussian Mixture Filter (GMF) to improve the estimation performance for the autonomous robotic radio signal source search and localization problem in unknown environments. The proposed filter is first tested with a benchmark numerical problem to validate the performance with other state-of-the-practice approaches such as Particle Filter (PF) and Particle Gaussian Mixture (PGM) filters. Then the proposed approach is tested and compared against PF and PGM filters in real-world robotic field experiments to validate its impact for real-world applications. The considered real-world scenarios have partial observability with the range-only measurement and uncertainty with the measurement model. The results show that the proposed filter can handle this partial observability effectively whilst showing improved performance compared to PF, reducing the computation requirements while demonstrating improved robustness over compared techniques.

arxiv情報

著者 Sukkeun Kim,Sangwoo Moon,Ivan Petrunin,Hyo-Sang Shin,Shehryar Khattak
発行日 2025-06-02 08:13:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Autonomous Robotic Radio Source Localization via a Novel Gaussian Mixture Filtering Approach はコメントを受け付けていません

Tadashi: Enabling AI-Based Automated Code Generation With Guaranteed Correctness

要約

自動生成コードのフレームワークとドメイン固有の言語は、従来、コード変換の合法性を保証する厳格な方法を実装するために、人間の専門家に依存していました。
最近、機械学習(ML)は、特定のハードウェアターゲットに最適化されたコードを生成するための牽引力を獲得しました。
ただし、MLは、特にブラックボックスニューラルネットワークにアプローチします。
このギャップに対処するために、多面体モデルを活用するエンドツーエンドのシステムであるTadashiを紹介し、MLベースのコード生成に重要なデータセットのキュレーションをサポートします。
Tadashiは、信頼性と実用性の両方を備えた多面体スケジュールの候補変換を適用、検証、および評価できるエンドツーエンドのシステムを提供します。
Tadashiが生成された変換の合法性を保証し、その低いランタイムオーバーヘッドを実証し、その幅広い適用性を示すことを正式に証明します。
Tadashiはhttps://github.com/vatai/tadashi/で入手できます。

要約(オリジナル)

Frameworks and domain-specific languages for auto-generating code have traditionally depended on human experts to implement rigorous methods ensuring the legality of code transformations. Recently, machine learning (ML) has gained traction for generating code optimized for specific hardware targets. However, ML approaches-particularly black-box neural networks-offer no guarantees on the correctness or legality of the transformations they produce. To address this gap, we introduce Tadashi, an end-to-end system that leverages the polyhedral model to support researchers in curating datasets critical for ML-based code generation. Tadashi provides an end-to-end system capable of applying, verifying, and evaluating candidate transformations on polyhedral schedules with both reliability and practicality. We formally prove that Tadashi guarantees the legality of generated transformations, demonstrate its low runtime overhead, and showcase its broad applicability. Tadashi available at https://github.com/vatai/tadashi/.

arxiv情報

著者 Emil Vatai,Aleksandr Drozd,Ivan R. Ivanov,Joao E. Batista,Yinghao Ren,Mohamed Wahib
発行日 2025-06-02 06:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Tadashi: Enabling AI-Based Automated Code Generation With Guaranteed Correctness はコメントを受け付けていません

Retrieval-Augmented Generation with Estimation of Source Reliability

要約

検索された生成(RAG)は、外部データベースを組み込むことにより、幻覚や時代遅れの知識などの大規模な言語モデル(LLM)の重要な制限に対処します。
これらのデータベースは通常、複数のソースを参照して、最新およびさまざまな情報を含みます。
ただし、標準的なRAGメソッドは、マルチソースデータベースの不均一なソースの信頼性を見落とし、関連性のみに基づいてドキュメントを取得することが多く、誤った情報を伝播する傾向があります。
これに対処するために、複数のソースの信頼性を推定し、検索プロセスと集約プロセスの両方にこの情報を組み込む信頼性を認識するRAG(RA-RAG)を提案します。
具体的には、ラベルのない一連のクエリのソースの信頼性と真の回答を繰り返し推定します。
次に、いくつかの信頼できるソースから関連するドキュメントを選択的に取得し、加重多数派の投票を使用してそれらを集計します。ここで、選択的検索により、パフォーマンスを損なうことなくスケーラビリティが保証されます。
また、不均一なソースの信頼性を備えた実際のシナリオを反映するように設計されたベンチマークを導入し、一連のベースラインと比較してRA-RAGの有効性を実証します。

要約(オリジナル)

Retrieval-augmented generation (RAG) addresses key limitations of large language models (LLMs), such as hallucinations and outdated knowledge, by incorporating external databases. These databases typically consult multiple sources to encompass up-to-date and various information. However, standard RAG methods often overlook the heterogeneous source reliability in the multi-source database and retrieve documents solely based on relevance, making them prone to propagating misinformation. To address this, we propose Reliability-Aware RAG (RA-RAG) which estimates the reliability of multiple sources and incorporates this information into both retrieval and aggregation processes. Specifically, it iteratively estimates source reliability and true answers for a set of queries with no labelling. Then, it selectively retrieves relevant documents from a few of reliable sources and aggregates them using weighted majority voting, where the selective retrieval ensures scalability while not compromising the performance. We also introduce a benchmark designed to reflect real-world scenarios with heterogeneous source reliability and demonstrate the effectiveness of RA-RAG compared to a set of baselines.

arxiv情報

著者 Jeongyeon Hwang,Junyoung Park,Hyejin Park,Dongwoo Kim,Sangdon Park,Jungseul Ok
発行日 2025-06-02 06:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Retrieval-Augmented Generation with Estimation of Source Reliability はコメントを受け付けていません

Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning

要約

Active Learning(AL)により、モデルはユーザーフィードバックからインタラクティブに学習できます。
このペーパーでは、ALへの反事実的なデータ増強アプローチを紹介します。特に、データ効率を高める上での極めて重要な懸念であるユーザークエリのデータポイントの選択に対処します。
私たちのアプローチは、バリエーション理論、人間の概念学習の理論であり、何が同じままで変化するかに焦点を当てることによって概念の本質的な特徴を強調する理論です。
既存のデータポイントでクエリするだけでなく、私たちのアプローチは、大規模な言語モデル(LLMS)とルールベースのモデルを組み合わせたニューロシンボリックパイプラインを使用して、ラベル間の潜在的な重要な類似性と相違点を強調する人工データポイントを統合します。
テキスト分類の例の例での実験を通じて、注釈付きデータが少ない場合、アプローチが大幅に高いパフォーマンスを達成することを示します。
注釈付きトレーニングデータが大きくなると、生成されたデータの影響が減少し始め、ALのコールドスタート問題に対処する能力が示されます。
この研究は、人間の学習の理論をAlの最適化に統合することに光を当てています。

要約(オリジナル)

Active Learning (AL) allows models to learn interactively from user feedback. This paper introduces a counterfactual data augmentation approach to AL, particularly addressing the selection of datapoints for user querying, a pivotal concern in enhancing data efficiency. Our approach is inspired by Variation Theory, a theory of human concept learning that emphasizes the essential features of a concept by focusing on what stays the same and what changes. Instead of just querying with existing datapoints, our approach synthesizes artificial datapoints that highlight potential key similarities and differences among labels using a neuro-symbolic pipeline combining large language models (LLMs) and rule-based models. Through an experiment in the example domain of text classification, we show that our approach achieves significantly higher performance when there are fewer annotated data. As the annotated training data gets larger the impact of the generated data starts to diminish showing its capability to address the cold start problem in AL. This research sheds light on integrating theories of human learning into the optimization of AL.

arxiv情報

著者 Simret Araya Gebreegziabher,Kuangshi Ai,Zheng Zhang,Elena L. Glassman,Toby Jia-Jun Li
発行日 2025-06-02 06:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG | Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning はコメントを受け付けていません