Training Large Language Models for Advanced Typosquatting Detection

要約

タイプスカーティングは、ユーザーを欺き、マルウェアを配布し、フィッシング攻撃を実施するためにURLを入力する際に​​ヒューマンエラーを活用する長年のサイバー脅威です。
ドメイン名と新しいトップレベルのドメイン(TLD)の急増により、タイプスケート技術はより洗練され、個人、企業、および国家サイバーセキュリティインフラストラクチャに大きなリスクをもたらしました。
従来の検出方法は、主によく知られているなりすましパターンに焦点を当てており、より複雑な攻撃を特定する範囲を残しています。
この研究では、タイプスキャット検出を強化するために、大規模な言語モデル(LLMS)を活用する新しいアプローチを紹介します。
ドメイン固有のデータではなく、キャラクターレベルの変換とパターンベースのヒューリスティックに関するLLMをトレーニングすることにより、より適応性のある回復力のある検出メカニズムが開発されます。
実験結果は、PHI-4 14Bモデルが、数千のトレーニングサンプルで98%の精度を適切に調整した場合、他のテストモデルよりも優れていることを示しています。
この研究は、サイバーセキュリティアプリケーション、特にドメインベースの欺ception戦術の緩和におけるLLMの可能性を強調し、脅威検出のための機械学習戦略の最適化に関する洞察を提供します。

要約(オリジナル)

Typosquatting is a long-standing cyber threat that exploits human error in typing URLs to deceive users, distribute malware, and conduct phishing attacks. With the proliferation of domain names and new Top-Level Domains (TLDs), typosquatting techniques have grown more sophisticated, posing significant risks to individuals, businesses, and national cybersecurity infrastructure. Traditional detection methods primarily focus on well-known impersonation patterns, leaving gaps in identifying more complex attacks. This study introduces a novel approach leveraging large language models (LLMs) to enhance typosquatting detection. By training an LLM on character-level transformations and pattern-based heuristics rather than domain-specific data, a more adaptable and resilient detection mechanism develops. Experimental results indicate that the Phi-4 14B model outperformed other tested models when properly fine tuned achieving a 98% accuracy rate with only a few thousand training samples. This research highlights the potential of LLMs in cybersecurity applications, specifically in mitigating domain-based deception tactics, and provides insights into optimizing machine learning strategies for threat detection.

arxiv情報

著者 Jackson Welch
発行日 2025-03-28 13:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.NI | Training Large Language Models for Advanced Typosquatting Detection はコメントを受け付けていません

Autonomous AI imitators increase diversity in homogeneous information ecosystems

要約

大規模な言語モデル(LLMS)の最近のブレークスルーにより、人間が生成したコンテンツを模倣できる自律AIエージェントが促進されました。
この技術の進歩は、情報生態系の多様性と民主的価値に対するAIの影響に関する基本的な疑問を提起します。
大規模なシミュレーションフレームワークを紹介して、ニュース内のAIベースの模倣を調べることができます。これは、公の談話に不可欠なコンテキストです。
初期の多様性がさまざまなさまざまな情報環境で2つの異なる模倣戦略を体系的にテストすることにより、AI生成された記事が均一に均質化しないことを実証します。
代わりに、AIの影響は強くコンテキスト依存しています。AI生成されたコンテンツは、もともと均質なニュース環境で貴重な多様性を導入できますが、最初は不均一なコンテキストで多様性を低下させます。
これらの結果は、情報環境の初期の多様性がAIの影響を強く形成し、AI主導の模倣が多様性を脅かすという仮定に挑戦していることを示しています。
代わりに、情報が最初に均一である場合、AI駆動型の模倣は視点、スタイル、およびトピックを拡大することができます。
これは、情報の多様性が、市民を代替の視点にさらし、バイアスに挑戦し、弾力性のある民主主義に不可欠な物語の独占を防ぐことにより、より豊かな公開討論を促進するニュースの文脈で特に重要です。

要約(オリジナル)

Recent breakthroughs in large language models (LLMs) have facilitated autonomous AI agents capable of imitating human-generated content. This technological advancement raises fundamental questions about AI’s impact on the diversity and democratic value of information ecosystems. We introduce a large-scale simulation framework to examine AI-based imitation within news, a context crucial for public discourse. By systematically testing two distinct imitation strategies across a range of information environments varying in initial diversity, we demonstrate that AI-generated articles do not uniformly homogenize content. Instead, AI’s influence is strongly context-dependent: AI-generated content can introduce valuable diversity in originally homogeneous news environments but diminish diversity in initially heterogeneous contexts. These results illustrate that the initial diversity of an information environment critically shapes AI’s impact, challenging assumptions that AI-driven imitation threatens diversity. Instead, when information is initially homogeneous, AI-driven imitation can expand perspectives, styles, and topics. This is especially important in news contexts, where information diversity fosters richer public debate by exposing citizens to alternative viewpoints, challenging biases, and preventing narrative monopolies, which is essential for a resilient democracy.

arxiv情報

著者 Emil Bakkensen Johansen,Oliver Baumann
発行日 2025-03-28 13:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, J.4 | Autonomous AI imitators increase diversity in homogeneous information ecosystems はコメントを受け付けていません

CoSIL: Software Issue Localization via LLM-Driven Code Repository Graph Searching

要約

大規模な言語モデル(LLMS)は、自律的なソフトウェアエンジニアリングを大幅に進めており、開発者が自動プログラム修復を支援するソフトウェアエンジニアリングエージェントの数が増えています。
問題のローカリゼーションは、正確なパッチ生成の基礎を形成します。
ただし、LLMのコンテキストウィンドウの長さによって引き起こされる制限のため、既存の問題のローカリゼーション方法は、簡潔で効果的なコンテキストと適切に包括的な検索スペースのバランスをとる際の課題に直面しています。
このホワイトペーパーでは、トレーニングやインデックスを作成せずにLLM駆動型でシンプルで強力な機能レベルの発行ローカリゼーション方法であるCosilを紹介します。
COSILは、モジュールコールグラフを介して検索空間を減らし、関数コールグラフを繰り返し検索して関連するコンテキストを取得し、コンテキストを使用して検索方向を制御し、コンテキストを効果的に管理します。
重要なことに、コールグラフは検索中にLLMによって動的に構築され、事前抑制の必要性を排除することです。
実験結果は、COSILがQWEN2.5 Coder 32Bを使用して、それぞれSWE Bench LiteとSWE Benchが検証し、既存の方法を8.6〜98.2%上回る、それぞれ43%と44.6%のトップ1ローカリゼーション成功率を達成したことを示しています。
COSILがパッチ生成段階を導くために適用されると、解決速度はさらに9.3〜31.5%向上します。

要約(オリジナル)

Large language models (LLMs) have significantly advanced autonomous software engineering, leading to a growing number of software engineering agents that assist developers in automatic program repair. Issue localization forms the basis for accurate patch generation. However, because of limitations caused by the context window length of LLMs, existing issue localization methods face challenges in balancing concise yet effective contexts and adequately comprehensive search spaces. In this paper, we introduce CoSIL, an LLM driven, simple yet powerful function level issue localization method without training or indexing. CoSIL reduces the search space through module call graphs, iteratively searches the function call graph to obtain relevant contexts, and uses context pruning to control the search direction and manage contexts effectively. Importantly, the call graph is dynamically constructed by the LLM during search, eliminating the need for pre-parsing. Experiment results demonstrate that CoSIL achieves a Top-1 localization success rate of 43 percent and 44.6 percent on SWE bench Lite and SWE bench Verified, respectively, using Qwen2.5 Coder 32B, outperforming existing methods by 8.6 to 98.2 percent. When CoSIL is applied to guide the patch generation stage, the resolved rate further improves by 9.3 to 31.5 percent.

arxiv情報

著者 Zhonghao Jiang,Xiaoxue Ren,Meng Yan,Wei Jiang,Yong Li,Zhongxin Liu
発行日 2025-03-28 13:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | CoSIL: Software Issue Localization via LLM-Driven Code Repository Graph Searching はコメントを受け付けていません

A Causal Framework to Measure and Mitigate Non-binary Treatment Discrimination

要約

アルゴリズムの意思決定システムの公平性研究では、しばしば保釈やローンの承認などの複雑な意思決定プロセスをバイナリ分類タスクに簡素化します。
ただし、これらのアプローチは、そのような決定が本質的にバイナリではないことを見落としています(例えば、保釈またはローンを承認または承認しない)。
また、下流の結果に影響を与える可能性のある非バイナリ治療の決定(保釈条件や融資条件など)(例:ローンの返済や再犯)が含まれます。
この論文では、非バイナリ治療の決定は意思決定プロセスに不可欠であり、意思決定者によって管理されているため、アルゴリズムの意思決定における公平性分析の中心であるべきであると主張します。
公平性分析を拡張し、意思決定者の共変量と治療の決定を明示的に区別する因果フレームワークを提案します。
この仕様により、意思決定者は私たちのフレームワークを使用して、(i)履歴データにおける治療の格差とその下流の影響を測定し、反事実的な推論を使用して、(ii)意思決定を自動化する際の過去の不公平な治療決定の影響を軽減することができます。
私たちのフレームワークを使用して、4つの広く使用されているローン承認データセットを経験的に分析して、非バイナリ治療の決定における潜在的な格差と結果に対する差別的な影響を明らかにし、公平性評価に治療の決定を組み込む必要性を強調しています。
さらに、治療の決定に介入することにより、私たちのフレームワークは、すべての利害関係者に利益をもたらす公正なリスクスコアの推定と(非バイナリ)意思決定プロセスを確保するために、履歴データからの治療差別を効果的に軽減することを示します。

要約(オリジナル)

Fairness studies of algorithmic decision-making systems often simplify complex decision processes, such as bail or loan approvals, into binary classification tasks. However, these approaches overlook that such decisions are not inherently binary (e.g., approve or not approve bail or loan); they also involve non-binary treatment decisions (e.g., bail conditions or loan terms) that can influence the downstream outcomes (e.g., loan repayment or reoffending). In this paper, we argue that non-binary treatment decisions are integral to the decision process and controlled by decision-makers and, therefore, should be central to fairness analyses in algorithmic decision-making. We propose a causal framework that extends fairness analyses and explicitly distinguishes between decision-subjects’ covariates and the treatment decisions. This specification allows decision-makers to use our framework to (i) measure treatment disparity and its downstream effects in historical data and, using counterfactual reasoning, (ii) mitigate the impact of past unfair treatment decisions when automating decision-making. We use our framework to empirically analyze four widely used loan approval datasets to reveal potential disparity in non-binary treatment decisions and their discriminatory impact on outcomes, highlighting the need to incorporate treatment decisions in fairness assessments. Moreover, by intervening in treatment decisions, we show that our framework effectively mitigates treatment discrimination from historical data to ensure fair risk score estimation and (non-binary) decision-making processes that benefit all stakeholders.

arxiv情報

著者 Ayan Majumdar,Deborah D. Kanubala,Kavya Gupta,Isabel Valera
発行日 2025-03-28 14:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Causal Framework to Measure and Mitigate Non-binary Treatment Discrimination はコメントを受け付けていません

Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning

要約

エントロピー誘導シーケンス重み付け(EGSW)を導入します。これは、強化学習ベースの大手言語モデルの微調整のための利点とエントロピーに基づいて、生成された出力に重みを動的に割り当てることにより、探査と露出のトレードオフを強化する新しいアプローチです。
EGSWは、エントロピーの正則化をアドバンテージベースの重み付けと統合して、ポリシーの更新のバランスを取り、高次元の状態空間での効率的な探索を可能にします。
シーケンスにわたって温度スケールのソフトマックスの重み付けを使用することにより、EGSWはトレーニングの安定性を維持しながら、高報酬の高度不確実なステップを優先します。
もともとは、大規模な言語モデル(LLM)の微調整中にグループ相対ポリシーの最適化(GRPO)を改善するために開発されましたが、EGSWは他の強化学習(RL)アルゴリズムに一般化でき、段階的および軌跡ごとの設定の両方で実装できます。
経験的評価は、EGSWがGRPO推論能力を高め、サンプル効率の改善をもたらすことを示しています。
将来の作業では、EGSWの高度なRL方法論への適用を調査します。

要約(オリジナル)

We introduce Entropy-Guided Sequence Weighting (EGSW), a novel approach that enhances the exploration-exploitation tradeoff by dynamically assigning weights to generated outputs based on their advantage and entropy for Reinforcement Learning-based Large Language Model fine-tuning. EGSW integrates entropy regularization with advantage-based weighting to balance policy updates, enabling efficient exploration in high-dimensional state spaces. By employing temperature-scaled softmax weighting over sequences, EGSW prioritizing high-reward, high-uncertainty steps while maintaining training stability. Although originally developed to improve Group Relative Policy Optimization (GRPO) during large language model (LLM) fine-tuning, EGSW is generalizable to other reinforcement learning (RL) algorithms and can be implemented in both step-wise and trajectory-wise settings. Empirical evaluations demonstrate that EGSW enhances GRPO reasoning ability, yielding improvements in sample efficiency. Future work will explore the application of EGSW to advanced RL methodologies.

arxiv情報

著者 Abdullah Vanlioglu
発行日 2025-03-28 14:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning はコメントを受け付けていません

Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey

要約

この調査では、マルチターン会話設定の大規模な言語モデル(LLM)ベースのエージェントの評価方法を調べます。
Prismaにインスパイアされたフレームワークを使用して、250近くの学術源を体系的にレビューし、出版物のさまざまな場所から最先端を獲得し、分析のための強固な基盤を確立しました。
私たちの研究は、2つの相互に関連した分類システムを開発することにより、構造化されたアプローチを提供します。1つは\ emph {何を評価するか}を定義し、もう1つは\ empheを説明する{評価方法}を説明します。
最初の分類法は、マルチターン会話と、タスクの完了、応答品質、ユーザーエクスペリエンス、メモリ、コンテキスト保持、計画とツールの統合など、マルチターン会話とその評価の次元のためのLLMベースのエージェントの重要なコンポーネントを識別します。
これらのコンポーネントは、会話エージェントのパフォーマンスが全体的かつ意味のある方法で評価されることを保証します。
2番目の分類システムは、評価方法に焦点を当てています。
アプローチは、注釈ベースの評価、自動化されたメトリック、人間の評価と定量的尺度を組み合わせたハイブリッド戦略、およびLLMを利用する自己判断方法に分類します。
このフレームワークは、BLEUやルージュスコアなどの言語理解から派生した従来の指標を捉えているだけでなく、マルチターン対話の動的でインタラクティブな性質を反映する高度なテクニックも組み込まれています。

要約(オリジナル)

This survey examines evaluation methods for large language model (LLM)-based agents in multi-turn conversational settings. Using a PRISMA-inspired framework, we systematically reviewed nearly 250 scholarly sources, capturing the state of the art from various venues of publication, and establishing a solid foundation for our analysis. Our study offers a structured approach by developing two interrelated taxonomy systems: one that defines \emph{what to evaluate} and another that explains \emph{how to evaluate}. The first taxonomy identifies key components of LLM-based agents for multi-turn conversations and their evaluation dimensions, including task completion, response quality, user experience, memory and context retention, as well as planning and tool integration. These components ensure that the performance of conversational agents is assessed in a holistic and meaningful manner. The second taxonomy system focuses on the evaluation methodologies. It categorizes approaches into annotation-based evaluations, automated metrics, hybrid strategies that combine human assessments with quantitative measures, and self-judging methods utilizing LLMs. This framework not only captures traditional metrics derived from language understanding, such as BLEU and ROUGE scores, but also incorporates advanced techniques that reflect the dynamic, interactive nature of multi-turn dialogues.

arxiv情報

著者 Shengyue Guan,Haoyi Xiong,Jindong Wang,Jiang Bian,Bin Zhu,Jian-guang Lou
発行日 2025-03-28 14:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey はコメントを受け付けていません

LoRD: Adapting Differentiable Driving Policies to Distribution Shifts

要約

運用ドメイン間の分布シフトは、自動運転車(SDV)の学習モデルの性能に深刻な影響を与える可能性があります。
これは確立された問題ですが、以前の研究では、モーション予測タスクに焦点を当てて、微調整などの素朴なソリューションをほとんど探求しています。
この作業では、予測、計画、および制御からなる微分可能な自律性スタックの新しい適応戦略を探り、閉ループで評価を実行し、壊滅的な忘却の頻繁に見過ごされている問題を調査します。
具体的には、2つのシンプルでありながら効果的な手法を紹介します。低ランクの残留デコーダー(Lord)とマルチタスクの微調整です。
2つの実際の自律駆動データセット(Nuplan、Exid)で実施された3つのモデルにわたる実験を通じて、方法の有効性を実証し、以前のアプローチでのオープンループと閉ループ評価の間の重要なパフォーマンスギャップを強調します。
私たちのアプローチは、標準的な微調整と比較して、最大23.33%の忘却と閉ループのOOD運転スコアを9.93%改善します。

要約(オリジナル)

Distribution shifts between operational domains can severely affect the performance of learned models in self-driving vehicles (SDVs). While this is a well-established problem, prior work has mostly explored naive solutions such as fine-tuning, focusing on the motion prediction task. In this work, we explore novel adaptation strategies for differentiable autonomy stacks consisting of prediction, planning, and control, perform evaluation in closed-loop, and investigate the often-overlooked issue of catastrophic forgetting. Specifically, we introduce two simple yet effective techniques: a low-rank residual decoder (LoRD) and multi-task fine-tuning. Through experiments across three models conducted on two real-world autonomous driving datasets (nuPlan, exiD), we demonstrate the effectiveness of our methods and highlight a significant performance gap between open-loop and closed-loop evaluation in prior approaches. Our approach improves forgetting by up to 23.33% and the closed-loop OOD driving score by 9.93% in comparison to standard fine-tuning.

arxiv情報

著者 Christopher Diehl,Peter Karkus,Sushant Veer,Marco Pavone,Torsten Bertram
発行日 2025-03-28 14:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | LoRD: Adapting Differentiable Driving Policies to Distribution Shifts はコメントを受け付けていません

Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent

要約

確率的勾配降下の挙動は、SGDが純粋にベイジアンの方法でフラクタル次元を説明できるフラクタル景観に効果的に拡散していることを示すことにより、ベイジアン統計に関連していることを示します。
これを行うことにより、SGDは、損失状況のフラクタル構造によって引き起こされるアクセシビリティの制約を説明する修正されたベイジアンサンプラーと見なすことができることを示します。
トレーニング中の重量の拡散を調べることにより、結果を実験的に検証します。
これらの結果は、学習プロセスを決定する要因についての洞察を提供し、SGDと純粋にベイジアンサンプリングがどのように関連しているかという問題に答えているように見えます。

要約(オリジナル)

We show that the behavior of stochastic gradient descent is related to Bayesian statistics by showing that SGD is effectively diffusion on a fractal landscape, where the fractal dimension can be accounted for in a purely Bayesian way. By doing this we show that SGD can be regarded as a modified Bayesian sampler which accounts for accessibility constraints induced by the fractal structure of the loss landscape. We verify our results experimentally by examining the diffusion of weights during training. These results offer insight into the factors which determine the learning process, and seemingly answer the question of how SGD and purely Bayesian sampling are related.

arxiv情報

著者 Max Hennick,Stijn De Baerdemacker
発行日 2025-03-28 14:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent はコメントを受け付けていません

Hybrid Action Based Reinforcement Learning for Multi-Objective Compatible Autonomous Driving

要約

強化学習(RL)は、自律運転の意思決定と制御の問題を解決する上で優れたパフォーマンスを示しており、これは多様な運転シナリオにますます適用されています。
ただし、運転は多属性の問題であり、特にポリシーの実行とポリシー反復の両方において、現在のRLメソッドの多目的互換性を達成する際の課題につながります。
一方では、単一のアクションタイプを備えた共通アクション空間構造により、柔軟性を促進するか、ポリシーの実行中に大きな動作の変動をもたらします。
一方、多属性加重単一報酬関数は、ポリシーの反復中に特定の目標に対するエージェントの不均衡な注意を払うことになります。
この目的のために、多目的互換性のある自律運転のためのハイブリッドパラメーター化されたアクションを備えた多目的アンサンブル批判的な補強学習方法を提案します。
具体的には、抽象的なガイダンスとコンクリート制御コマンドの両方を組み合わせて、ハイブリッド運転アクションを生成するためにパラメーター化されたアクションスペースが構築されています。
複数の属性の報酬を考慮して、多目的批評家アーキテクチャが構築され、異なる運転目的に同時に焦点を合わせます。
さらに、不確実性に基づく探索戦略が導入され、エージェントが実行可能な運転ポリシーをより速くするのに役立ちます。
シミュレートされた交通環境とHighDデータセットの両方における実験結果は、我々の方法が運転効率、アクションの一貫性、安全性の観点から多目的互換性のある自律運転を実現できることを示しています。
運転の一般的なパフォーマンスが向上し、トレーニング効率が大幅に向上します。

要約(オリジナル)

Reinforcement Learning (RL) has shown excellent performance in solving decision-making and control problems of autonomous driving, which is increasingly applied in diverse driving scenarios. However, driving is a multi-attribute problem, leading to challenges in achieving multi-objective compatibility for current RL methods, especially in both policy execution and policy iteration. On the one hand, the common action space structure with single action type limits driving flexibility or results in large behavior fluctuations during policy execution. On the other hand, the multi-attribute weighted single reward function result in the agent’s disproportionate attention to certain objectives during policy iterations. To this end, we propose a Multi-objective Ensemble-Critic reinforcement learning method with Hybrid Parametrized Action for multi-objective compatible autonomous driving. Specifically, a parameterized action space is constructed to generate hybrid driving actions, combining both abstract guidance and concrete control commands. A multi-objective critics architecture is constructed considering multiple attribute rewards, to ensure simultaneously focusing on different driving objectives. Additionally, uncertainty-based exploration strategy is introduced to help the agent faster approach viable driving policy. The experimental results in both the simulated traffic environment and the HighD dataset demonstrate that our method can achieve multi-objective compatible autonomous driving in terms of driving efficiency, action consistency, and safety. It enhances the general performance of the driving while significantly increasing training efficiency.

arxiv情報

著者 Guizhe Jin,Zhuoren Li,Bo Leng,Wei Han,Lu Xiong,Chen Sun
発行日 2025-03-28 14:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG, cs.RO | Hybrid Action Based Reinforcement Learning for Multi-Objective Compatible Autonomous Driving はコメントを受け付けていません

Robust Offline Imitation Learning Through State-level Trajectory Stitching

要約

模倣学習(IL)は、専門家のデモンストレーションを通じてロボットが視覚運動スキルを獲得できるようにするのに効果的であることが証明されています。
ただし、従来のIL方法は、高品質でしばしば希少な専門家のデータに依存しており、共変量シフトに苦しむことによって制限されています。
これらの課題に対処するために、オフラインILの最近の進歩により、最適でない、ラベルのないデータセットがトレーニングに組み込まれています。
この論文では、タスク関連の軌跡フラグメントと豊富な環境ダイナミクスを活用することにより、混合品質のオフラインデータセットからのポリシー学習を強化するための新しいアプローチを提案します。
具体的には、不完全なデモンストレーションから状態アクションペアを縫う状態ベースの検索フレームワークを紹介し、より多様で有益なトレーニングの軌跡を生成します。
標準のILベンチマークと現実世界のロボットタスクに関する実験結果は、提案された方法が一般化とパフォーマンスの両方を大幅に改善することを示しています。

要約(オリジナル)

Imitation learning (IL) has proven effective for enabling robots to acquire visuomotor skills through expert demonstrations. However, traditional IL methods are limited by their reliance on high-quality, often scarce, expert data, and suffer from covariate shift. To address these challenges, recent advances in offline IL have incorporated suboptimal, unlabeled datasets into the training. In this paper, we propose a novel approach to enhance policy learning from mixed-quality offline datasets by leveraging task-relevant trajectory fragments and rich environmental dynamics. Specifically, we introduce a state-based search framework that stitches state-action pairs from imperfect demonstrations, generating more diverse and informative training trajectories. Experimental results on standard IL benchmarks and real-world robotic tasks showcase that our proposed method significantly improves both generalization and performance.

arxiv情報

著者 Shuze Wang,Yunpeng Mei,Hongjie Cao,Yetian Yuan,Gang Wang,Jian Sun,Jie Chen
発行日 2025-03-28 15:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Robust Offline Imitation Learning Through State-level Trajectory Stitching はコメントを受け付けていません