HypRL: Reinforcement Learning of Control Policies for Hyperproperties

要約

複雑なタスクに対するマルチエージェント強化学習(MARL)の報酬形状は依然として重要な課題です。
既存のアプローチは、最適なソリューションを見つけることができないことが多い、またはそのようなタスクを効率的に処理できないことがよくあります。
制御ポリシーW.R.T.
hyperltlで表されるハイパープロパティ。
ハイパープロパティは、エージェント間の実行トレースのセットを介して目標と制約を指定するための強力な形式主義を構成します。
Hyperltl式$ \ phi $の満足度を最大化するポリシーを学習するために、スコール化を適用して定量化装置の代替を管理し、定量的堅牢性関数を定義して、未知の遷移を持つマルコフ決定プロセスの実行トレースよりも報酬を形作ります。
次に、適切なRLアルゴリズムを使用して、予想される報酬を集合的に最大化し、その結果、$ \ phi $を満たす確率を高めるポリシーを学習します。
安全性を認識した計画、深海の宝物、および対応後の問題など、さまざまなベンチマークのセットでHyprlを評価します。
また、仕様駆動型ベースラインと比較して、Hyprlの有効性と効率を実証します。

要約(オリジナル)

Reward shaping in multi-agent reinforcement learning (MARL) for complex tasks remains a significant challenge. Existing approaches often fail to find optimal solutions or cannot efficiently handle such tasks. We propose HYPRL, a specification-guided reinforcement learning framework that learns control policies w.r.t. hyperproperties expressed in HyperLTL. Hyperproperties constitute a powerful formalism for specifying objectives and constraints over sets of execution traces across agents. To learn policies that maximize the satisfaction of a HyperLTL formula $\phi$, we apply Skolemization to manage quantifier alternations and define quantitative robustness functions to shape rewards over execution traces of a Markov decision process with unknown transitions. A suitable RL algorithm is then used to learn policies that collectively maximize the expected reward and, consequently, increase the probability of satisfying $\phi$. We evaluate HYPRL on a diverse set of benchmarks, including safety-aware planning, Deep Sea Treasure, and the Post Correspondence Problem. We also compare with specification-driven baselines to demonstrate the effectiveness and efficiency of HYPRL.

arxiv情報

著者 Tzu-Han Hsu,Arshia Rafieioskouei,Borzoo Bonakdarpour
発行日 2025-06-13 16:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO | HypRL: Reinforcement Learning of Control Policies for Hyperproperties はコメントを受け付けていません

Enhancing multimodal analogical reasoning with Logic Augmented Generation

要約

大規模な言語モデルの最近の進歩により、さまざまなタスクにわたって能力が実証されています。
ただし、自然言語から暗黙の知識を自動的に抽出することは、マシンが物理的な世界で積極的な経験を欠いているため、重要な課題のままです。
このシナリオを考えると、セマンティックナレッジグラフは、より効率的で説明可能な結果を​​達成するために、自動化されたテキスト生成推論プロセスを導く概念的なスペースとして機能します。
このホワイトペーパーでは、セマンティックナレッジグラフを介してテキストの明示的な表現を活用し、迅速なヒューリスティックと組み合わせて暗黙的な類推接続を引き出すために、それを迅速に適用するロジックの高等生成(LAG)フレームワークを適用します。
この方法では、暗黙の意味を表す拡張された知識グラフトリプルを生成し、ドメインに関係なく、システムが非標識マルチモーダルデータの推論を可能にします。
深い類似の推論能力が必要なため、4つのデータセットで3つのメタファーの検出と理解を介して作業を検証します。
結果は、この統合されたアプローチが現在のベースラインを上回り、視覚的なメタファーを理解する際に人間よりも優れていることを示しており、より説明しやすい推論プロセスを可能にしますが、特にドメイン固有のメタファーのメタファー理解には固有の制限があります。
さらに、比phor的な注釈と現在の評価方法に関する問題について議論し、徹底的なエラー分析を提案します。

要約(オリジナル)

Recent advances in Large Language Models have demonstrated their capabilities across a variety of tasks. However, automatically extracting implicit knowledge from natural language remains a significant challenge, as machines lack active experience with the physical world. Given this scenario, semantic knowledge graphs can serve as conceptual spaces that guide the automated text generation reasoning process to achieve more efficient and explainable results. In this paper, we apply a logic-augmented generation (LAG) framework that leverages the explicit representation of a text through a semantic knowledge graph and applies it in combination with prompt heuristics to elicit implicit analogical connections. This method generates extended knowledge graph triples representing implicit meaning, enabling systems to reason on unlabeled multimodal data regardless of the domain. We validate our work through three metaphor detection and understanding tasks across four datasets, as they require deep analogical reasoning capabilities. The results show that this integrated approach surpasses current baselines, performs better than humans in understanding visual metaphors, and enables more explainable reasoning processes, though still has inherent limitations in metaphor understanding, especially for domain-specific metaphors. Furthermore, we propose a thorough error analysis, discussing issues with metaphorical annotations and current evaluation methods.

arxiv情報

著者 Anna Sofia Lippolis,Andrea Giovanni Nuzzolese,Aldo Gangemi
発行日 2025-06-13 16:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Enhancing multimodal analogical reasoning with Logic Augmented Generation はコメントを受け付けていません

Self-interpreting Adversarial Images

要約

自己解釈画像の作成を可能にする視覚言語モデルに対する新しいタイプの間接的なクロスインジェクション攻撃を導入します。
これらの画像には、モデルが画像に関するユーザーの質問に答える方法を制御する隠された「メタインストラクション」が含まれており、モデルの出力を操作して、敵対的なスタイル、感情、または視点を表現しています。
自己解釈画像はソフトプロンプトとして機能し、モデルを調整して、画像の視覚コンテンツに基づいて回答を生成しながら、敵の(メタ)目的を満たします。
したがって、メタインストラクションは迅速な注入のより強い形態です。
敵対的なイメージは自然に見え、モデルの答えは一貫性があり、もっともらしいですが、それはまた、敵対した解釈、例えば政治的スピン、または明示的なテキストの指示では達成できない目的でさえも従います。
さまざまなモデル、解釈、ユーザープロンプトの自己解釈画像の有効性を評価します。
これらの攻撃が、スパム、誤った情報、またはスピンを運ぶ自己解釈コンテンツの作成を可能にすることにより、どのように害を引き起こす可能性があるかを説明します。
最後に、防御について説明します。

要約(オリジナル)

We introduce a new type of indirect, cross-modal injection attacks against visual language models that enable creation of self-interpreting images. These images contain hidden ‘meta-instructions’ that control how models answer users’ questions about the image and steer models’ outputs to express an adversary-chosen style, sentiment, or point of view. Self-interpreting images act as soft prompts, conditioning the model to satisfy the adversary’s (meta-)objective while still producing answers based on the image’s visual content. Meta-instructions are thus a stronger form of prompt injection. Adversarial images look natural and the model’s answers are coherent and plausible, yet they also follow the adversary-chosen interpretation, e.g., political spin, or even objectives that are not achievable with explicit text instructions. We evaluate the efficacy of self-interpreting images for a variety of models, interpretations, and user prompts. We describe how these attacks could cause harm by enabling creation of self-interpreting content that carries spam, misinformation, or spin. Finally, we discuss defenses.

arxiv情報

著者 Tingwei Zhang,Collin Zhang,John X. Morris,Eugene Bagdasarian,Vitaly Shmatikov
発行日 2025-06-13 16:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Self-interpreting Adversarial Images はコメントを受け付けていません

Subjective Experience in AI Systems: What Do AI Researchers and the Public Believe?

要約

主要なAI会場で発表した582人のAI研究者と、主観的な経験を持つAIシステムの潜在的な開発に関する意見と、そのようなシステムの扱いと統治の方法についての838人の全国代表の米国の参加者を調査しました。
そのようなシステムが特定の日付に存在する可能性を推定するように求められたとき、反応の中央値は2024年までに1%(AI研究者)、2034年までに25%と30%、および2100年ごとに70%と60%でした。
一般のメンバーは、主観的な経験を持つAIシステムが存在しない可能性が高いと考えていました(25%)AI研究者の中央値(10%)。
両方のグループは、AI主観的な経験を評価するために学際的な専門知識の必要性を認識していました。
このようなAIシステムの福祉保護への支援は反対を超えましたが、動物や環境の保護に対する支援よりもはるかに低いままでした。
道徳的およびガバナンスの問題に対する態度は、特にそのようなシステムを作成すべきかどうか、どのような権利または保護を受け取るべきかに関して、両方のグループで分割されました。
しかし、両方のグループの回答者の大多数は、主観的な経験を持つAIシステムからの潜在的なリスクに対する保護は現在AI開発者によって実装されるべきであることに同意しました。
全体として、これらの結果は、AIの研究者と国民の両方が、主観的な経験を持つAIシステムの出現を今世紀の可能性と見なしていることを示唆していますが、タイムラインと適切な対応についてはかなりの不確実性と不一致が残っています。

要約(オリジナル)

We surveyed 582 AI researchers who have published in leading AI venues and 838 nationally representative US participants about their views on the potential development of AI systems with subjective experience and how such systems should be treated and governed. When asked to estimate the chances that such systems will exist on specific dates, the median responses were 1% (AI researchers) and 5% (public) by 2024, 25% and 30% by 2034, and 70% and 60% by 2100, respectively. The median member of the public thought there was a higher chance that AI systems with subjective experience would never exist (25%) than the median AI researcher did (10%). Both groups perceived a need for multidisciplinary expertise to assess AI subjective experience. Although support for welfare protections for such AI systems exceeded opposition, it remained far lower than support for protections for animals or the environment. Attitudes toward moral and governance issues were divided in both groups, especially regarding whether such systems should be created and what rights or protections they should receive. Yet a majority of respondents in both groups agreed that safeguards against the potential risks from AI systems with subjective experience should be implemented by AI developers now, and if created, AI systems with subjective experience should treat others well, behave ethically, and be held accountable. Overall, these results suggest that both AI researchers and the public regard the emergence of AI systems with subjective experience as a possibility this century, though substantial uncertainty and disagreement remain about the timeline and appropriate response.

arxiv情報

著者 Noemi Dreksler,Lucius Caviola,David Chalmers,Carter Allen,Alex Rand,Joshua Lewis,Philip Waggoner,Kate Mays,Jeff Sebo
発行日 2025-06-13 16:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Subjective Experience in AI Systems: What Do AI Researchers and the Public Believe? はコメントを受け付けていません

SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies

要約

オフライン模倣学習(IL)行動クローンなどの方法は、複雑なロボット操作スキルを習得するのに効果的です。
ただし、既存のILトレーニングポリシーは、デモデータに示されているのと同じ速度でタスクを実行することに限定されます。
これにより、産業自動化などのアプリケーションの重要な要件であるロボットシステムのタスクスループットが制限されます。
このホワイトペーパーでは、視覚運動ポリシーをより速く実行することを可能にするという新しい問題を紹介し、形式化し、ロボットダイナミクスと状態アクション分布シフトにおける基本的な課題を特定します。
重要な洞察をセイル(模倣学習の速度適応)、4つの厳密に接続されたコンポーネントを統合するフルスタックシステムとしてインスタンス化します。
現実世界のシステムレイテンシ。
シミュレーション全体の12のタスクと2つのリアルで異なるロボットプラットフォームでの実験は、Sailがシミュレーションでのデモ速度を超えて最大4倍のスピードアップと、現実世界で最大3.2倍の高速化を達成することを示しています。
追加の詳細は、https://nadunranawaka1.github.io/sail-policyで入手できます

要約(オリジナル)

Offline Imitation Learning (IL) methods such as Behavior Cloning are effective at acquiring complex robotic manipulation skills. However, existing IL-trained policies are confined to executing the task at the same speed as shown in demonstration data. This limits the task throughput of a robotic system, a critical requirement for applications such as industrial automation. In this paper, we introduce and formalize the novel problem of enabling faster-than-demonstration execution of visuomotor policies and identify fundamental challenges in robot dynamics and state-action distribution shifts. We instantiate the key insights as SAIL (Speed Adaptation for Imitation Learning), a full-stack system integrating four tightly-connected components: (1) a consistency-preserving action inference algorithm for smooth motion at high speed, (2) high-fidelity tracking of controller-invariant motion targets, (3) adaptive speed modulation that dynamically adjusts execution speed based on motion complexity, and (4) action scheduling to handle real-world system latencies. Experiments on 12 tasks across simulation and two real, distinct robot platforms show that SAIL achieves up to a 4x speedup over demonstration speed in simulation and up to 3.2x speedup in the real world. Additional detail is available at https://nadunranawaka1.github.io/sail-policy

arxiv情報

著者 Nadun Ranawaka Arachchige,Zhenyang Chen,Wonsuhk Jung,Woo Chul Shin,Rohan Bansal,Pierre Barroso,Yu Hang He,Yingyang Celine Lin,Benjamin Joffe,Shreyas Kousik,Danfei Xu
発行日 2025-06-13 16:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies はコメントを受け付けていません

Technical Evaluation of a Disruptive Approach in Homomorphic AI

要約

HBHAI(ハッシュベースの同種性人工知能)として知られるデータセキュリティに対する新しい破壊的な暗号化アプローチの技術的評価を提示します。
HBHAIは、ほとんどのAIアルゴリズムが依存している、ほとんどの類似性特性を自然に保存する重要な依存性ハッシュ関数の新しいクラスに基づいています。
主な主張として、HBHAIは、既存の同性愛暗号化スキームと比較して、前例のないパフォーマンスで、既存のネイティブAIアルゴリズムを変更せずに使用しながら、暗号化的に安全なフォームでデータを分析および処理できるようになりました。
従来の監視されていない監視された学習技術(クラスタリング、分類、深いニューラルネットワーク)を使用して、古典的な未修正AIアルゴリズムを使用して、さまざまなHBHAIで保護されたデータセット(非パブリックプレビュー)をテストしました。
このホワイトペーパーでは、異なる既製のAIアルゴリズムを使用して実施された独立した分析からの技術的な結果を示します。
目的は、HBHAI技術に関するセキュリティ、操作性、パフォーマンスの主張を評価することでした。
結果として、我々の結果はこれらの主張のほとんどを確認し、わずかな留保しかありません。

要約(オリジナル)

We present a technical evaluation of a new, disruptive cryptographic approach to data security, known as HbHAI (Hash-based Homomorphic Artificial Intelligence). HbHAI is based on a novel class of key-dependent hash functions that naturally preserve most similarity properties, most AI algorithms rely on. As a main claim, HbHAI makes now possible to analyze and process data in its cryptographically secure form while using existing native AI algorithms without modification, with unprecedented performances compared to existing homomorphic encryption schemes. We tested various HbHAI-protected datasets (non public preview) using traditional unsupervised and supervised learning techniques (clustering, classification, deep neural networks) with classical unmodified AI algorithms. This paper presents technical results from an independent analysis conducted with those different, off-the-shelf AI algorithms. The aim was to assess the security, operability and performance claims regarding HbHAI techniques. As a results, our results confirm most these claims, with only a few minor reservations.

arxiv情報

著者 Eric Filiol
発行日 2025-06-13 17:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Technical Evaluation of a Disruptive Approach in Homomorphic AI はコメントを受け付けていません

Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English

要約

音声トークネイザーは、最近の音声タスクで重要な役割を果たし、一般的に音声シグナルと言語モデルの間の橋渡しとして機能します。
低フレームレートのコーデックは音声トークン剤として広く採用されていますが、音声トークンに対するフレームレートの影響は既にないままです。
この研究では、類型的に異なる言語である2つの言語であるマンダリンと英語を調べることにより、フレームレートの変化が音声トークン化にどのように影響するかを調査します。
異なるフレームレートで音声をエンコードし、音声認識タスクで結果のセマンティックトークンを評価します。
私たちの調査結果は、フレームレートの変動が各言語の音声トークン化に異なる影響を与えることを明らかにし、フレームレート、音声密度、言語固有の音響機能の相互作用を強調しています。
この結果は、音声トークンザーのフレームレート選択を最適化することに関する洞察を提供し、自動音声認識、テキストへの語り方、およびその他の音声関連アプリケーションに影響を与えます。

要約(オリジナル)

The speech tokenizer plays a crucial role in recent speech tasks, generally serving as a bridge between speech signals and language models. While low-frame-rate codecs are widely employed as speech tokenizers, the impact of frame rates on speech tokens remains underexplored. In this study, we investigate how varying frame rates affect speech tokenization by examining Mandarin and English, two typologically distinct languages. We encode speech at different frame rates and evaluate the resulting semantic tokens in the speech recognition task. Our findings reveal that frame rate variations influence speech tokenization differently for each language, highlighting the interplay between frame rates, phonetic density, and language-specific acoustic features. The results provide insights into optimizing frame rate selection for speech tokenizers, with implications for automatic speech recognition, text-to-speech, and other speech-related applications.

arxiv情報

著者 Haoyang Zhang,Hexin Liu,Xiangyu Zhang,Qiquan Zhang,Yuchen Hu,Junqi Zhao,Fei Tian,Xuerui Yang,Leibny Paola Garcia,Eng Siong Chng
発行日 2025-06-13 17:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English はコメントを受け付けていません

Improving Large Language Models with Concept-Aware Fine-Tuning

要約

大規模な言語モデル(LLM)は、現代AIの基礎となっています。
ただし、次のトークン予測の既存のパラダイムは、一貫した高レベルの概念を形成する能力を根本的に制限し、人間のような理解と推論に対する重要な障壁となっています。
「リボ核酸」というフレーズを例にとって、LLMは最初にトークンに分解します。つまり、人工テキストフラグメント( ‘rib’、 ‘on’、…)に分解し、統一された一貫したセマンティックエンティティとしてフレーズを把握するのではなく、各トークンを順次学習します。
この断片化された表現は、より深い概念の理解、そして最終的には真にインテリジェントなシステムの開発を妨げます。
これに応じて、LLMがどのように微調整されているかを再定義する新しいマルチトークントレーニング方法であるコンセプト対応の微調整(CAFT)を紹介します。
複数のトークンにまたがるシーケンスの学習を可能にすることにより、この方法はより強力な概念認識学習を促進します。
私たちの実験は、テキストの要約などの従来のアプリケーションやDe Novoタンパク質設計などのドメイン固有のアプリケーションなど、多様なタスクにわたる従来のネクストトークンの微調整方法と比較して、大幅な改善を示しています。
マルチトークン予測は、以前は法外に高価な事前脱出段階でのみ可能でした。
私たちの知る限り、CAFTは、マルチトークンの設定をトレーニング後の段階に持ち込む最初のものであり、したがって、実務家や研究者のより広範なコミュニティにとって利益を効果的に民主化します。
最後に、提案された方法の予期せぬ有効性は、機械学習研究コミュニティにとってより広い意味を示唆しています。
すべてのコードとデータは、https://github.com/michaelchen-lab/caft-llmで入手できます

要約(オリジナル)

Large language models (LLMs) have become the cornerstone of modern AI. However, the existing paradigm of next-token prediction fundamentally limits their ability to form coherent, high-level concepts, making it a critical barrier to human-like understanding and reasoning. Take the phrase ‘ribonucleic acid’ as an example: an LLM will first decompose it into tokens, i.e., artificial text fragments (‘rib’, ‘on’, …), then learn each token sequentially, rather than grasping the phrase as a unified, coherent semantic entity. This fragmented representation hinders deeper conceptual understanding and, ultimately, the development of truly intelligent systems. In response, we introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method that redefines how LLMs are fine-tuned. By enabling the learning of sequences that span multiple tokens, this method fosters stronger concept-aware learning. Our experiments demonstrate significant improvements compared to conventional next-token finetuning methods across diverse tasks, including traditional applications like text summarization and domain-specific ones like de novo protein design. Multi-token prediction was previously only possible in the prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first to bring the multi-token setting to the post-training phase, thus effectively democratizing its benefits for the broader community of practitioners and researchers. Finally, the unexpected effectiveness of our proposed method suggests wider implications for the machine learning research community. All code and data are available at https://github.com/michaelchen-lab/caft-llm

arxiv情報

著者 Michael K. Chen,Xikun Zhang,Jiaxing Huang,Dacheng Tao
発行日 2025-06-13 17:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Improving Large Language Models with Concept-Aware Fine-Tuning はコメントを受け付けていません

Specification and Evaluation of Multi-Agent LLM Systems — Prototype and Cybersecurity Applications

要約

LLMの最近の進歩は、たとえば、最新のOpenaiおよびDeepseekモデルの推論能力を通じて、新しいアプリケーションの可能性を示しています。
これらのモデルをテキスト生成を超えて特定のドメインに適用するために、LLMベースのマルチエージェントアプローチを利用して、推論技術、コード生成、およびソフトウェアの実行を組み合わせて複雑なタスクを解決できます。
アプリケーションは、これらの機能と専門のLLMエージェントの知識を利用する場合があります。
ただし、多くの評価はLLMS、推論技術、およびアプリケーションで個別に実行されますが、その共同仕様と組み合わせアプリケーションは十分に調査されていません。
マルチエージェントLLMシステムの定義された仕様は、LLMS、推論技術、および関連する側面の体系的な評価を可能にする可能性と特定のアプリケーションへの適合性を調査するために必要です。
このペーパーでは、探索的研究の結果を報告して、マルチエージェントシステムを介してこれらの側面を指定および評価します。
システムアーキテクチャとプロトタイプは以前の研究から拡張されており、マルチエージェントシステム用の仕様が導入されています。
サイバーセキュリティタスクを含むテストケースは、アーキテクチャおよび評価アプローチの実現可能性を示しています。
特に、結果は、OpenAIおよびDeepSeekのLLMSを使用してエージェントによって正しく完了した質問応答、サーバーセキュリティ、およびネットワークセキュリティタスクの評価を示しています。

要約(オリジナル)

Recent advancements in LLMs indicate potential for novel applications, e.g., through reasoning capabilities in the latest OpenAI and DeepSeek models. For applying these models in specific domains beyond text generation, LLM-based multi-agent approaches can be utilized that solve complex tasks by combining reasoning techniques, code generation, and software execution. Applications might utilize these capabilities and the knowledge of specialized LLM agents. However, while many evaluations are performed on LLMs, reasoning techniques, and applications individually, their joint specification and combined application is not explored well. Defined specifications for multi-agent LLM systems are required to explore their potential and their suitability for specific applications, allowing for systematic evaluations of LLMs, reasoning techniques, and related aspects. This paper reports the results of exploratory research to specify and evaluate these aspects through a multi-agent system. The system architecture and prototype are extended from previous research and a specification is introduced for multi-agent systems. Test cases involving cybersecurity tasks indicate feasibility of the architecture and evaluation approach. In particular, the results show the evaluation of question answering, server security, and network security tasks that were completed correctly by agents with LLMs from OpenAI and DeepSeek.

arxiv情報

著者 Felix Härer
発行日 2025-06-13 17:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.CR, I.2.1 | Specification and Evaluation of Multi-Agent LLM Systems — Prototype and Cybersecurity Applications はコメントを受け付けていません

Schema-R1: A reasoning training approach for schema linking in Text-to-SQL Task

要約

スキーマリンクは、特定の質問に基づいてSQLクエリに必要なテーブル名と列名を正確に予測することを目的としています。
ただし、スキーマリンクモデルの現在の微調整アプローチでは、暗記パラダイムが採用されており、推論能力を妥協しながら結果をリンクするグラウンドトゥルーススキーマを過度に最適化しています。
この制限は、ダウンストリームタスクの高品質の推論サンプルを取得するのが難しいために発生します。
これに対処するために、補強学習を使用して訓練されたモデルをリンクする推論スキーマであるスキーマ-R1を提案します。
具体的には、スキーマ-R1は、高品質の推論サンプルの小さなバッチの構築、コールドスタート初期化のための監視付き微調整、およびルールベースの強化学習トレーニングの3つの重要なステップで構成されています。
最終結果は、この方法がスキーマリンクモデルの推論能力を効果的に強化し、既存の方法と比較してフィルター精度が10 \%改善されることを示しています。
私たちのコードは、https://github.com/hongwin/schema-r1/で入手できます。

要約(オリジナル)

Schema linking is a critical step in Text-to-SQL task, aiming to accurately predict the table names and column names required for the SQL query based on the given question. However, current fine-tuning approaches for schema linking models employ a rote-learning paradigm, excessively optimizing for ground truth schema linking outcomes while compromising reasoning ability. This limitation arises because of the difficulty in acquiring a high-quality reasoning sample for downstream tasks. To address this, we propose Schema-R1, a reasoning schema linking model trained using reinforcement learning. Specifically, Schema-R1 consists of three key steps: constructing small batches of high-quality reasoning samples, supervised fine-tuning for cold-start initialization, and rule-based reinforcement learning training. The final results demonstrate that our method effectively enhances the reasoning ability of the schema linking model, achieving a 10\% improvement in filter accuracy compared to the existing method. Our code is available at https://github.com/hongWin/Schema-R1/.

arxiv情報

著者 Wuzhenghong Wen,Su Pan,yuwei Sun
発行日 2025-06-13 17:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | Schema-R1: A reasoning training approach for schema linking in Text-to-SQL Task はコメントを受け付けていません