Low-code to fight climate change: the Climaborough project

要約

EUが資金提供するClimaboroughプロジェクトは、2030年までに炭素中立性を達成するために欧州の都市を支援しています。9か国の11の都市は、現実の環境での製品とサービスを現地環境で促進する実際の条件で展開します。
Climaborough Cityプラットフォームは、歴史的およびリアルタイムデータを集約し、非技術的な専門家が使用するユーザーフレンドリーなダッシュボードで結果を表示して、地元の実験イニシアチブの有効性を評価し、有意な影響をもたらすものを特定し、広範なレベルまでの潜在的な結果を評価するユーザーフレンドリーなダッシュボードで結果を表示することにより、都市の全体的な進歩を監視するために開発されています。
この論文では、気候型ダッシュボードを迅速に展開するというプロジェクトの目的に対応して、Climaboroughで低コード/ノーコード戦略をどのように導入したかを説明します。
低コード戦略を使用して、ダッシュボードの開発を加速します。
ダッシュボードには、あらゆる種類の市民プロファイルがダッシュボードを特定のニーズに合わせて構成して適応させることができるノーコード哲学を埋め込みました。

要約(オリジナル)

The EU-funded Climaborough project supports European cities to achieve carbon neutrality by 2030. Eleven cities in nine countries will deploy in real conditions products and services fostering climate transition in their local environment. The Climaborough City Platform is being developed to monitor the cities’ overall progress towards their climate goals by aggregating historic and real-time data and displaying the results in user-friendly dashboards that will be used by non-technical experts to evaluate the effectiveness of local experimental initiatives, identify those that yield significant impact, and assess the potential consequences of scaling them up to a broader level. In this paper, we explain how we have put in place a low-code/no-code strategy in Climaborough in response to the project’s aim to quickly deploy climate dashboards. A low-code strategy is used to accelerate the development of the dashboards. The dashboards embed a no-code philosophy that enables all types of citizen profiles to configure and adapt the dashboard to their specific needs.

arxiv情報

著者 Aaron Conrardy,Armen Sulejmani,Cindy Guerlain,Daniele Pagani,David Hick,Matteo Satta,Jordi Cabot
発行日 2025-06-17 15:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SE | Low-code to fight climate change: the Climaborough project はコメントを受け付けていません

Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models

要約

大規模な言語モデル(LLM)は、印象的な道徳的推論能力を示しています。
しかし、彼らはしばしば複雑で多要因の道徳的ジレンマに直面したときに分岐します。
これらの矛盾に対処するために、複数のLLMの道徳的判断を総合的に定式化された道徳的判断に統合するフレームワークを提案し、このコンセンサスから大きく逸脱するモデルを再編成します。
私たちの集約メカニズムは、継続的な道徳的許容性スコア(バイナリラベルを超えて)を集合的な確率に融合し、モデルの信頼性による重みの寄与を融合します。
誤ったモデルの場合、ターゲットを絞った埋め込み最適化手順道徳的哲学理論のための微調整トークン埋め込み、意味の完全性を維持しながらJSの相違を最小限に抑えます。
大規模な社会的道徳的ジレンマデータセットの実験は、私たちのアプローチが堅牢なコンセンサスを構築し、個々のモデルの忠実度を向上させることを示しています。
これらの調査結果は、複数のモデルにわたるデータ駆動型の道徳的整合の価値と、より安全でより一貫したAIシステムの可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive moral reasoning abilities. Yet they often diverge when confronted with complex, multi-factor moral dilemmas. To address these discrepancies, we propose a framework that synthesizes multiple LLMs’ moral judgments into a collectively formulated moral judgment, realigning models that deviate significantly from this consensus. Our aggregation mechanism fuses continuous moral acceptability scores (beyond binary labels) into a collective probability, weighting contributions by model reliability. For misaligned models, a targeted embedding-optimization procedure fine-tunes token embeddings for moral philosophical theories, minimizing JS divergence to the consensus while preserving semantic integrity. Experiments on a large-scale social moral dilemma dataset show our approach builds robust consensus and improves individual model fidelity. These findings highlight the value of data-driven moral alignment across multiple models and its potential for safer, more consistent AI systems.

arxiv情報

著者 Chenchen Yuan,Zheyu Zhang,Shuo Yang,Bardh Prenkaj,Gjergji Kasneci
発行日 2025-06-17 15:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models はコメントを受け付けていません

ACM Survey Draft on Formalising Software Requirements with Large Language Models

要約

このドラフトは、ソフトウェア要件のトレーサビリティ(セクション4)、正式な方法とそのツール(セクション5)、プログラミングの統一理論(UTP)および制度(セクション6)に関する追加セクションを含む、ナイトフォー(94)の論文の要約を備えた作業文書です。
[7,8]の要約を参照してください。
このドラフトの重要な違いは、同様のタイトル、つまりAACS 2025 [7]およびSAIV 2025 [8]を持つ当社の最近予想されたタイトル、つまり、アイルランドの年次会議を適応するための2ページの提出です。
2025年3月18日に提出され、軽量ブラインドレビューを経てポスタープレゼンテーションを受け入れました。
会議は2025年5月15日に開催されました。[8]は、2025年4月24日にAI検証(SAIV 2025)に関するシンポジウムに提出された9ページの参照と要約表を備えた9ページの論文です。厳格なレビュープロセスを経ました。
arxiv.org [8]のアップロードされたバージョンは、論文を改善するための特定の提案に対処した後、提出の改善された1つです。

要約(オリジナル)

This draft is a working document, having a summary of nighty-four (94) papers with additional sections on Traceability of Software Requirements (Section 4), Formal Methods and Its Tools (Section 5), Unifying Theories of Programming (UTP) and Theory of Institutions (Section 6). Please refer to abstract of [7,8]. Key difference of this draft from our recently anticipated ones with similar titles, i.e. AACS 2025 [7] and SAIV 2025 [8] is: [7] is a two page submission to ADAPT Annual Conference, Ireland. Submitted on 18th of March, 2025, it went through the light-weight blind review and accepted for poster presentation. Conference was held on 15th of May, 2025. [8] is a nine page paper with additional nine pages of references and summary tables, submitted to Symposium on AI Verification (SAIV 2025) on 24th of April, 2025. It went through rigorous review process. The uploaded version on arXiv.org [8] is the improved one of the submission, after addressing the specific suggestions to improve the paper.

arxiv情報

著者 Arshad Beg,Diarmuid O’Donoghue,Rosemary Monahan
発行日 2025-06-17 15:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, D.2.1 | ACM Survey Draft on Formalising Software Requirements with Large Language Models はコメントを受け付けていません

The Backfiring Effect of Weak AI Safety Regulation

要約

最近の政策提案は、一般的なAIの安全性を改善することを目的としていますが、AIの安全に対するさまざまな規制アプローチの有効性についてはほとんど理解されていません。
安全規制、汎用AIクリエイター、およびドメインスペシャリストの間の相互作用を調査する戦略的モデルを提示します。
私たちの分析では、AI開発チェーンのさまざまな部分をターゲットにしたさまざまな規制対策が、このゲームの結果にどのように影響するかを調べます。
特に、AIテクノロジーは、安全性とパフォーマンスという2つの重要な属性によって特徴付けられると仮定します。
規制当局は、最初に、一方または両方のプレーヤーに適用される最小安全基準を設定し、非遵守に対する厳格な罰則を科します。
その後、汎用の作成者はテクノロジーに投資し、初期の安全性とパフォーマンスレベルを確立します。
次に、ドメインの専門家は、特定のユースケースのAIを改良し、安全性とパフォーマンスレベルを更新し、製品を市場に投入します。
結果としての収益は、収益分配パラメーターを通じて専門家とジェネラリストの間に分配されます。
私たちの分析では、2つの重要な洞察が明らかになりました。最初に、主にドメインの専門家に課される弱い安全規制が裏目に出ることができます。
AIのユースケースを規制することは論理的に思えるかもしれませんが、私たちの分析は、ドメインのスペシャリストだけをターゲットにした弱い規制だけでは意図せずに安全性を低下させる可能性があることを示しています。
この効果は、幅広い設定にわたって持続します。
第二に、以前の発見とは対照的に、より強く、適切に配置された規制が実際にそれにさらされたすべてのプレーヤーに相互に利益をもたらすことができることを観察します。
規制当局が汎用AIクリエイターとドメインの専門家の両方に適切な安全基準を課す場合、規制はコミットメントデバイスとして機能し、安全性とパフォーマンスの向上につながり、1人のプレーヤーだけを調整したり、規制したりすることを上回ります。

要約(オリジナル)

Recent policy proposals aim to improve the safety of general-purpose AI, but there is little understanding of the efficacy of different regulatory approaches to AI safety. We present a strategic model that explores the interactions between safety regulation, the general-purpose AI creators, and domain specialists–those who adapt the technology for specific applications. Our analysis examines how different regulatory measures, targeting different parts of the AI development chain, affect the outcome of this game. In particular, we assume AI technology is characterized by two key attributes: safety and performance. The regulator first sets a minimum safety standard that applies to one or both players, with strict penalties for non-compliance. The general-purpose creator then invests in the technology, establishing its initial safety and performance levels. Next, domain specialists refine the AI for their specific use cases, updating the safety and performance levels and taking the product to market. The resulting revenue is then distributed between the specialist and generalist through a revenue-sharing parameter. Our analysis reveals two key insights: First, weak safety regulation imposed predominantly on domain specialists can backfire. While it might seem logical to regulate AI use cases, our analysis shows that weak regulations targeting domain specialists alone can unintentionally reduce safety. This effect persists across a wide range of settings. Second, in sharp contrast to the previous finding, we observe that stronger, well-placed regulation can in fact mutually benefit all players subjected to it. When regulators impose appropriate safety standards on both general-purpose AI creators and domain specialists, the regulation functions as a commitment device, leading to safety and performance gains, surpassing what is achieved under no regulation or regulating one player alone.

arxiv情報

著者 Benjamin Laufer,Jon Kleinberg,Hoda Heidari
発行日 2025-06-17 15:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.GT, econ.TH | The Backfiring Effect of Weak AI Safety Regulation はコメントを受け付けていません

AIn’t Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation

要約

LLMの最近の開発と幅広いアクセシビリティは、自由回答形式の調査回答の分類を含む、調査研究でそれらをどのように使用できるかについての議論に拍車をかけています。
言語能力により、LLMSは、時間のかかる手動コーディングと、監視された機械学習モデルの事前トレーニングの効率的な代替手段である可能性があります。
このトピックに関するほとんどの既存の研究は、非複雑なトピックまたは単一のLLMに関連する英語の回答に焦点を合わせているため、その調査結果が一般化され、これらの分類の品質が確立された方法と比較されるかどうかは不明です。
この研究では、調査参加の理由に関するドイツのデータを使用して、他のコンテキストでのオープンエンドの調査回答をコーディングするために、異なるLLMを使用できる程度まで調査します。
いくつかの最先端のLLMといくつかのプロンプトアプローチを比較し、人間の専門家コーディングを使用してLLMSのパフォーマンスを評価します。
全体的なパフォーマンスはLLM間で大きく異なり、微調整されたLLMのみが満足のいくレベルの予測パフォーマンスを達成します。
プロンプトアプローチのパフォーマンスの違いは、使用されるLLMを条件としています。
最後に、調査参加の理由のさまざまなカテゴリにわたるLLMSの不平等な分類パフォーマンスは、微調整を使用していない場合、異なるカテゴリー分布をもたらします。
これらの調査結果の意味について、自由回答形式の応答のコーディングに関する方法論的研究と実質的な分析の両方について、およびそのようなデータの処理または実質的に分析する実務家の両方について説明します。
最後に、LLMSの年齢における自動化された応答分類のために自動化された方法を選択する際に研究者が考慮する必要がある多くのトレードオフを強調しています。
そうすることで、私たちの研究は、LLMSが調査研究で効率的かつ正確に、そして確実に活用される可能性のある条件に関する成長する研究機関に貢献しています。

要約(オリジナル)

The recent development and wider accessibility of LLMs have spurred discussions about how they can be used in survey research, including classifying open-ended survey responses. Due to their linguistic capacities, it is possible that LLMs are an efficient alternative to time-consuming manual coding and the pre-training of supervised machine learning models. As most existing research on this topic has focused on English-language responses relating to non-complex topics or on single LLMs, it is unclear whether its findings generalize and how the quality of these classifications compares to established methods. In this study, we investigate to what extent different LLMs can be used to code open-ended survey responses in other contexts, using German data on reasons for survey participation as an example. We compare several state-of-the-art LLMs and several prompting approaches, and evaluate the LLMs’ performance by using human expert codings. Overall performance differs greatly between LLMs, and only a fine-tuned LLM achieves satisfactory levels of predictive performance. Performance differences between prompting approaches are conditional on the LLM used. Finally, LLMs’ unequal classification performance across different categories of reasons for survey participation results in different categorical distributions when not using fine-tuning. We discuss the implications of these findings, both for methodological research on coding open-ended responses and for their substantive analysis, and for practitioners processing or substantively analyzing such data. Finally, we highlight the many trade-offs researchers need to consider when choosing automated methods for open-ended response classification in the age of LLMs. In doing so, our study contributes to the growing body of research about the conditions under which LLMs can be efficiently, accurately, and reliably leveraged in survey research.

arxiv情報

著者 Leah von der Heyde,Anna-Carolina Haensch,Bernd Weiß,Jessika Daikeler
発行日 2025-06-17 15:28:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | AIn’t Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation はコメントを受け付けていません

Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers

要約

複数選択の質問(MCQ)は、操作と評価が容易なため、大規模な言語モデル(LLM)の機能を評価するために一般的に使用されるアプローチとなっています。
LLMSの述べられた答え(MCQに対する彼らの答え)の実験的評価は、確率的推論を実行したり、不確実性を把握する彼らの明らかな能力を指摘しています。
この作業では、これらの問題がLLMの基本的な計算単位である直接的なテキスト完了ユニットとしてこれらの問題を再定式化することにより、これらの適性がテーラードプロンプトとMCQを測定可能であるかどうかを調査します。
明らかにされた信念を紹介します。これは、テキスト完了確率分布を分析することによりMCQスコアリングを補完する不確実性の下での推論を必要とするタスクでLLMSを評価する評価フレームワークです。
私たちの調査結果は、LLMが頻繁に正解を述べているが、彼らの明らかにされた信念は、しばしば確率の質量を一貫性のないものに割り当て、体系的なバイアスを示し、しばしば新しい証拠が提示されたときに信念を適切に更新できず、下流タスクへの強い潜在的な影響をもたらすことを示唆していることを示唆しています。
これらの結果は、一般的な評価方法が部分的な絵のみを提供する可能性があり、能力の範囲と性質を評価するためにさらに研究が必要であることを示唆しています。

要約(オリジナル)

Multiple Choice Questions (MCQ) have become a commonly used approach to assess the capabilities of Large Language Models (LLMs), due to their ease of manipulation and evaluation. The experimental appraisals of the LLMs’ Stated Answer (their answer to MCQ) have pointed to their apparent ability to perform probabilistic reasoning or to grasp uncertainty. In this work, we investigate whether these aptitudes are measurable outside tailored prompting and MCQ by reformulating these issues as direct text-completion – the fundamental computational unit of LLMs. We introduce Revealed Belief, an evaluation framework that evaluates LLMs on tasks requiring reasoning under uncertainty, which complements MCQ scoring by analyzing text-completion probability distributions. Our findings suggest that while LLMs frequently state the correct answer, their Revealed Belief shows that they often allocate probability mass inconsistently, exhibit systematic biases, and often fail to update their beliefs appropriately when presented with new evidence, leading to strong potential impacts on downstream tasks. These results suggest that common evaluation methods may only provide a partial picture and that more research is needed to assess the extent and nature of their capabilities.

arxiv情報

著者 Manuel Mondal,Ljiljana Dolamic,Gérôme Bovet,Philippe Cudré-Mauroux,Julien Audiffren
発行日 2025-06-17 15:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers はコメントを受け付けていません

IP Leakage Attacks Targeting LLM-Based Multi-Agent Systems

要約

大規模な言語モデル(LLMS)の急速な進歩により、マルチエージェントシステム(MAS)が出現し、コラボレーションを通じて複雑なタスクを実行しました。
ただし、MASの複雑な性質は、その建築とエージェントの相互作用を含め、知的財産(IP)保護に関する重要な懸念を引き起こします。
この論文では、MASアプリケーションから機密情報を抽出するために設計された新しい攻撃フレームワークであるMasLeakを紹介します。
MasLeakは、敵がMASアーキテクチャまたはエージェント構成の事前知識を持たない実用的なブラックボックス設定をターゲットにしています。
敵は、パブリックAPIを介してMASとのみ相互作用し、攻撃クエリ$ Q $を送信し、最終エージェントからの出力を観察することができます。
コンピューターワームが脆弱なネットワークホストに伝播して感染する方法に触発されたMasLeakは、エージェント数、システムトポロジ、システムプロンプト、タスク指示、ツールのusを含む専有コンポーネントの完全なセットを明らかにする各MASエージェントからの応答を引き出し、伝播し、維持するために敵対的なクエリ$ Q $を慎重に作成します。
810アプリケーションを使用してMASアプリケーションの最初の合成データセットを構築し、CozeやCrewaiを含む実際のMASアプリケーションに対してMasLeakを評価します。
MasLeakは、MAS IPの抽出において高精度を達成し、システムプロンプトとタスク命令で平均攻撃成功率は87%、システムアーキテクチャでは92%が得られます。
私たちは、私たちの調査結果の意味と潜在的な防御について議論することで結論を出します。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has led to the emergence of Multi-Agent Systems (MAS) to perform complex tasks through collaboration. However, the intricate nature of MAS, including their architecture and agent interactions, raises significant concerns regarding intellectual property (IP) protection. In this paper, we introduce MASLEAK, a novel attack framework designed to extract sensitive information from MAS applications. MASLEAK targets a practical, black-box setting, where the adversary has no prior knowledge of the MAS architecture or agent configurations. The adversary can only interact with the MAS through its public API, submitting attack query $q$ and observing outputs from the final agent. Inspired by how computer worms propagate and infect vulnerable network hosts, MASLEAK carefully crafts adversarial query $q$ to elicit, propagate, and retain responses from each MAS agent that reveal a full set of proprietary components, including the number of agents, system topology, system prompts, task instructions, and tool usages. We construct the first synthetic dataset of MAS applications with 810 applications and also evaluate MASLEAK against real-world MAS applications, including Coze and CrewAI. MASLEAK achieves high accuracy in extracting MAS IP, with an average attack success rate of 87% for system prompts and task instructions, and 92% for system architecture in most cases. We conclude by discussing the implications of our findings and the potential defenses.

arxiv情報

著者 Liwen Wang,Wenxuan Wang,Shuai Wang,Zongjie Li,Zhenlan Ji,Zongyi Lyu,Daoyuan Wu,Shing-Chi Cheung
発行日 2025-06-17 15:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | IP Leakage Attacks Targeting LLM-Based Multi-Agent Systems はコメントを受け付けていません

Navigating the growing field of research on AI for software testing — the taxonomy for AI-augmented software testing and an ontology-driven literature survey

要約

業界では、ソフトウェアテストは、ソフトウェアベースのシステムの機能、パフォーマンス、セキュリティ、使いやすさなどを検証および検証する主要な方法です。
テストオートメーションは、テストの自動化とモデルベースのテストに関する数十年にわたる集中的な研究に続いて、過去10年間で業界で注目を集めています。
ただし、テスト自動化の設計、開発、維持、進化はかなりの努力です。
一方、多くのエンジニアリング分野でのAIのブレークスルーは、手動テストと自動テストの両方のために、ソフトウェアテストの新しい視点を開きます。
このペーパーでは、自動化なしから完全な自動化まで、ソフトウェアテスト自動化におけるAIの増強に関する最近の研究をレビューします。
また、AIによって可能になった新しい形式のテストについても説明します。
これに基づいて、新しく開発された分類法であるAI4stが提示され、最近の研究を分類し、オープンな研究の質問を特定するために使用されます。

要約(オリジナル)

In industry, software testing is the primary method to verify and validate the functionality, performance, security, usability, and so on, of software-based systems. Test automation has gained increasing attention in industry over the last decade, following decades of intense research into test automation and model-based testing. However, designing, developing, maintaining and evolving test automation is a considerable effort. Meanwhile, AI’s breakthroughs in many engineering fields are opening up new perspectives for software testing, for both manual and automated testing. This paper reviews recent research on AI augmentation in software test automation, from no automation to full automation. It also discusses new forms of testing made possible by AI. Based on this, the newly developed taxonomy, ai4st, is presented and used to classify recent research and identify open research questions.

arxiv情報

著者 Ina K. Schieferdecker
発行日 2025-06-17 15:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, D.2.5 | Navigating the growing field of research on AI for software testing — the taxonomy for AI-augmented software testing and an ontology-driven literature survey はコメントを受け付けていません

Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot

要約

コンテキスト内学習(ICL)は、大規模な言語モデル(LLM)の重要な緊急能力であり、最近の研究では、特に数学のタスクにおいて、推論能力を強化するためにICLの模範(COT)を導入しています。
ただし、モデル機能の継続的な進歩を考えると、COTの模範が依然としてそのようなタスクで最近のより強力なモデルに利益をもたらすかどうかは不明のままです。
系統的な実験を通じて、QWEN2.5シリーズなどの最近の強力なモデルでは、従来のCOTの模範を追加しても、ゼロショットCOTと比較して推論パフォーマンスが向上しないことがわかります。
代わりに、それらの主な機能は、出力形式を人間の期待に合わせることです。
さらに、\ texttt {qwen2.5-max}や\ texttt {deepseek-r1}などの高度なモデルからの回答を使用して構築された、強化されたCOT模範の有効性を調査します。
実験結果は、これらの強化された模範がモデルの推論パフォーマンスを改善できないことを示しています。
さらなる分析により、モデルは模範を無視し、主に指示に焦点を合わせる傾向があり、推論能力に観察可能な利益が生じないことが明らかになりました。
全体として、私たちの調査結果は、数学的推論における現在のICL+COTフレームワークの制限を強調し、ICLパラダイムの再検討と模範の定義を求めています。

要約(オリジナル)

In-Context Learning (ICL) is an essential emergent ability of Large Language Models (LLMs), and recent studies introduce Chain-of-Thought (CoT) to exemplars of ICL to enhance the reasoning capability, especially in mathematics tasks. However, given the continuous advancement of model capabilities, it remains unclear whether CoT exemplars still benefit recent, stronger models in such tasks. Through systematic experiments, we find that for recent strong models such as the Qwen2.5 series, adding traditional CoT exemplars does not improve reasoning performance compared to Zero-Shot CoT. Instead, their primary function is to align the output format with human expectations. We further investigate the effectiveness of enhanced CoT exemplars, constructed using answers from advanced models such as \texttt{Qwen2.5-Max} and \texttt{DeepSeek-R1}. Experimental results indicate that these enhanced exemplars still fail to improve the model’s reasoning performance. Further analysis reveals that models tend to ignore the exemplars and focus primarily on the instructions, leading to no observable gain in reasoning ability. Overall, our findings highlight the limitations of the current ICL+CoT framework in mathematical reasoning, calling for a re-examination of the ICL paradigm and the definition of exemplars.

arxiv情報

著者 Xiang Cheng,Chengyan Pan,Minjun Zhao,Deyang Li,Fangchao Liu,Xinyu Zhang,Xiao Zhang,Yong Liu
発行日 2025-06-17 15:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot はコメントを受け付けていません

SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning

要約

選好ベースの強化学習(PBRL)方法は、人間の好みに基づいて報酬モデルを学習することにより、報酬エンジニアリングを避けるためのソリューションを提供します。
ただし、フィードバックとサンプルの効率が不十分であり、PBRLの適用を妨げる問題のままです。
このホワイトペーパーでは、シニアと呼ばれる新しい効率的なクエリの選択と優先誘導探索方法を紹介します。これにより、有意義で比較しやすい動作セグメントペアを選択して、人間のフィードバック効率を改善し、設計された優先誘導本質的な報酬を使用して政策学習を加速できます。
私たちの重要なアイデアは2つあります。(1)モーションディスティションベースの選択スキーム(MDS)を設計しました。
状態のカーネル密度推定により、見かけの動きと異なる方向を持つセグメントペアを選択します。
(2)新しい選好ガイド付き探査方法(PGE)を提案しました。
それは、高い訪問と低い訪問で州への探査を促進し、貴重なサンプルを達成するエージェントを継続的に導きます。
2つのメカニズム間の相乗効果は、報酬と政策学習の進歩を大幅に加速する可能性があります。
私たちの実験は、シニアがシミュレーションと4つの現実世界からの6つの複雑なロボット操作タスクで、人間のフィードバック効率とポリシー収束速度の両方で、他の5つの既存の方法を上回ることを示しています。

要約(オリジナル)

Preference-based Reinforcement Learning (PbRL) methods provide a solution to avoid reward engineering by learning reward models based on human preferences. However, poor feedback- and sample- efficiency still remain the problems that hinder the application of PbRL. In this paper, we present a novel efficient query selection and preference-guided exploration method, called SENIOR, which could select the meaningful and easy-to-comparison behavior segment pairs to improve human feedback-efficiency and accelerate policy learning with the designed preference-guided intrinsic rewards. Our key idea is twofold: (1) We designed a Motion-Distinction-based Selection scheme (MDS). It selects segment pairs with apparent motion and different directions through kernel density estimation of states, which is more task-related and easy for human preference labeling; (2) We proposed a novel preference-guided exploration method (PGE). It encourages the exploration towards the states with high preference and low visits and continuously guides the agent achieving the valuable samples. The synergy between the two mechanisms could significantly accelerate the progress of reward and policy learning. Our experiments show that SENIOR outperforms other five existing methods in both human feedback-efficiency and policy convergence speed on six complex robot manipulation tasks from simulation and four real-worlds.

arxiv情報

著者 Hexian Ni,Tao Lu,Haoyuan Hu,Yinghao Cai,Shuo Wang
発行日 2025-06-17 15:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning はコメントを受け付けていません