A Robot-Assisted Approach to Small Talk Training for Adults with ASD

要約

デートから就職へのインタビューまで、新しい友達を作る、またはチェックアウト時にキャッシャーとチャットするだけで、小さな話に従事することは、日常的な社会的スキルです。
自閉症スペクトラム障害(ASD)の成人の場合、ちょっとした話は特に挑戦的ですが、社会的統合、関係の構築、専門的な機会へのアクセスに不可欠です。
この研究では、ユーザーが小さな話を練習できるようにする在宅自治ロボットシステムの開発と評価を紹介します。
1週間の研究の結果は、ASDの大人がトレーニングを楽しんでおり、会話の開始とアイコンタクトの改善において顕著な進歩を遂げ、このシステムを会話スキルを向上させるための貴重なツールと見なしたことが示されています。

要約(オリジナル)

From dating to job interviews, making new friends or simply chatting with the cashier at checkout, engaging in small talk is a vital, everyday social skill. For adults with Autism Spectrum Disorder (ASD), small talk can be particularly challenging, yet it is essential for social integration, building relationships, and accessing professional opportunities. In this study, we present our development and evaluation of an in-home autonomous robot system that allows users to practice small talk. Results from the week-long study show that adults with ASD enjoyed the training, made notable progress in initiating conversations and improving eye contact, and viewed the system as a valuable tool for enhancing their conversational skills.

arxiv情報

著者 Rebecca Ramnauth,Dražen Brščić,Brian Scassellati
発行日 2025-05-29 14:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A Robot-Assisted Approach to Small Talk Training for Adults with ASD はコメントを受け付けていません

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

要約

人間は、物理的な世界で複雑なタスクを処理するときに実際のアクションを実行する前にゆっくりと思考を実践します。
この思考パラダイムは、最近、デジタルドメインの複雑なタスクを解決するために、大規模な言語モデル(LLM)を強化する際に顕著な進歩を達成しました。
しかし、ゆっくりと思考の可能性は、物理的な世界と相互作用するロボット基礎モデルのためにほとんど未踏のままです。
この作業では、Humeを提案します。価値誘導システム-2思考とカスケードアクション除去を備えたデュアルシステムビジョン言語アクション(VLA)モデルを提案します。
HUMEのシステム2は、予測されたアクションの状態アクション価値を推定するために、視覚言語アクションモデルバックボーンを新しいバリュークエリヘッドで拡張することにより、価値誘導思考を実装します。
価値誘導思考は、複数のアクション候補を繰り返しサンプリングし、状態アクション値に応じて1つを選択することによって行われます。
Humeのシステム1は、システム2選択されたアクションを採用し、器用なロボット制御のためのカスケードアクション除去を実行する軽量の反応性視覚運動ポリシーです。
展開時に、システム2は低周波数で価値誘導思考を実行し、システム1はシステム2選択したアクション候補を非同期に受信し、リアルタイムで流体アクションを予測します。
Humeは、複数のシミュレーションベンチマークとリアルロボットの展開にわたる既存の最先端のビジョンアクションモデルを上回ることを示しています。

要約(オリジナル)

Humans practice slow thinking before performing actual actions when handling complex tasks in the physical world. This thinking paradigm, recently, has achieved remarkable advancement in boosting Large Language Models (LLMs) to solve complex tasks in digital domains. However, the potential of slow thinking remains largely unexplored for robotic foundation models interacting with the physical world. In this work, we propose Hume: a dual-system Vision-Language-Action (VLA) model with value-guided System-2 thinking and cascaded action denoising, exploring human-like thinking capabilities of Vision-Language-Action models for dexterous robot control. System 2 of Hume implements value-Guided thinking by extending a Vision-Language-Action Model backbone with a novel value-query head to estimate the state-action value of predicted actions. The value-guided thinking is conducted by repeat sampling multiple action candidates and selecting one according to state-action value. System 1 of Hume is a lightweight reactive visuomotor policy that takes System 2 selected action and performs cascaded action denoising for dexterous robot control. At deployment time, System 2 performs value-guided thinking at a low frequency while System 1 asynchronously receives the System 2 selected action candidate and predicts fluid actions in real time. We show that Hume outperforms the existing state-of-the-art Vision-Language-Action models across multiple simulation benchmark and real-robot deployments.

arxiv情報

著者 Haoming Song,Delin Qu,Yuanqi Yao,Qizhi Chen,Qi Lv,Yiwen Tang,Modi Shi,Guanghui Ren,Maoqing Yao,Bin Zhao,Dong Wang,Xuelong Li
発行日 2025-05-29 15:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Hume: Introducing System-2 Thinking in Visual-Language-Action Model はコメントを受け付けていません

Cognitive Guardrails for Open-World Decision Making in Autonomous Drone Swarms

要約

小規模な航空システム(SUA)は、捜索救助およびその他の災害反応シナリオで自律的な群れとしてますます展開されています。
これらの設定では、コンピュータービジョン(CV)を使用して関心のあるオブジェクトを検出し、ミッションを自律的に適応させます。
ただし、従来のCVシステムは、オープンワールド環境でなじみのないオブジェクトを認識したり、ミッション計画に関連することを推測するのに苦労しています。
これに対処するために、検出されたオブジェクトとその意味について推論するために、大きな言語モデル(LLM)を組み込みます。
LLMは貴重な洞察を提供することができますが、幻覚を起こしやすく、誤った、誤解を招く、または安全でない推奨事項を生み出す可能性があります。
不確実性の下で安全で賢明な意思決定を確保するには、認知ガードレールによって高レベルの決定を支配する必要があります。
この記事では、これらのガードレールの設計、シミュレーション、および実世界の統合を、捜索救助ミッションでのSUAS群れの統合について説明します。

要約(オリジナル)

Small Uncrewed Aerial Systems (sUAS) are increasingly deployed as autonomous swarms in search-and-rescue and other disaster-response scenarios. In these settings, they use computer vision (CV) to detect objects of interest and autonomously adapt their missions. However, traditional CV systems often struggle to recognize unfamiliar objects in open-world environments or to infer their relevance for mission planning. To address this, we incorporate large language models (LLMs) to reason about detected objects and their implications. While LLMs can offer valuable insights, they are also prone to hallucinations and may produce incorrect, misleading, or unsafe recommendations. To ensure safe and sensible decision-making under uncertainty, high-level decisions must be governed by cognitive guardrails. This article presents the design, simulation, and real-world integration of these guardrails for sUAS swarms in search-and-rescue missions.

arxiv情報

著者 Jane Cleland-Huang,Pedro Antonio Alarcon Granadeno,Arturo Miguel Russell Bernal,Demetrius Hernandez,Michael Murphy,Maureen Petterson,Walter Scheirer
発行日 2025-05-29 15:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Cognitive Guardrails for Open-World Decision Making in Autonomous Drone Swarms はコメントを受け付けていません

Wake-Informed 3D Path Planning for Autonomous Underwater Vehicles Using A* and Neural Network Approximations

要約

自律的な水中車両(AUV)は、特に流体の相互作用やウェイク効果が追加のナビゲーションとエネルギーの課題をもたらす、発射と回復(LAR)などの近接操作中に、複雑な水中環境でかなりのエネルギー、制御、およびナビゲーションの課題に遭遇します。
従来の経路計画方法は、これらの詳細なウェイク構造を組み込むことができず、エネルギー消費の増加、制御安定性の低下、安全性の高まりをもたらします。
このペーパーでは、ローカライズされたウェイクエフェクトとグローバルな電流を計画アルゴリズムに完全に統合する、新しいウェイクに基づいた3Dパス計画アプローチを紹介します。
A*アルゴリズムの2つのバリアント – 現在の情報に基づいたプランナーとウェイクに基づいたプランナー – がその妥当性を評価するために作成され、2つのニューラルネットワークモデルがリアルタイムアプリケーションのためにこれらのプランナーを近似するようにトレーニングされます。
A*プランナーとNNモデルの両方は、エネルギー消費、経路の長さ、高速および乱流領域との出会いなどの重要なメトリックを使用して評価されます。
結果は、ウェイクに基づいたA*プランナーが一貫して最低のエネルギー消費を達成し、高速地域との出会いを最小限に抑え、エネルギー消費を最大11.3%削減することを示しています。
ニューラルネットワークモデルは、6桁の計算スピードアップを提供することが観察されていますが、エネルギー消費量が4.51〜19.79%、9.81-24.38%が最適なパスが少なくなります。
これらの調査結果は、複雑な3DドメインのAUVのエネルギー効率と運用安全性を高めるために、詳細なウェイク構造を従来の経路計画アルゴリズムに組み込むことの重要性と、神経ネットワーク近似の利点を強調しています。

要約(オリジナル)

Autonomous Underwater Vehicles (AUVs) encounter significant energy, control and navigation challenges in complex underwater environments, particularly during close-proximity operations, such as launch and recovery (LAR), where fluid interactions and wake effects present additional navigational and energy challenges. Traditional path planning methods fail to incorporate these detailed wake structures, resulting in increased energy consumption, reduced control stability, and heightened safety risks. This paper presents a novel wake-informed, 3D path planning approach that fully integrates localized wake effects and global currents into the planning algorithm. Two variants of the A* algorithm – a current-informed planner and a wake-informed planner – are created to assess its validity and two neural network models are then trained to approximate these planners for real-time applications. Both the A* planners and NN models are evaluated using important metrics such as energy expenditure, path length, and encounters with high-velocity and turbulent regions. The results demonstrate a wake-informed A* planner consistently achieves the lowest energy expenditure and minimizes encounters with high-velocity regions, reducing energy consumption by up to 11.3%. The neural network models are observed to offer computational speedup of 6 orders of magnitude, but exhibit 4.51 – 19.79% higher energy expenditures and 9.81 – 24.38% less optimal paths. These findings underscore the importance of incorporating detailed wake structures into traditional path planning algorithms and the benefits of neural network approximations to enhance energy efficiency and operational safety for AUVs in complex 3D domains.

arxiv情報

著者 Zachary Cooper-Baldock,Stephen Turnock,Karl Sammut
発行日 2025-05-29 15:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T40, 90C35, cs.AI, cs.LG, cs.RO, I.2.8 | Wake-Informed 3D Path Planning for Autonomous Underwater Vehicles Using A* and Neural Network Approximations はコメントを受け付けていません

Collaborative Last-Mile Delivery: A Multi-Platform Vehicle Routing Problem With En-route Charging

要約

電子商取引の急速な成長と、タイムリーで費用対効果の高いラストマイル配信に対する需要の増加により、共同物流への関心が高まっています。
この研究では、ドローンとロボット(VRP-DR)との新しい共同同期マルチプラットフォーム車両ルーティングの問題を紹介します。ここでは、$ \ mathcal {m} $トラック、$ \ mathcal {n} $ドローン、$ \ mathcal {k} $ $ロボットの艦隊が協力します。
トラックはモバイルプラットフォームとして機能し、ドローンとロボットの発売、取得、およびエンルートの充電を可能にし、それにより、制限されたペイロード容量、限られた範囲、バッテリーの制約などの重要な制限に対処します。
VRP-DRには、5つの現実的な機能が組み込まれています。(1)旅行あたりのマルチビジトサービス、(2)マルチトリップ操作、(3)柔軟なドッキング、同じまたは異なるトラックまたは異なるトラックへの返品(4)周期的および非環境操作、同じまたは異なるノードへの戻りを有効にします。
(5)充電、ドローンとロボットがトラックで輸送されながら充電できるようにし、アイドルトランジット時間を利用することで運用効率を最大化します。
VRP-DRは、運用コストとメイクスパンの両方を最小限に抑えるために、混合整数線形プログラム(MILP)として策定されています。
大規模なインスタンスを解くという計算上の課題を克服するために、スケーラブルなヒューリスティックアルゴリズムであるFinder(エネルギー充電との柔軟な統合送達)が開発され、効率的でほぼ最適なソリューションを提供します。
さまざまなインスタンスサイズにわたる数値実験では、ソリューションの品質と計算時間の観点から、MILPおよびヒューリスティックアプローチのパフォーマンスを評価します。
この結果は、トラックのみのモードでの併用配送モードの大幅な時間節約と、多面を可能にすることによる大幅なコスト削減を示しています。
この調査では、システムパフォーマンスに対するエンルートの充電、ドッキングの柔軟性、ドローンカウント、速度、ペイロード容量の影響に関する洞察も提供します。

要約(オリジナル)

The rapid growth of e-commerce and the increasing demand for timely, cost-effective last-mile delivery have increased interest in collaborative logistics. This research introduces a novel collaborative synchronized multi-platform vehicle routing problem with drones and robots (VRP-DR), where a fleet of $\mathcal{M}$ trucks, $\mathcal{N}$ drones and $\mathcal{K}$ robots, cooperatively delivers parcels. Trucks serve as mobile platforms, enabling the launching, retrieving, and en-route charging of drones and robots, thereby addressing critical limitations such as restricted payload capacities, limited range, and battery constraints. The VRP-DR incorporates five realistic features: (1) multi-visit service per trip, (2) multi-trip operations, (3) flexible docking, allowing returns to the same or different trucks (4) cyclic and acyclic operations, enabling return to the same or different nodes; and (5) en-route charging, enabling drones and robots to recharge while being transported on the truck, maximizing operational efficiency by utilizing idle transit time. The VRP-DR is formulated as a mixed-integer linear program (MILP) to minimize both operational costs and makespan. To overcome the computational challenges of solving large-scale instances, a scalable heuristic algorithm, FINDER (Flexible INtegrated Delivery with Energy Recharge), is developed, to provide efficient, near-optimal solutions. Numerical experiments across various instance sizes evaluate the performance of the MILP and heuristic approaches in terms of solution quality and computation time. The results demonstrate significant time savings of the combined delivery mode over the truck-only mode and substantial cost reductions from enabling multi-visits. The study also provides insights into the effects of en-route charging, docking flexibility, drone count, speed, and payload capacity on system performance.

arxiv情報

著者 Sumbal Malik,Majid Khonji,Khaled Elbassioni,Jorge Dias
発行日 2025-05-29 15:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Collaborative Last-Mile Delivery: A Multi-Platform Vehicle Routing Problem With En-route Charging はコメントを受け付けていません

AMOR: Adaptive Character Control through Multi-Objective Reinforcement Learning

要約

強化学習(RL)は、運動学的参照運動を追跡する物理ベースとロボットのキャラクターの制御を大幅に進めました。
ただし、メソッドは通常、矛盾する報酬機能の加重合計に依存しており、望ましい動作を達成するために広範なチューニングが必要です。
RLの計算コストのため、この反復プロセスは退屈で時間集約的なタスクです。
さらに、ロボット工学アプリケーションの場合、避けられないSIMからリアルへのギャップにもかかわらず、ポリシーが現実の世界でうまく機能するように、重みを選択する必要があります。
これらの課題に対処するために、報酬のトレードオフのパレートの前面にまたがる一連の重みを条件付けた単一のポリシーを訓練する多目的強化学習フレームワークを提案します。
このフレームワーク内で、トレーニング後に重みを選択して調整でき、反復時間を大幅に高速化します。
この改善されたワークフローを使用して、ロボット文字で非常に動的な動きを実行する方法を示します。
さらに、高レベルのポリシーを使用して、現在のタスクに従って重みを動的に選択するために、階層設定で重量化されたポリシーをどのように活用できるかを探ります。
多目的ポリシーがさまざまな動作のスペクトルをコードし、新しいタスクへの効率的な適応を促進することを示します。

要約(オリジナル)

Reinforcement learning (RL) has significantly advanced the control of physics-based and robotic characters that track kinematic reference motion. However, methods typically rely on a weighted sum of conflicting reward functions, requiring extensive tuning to achieve a desired behavior. Due to the computational cost of RL, this iterative process is a tedious, time-intensive task. Furthermore, for robotics applications, the weights need to be chosen such that the policy performs well in the real world, despite inevitable sim-to-real gaps. To address these challenges, we propose a multi-objective reinforcement learning framework that trains a single policy conditioned on a set of weights, spanning the Pareto front of reward trade-offs. Within this framework, weights can be selected and tuned after training, significantly speeding up iteration time. We demonstrate how this improved workflow can be used to perform highly dynamic motions with a robot character. Moreover, we explore how weight-conditioned policies can be leveraged in hierarchical settings, using a high-level policy to dynamically select weights according to the current task. We show that the multi-objective policy encodes a diverse spectrum of behaviors, facilitating efficient adaptation to novel tasks.

arxiv情報

著者 Lucas N. Alegre,Agon Serifi,Ruben Grandia,David Müller,Espen Knoop,Moritz Bächer
発行日 2025-05-29 17:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.RO | AMOR: Adaptive Character Control through Multi-Objective Reinforcement Learning はコメントを受け付けていません

MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment

要約

モデルコンテキストプロトコル(MCP)は、生成AIエージェントのシームレスな統合を可能にするオープン標準として広く適合しています。
しかし、最近の研究により、MCPは検索ベースの「誤った良性」攻撃(FBA)の影響を受けやすく、悪意のあるシステムアクセスと資格情報の盗難を可能にしますが、ユーザーがシステムに直接ファイルを直接ダウンロードすることを要求しています。
ここでは、MCPベースの攻撃の脅威モデルが以前に考えられていたよりも大幅に広いことを示しています。つまり、攻撃者はMCPエージェントを欺くために、疑いを持たない被害者のシステムに対する攻撃を実行するために、悪意のあるコンテンツのみをオンラインで必要とする必要があります。
このような攻撃に対する調整ガードレールを改善するために、FBAの新しいMCPデータセットと(真に)良性サンプルを導入して、大規模な言語モデル(LLMS)の拒否トレーニングのための直接選好最適化(DPO)の有効性を調査します。
DPOはそのような攻撃に対してモデルガードレールを改善しますが、拒否学習の有効性は、モデルの元のトレーニング後のアライメントスキーム(例)によって劇的に変化することを示しています。
したがって、FBAの拒否をさらに改善するために、RAGに基づく新しい優先アライメント戦略である優先順位のための検索拡張生成(RAG-PREF)を導入します。
RAG-PREFは、特にDPOアライメントと組み合わされた場合、LLMSがFBAを拒否する能力を大幅に改善し、MCPベースの攻撃に対するガードレールを大幅に改善することを示しています。

要約(オリジナル)

The model context protocol (MCP) has been widely adapted as an open standard enabling the seamless integration of generative AI agents. However, recent work has shown the MCP is susceptible to retrieval-based ‘falsely benign’ attacks (FBAs), allowing malicious system access and credential theft, but requiring that users download compromised files directly to their systems. Herein, we show that the threat model of MCP-based attacks is significantly broader than previously thought, i.e., attackers need only post malicious content online to deceive MCP agents into carrying out their attacks on unsuspecting victims’ systems. To improve alignment guardrails against such attacks, we introduce a new MCP dataset of FBAs and (truly) benign samples to explore the effectiveness of direct preference optimization (DPO) for the refusal training of large language models (LLMs). While DPO improves model guardrails against such attacks, we show that the efficacy of refusal learning varies drastically depending on the model’s original post-training alignment scheme–e.g., GRPO-based LLMs learn to refuse extremely poorly. Thus, to further improve FBA refusals, we introduce Retrieval Augmented Generation for Preference alignment (RAG-Pref), a novel preference alignment strategy based on RAG. We show that RAG-Pref significantly improves the ability of LLMs to refuse FBAs, particularly when combined with DPO alignment, thus drastically improving guardrails against MCP-based attacks.

arxiv情報

著者 John Halloran
発行日 2025-05-29 16:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment はコメントを受け付けていません

Global optimization of graph acquisition functions for neural architecture search

要約

グラフベイジアン最適化(BO)は、神経アーキテクチャ検索(NAS)の強力でデータ効率の高いツールとしての可能性を示しています。
ほとんどの既存のグラフBOワークスは、グラフ代理モデルの開発、つまりネットワークや異なるカーネルのメトリックの開発に焦点を当てており、ネットワーク間の類似性を定量化します。
ただし、グラフ構造を介した離散最適化タスクとしての取得最適化は、グラフ検索スペースと取得関数の策定の複雑さのために十分に研究されていません。
このペーパーでは、グラフカーネルと取得関数を策定するために後で使用される、到達可能性や最短パスなどのプロパティを含むグラフ入力空間の明示的な最適化定式化を示します。
提案されたエンコーディングがグラフ空間の同等の表現であることを理論的に証明し、ノードまたはエッジラベルのいずれかでNASドメインに制限を提供します。
いくつかのNASベンチマークにわたる数値結果は、私たちの方法がほとんどの場合に最適なアーキテクチャを効率的に見つけ、その有効性を強調することを示しています。

要約(オリジナル)

Graph Bayesian optimization (BO) has shown potential as a powerful and data-efficient tool for neural architecture search (NAS). Most existing graph BO works focus on developing graph surrogates models, i.e., metrics of networks and/or different kernels to quantify the similarity between networks. However, the acquisition optimization, as a discrete optimization task over graph structures, is not well studied due to the complexity of formulating the graph search space and acquisition functions. This paper presents explicit optimization formulations for graph input space including properties such as reachability and shortest paths, which are used later to formulate graph kernels and the acquisition function. We theoretically prove that the proposed encoding is an equivalent representation of the graph space and provide restrictions for the NAS domain with either node or edge labels. Numerical results over several NAS benchmarks show that our method efficiently finds the optimal architecture for most cases, highlighting its efficacy.

arxiv情報

著者 Yilin Xie,Shiqiang Zhang,Jixiang Qing,Ruth Misener,Calvin Tsay
発行日 2025-05-29 16:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Global optimization of graph acquisition functions for neural architecture search はコメントを受け付けていません

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

要約

現在の言語モデルは、有限の語彙からトークンを自動化することにより、チェーンオブ考えのトレースを生成します。
この個別のサンプリングは驚くべき成功を収めましたが、連続的に価値のあるトークン(COT2)を使用してチェーンを実施することは、より豊かでより表現力のある代替手段を提供します。
私たちの仕事は、検索機能を本質的に必要とし、COT2の最適化と探索方法を提供する論理的推論タスクを通じてCOT2の利点を検証します。
理論的には、COT2により、モデルが複数のトレースを並行して追跡し、推論効率の利点を定量化できることを示しています。
特に、COT2を装備した1つの層変圧器は、十分な埋め込み寸法を考慮して、組み合わせ「サブセット合計問題」を実証できます。
これらの洞察は、ターゲットトレースのセットの経験的トークン分布にソフトマックスの出力を一致させる斬新で効果的な監督戦略につながります。
これを補完すると、COT2のポリシーの最適化と自己改善のロックを解除するサンプリング戦略を導入します。
最初の戦略は、各デコードステップで$ k $離散トークンをサンプリングおよび構成して、並列処理のレベルを制御し、$ k = 1 $の場合は標準のコットに削減します。
2番目の戦略は、シンプレックスの確率に関する継続的な探索に依存しています。
実験により、COT2によるポリシーの最適化により、モデルの最初の離散または継続的な監督を超えてモデルのパフォーマンスが改善されることが確認されています。

要約(オリジナル)

Current language models generate chain-of-thought traces by autoregressively sampling tokens from a finite vocabulary. While this discrete sampling has achieved remarkable success, conducting chain-of-thought with continuously-valued tokens (CoT2) offers a richer and more expressive alternative. Our work examines the benefits of CoT2 through logical reasoning tasks that inherently require search capabilities and provide optimization and exploration methods for CoT2. Theoretically, we show that CoT2 allows the model to track multiple traces in parallel and quantify its benefits for inference efficiency. Notably, one layer transformer equipped with CoT2 can provably solve the combinatorial ‘subset sum problem’ given sufficient embedding dimension. These insights lead to a novel and effective supervision strategy where we match the softmax outputs to the empirical token distributions of a set of target traces. Complementing this, we introduce sampling strategies that unlock policy optimization and self-improvement for CoT2. Our first strategy samples and composes $K$ discrete tokens at each decoding step to control the level of parallelism, and reduces to standard CoT when $K=1$. Our second strategy relies on continuous exploration over the probability simplex. Experiments confirm that policy optimization with CoT2 indeed improves the performance of the model beyond its initial discrete or continuous supervision.

arxiv情報

著者 Halil Alperen Gozeten,M. Emrullah Ildiz,Xuechen Zhang,Hrayr Harutyunyan,Ankit Singh Rawat,Samet Oymak
発行日 2025-05-29 16:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Continuous Chain of Thought Enables Parallel Exploration and Reasoning はコメントを受け付けていません

Optimal Bounds for Adversarial Constrained Online Convex Optimization

要約

制約されたオンライン凸最適化(COCO)は、標準のオンライン凸最適化(OCO)フレームワークの一般化と見なすことができます。
各ラウンドで、学習者がアクションを選択した後にコスト関数と制約機能が明らかになります。
目標は、適応敵に対する後悔と累積制約違反(CCV)の両方を最小限に抑えることです。
後悔とCCVの両方で最適な$ o(\ sqrt {t})$ boundを得ることができることを初めて示します。
制約関数に最小ペナルティを強制する新しい代理損失関数に基づいて、次の正規化されたリーダーとオンライン勾配降下の両方が最適な境界を達成することを示します。

要約(オリジナル)

Constrained Online Convex Optimization (COCO) can be seen as a generalization of the standard Online Convex Optimization (OCO) framework. At each round, a cost function and constraint function are revealed after a learner chooses an action. The goal is to minimize both the regret and cumulative constraint violation (CCV) against an adaptive adversary. We show for the first time that is possible to obtain the optimal $O(\sqrt{T})$ bound on both regret and CCV, improving the best known bounds of $O \left( \sqrt{T} \right)$ and $\tilde{O} \left( \sqrt{T} \right)$ for the regret and CCV, respectively. Based on a new surrogate loss function enforcing a minimum penalty on the constraint function, we demonstrate that both the Follow-the-Regularized-Leader and the Online Gradient Descent achieve the optimal bounds.

arxiv情報

著者 Ricardo N. Ferreira,Cláudia Soares
発行日 2025-05-29 16:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.OC, stat.ML | Optimal Bounds for Adversarial Constrained Online Convex Optimization はコメントを受け付けていません