Optimizing Length Compression in Large Reasoning Models

要約

大規模な推論モデル(LRM)は驚くべき成功を収めていますが、しばしば不必要で冗長な推論チェーンの生産に苦しんでいます。
この問題の中心的な側面を「無効な思考」として特定します。モデルは、正解を導き出した後、作業を​​繰り返し再確認する傾向があります。
この特定の非効率性に対処するために、有効性と効率の一般原則を超えて、2つの新しい細粒の原則を提案するために移動します。これは、冗長性を排除することを提唱するBrevityと、重要な推論ステップが保持されることを保証します。
これらの原則に導かれて、グループ相対政策最適化(GRPO)に基づくトレーニング後の方法であるLC-R1を紹介します。
LC-R1は、全体的な簡潔さに対する長さの報酬の新しい組み合わせと、思考プロセスの無効な部分を除去するように特別に設計された圧縮報酬を採用しています。
複数の推論ベンチマークでの広範な実験は、LC-R1が精度がわずか(〜2%)の低下でのみ順序長(〜50%)の大幅な減少を達成し、高圧縮を優先するパレートフロンティアで好ましいトレードオフポイントを達成することを示しています。
私たちの分析は、LC-R1の堅牢性をさらに検証し、より強力でありながら計算効率の高いLRMを開発するための貴重な洞察を提供します。
私たちのコードはhttps://github.com/zxiangx/lc-r1でリリースされています。

要約(オリジナル)

Large Reasoning Models (LRMs) have achieved remarkable success, yet they often suffer from producing unnecessary and verbose reasoning chains. We identify a core aspect of this issue as ‘invalid thinking’ — models tend to repeatedly double-check their work after having derived the correct answer. To address this specific inefficiency, we move beyond the general principles of Efficacy and Efficiency to propose two new, fine-grained principles: Brevity, which advocates for eliminating redundancy, and Sufficiency, which ensures critical reasoning steps are preserved. Guided by these principles, we introduce LC-R1, a post-training method based on Group Relative Policy Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for overall conciseness and a Compress Reward that is specifically designed to remove the invalid portion of the thinking process. Extensive experiments on multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant reduction in sequence length (~50%) with only a marginal (~2%) drop in accuracy, achieving a favorable trade-off point on the Pareto frontier that prioritizes high compression. Our analysis further validates the robustness of LC-R1 and provides valuable insights for developing more powerful yet computationally efficient LRMs. Our code is released at https://github.com/zxiangx/LC-R1.

arxiv情報

著者 Zhengxiang Cheng,Dongping Chen,Mingyang Fu,Tianyi Zhou
発行日 2025-06-17 17:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Optimizing Length Compression in Large Reasoning Models はコメントを受け付けていません

SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints

要約

言語エージェントが重要なタスクをますます自動化するにつれて、ドメイン固有の標準操作手順(SOP)、アクションを実行してツールコールを作成する際の制約に従う能力が不可欠になりますが、採用されていないままです。
このギャップに対処するために、(1)サービス固有のSOPSおよびルールベースの検証剤を備えた7つのカスタマーサービスドメインにわたって167のツール/機能を含む167のツール/機能を含む実行可能環境、(2)900を超える検証されたテストケースを生成する自動化されたテスト生成フレームワーク、および(3)自動化された評価フレームワークからの自動評価剤の順方向のアドヘンワークを評価する自動評価フレームワークを使用して、(2)dimeを評価する自動評価フレームワークを備えた実行可能な環境を開発します。
私たちのアプローチは、各サービス固有のSOPコードプログラムを実行可能ファイル関数の指示されたグラフに変換し、自然言語SOPの説明に基づいてこれらの機能を呼び出す必要があります。
元のコードは、コンプライアンスを評価するためのOracleルールベースの検証剤として機能し、手動注釈とLLMベースの評価への依存を減らします。
18の主要なモデルを評価し、結果は、ドメイン間の分散を伴う最高層モデル(GPT-4O、Claude-3.7-Sonnetなど)でもタスクが困難であることを示しています。
O4-mini-highのような推論モデルは優位性を示しますが、他の強力なモデルは効果的に機能しなくなり(30%〜50%の合格率)、小さなモデル(7b、8b)は著しく悪化します。
さらに、言語エージェントは、SOPと制約を見落とすために簡単に脱却することができます。
コード、データ、および24K以上のエージェント軌道は、https://github.com/leezekun/sopbenchでリリースされます。

要約(オリジナル)

As language agents increasingly automate critical tasks, their ability to follow domain-specific standard operating procedures (SOPs), policies, and constraints when taking actions and making tool calls becomes essential yet remains underexplored. To address this gap, we develop an automated evaluation pipeline SOPBench with: (1) executable environments containing 167 tools/functions across seven customer service domains with service-specific SOPs and rule-based verifiers, (2) an automated test generation framework producing over 900 verified test cases, and (3) an automated evaluation framework to rigorously assess agent adherence from multiple dimensions. Our approach transforms each service-specific SOP code program into a directed graph of executable functions and requires agents to call these functions based on natural language SOP descriptions. The original code serves as oracle rule-based verifiers to assess compliance, reducing reliance on manual annotations and LLM-based evaluations. We evaluate 18 leading models, and results show the task is challenging even for top-tier models (like GPT-4o, Claude-3.7-Sonnet), with variances across domains. Reasoning models like o4-mini-high show superiority while other powerful models perform less effectively (pass rates of 30%-50%), and small models (7B, 8B) perform significantly worse. Additionally, language agents can be easily jailbroken to overlook SOPs and constraints. Code, data, and over 24k agent trajectories are released at https://github.com/Leezekun/SOPBench.

arxiv情報

著者 Zekun Li,Shinda Huang,Jiangtian Wang,Nathan Zhang,Antonis Antoniades,Wenyue Hua,Kaijie Zhu,Sirui Zeng,Chi Wang,William Yang Wang,Xifeng Yan
発行日 2025-06-17 17:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints はコメントを受け付けていません

Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets

要約

大規模な言語モデルは、タスクと知識のユーザー要求に応答して、さまざまな設定で人間のような会話を実行できます。
ただし、LLMを使用して実装された既存の会話エージェントは、条件付きロジックを備えた指示に従って、さまざまなソースからの知識を統合することに従って、幻覚と闘うことがよくあります。
これらの欠点は、エージェントの有効性を妥協し、展開に不適切にします。
これらの課題に対処するために、知識集約型のタスク指向の会話エージェントを作成するためのプログラム可能なフレームワークであるGenieを紹介します。
Genieは、関係する相互作用を処理し、複雑なクエリに答えることができます。
LLMSとは異なり、高度なダイアログ状態管理を通じて信頼できる根拠のある応答を提供し、宣言的な仕様であるGenie Worksheetを介して制御可能なエージェントポリシーをサポートします。
これは、開発者がサポートするポリシーを実装するアルゴリズムランタイムシステムを通じて達成され、LLMSを(1)簡潔な会話履歴を使用してユーザー入力を解析し、(2)提供されたコンテキストに応じて応答を生成します。
Genieで構築されたエージェントは、複雑なロジックダイアログデータセットでSOTAメソッドを上回ります。
私たちは、3つの実際のアプリケーションで62人の参加者とのユーザー調査を実施しました:Yelpのレストランの予約、および大学生のチケットの提出とコース登録。
GPT-4ターボを搭載したGenieエージェントは、機能呼び出しを伴うGPT-4ターボエージェントを上回り、3つの実際のタスクで目標完了率を21.8%から82.8%に改善しました。

要約(オリジナル)

Large Language Models can carry out human-like conversations in diverse settings, responding to user requests for tasks and knowledge. However, existing conversational agents implemented with LLMs often struggle with hallucination, following instructions with conditional logic, and integrating knowledge from different sources. These shortcomings compromise the agents’ effectiveness, rendering them unsuitable for deployment. To address these challenges, we introduce Genie, a programmable framework for creating knowledge-intensive task-oriented conversational agents. Genie can handle involved interactions and answer complex queries. Unlike LLMs, it delivers reliable, grounded responses through advanced dialogue state management and supports controllable agent policies via its declarative specification — Genie Worksheet. This is achieved through an algorithmic runtime system that implements the developer-supplied policy, limiting LLMs to (1) parse user input using a succinct conversational history, and (2) generate responses according to supplied context. Agents built with Genie outperform SOTA methods on complex logic dialogue datasets. We conducted a user study with 62 participants on three real-life applications: restaurant reservations with Yelp, as well as ticket submission and course enrollment for university students. Genie agents with GPT-4 Turbo outperformed the GPT-4 Turbo agents with function calling, improving goal completion rates from 21.8% to 82.8% across three real-world tasks.

arxiv情報

著者 Harshit Joshi,Shicheng Liu,James Chen,Robert Weigle,Monica S. Lam
発行日 2025-06-17 17:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PL | Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets はコメントを受け付けていません

From Bytes to Ideas: Language Modeling with Autoregressive U-Nets

要約

トークン化は、入力テキストに固定された粒度を課し、言語モデルがデータでどのように動作するか、将来どの程度予測するかを凍結します。
バイトペアエンコード(BPE)と同様のスキームはテキストを一度分割し、静的な語彙を構築し、モデルをその選択に固執したままにします。
私たちは、訓練中に独自のトークンを埋め込むことを学ぶ自己回帰のu-netを導入することにより、この剛性を緩和します。
ネットワークは、生のバイトを読み取り、単語にプールし、次に単語のペアをペアし、最大4語でシーケンスのマルチスケールビューを提供します。
より深い段階では、モデルは次のバイトではなく次のいくつかの単語を予測する未来をさらに予測する必要があります。
浅い階層を慎重に調整して制御すると、浅い階層が強力なBPEベースラインを結び、より深い階層には有望な傾向があります。
トークン化は現在モデル内にあるため、同じシステムが文字レベルのタスクを処理し、低リソース言語で知識を運ぶことができます。

要約(オリジナル)

Tokenization imposes a fixed granularity on the input text, freezing how a language model operates on data and how far in the future it predicts. Byte Pair Encoding (BPE) and similar schemes split text once, build a static vocabulary, and leave the model stuck with that choice. We relax this rigidity by introducing an autoregressive U-Net that learns to embed its own tokens as it trains. The network reads raw bytes, pools them into words, then pairs of words, then up to 4 words, giving it a multi-scale view of the sequence. At deeper stages, the model must predict further into the future — anticipating the next few words rather than the next byte — so deeper stages focus on broader semantic patterns while earlier stages handle fine details. When carefully tuning and controlling pretraining compute, shallow hierarchies tie strong BPE baselines, and deeper hierarchies have a promising trend. Because tokenization now lives inside the model, the same system can handle character-level tasks and carry knowledge across low-resource languages.

arxiv情報

著者 Mathurin Videau,Badr Youbi Idrissi,Alessandro Leite,Marc Schoenauer,Olivier Teytaud,David Lopez-Paz
発行日 2025-06-17 17:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | From Bytes to Ideas: Language Modeling with Autoregressive U-Nets はコメントを受け付けていません

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

要約

テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応が影響を受けました。
ただし、音声は連続的かつ複雑であるため、自己回帰モデリングのために離散化されることがよくあります。
自己監視モデル(セマンティックトークンとして知られる)から派生した音声トークンは、通常、音声の言語的側面に焦点を当てていますが、韻律情報を無視します。
その結果、これらのトークンで訓練されたモデルは、自然性を低下させた音声を生成できます。
既存のアプローチは、セマンティックトークンにピッチ機能を追加することにより、これを修正しようとします。
ただし、ピッチだけでは、麻痺性属性の範囲を完全に表すことはできません。適切な機能を選択するには、慎重な手作業が必要です。
これを克服するために、セマンティックトークンを強化するためにこれらの連続音声属性をエンコードすることを自動的に学習するエンドツーエンドの変分アプローチを提案します。
私たちのアプローチは、手動抽出と麻痺性の特徴の選択の必要性を排除します。
さらに、人間の評価者に従って好ましい音声継続を生成します。
コード、サンプル、モデルはhttps://github.com/b04901014/vae-gslmで入手できます。

要約(オリジナル)

The success of large language models in text processing has inspired their adaptation to speech modeling. However, since speech is continuous and complex, it is often discretized for autoregressive modeling. Speech tokens derived from self-supervised models (known as semantic tokens) typically focus on the linguistic aspects of speech but neglect prosodic information. As a result, models trained on these tokens can generate speech with reduced naturalness. Existing approaches try to fix this by adding pitch features to the semantic tokens. However, pitch alone cannot fully represent the range of paralinguistic attributes, and selecting the right features requires careful hand-engineering. To overcome this, we propose an end-to-end variational approach that automatically learns to encode these continuous speech attributes to enhance the semantic tokens. Our approach eliminates the need for manual extraction and selection of paralinguistic features. Moreover, it produces preferred speech continuations according to human raters. Code, samples and models are available at https://github.com/b04901014/vae-gslm.

arxiv情報

著者 Li-Wei Chen,Takuya Higuchi,Zakaria Aldeneh,Ahmed Hussen Abdelaziz,Alexander Rudnicky
発行日 2025-06-17 17:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | A Variational Framework for Improving Naturalness in Generative Spoken Language Models はコメントを受け付けていません

Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

要約

チェーンオブシャーチ(COT)の推論は、最先端のAI機能を大幅に進めています。
しかし、最近の研究では、モデルがプロンプトの明示的なバイアスに直面している場合、COTの推論は必ずしも忠実ではないことが示されています。つまり、COTは、モデルが結論に到達する方法の誤った画像を与えることができます。
さらに進んで、人工的なバイアスのない現実的なプロンプトで不誠実なベッドも発生する可能性があることを示します。
質問が個別に提示されたとき、「xはyよりも大きいですか?」
そして、「yはxよりも大きいですか?」、モデルは時々、このような回答が論理的に矛盾しているにもかかわらず、両方の質問にyesを体系的にnoに回答するか、両方の質問にyを正当化することを正当化するために表面的に一貫した議論を生成することがあります。
これは、モデルの暗黙のバイアスが「はい」または「いいえ」に対する暗黙のバイアスによるものであるという予備的な証拠を示します。したがって、この不誠実さは暗黙の事後合理化としてラベル付けされています。
我々の結果は、いくつかの生産モデルが、GPT-4O-MINI(13%)とHaiku 3.5(7%)で驚くほど高い率の事後合理化率を示すことを明らかにしています。
フロンティアモデルはより忠実であり、特に思考のモデルは、完全に忠実ではありません。ジェミニ2.5フラッシュ(2.17%)、ChatGPT-4O(0.49%)、Deepseek R1(0.37%)、Gemini 2.5 Pro(0.14%)、Sonnet 3.7は思考(0.04%)です。
また、モデルが微妙に非論理的な推論を使用して、厳しい数学の問題に対する投機的な答えを作成しようとする不誠実な非論理的なショートカットを調査します。
私たちの調査結果は、思考の連鎖を介してLLMSの望ましくない行動を検出するための戦略の課題を引き起こします。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has significantly advanced state-of-the-art AI capabilities. However, recent studies have shown that CoT reasoning is not always faithful when models face an explicit bias in their prompts, i.e., the CoT can give an incorrect picture of how models arrive at conclusions. We go further and show that unfaithful CoT can also occur on realistic prompts with no artificial bias. We find that when separately presented with the questions ‘Is X bigger than Y?’ and ‘Is Y bigger than X?’, models sometimes produce superficially coherent arguments to justify systematically answering Yes to both questions or No to both questions, despite such responses being logically contradictory. We show preliminary evidence that this is due to models’ implicit biases towards Yes or No, thus labeling this unfaithfulness as Implicit Post-Hoc Rationalization. Our results reveal that several production models exhibit surprisingly high rates of post-hoc rationalization in our settings: GPT-4o-mini (13%) and Haiku 3.5 (7%). While frontier models are more faithful, especially thinking ones, none are entirely faithful: Gemini 2.5 Flash (2.17%), ChatGPT-4o (0.49%), DeepSeek R1 (0.37%), Gemini 2.5 Pro (0.14%), and Sonnet 3.7 with thinking (0.04%). We also investigate Unfaithful Illogical Shortcuts, where models use subtly illogical reasoning to try to make a speculative answer to hard maths problems seem rigorously proven. Our findings raise challenges for strategies for detecting undesired behavior in LLMs via the chain of thought.

arxiv情報

著者 Iván Arcuschin,Jett Janiak,Robert Krzyzanowski,Senthooran Rajamanoharan,Neel Nanda,Arthur Conmy
発行日 2025-06-17 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Chain-of-Thought Reasoning In The Wild Is Not Always Faithful はコメントを受け付けていません

Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection

要約

ワンショットサブセット選択は、情報抽出器(つまり)によって抽出された情報に基づいて、有益なデータサブセットを識別することにより、深い学習トレーニングコストを削減するための効果的なツールとして機能します。
通常、ターゲットデータセットで事前に訓練された従来のIEは、本質的にデータセットに依存します。
Foundation Models(FMS)は、この制限を緩和する可能性のある有望な代替手段を提供します。
この作業では、2つの重要な質問を調査しています。(1)FMベースのサブセット選択は、多様なデータセット全体で従来のIEベースのメソッドを上回ることができますか?
(2)すべてのFMSは、サブセット選択のためにIESと同様に同様に機能しますか?
広範な実験では、驚くべき洞察が明らかになりました。FMSは、きめ細かいデータセットで従来のIEを一貫して上回るのに対し、騒々しいラベルを備えた粗粒のデータセットでの利点は減少します。
これらの発見に動機付けられて、ラムAPL(擬似クラスラベルのランキングの平均的精査)を提案します。これは、細粒画像データセットに合わせた方法です。
RAM-APLは、複数のFMを活用して、補完的な強さを活用することによりサブセット選択を強化します。
私たちのアプローチは、Oxford-IIIT PET、Food-101、Caltech-UCSD Birds-200-2011など、きめ細かいデータセットで最先端のパフォーマンスを達成しています。

要約(オリジナル)

One-shot subset selection serves as an effective tool to reduce deep learning training costs by identifying an informative data subset based on the information extracted by an information extractor (IE). Traditional IEs, typically pre-trained on the target dataset, are inherently dataset-dependent. Foundation models (FMs) offer a promising alternative, potentially mitigating this limitation. This work investigates two key questions: (1) Can FM-based subset selection outperform traditional IE-based methods across diverse datasets? (2) Do all FMs perform equally well as IEs for subset selection? Extensive experiments uncovered surprising insights: FMs consistently outperform traditional IEs on fine-grained datasets, whereas their advantage diminishes on coarse-grained datasets with noisy labels. Motivated by these finding, we propose RAM-APL (RAnking Mean-Accuracy of Pseudo-class Labels), a method tailored for fine-grained image datasets. RAM-APL leverages multiple FMs to enhance subset selection by exploiting their complementary strengths. Our approach achieves state-of-the-art performance on fine-grained datasets, including Oxford-IIIT Pet, Food-101, and Caltech-UCSD Birds-200-2011.

arxiv情報

著者 Zhijing Wan,Zhixiang Wang,Zheng Wang,Xin Xu,Shin’ichi Satoh
発行日 2025-06-17 12:37:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection はコメントを受け付けていません

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

要約

高度なロボット工学にとって、接触豊富な相互作用による器用な操作が重要です。
最近の拡散ベースの計画アプローチは、単純な操作タスクの可能性を示していますが、複雑なシーケンシャル相互作用を処理するときに、非現実的なゴースト状態(たとえば、オブジェクトが自動的に手と接触せずに移動する)または適応性がないことがよくあります。
この作業では、適応的な器用な操作のための相互作用対応拡散計画フレームワークであるDexhanddiffを紹介します。
Dexhanddiffモデルは、相互作用前の接触アライメントとコンタクト後の目標指向制御で構成される二重相拡散プロセスを介した共同の状態アクションダイナミクスをモデル化し、目標適応一般化可能な器用な操作を可能にします。
さらに、ダイナミクスモデルベースのデュアルガイダンスを組み込み、自動ガイダンス関数の生成のための大規模な言語モデルを活用し、物理的相互作用の一般化を強化し、言語キューを通じて多様な目標適応を促進します。
ドアの開口部、ペンとブロックの再配向、オブジェクトの再配置、ハンマーストライキなどの物理的相互作用タスクの実験は、既存の方法と比較して平均成功率(59.2%対29.5%)の2倍以上のトレーニング分布外の目標に対するDexhanddiffの有効性を示しています。
私たちのフレームワークは、目標適応型器用なタスクで平均70.7%の成功率を達成し、接触豊富な操作における堅牢性と柔軟性を強調しています。

要約(オリジナル)

Dexterous manipulation with contact-rich interactions is crucial for advanced robotics. While recent diffusion-based planning approaches show promise for simple manipulation tasks, they often produce unrealistic ghost states (e.g., the object automatically moves without hand contact) or lack adaptability when handling complex sequential interactions. In this work, we introduce DexHandDiff, an interaction-aware diffusion planning framework for adaptive dexterous manipulation. DexHandDiff models joint state-action dynamics through a dual-phase diffusion process which consists of pre-interaction contact alignment and post-contact goal-directed control, enabling goal-adaptive generalizable dexterous manipulation. Additionally, we incorporate dynamics model-based dual guidance and leverage large language models for automated guidance function generation, enhancing generalizability for physical interactions and facilitating diverse goal adaptation through language cues. Experiments on physical interaction tasks such as door opening, pen and block re-orientation, object relocation, and hammer striking demonstrate DexHandDiff’s effectiveness on goals outside training distributions, achieving over twice the average success rate (59.2% vs. 29.5%) compared to existing methods. Our framework achieves an average of 70.7% success rate on goal adaptive dexterous tasks, highlighting its robustness and flexibility in contact-rich manipulation.

arxiv情報

著者 Zhixuan Liang,Yao Mu,Yixiao Wang,Tianxing Chen,Wenqi Shao,Wei Zhan,Masayoshi Tomizuka,Ping Luo,Mingyu Ding
発行日 2025-06-17 12:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation はコメントを受け付けていません

FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing

要約

Floweditなどのフローベースの画像編集方法は、安定した拡散3などの事前に訓練されたノイズ間フローモデルを活用し、通常の微分方程式(ODE)を解くことによりテキスト駆動型の操作を可能にします。
正確な潜在的反転の欠如はこれらの方法の中心的な利点ですが、多くの場合、不安定な編集軌跡とソースの一貫性が低下します。
この制限に対処するために、原則的な軌跡制御を備えた一貫した画像編集のための新しい反転のないフローベースのフレームワークであるFlowAlignを提案します。
FlowAlignは、編集プロセス中によりスムーズで安定した軌跡を促進するための正規化メカニズムとしてフローマッチング損失を導入します。
特に、フローマッチング損失は、編集プロンプトと軌跡に沿ったソース画像との構造的一貫性とセマンティックアライメントを明示的にバランスさせることが示されています。
さらに、FlowAlignは、オードの軌跡を単純に逆転させることにより、自然に逆編集をサポートし、変換の可逆的で一貫した性質を強調します。
広範な実験では、流れがソースの保存と編集制御可能性の両方で既存の方法を上回ることが示されています。

要約(オリジナル)

Recent inversion-free, flow-based image editing methods such as FlowEdit leverages a pre-trained noise-to-image flow model such as Stable Diffusion 3, enabling text-driven manipulation by solving an ordinary differential equation (ODE). While the lack of exact latent inversion is a core advantage of these methods, it often results in unstable editing trajectories and poor source consistency. To address this limitation, we propose FlowAlign, a novel inversion-free flow-based framework for consistent image editing with principled trajectory control. FlowAlign introduces a flow-matching loss as a regularization mechanism to promote smoother and more stable trajectories during the editing process. Notably, the flow-matching loss is shown to explicitly balance semantic alignment with the edit prompt and structural consistency with the source image along the trajectory. Furthermore, FlowAlign naturally supports reverse editing by simply reversing the ODE trajectory, highlighting the reversible and consistent nature of the transformation. Extensive experiments demonstrate that FlowAlign outperforms existing methods in both source preservation and editing controllability.

arxiv情報

著者 Jeongsol Kim,Yeobin Hong,Jong Chul Ye
発行日 2025-06-17 12:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing はコメントを受け付けていません

I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs

要約

既存の3Dビジュアル接地方法は、3Dシーン内でオブジェクトを見つけるために、正確なテキストプロンプトに依存しています。
自然で直感的なモダリティとしてのスピーチは、有望な代替手段を提供します。
ただし、実際の音声入力は、アクセント、バックグラウンドノイズ、音声レートの変化により、転写エラーに苦しむことが多く、既存の3DVGメソッドの適用性が制限されます。
これらの課題に対処するために、\ textBf {speechRefer}を提案します。これは、ノイズの多い曖昧な音声からテキストへの転写が存在するためにパフォーマンスを強化するために設計された新しい3DVGフレームワークです。
SpeechReferは、Xisting 3DVGモデルとシームレスに統合し、2つの重要なイノベーションを導入します。
第一に、音声補完的なモジュールは、音声的に関連する単語の間の音響の類似性をキャプチャし、微妙な区別を強調し、音声信号から補完的な提案スコアを生成します。
これにより、潜在的に誤った転写への依存が減少します。
第二に、対照的な補完的なモジュールは、誤ったテキスト機能を対応する音声機能と整列させるための対照的な学習を採用し、転写エラーが支配された場合でも堅牢なパフォーマンスを確保します。
SpeechReferおよびPeechnr3Dデータセットの広範な実験は、SpeechReferが既存の3DVGメソッドのパフォーマンスを大きなマージンで改善することを示しています。これにより、音声リーファーの騒々しい音声入力と信頼性の高い3DVGの間のギャップを埋める可能性を強調し、より直感的で実用的なマルチモーダルシステムを可能にします。

要約(オリジナル)

Existing 3D visual grounding methods rely on precise text prompts to locate objects within 3D scenes. Speech, as a natural and intuitive modality, offers a promising alternative. Real-world speech inputs, however, often suffer from transcription errors due to accents, background noise, and varying speech rates, limiting the applicability of existing 3DVG methods. To address these challenges, we propose \textbf{SpeechRefer}, a novel 3DVG framework designed to enhance performance in the presence of noisy and ambiguous speech-to-text transcriptions. SpeechRefer integrates seamlessly with xisting 3DVG models and introduces two key innovations. First, the Speech Complementary Module captures acoustic similarities between phonetically related words and highlights subtle distinctions, generating complementary proposal scores from the speech signal. This reduces dependence on potentially erroneous transcriptions. Second, the Contrastive Complementary Module employs contrastive learning to align erroneous text features with corresponding speech features, ensuring robust performance even when transcription errors dominate. Extensive experiments on the SpeechRefer and peechNr3D datasets demonstrate that SpeechRefer improves the performance of existing 3DVG methods by a large margin, which highlights SpeechRefer’s potential to bridge the gap between noisy speech inputs and reliable 3DVG, enabling more intuitive and practical multimodal systems.

arxiv情報

著者 Yu Qi,Lipeng Gu,Honghua Chen,Liangliang Nan,Mingqiang Wei
発行日 2025-06-17 13:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs はコメントを受け付けていません