Fast and Robust Visuomotor Riemannian Flow Matching Policy

要約

拡散ベースの視覚運動ポリシーは、視覚データを高次元のマルチモーダルアクション分布と効果的に組み合わせることにより、複雑なロボットタスクを学習することに優れています。
ただし、拡散モデルは、費用のかかる除去プロセスのために遅い推論に悩まされるか、最近の蒸留アプローチから生じる複雑な連続トレーニングが必要です。
このペーパーでは、フローマッチング(FM)の簡単なトレーニングと高速推論機能を継承するモデルであるRiemannian Flow Matchingポリシー(RFMP)を紹介します。
さらに、RFMPは、ロボット状態がリーマニアの多様体に存在するため、現実的なロボットアプリケーションで一般的に見られる幾何学的制約を本質的に組み込んでいます。
RFMPの堅牢性を高めるために、安定したRFMP(SRFMP)を提案します。これは、Lasalleの不変性の原則を活用して、FMのダイナミクスにターゲットリーマン分布のサポートに安定性を装備します。
8つのシミュレートされた現実世界のタスクに関する厳密な評価は、RFMPが効率的なトレーニング段階と推論フェーズを備えたユークリッドおよびリーマニアンスペースの複雑な感覚運動ポリシーを成功および合成し、拡散ポリシーと一貫性ポリシーを上回ることを示しています。

要約(オリジナル)

Diffusion-based visuomotor policies excel at learning complex robotic tasks by effectively combining visual data with high-dimensional, multi-modal action distributions. However, diffusion models often suffer from slow inference due to costly denoising processes or require complex sequential training arising from recent distilling approaches. This paper introduces Riemannian Flow Matching Policy (RFMP), a model that inherits the easy training and fast inference capabilities of flow matching (FM). Moreover, RFMP inherently incorporates geometric constraints commonly found in realistic robotic applications, as the robot state resides on a Riemannian manifold. To enhance the robustness of RFMP, we propose Stable RFMP (SRFMP), which leverages LaSalle’s invariance principle to equip the dynamics of FM with stability to the support of a target Riemannian distribution. Rigorous evaluation on eight simulated and real-world tasks show that RFMP successfully learns and synthesizes complex sensorimotor policies on Euclidean and Riemannian spaces with efficient training and inference phases, outperforming Diffusion Policies and Consistency Policies.

arxiv情報

著者 Haoran Ding,Noémie Jaquier,Jan Peters,Leonel Rozo
発行日 2025-05-16 17:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Fast and Robust Visuomotor Riemannian Flow Matching Policy はコメントを受け付けていません

msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML

要約

AIは、大規模な言語モデルからマイクロコントローラー(MCU)で実行されている小さなモデルに及びます。
非常にメモリ効率の高いモデルアーキテクチャは、MCUの小さなメモリ予算、たとえば128kbのRAMに収まるように決定的です。
ただし、リアルタイムの制約に適合するには、推論のレイテンシが小さくしておく必要があります。
これに取り組むためのアプローチは、ニューラルネットワークレイヤー間のデータフローを最適化することを目的としたパッチベースの融合です。
このホワイトペーパーでは、方向の高い環境グラフとして表される融合溶液スペースを歩くことにより、畳み込みニューラルネットワーク(CNNS)の最適な融合設定を効率的に見つける新しい手法であるMSF-CNNを紹介します。
MCUのCNN融合に関する以前の研究と比較して、MSF-CNNはより広いソリューションセットを特定します。
さまざまなマイクロコントローラーで実行されているMSF-CNNの実装を公開しました(ARM Cortex-M、RISC-V、ESP32)。
MSF-CNNは、以前のART(MCUNETV2およびStreamNet)と比較して50%少ないRAMを使用して推論を達成できることを示しています。
したがって、MSF-CNNがシステム設計者に追加の柔軟性をどのように提供するかを示します。

要約(オリジナル)

AI spans from large language models to tiny models running on microcontrollers (MCUs). Extremely memory-efficient model architectures are decisive to fit within an MCU’s tiny memory budget e.g., 128kB of RAM. However, inference latency must remain small to fit real-time constraints. An approach to tackle this is patch-based fusion, which aims to optimize data flows across neural network layers. In this paper, we introduce msf-CNN, a novel technique that efficiently finds optimal fusion settings for convolutional neural networks (CNNs) by walking through the fusion solution space represented as a directed acyclic graph. Compared to previous work on CNN fusion for MCUs, msf-CNN identifies a wider set of solutions. We published an implementation of msf-CNN running on various microcontrollers (ARM Cortex-M, RISC-V, ESP32). We show that msf-CNN can achieve inference using 50% less RAM compared to the prior art (MCUNetV2 and StreamNet). We thus demonstrate how msf-CNN offers additional flexibility for system designers.

arxiv情報

著者 Zhaolan Huang,Emmanuel Baccelli
発行日 2025-05-16 17:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PF | msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML はコメントを受け付けていません

Potential failures of physics-informed machine learning in traffic flow modeling: theoretical and experimental analysis

要約

この研究では、トラフィックフローモデリングのための物理学に基づいた機械学習(PIML)アプローチのパフォーマンスを批判的に調べ、PIMLモデルの障害を純粋にデータ駆動型と純粋に物理ベースの両方のカウンターパートの両方を下回るシナリオとして定義します。
ヘシアンマトリックスの主要な固有ベクトルに沿って訓練されたモデルを摂動し、対応する損失値を評価することにより、損失の状況を分析します。
我々の結果は、PIMLの物理的残差が、一般的に想定される失敗の原因に反して、本質的に最適化を妨げないことを示唆しています。
代わりに、パラメーターの更新を成功させるには、準単純な勾配で急性角度を形成し、円錐領域内に横たわるためにMLと物理学の両方の勾配が必要です。
物理学モデルとトレーニングデータの両方の不正確さを考えると、この状態を満たすことはしばしば困難です。
実験により、物理残差は、特に高度に物理学駆動型の設定の下で、LWRおよびARZベースのPIMLモデルの性能を低下させることができます。
さらに、まばらなサンプリングと一時的に平均化されたトラフィックデータの使用は、実際の物理的ダイナミクスをキャプチャできず、モデルの故障に貢献する誤解を招くほど小さな物理学残差を生成する可能性があります。
また、Courant-Friedrichs-Lewy(CFL)条件を、PIMLのデータセット適合性の重要な指標として特定します。
最後に、ARZのような高次モデルは、既存の研究の実験的所見と一致するLWRのような低次モデルよりも大きなエラー低下を持つ傾向があることを観察します。

要約(オリジナル)

This study critically examines the performance of physics-informed machine learning (PIML) approaches for traffic flow modeling, defining the failure of a PIML model as the scenario where it underperforms both its purely data-driven and purely physics-based counterparts. We analyze the loss landscape by perturbing trained models along the principal eigenvectors of the Hessian matrix and evaluating corresponding loss values. Our results suggest that physics residuals in PIML do not inherently hinder optimization, contrary to a commonly assumed failure cause. Instead, successful parameter updates require both ML and physics gradients to form acute angles with the quasi-true gradient and lie within a conical region. Given inaccuracies in both the physics models and the training data, satisfying this condition is often difficult. Experiments reveal that physical residuals can degrade the performance of LWR- and ARZ-based PIML models, especially under highly physics-driven settings. Moreover, sparse sampling and the use of temporally averaged traffic data can produce misleadingly small physics residuals that fail to capture actual physical dynamics, contributing to model failure. We also identify the Courant-Friedrichs-Lewy (CFL) condition as a key indicator of dataset suitability for PIML, where successful applications consistently adhere to this criterion. Lastly, we observe that higher-order models like ARZ tend to have larger error lower bounds than lower-order models like LWR, which is consistent with the experimental findings of existing studies.

arxiv情報

著者 Yuan-Zheng Lei,Yaobang Gong,Dianwei Chen,Yao Cheng,Xianfeng Terry Yang
発行日 2025-05-16 17:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph | Potential failures of physics-informed machine learning in traffic flow modeling: theoretical and experimental analysis はコメントを受け付けていません

How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP

要約

ウィキペディアの高品質で広範な言語のカバレッジが認識していることにより、多言語NLPの基本的なリソースとして確立されています。
ただし、低リソース言語の文脈では、これらの品質の仮定はますます精査されています。
このホワイトペーパーでは、さまざまな品質のフィルタリング技術にさらされることにより、英語以外の設定でウィキペディアのデータ品質を批判的に調べ、1行の記事や重複記事の高い割合の広範な問題を明らかにします。
ウィキペディアに対する品質フィルタリングの下流の影響を評価し、データ品質の剪定は、特に低リソース言語では、パフォーマンスを損なうことなくリソース効率の良いトレーニングの効果的な手段であることがわかります。
さらに、データ品質の一般的な定義を求めることから、より言語固有のものとタスク固有のものへの視点の変化を提唱しています。
最終的に、この研究は、多言語の環境での前登録にウィキペディアを使用するためのガイドとして役立つことを目指しています。

要約(オリジナル)

Wikipedia’s perceived high quality and broad language coverage have established it as a fundamental resource in multilingual NLP. In the context of low-resource languages, however, these quality assumptions are increasingly being scrutinised. This paper critically examines the data quality of Wikipedia in a non-English setting by subjecting it to various quality filtering techniques, revealing widespread issues such as a high percentage of one-line articles and duplicate articles. We evaluate the downstream impact of quality filtering on Wikipedia and find that data quality pruning is an effective means for resource-efficient training without hurting performance, especially for low-resource languages. Moreover, we advocate for a shift in perspective from seeking a general definition of data quality towards a more language- and task-specific one. Ultimately, we aim for this study to serve as a guide to using Wikipedia for pretraining in a multilingual setting.

arxiv情報

著者 Kushal Tatariya,Artur Kulmizev,Wessel Poelman,Esther Ploeger,Marcel Bollmann,Johannes Bjerva,Jiaming Luo,Heather Lent,Miryam de Lhoneux
発行日 2025-05-16 12:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP はコメントを受け付けていません

NoPE: The Counting Power of Transformers with No Positional Encodings

要約

位置エンコーディング(PES)は、変圧器の表現力を確保するために不可欠であるようです。
それらがなければ、注意トランスは単語の袋モデルに減ります。
ユニークなハードな注意メカニズムを備えたNOPE-TRANSFORMERS(つまり、PESなし)は、ごく最近、通常の言語、つまり限られたカウント能力を備えていることのみを表現できることが示されました。
このホワイトペーパーでは、平均的な注意メカニズムがあるため、NOPE-TRANSFORMERSは依然として驚くほど表現力があります。多変量多項式方程式(すなわち、ディオファンティン方程式)に対する非陰性整数解に対応する言語を表現できます。
実際、私たちは平均的なハードな注意Nope-ahatsformers(nope-ahats)によって表現可能な言​​語の正確な特性評価を提供します。それらは、私たちが\ emphing {Sem-algebraic sets}と呼ぶもの、すなわち、多変量のポリノミアの不快感のシステムに対する非否定整数溶液のセットの給与組合に正確に対応しています。
私たちは、私たちの特徴づけのいくつかの興味深い結果を得ます。
第一に、NOPE-Transformersは、単純化されたカウンターマシンやペトリネットなどの確立されたモデルよりもはるかに複雑なカウントプロパティを表現できますが、非常に単純なカウントプロパティを表現することはできません。
第二に、NOPE-Transformersを分析する問題は、たとえば、与えられたNOPEトランスが1つのクラスのすべての入力文字列を分類するかどうか、容認できません。
結果を補完するために、任意のPESでさえ平均的なハード注意トランスで表現できない数える言語を示しますが、回路の複雑さクラスTC $^0 $で表現可能で、未解決の問題に答えます。

要約(オリジナル)

Positional Encodings (PEs) seem to be indispensable for ensuring expressiveness of transformers; without them attention transformers reduce to a bag-of-word model. NoPE-transformers (i.e. with No PEs) with unique hard attention mechanisms were very recently shown to only be able to express regular languages, i.e., with limited counting ability. This paper shows that, with average hard attention mechanisms, NoPE-transformers are still surprisingly expressive: they can express counting languages corresponding to nonnegative integer solutions to multivariate polynomial equations (i.e. Diophantine equations), reasoning about which is well-known to be undecidable. In fact, we provide a precise characterization of languages expressible by Average Hard Attention NoPE-Transformers (NoPE-AHATs): they correspond precisely to what we call \emph{semi-algebraic sets}, i.e., finite unions of sets of nonnegative integer solutions to systems of multivariate polynomial inequations. We obtain several interesting consequences of our characterization. Firstly, NoPE-transformers can express counting properties that are far more complex than established models like simplified counter machines and Petri nets, but cannot express a very simple counting property of PARITY. Secondly, the problem of analyzing NoPE-transformers is undecidable, e.g., whether a given NoPE transformer classifies all input strings in one class. To complement our results, we exhibit a counting language that is not expressible by average hard attention transformers even with arbitrary PEs but is expressible in the circuit complexity class TC$^0$, answering an open problem.

arxiv情報

著者 Chris Köcher,Alexander Kozachinskiy,Anthony Widjaja Lin,Marco Sälzer,Georg Zetzsche
発行日 2025-05-16 12:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | NoPE: The Counting Power of Transformers with No Positional Encodings はコメントを受け付けていません

Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese

要約

大規模な言語モデル(LLMS)の最近の進歩により、テキストからスピーチ(TTS)システムが大幅に改善され、音声スタイル、自然さ、および感情表現の制御が強化され、TTSシステムが人間レベルのパフォーマンスに近づきます。
平均意見スコア(MOS)はTTSシステム評価の標準であり続けていますが、主観性、環境的矛盾、および制限された解釈可能性に悩まされています。
既存の評価データセットには多次元設計も欠けており、多くの場合、スピーキングスタイル、コンテキストの多様性、トラップ発話などの要因を無視しています。これは、中国のTTS評価で特に顕著です。
これらの課題に対処するために、単純なチューリングテストにインスパイアされた評価プロトコルと組み合わせた多次元中国のコーパスデータセットatt-corpusであるオーディオチューリングテスト(ATT)を紹介します。
複雑なMOSスケールや直接モデルの比較に依存する代わりに、ATTは評価者に声が人間に聞こえるかどうかを判断するよう求めます。
この単純化により、評価バイアスが減少し、評価の堅牢性が向上します。
迅速なモデル開発をさらにサポートするために、自動評価のために自動アットとして、人間の判断データを使用してQWEN2-AUDIO-INTRUCTを獲得します。
実験結果は、ATTが多次元設計を使用して特定の機能ディメンション全体でモデルを効果的に区別することを示しています。
また、Auto-attは人間の評価との強い整合性を示し、その価値を高速で信頼できる評価ツールとして確認します。
ホワイトボックスアトコルパスとオートアットは、ATT Hugging Face Collection(https://huggingface.co/collections/meituan/audio-turing-test-6824446320368164faeaf38a4)にあります。

要約(オリジナル)

Recent advances in large language models (LLMs) have significantly improved text-to-speech (TTS) systems, enhancing control over speech style, naturalness, and emotional expression, which brings TTS Systems closer to human-level performance. Although the Mean Opinion Score (MOS) remains the standard for TTS System evaluation, it suffers from subjectivity, environmental inconsistencies, and limited interpretability. Existing evaluation datasets also lack a multi-dimensional design, often neglecting factors such as speaking styles, context diversity, and trap utterances, which is particularly evident in Chinese TTS evaluation. To address these challenges, we introduce the Audio Turing Test (ATT), a multi-dimensional Chinese corpus dataset ATT-Corpus paired with a simple, Turing-Test-inspired evaluation protocol. Instead of relying on complex MOS scales or direct model comparisons, ATT asks evaluators to judge whether a voice sounds human. This simplification reduces rating bias and improves evaluation robustness. To further support rapid model development, we also finetune Qwen2-Audio-Instruct with human judgment data as Auto-ATT for automatic evaluation. Experimental results show that ATT effectively differentiates models across specific capability dimensions using its multi-dimensional design. Auto-ATT also demonstrates strong alignment with human evaluations, confirming its value as a fast and reliable assessment tool. The white-box ATT-Corpus and Auto-ATT can be found in ATT Hugging Face Collection (https://huggingface.co/collections/meituan/audio-turing-test-682446320368164faeaf38a4).

arxiv情報

著者 Xihuai Wang,Ziyi Zhao,Siyu Ren,Shao Zhang,Song Li,Xiaoyu Li,Ziwen Wang,Lin Qiu,Guanglu Wan,Xuezhi Cao,Xunliang Cai,Weinan Zhang
発行日 2025-05-16 12:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese はコメントを受け付けていません

Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning

要約

異常検出は、生産ラインの異常なパターンの特定や品質管理のための製造欠陥の検出など、さまざまな産業シナリオで不可欠です。
既存の手法は、個々のシナリオに特化している傾向があり、一般化能力がありません。
この研究では、私たちの目的は、複数のシナリオで適用できる一般的な異常検出モデルを開発することです。
これを達成するために、幅広い知識と堅牢な推論能力を異常検出器と推論者として持っている一般的な視覚言語基礎モデルをカスタムビルドします。
具体的には、モデルを導く条件として専門家からのドメイン知識を組み込むマルチモーダルプロンプト戦略を導入します。
私たちのアプローチでは、タスクの説明、クラスのコンテキスト、正規性ルール、参照画像など、多様なプロンプトタイプを考慮しています。
さらに、マルチモダリティの入力表現を2D画像形式に統合し、マルチモーダルの異常検出と推論を可能にします。
私たちの予備研究は、視覚と言語を組み合わせてモデルをカスタマイズするための条件としてプロンプトを組み合わせることで、異常検出のパフォーマンスが向上することを示しています。
カスタマイズされたモデルは、画像、ポイントクラウド、ビデオなどのさまざまなデータモダリティにわたって異常を検出する機能を示しています。
定性的ケーススタディは、特にマルチオブジェクトシーンと時間データの異常検出機能と推論機能をさらに強調しています。
私たちのコードは、https://github.com/xiaohao-xu/customizable-vlmで公開されています

要約(オリジナル)

Anomaly detection is vital in various industrial scenarios, including the identification of unusual patterns in production lines and the detection of manufacturing defects for quality control. Existing techniques tend to be specialized in individual scenarios and lack generalization capacities. In this study, our objective is to develop a generic anomaly detection model that can be applied in multiple scenarios. To achieve this, we custom-build generic visual language foundation models that possess extensive knowledge and robust reasoning abilities as anomaly detectors and reasoners. Specifically, we introduce a multi-modal prompting strategy that incorporates domain knowledge from experts as conditions to guide the models. Our approach considers diverse prompt types, including task descriptions, class context, normality rules, and reference images. In addition, we unify the input representation of multi-modality into a 2D image format, enabling multi-modal anomaly detection and reasoning. Our preliminary studies demonstrate that combining visual and language prompts as conditions for customizing the models enhances anomaly detection performance. The customized models showcase the ability to detect anomalies across different data modalities such as images, point clouds, and videos. Qualitative case studies further highlight the anomaly detection and reasoning capabilities, particularly for multi-object scenes and temporal data. Our code is publicly available at https://github.com/Xiaohao-Xu/Customizable-VLM

arxiv情報

著者 Xiaohao Xu,Yunkang Cao,Huaxin Zhang,Nong Sang,Xiaonan Huang
発行日 2025-05-16 13:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning はコメントを受け付けていません

Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation

要約

GPT-4やGeminiなどの独自の大規模な言語モデル(LLM)は、臨床テキスト要約タスクに有望な能力を実証しています。
ただし、患者のデータプライバシーの懸念と計算コストにより、多くの医療提供者は、外部の汎用LLMよりも小さなローカルホストモデルを使用することを好みます。
この研究では、オープンソースLLAMA-2 130億パラメーターモデルの包括的なドメインおよびタスク固有の適応プロセスを提示し、外来患者ドクターの対話から高品質の臨床ノートを生成できるようにします。
私たちのプロセスには、AIと人間の両方のフィードバックからの継続的なトレーニング、監視付きの微調整、および強化学習が組み込まれています。
教師モデルとしてGemini 1.0 Proを使用して、ポリティでの補強学習を実行するために、新しいアプローチ、DistillDirectを導入しました。
結果として得られたモデルであるLlama-Clinicは、医師によって作成されたものに匹敵する品質に匹敵する臨床ノートを生成できます。
盲検化された医師の読者の研究では、個々の評価の大半(90.4%)は、Llama-Clinicによって生成されたメモを、実世界の準備、完全性、および精度という3つの基準すべてにわたって「許容可能」以上と評価しました。
より挑戦的な「評価と計画」のセクションでは、Llama-Clinicは、医師が執筆したメモ(4.1/5)よりも現実世界の準備でより高い得点(4.2/5)を記録しました。
将来の臨床ノート生成タスクの重要な考慮事項を強調し、LLMSに頼ってこれを臨床診療のために決定するのではなく、ベストプラクティスノート形式を事前に定義することの重要性を強調します。

要約(オリジナル)

Proprietary Large Language Models (LLMs) such as GPT-4 and Gemini have demonstrated promising capabilities in clinical text summarization tasks. However, due to patient data privacy concerns and computational costs, many healthcare providers prefer using small, locally-hosted models over external generic LLMs. This study presents a comprehensive domain- and task-specific adaptation process for the open-source LLaMA-2 13 billion parameter model, enabling it to generate high-quality clinical notes from outpatient patient-doctor dialogues. Our process incorporates continued pre-training, supervised fine-tuning, and reinforcement learning from both AI and human feedback. We introduced a new approach, DistillDirect, for performing on-policy reinforcement learning with Gemini 1.0 Pro as the teacher model. Our resulting model, LLaMA-Clinic, can generate clinical notes comparable in quality to those authored by physicians. In a blinded physician reader study, the majority (90.4%) of individual evaluations rated the notes generated by LLaMA-Clinic as ‘acceptable’ or higher across all three criteria: real-world readiness, completeness, and accuracy. In the more challenging ‘Assessment and Plan’ section, LLaMA-Clinic scored higher (4.2/5) in real-world readiness than physician-authored notes (4.1/5). We highlight key considerations for future clinical note-generation tasks, emphasizing the importance of pre-defining a best-practice note format, rather than relying on LLMs to determine this for clinical practice.

arxiv情報

著者 Hanyin Wang,Chufan Gao,Bolun Liu,Qiping Xu,Guleid Hussein,Mohamad El Labban,Kingsley Iheasirim,Hariprasad Korsapati,Chuck Outcalt,Jimeng Sun
発行日 2025-05-16 13:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation はコメントを受け付けていません

HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization

要約

テスト時に応答の長さをスケーリングすることは、大規模な言語モデル(LLM)の推論能力とパフォーマンスを著しく改善することが示されていますが、多くの場合、冗長出力をもたらし、推論コストを増加させます。
通常、普遍的な予算の制約またはクエリレベルの長さの最適化を使用して、効率的なテスト時間スケーリングのための以前のアプローチは、トレーニング中に同じ問題を伴う以前の出会いから履歴情報を活用しないでください。
私たちは、これにより、時間の経過とともにソリューションをより簡潔にする能力を制限すると仮定します。
これに対処するために、各問題について履歴状態(以前に生成された正しい応答の最小長)を追跡する履歴認識ポリシー最適化(HAPO)を提示します。
HAPOは、この歴史状態に基づいた新しい長さの報酬機能を採用して、以前に発見されたものよりも簡潔な正しいソリューションの発見を奨励します。
重要なことに、この報酬構造は、より効率的なソリューションに向けて探査を促進することを目的として、より短い誤った応答を過度に罰することを回避します。
この長さの報酬と正確な報酬を組み合わせることにより、HAPOは共同で正確性と効率を最適化します。
HAPOを使用して、DeepSeek-R1-Distill-Qwen-1.5B、Deepscaler-1.5B-Preview、およびQWen-2.5-1.5B-Instructをトレーニングし、さまざまな難易度レベルにまたがるいくつかの数学ベンチマークでHAPOを評価します。
実験結果は、HAPOがLLMSの簡潔な推論能力を効果的に誘導し、33〜59%の長さの減少を生成し、精度はわずか2〜5%であることを示しています。

要約(オリジナル)

While scaling the length of responses at test-time has been shown to markedly improve the reasoning abilities and performance of large language models (LLMs), it often results in verbose outputs and increases inference cost. Prior approaches for efficient test-time scaling, typically using universal budget constraints or query-level length optimization, do not leverage historical information from previous encounters with the same problem during training. We hypothesize that this limits their ability to progressively make solutions more concise over time. To address this, we present History-Aware Policy Optimization (HAPO), which keeps track of a history state (e.g., the minimum length over previously generated correct responses) for each problem. HAPO employs a novel length reward function based on this history state to incentivize the discovery of correct solutions that are more concise than those previously found. Crucially, this reward structure avoids overly penalizing shorter incorrect responses with the goal of facilitating exploration towards more efficient solutions. By combining this length reward with a correctness reward, HAPO jointly optimizes for correctness and efficiency. We use HAPO to train DeepSeek-R1-Distill-Qwen-1.5B, DeepScaleR-1.5B-Preview, and Qwen-2.5-1.5B-Instruct, and evaluate HAPO on several math benchmarks that span various difficulty levels. Experiment results demonstrate that HAPO effectively induces LLMs’ concise reasoning abilities, producing length reductions of 33-59% with accuracy drops of only 2-5%.

arxiv情報

著者 Chengyu Huang,Zhengxin Zhang,Claire Cardie
発行日 2025-05-16 13:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization はコメントを受け付けていません

Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms

要約

ソーシャルメディアプラットフォームは、機械学習(ML)と人工知能(AI)の推奨アルゴリズムを利用して、ユーザーエンゲージメントを最大化するため、有害なコンテンツに不注意な露出をもたらす可能性があります。
現在の節度の取り組みは、広範な人間が発表したデータで訓練された分類器に依存しており、スケーラビリティと闘い、新しい形態の害に適応しています。
これらの課題に対処するために、ゼロショットおよび少数のショット設定で大きな言語モデル(LLM)を使用した新しい再ランクアプローチを提案します。
私たちの方法は、コンテンツシーケンスを動的に評価および再ランク化し、広範なラベル付きデータを必要とせずに有害なコンテンツ曝露を効果的に軽減します。
従来のランキングメトリックに加えて、有害なコンテンツへの曝露を減らす際の再ランクの有効性を評価するために、2つの新しいメトリックも導入します。
3つのデータセット、3つのモデル、および3つの構成にわたる実験を通じて、LLMベースのアプローチが既存の独自のモデレートアプローチを大幅に上回り、HARM緩和のためのスケーラブルで適応性のあるソリューションを提供することを実証します。

要約(オリジナル)

Social media platforms utilize Machine Learning (ML) and Artificial Intelligence (AI) powered recommendation algorithms to maximize user engagement, which can result in inadvertent exposure to harmful content. Current moderation efforts, reliant on classifiers trained with extensive human-annotated data, struggle with scalability and adapting to new forms of harm. To address these challenges, we propose a novel re-ranking approach using Large Language Models (LLMs) in zero-shot and few-shot settings. Our method dynamically assesses and re-ranks content sequences, effectively mitigating harmful content exposure without requiring extensive labeled data. Alongside traditional ranking metrics, we also introduce two new metrics to evaluate the effectiveness of re-ranking in reducing exposure to harmful content. Through experiments on three datasets, three models and across three configurations, we demonstrate that our LLM-based approach significantly outperforms existing proprietary moderation approaches, offering a scalable and adaptable solution for harm mitigation.

arxiv情報

著者 Rajvardhan Oak,Muhammad Haroon,Claire Jo,Magdalena Wojcieszak,Anshuman Chhabra
発行日 2025-05-16 13:25:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.SI | Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms はコメントを受け付けていません