Exploring Gender Disparities in Automatic Speech Recognition Technology

要約

この研究では、人口統計の従来の調査を超えて、性別全体の自動音声認識(ASR)システムの公平性とパフォーマンスに影響を与える要因を調査しています。
Librispeech DatasetとWhisper Smallモデルを使用して、トレーニングデータの性別表現ごとにパフォーマンスがどのように変化するかを分析します。
私たちの調査結果は、トレーニングデータにおける性別比とASRパフォーマンスの間の複雑な相互作用を示唆しています。
最適な公平性は、単純な50-50分割ではなく、特定の性別分布で発生します。
さらに、我々の調査結果は、ピッチの変動などの要因がASRの精度に大きく影響する可能性があることを示唆しています。
この研究は、ASRシステムのバイアスのより深い理解に貢献し、性別バイアスの緩和における慎重にキュレーションされたトレーニングデータの重要性を強調しています。

要約(オリジナル)

This study investigates factors influencing Automatic Speech Recognition (ASR) systems’ fairness and performance across genders, beyond the conventional examination of demographics. Using the LibriSpeech dataset and the Whisper small model, we analyze how performance varies across different gender representations in training data. Our findings suggest a complex interplay between the gender ratio in training data and ASR performance. Optimal fairness occurs at specific gender distributions rather than a simple 50-50 split. Furthermore, our findings suggest that factors like pitch variability can significantly affect ASR accuracy. This research contributes to a deeper understanding of biases in ASR systems, highlighting the importance of carefully curated training data in mitigating gender bias.

arxiv情報

著者 Hend ElGhazaly,Bahman Mirheidari,Nafise Sadat Moosavi,Heidi Christensen
発行日 2025-02-25 18:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring Gender Disparities in Automatic Speech Recognition Technology はコメントを受け付けていません

Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions

要約

言語モデルは通常、左から右(L2R)の自己回帰因数分解を使用します。
ただし、L2R因数分解は常に最良の誘導バイアスではない場合があります。
したがって、テキスト分布の代替要因化が一部のタスクで有益であるかどうかを調査します。
知識の抽出と推論のためのテストベッドとして、多肢選択の質問(MCQ)に焦点を当てた、左から左へのトレーニングを説得力のある代替として調査します。
さまざまなモデルサイズ(2B-8Bパラメーター)とトレーニングデータセットにわたる広範な実験により、R2Lモデルは、論理的推論、常識の理解、真実性評価タスクなど、いくつかのMCQベンチマークでL2Rモデルを大幅に上回ることができます。
私たちの分析により、このパフォーマンスの違いは、キャリブレーション、計算可能性、方向性条件付きエントロピーなどの複数の要因に基本的にリンクされている可能性があることが明らかになりました。
影響する要因がよりよく解き放たれる可能性のある算術タスクを使用して、制御されたシミュレーション研究を通じてこれらの要因の影響を除去します。
私たちの研究は、テキスト分布の代替要因化を調査することでLLM機能の改善につながる可能性があり、人間の言語分布を近似するための最適な因数分解に関する理論的洞察を提供することを示しています。

要約(オリジナル)

Language models usually use left-to-right (L2R) autoregressive factorization. However, L2R factorization may not always be the best inductive bias. Therefore, we investigate whether alternative factorizations of the text distribution could be beneficial in some tasks. We investigate right-to-left (R2L) training as a compelling alternative, focusing on multiple-choice questions (MCQs) as a test bed for knowledge extraction and reasoning. Through extensive experiments across various model sizes (2B-8B parameters) and training datasets, we find that R2L models can significantly outperform L2R models on several MCQ benchmarks, including logical reasoning, commonsense understanding, and truthfulness assessment tasks. Our analysis reveals that this performance difference may be fundamentally linked to multiple factors including calibration, computability and directional conditional entropy. We ablate the impact of these factors through controlled simulation studies using arithmetic tasks, where the impacting factors can be better disentangled. Our work demonstrates that exploring alternative factorizations of the text distribution can lead to improvements in LLM capabilities and provides theoretical insights into optimal factorization towards approximating human language distribution, and when each reasoning order might be more advantageous.

arxiv情報

著者 Yizhe Zhang,Richard Bai,Zijin Gu,Ruixiang Zhang,Jiatao Gu,Emmanuel Abbe,Samy Bengio,Navdeep Jaitly
発行日 2025-02-25 18:30:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT | Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions はコメントを受け付けていません

olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

要約

PDFドキュメントには、言語モデルをトレーニングするために、数兆個の斬新で高品質のトークンを提供する可能性があります。
ただし、これらのドキュメントには、言語モデルの使用の根本的なコンテンツを抽出し、忠実に表現しようとするときに課題をもたらす、異なる形式と視覚的なレイアウトを備えた多様な種類があります。
Olmocrを、セクション、テーブル、リスト、方程式などなどの構造化されたコンテンツを保持しながら、PDFをクリーンで線形化されたプレーンテキストに自然な読書順に処理するためのオープンソースPythonツールキットを提示します。
当社のツールキットは、グラフィック、手書きテキスト、低品質のスキャンなど、多様なプロパティを備えた100,000を超えるクロールされたPDFから260,000ページのサンプルでトレーニングされた微調整された7B Vision言語モデル(VLM)を実行します。
Olmocrは、大規模なバッチ処理に最適化されており、さまざまなハードウェアセットアップに柔軟にスケーリングし、100万ページをわずか190米ドルで変換できます。
VLMの重み、データ、トレーニングコードを含むOlmocrのすべてのコンポーネント、およびVLLMやSglangを含むサービングフレームワーク上に構築された推論コードをリリースします。

要約(オリジナル)

PDF documents have the potential to provide trillions of novel, high-quality tokens for training language models. However, these documents come in a diversity of types with differing formats and visual layouts that pose a challenge when attempting to extract and faithfully represent the underlying content for language model use. We present olmOCR, an open-source Python toolkit for processing PDFs into clean, linearized plain text in natural reading order while preserving structured content like sections, tables, lists, equations, and more. Our toolkit runs a fine-tuned 7B vision language model (VLM) trained on a sample of 260,000 pages from over 100,000 crawled PDFs with diverse properties, including graphics, handwritten text and poor quality scans. olmOCR is optimized for large-scale batch processing, able to scale flexibly to different hardware setups and convert a million PDF pages for only $190 USD. We release all components of olmOCR including VLM weights, data and training code, as well as inference code built on serving frameworks including vLLM and SGLang.

arxiv情報

著者 Jake Poznanski,Jon Borchardt,Jason Dunkelberger,Regan Huff,Daniel Lin,Aman Rangapur,Christopher Wilhelm,Kyle Lo,Luca Soldaini
発行日 2025-02-25 18:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models はコメントを受け付けていません

Domain-Specific Translation with Open-Source Large Language Models: Resource-Oriented Analysis

要約

この作業では、オープンソースのオートレグレッシブデコーダーのみの大型言語モデル(LLMS)のドメイン固有の翻訳パフォーマンスを、タスク指向の機械翻訳(MT)モデルと比較します。
私たちの実験は、医療ドメインに焦点を当て、さまざまなリソースの可用性を備えた4つの言語ペアをカバーしています:英語からフランス語、英語からポルトガル、英語からスワヒリ語、スワヒリ語から英語です。
最近の進歩にもかかわらず、LLMは、NLLB-200などの多言語エンコーダーデコーダーMTモデルと比較して、特殊な翻訳品質に明確なギャップを示しています。
私たちの研究では、4つの言語の指示のうち3つで、NLLB-200 3.3Bは、医療翻訳の8Bパラメーターのサイズ範囲ですべてのLLMを上回ります。
MistralやLlamaなどの微調整LLMは医療翻訳でのパフォーマンスを改善しますが、これらのモデルは微調整されたNLLB-2003.3Bモデルと比較してまだ不足しています。
私たちの調査結果は、特に中型および低リソースの設定で、高品質のドメイン固有の翻訳を実現するための専門MTモデルの継続的な必要性を強調しています。
LLMが大きいと8Bバリエーションよりも優れているため、これにより、事前トレーニングドメイン固有の中型LMSが促進され、特殊な翻訳タスクの品質と効率が向上します。

要約(オリジナル)

In this work, we compare the domain-specific translation performance of open-source autoregressive decoder-only large language models (LLMs) with task-oriented machine translation (MT) models. Our experiments focus on the medical domain and cover four language pairs with varied resource availability: English-to-French, English-to-Portuguese, English-to-Swahili, and Swahili-to-English. Despite recent advancements, LLMs exhibit a clear gap in specialized translation quality compared to multilingual encoder-decoder MT models such as NLLB-200. In three out of four language directions in our study, NLLB-200 3.3B outperforms all LLMs in the size range of 8B parameters in medical translation. While fine-tuning LLMs such as Mistral and Llama improves their performance at medical translation, these models still fall short compared to fine-tuned NLLB-200 3.3B models. Our findings highlight the ongoing need for specialized MT models to achieve higher-quality domain-specific translation, especially in medium-resource and low-resource settings. As larger LLMs outperform their 8B variants, this also encourages pre-training domain-specific medium-sized LMs to improve quality and efficiency in specialized translation tasks.

arxiv情報

著者 Aman Kassahun Wassie,Mahdi Molaei,Yasmin Moslem
発行日 2025-02-25 18:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Domain-Specific Translation with Open-Source Large Language Models: Resource-Oriented Analysis はコメントを受け付けていません

DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers

要約

大規模な言語モデル(LLM)は、強い有効性と堅牢性を実証していますが、密集したレトリバーとして微調整されています。
ただし、その大きなパラメーターサイズは、大規模なコーパスの高いエンコーディングコストやクエリ遅延の増加など、重要な推論時間計算上の課題をもたらし、実際の展開を制限します。
小規模なレトリバーはより良い効率を提供しますが、多くの場合、限られた監視付き微調整データで効果的に一般化できません。
この作業では、LLMを活用してより小さな一般化可能な密なレトリバーを訓練するトレーニングフレームワークであるドラマを紹介します。
特に、剪定されたLLMSをバックボーンとして採用し、単一段階の対照学習セットアップで多様なLLM高級データをトレーニングします。
実験は、ドラマが従来のエンコーダーベースのレトリバーよりも優れた多言語と長期の機能を提供し、複数のタスクと言語で強力なパフォーマンスを達成することを示しています。
これらは、小規模レトリバーのトレーニングをLLMSの進歩の増大と結びつけ、効率と一般化のギャップを埋める可能性を強調しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong effectiveness and robustness while fine-tuned as dense retrievers. However, their large parameter size brings significant inference time computational challenges, including high encoding costs for large-scale corpora and increased query latency, limiting their practical deployment. While smaller retrievers offer better efficiency, they often fail to generalize effectively with limited supervised fine-tuning data. In this work, we introduce DRAMA, a training framework that leverages LLMs to train smaller generalizable dense retrievers. In particular, we adopt pruned LLMs as the backbone and train on diverse LLM-augmented data in a single-stage contrastive learning setup. Experiments show that DRAMA offers better multilingual and long-context capabilities than traditional encoder-based retrievers, and achieves strong performance across multiple tasks and languages. These highlight the potential of connecting the training of smaller retrievers with the growing advancements in LLMs, bridging the gap between efficiency and generalization.

arxiv情報

著者 Xueguang Ma,Xi Victoria Lin,Barlas Oguz,Jimmy Lin,Wen-tau Yih,Xilun Chen
発行日 2025-02-25 18:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers はコメントを受け付けていません

DenoMAE2.0: Improving Denoising Masked Autoencoders by Classifying Local Patches

要約

Denomae2.0を導入します。これは、従来の再構成損失と一緒にローカルパッチ分類目標を統合して表現学習と堅牢性を改善する強化された除去マスク自動エンコーダーです。
不足している入力の再構築のみに焦点を当てた従来のマスク自動エンコーダー(MAE)とは異なり、DENOMAE2.0は、マスクされていないパッチの位置認識分類を導入し、グローバルな一貫性を維持しながら、細粒のローカル機能をキャプチャできるようにします。
この二重の客観的なアプローチは、高いノイズレベルとデータ不足が重要な課題をもたらすワイヤレス通信の半監視学習で特に有益です。
幅広い信号対雑音比(SNR)にわたる変調信号分類、非常に低いものから中程度の条件から低いデータレジームで広範な実験を実施します。
我々の結果は、Denomae2.0が前任者であるDeno-Maeおよびその他のベースラインを、品質の除去と下流の分類精度の両方で超えていることを示しています。
DENOMAE2.0は、データセットのDenomaeよりも1.1%の改善を達成し、11.83%で、変調信号の星座図分類について、Radioml Benchmark、Denomaeよりも16.55%の大幅な改善精度増加を達成します。

要約(オリジナル)

We introduce DenoMAE2.0, an enhanced denoising masked autoencoder that integrates a local patch classification objective alongside traditional reconstruction loss to improve representation learning and robustness. Unlike conventional Masked Autoencoders (MAE), which focus solely on reconstructing missing inputs, DenoMAE2.0 introduces position-aware classification of unmasked patches, enabling the model to capture fine-grained local features while maintaining global coherence. This dual-objective approach is particularly beneficial in semi-supervised learning for wireless communication, where high noise levels and data scarcity pose significant challenges. We conduct extensive experiments on modulation signal classification across a wide range of signal-to-noise ratios (SNRs), from extremely low to moderately high conditions and in a low data regime. Our results demonstrate that DenoMAE2.0 surpasses its predecessor, Deno-MAE, and other baselines in both denoising quality and downstream classification accuracy. DenoMAE2.0 achieves a 1.1% improvement over DenoMAE on our dataset and 11.83%, 16.55% significant improved accuracy gains on the RadioML benchmark, over DenoMAE, for constellation diagram classification of modulation signals.

arxiv情報

著者 Atik Faysal,Mohammad Rostami,Taha Boushine,Reihaneh Gh. Roshan,Huaxia Wang,Nikhil Muralidhar
発行日 2025-02-25 13:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DenoMAE2.0: Improving Denoising Masked Autoencoders by Classifying Local Patches はコメントを受け付けていません

Small Language Models: Survey, Measurements, and Insights

要約

小言語モデル(SLM)は、最新のスマートデバイスでの広範な採用にもかかわらず、主にデータセンターやクラウド環境に展開されている大規模な言語モデル(LLM)のカウンターパートと比較して、学問的な注目を大幅に受けていません。
研究者は、人工的な一般情報を追求するためにLLMの能力を改善し続けていますが、SLM Researchは、マシンインテリジェンスをよりアクセスしやすく、手頃で、日常のタスクに効率的にすることを目指しています。
100m-5Bパラメーターを備えたトランスベースのデコーダーのみの言語モデルに焦点を当て、70の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムの3つの軸にわたる技術革新を分析します。
さらに、常識的な推論、コンテキスト学習、数学、コーディングなど、さまざまなドメインでそれらの能力を評価します。
デバイス上のランタイムコストに関するさらなる洞察を得るために、推論の遅延とメモリフットプリントをベンチマークします。
ベンチマークデータの詳細な分析を通じて、この分野での研究を進めるための貴重な洞察を提供します。

要約(オリジナル)

Small language models (SLMs), despite their widespread adoption in modern smart devices, have received significantly less academic attention compared to their large language model (LLM) counterparts, which are predominantly deployed in data centers and cloud environments. While researchers continue to improve the capabilities of LLMs in the pursuit of artificial general intelligence, SLM research aims to make machine intelligence more accessible, affordable, and efficient for everyday tasks. Focusing on transformer-based, decoder-only language models with 100M-5B parameters, we survey 70 state-of-the-art open-source SLMs, analyzing their technical innovations across three axes: architectures, training datasets, and training algorithms. In addition, we evaluate their capabilities in various domains, including commonsense reasoning, in-context learning, mathematics, and coding. To gain further insight into their on-device runtime costs, we benchmark their inference latency and memory footprints. Through in-depth analysis of our benchmarking data, we offer valuable insights to advance research in this field.

arxiv情報

著者 Zhenyan Lu,Xiang Li,Dongqi Cai,Rongjie Yi,Fangming Liu,Xiwen Zhang,Nicholas D. Lane,Mengwei Xu
発行日 2025-02-25 13:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Small Language Models: Survey, Measurements, and Insights はコメントを受け付けていません

LAG: LLM agents for Leaderboard Auto Generation on Demanding

要約

このペーパーでは、人工知能(AI)などの急速に進化する分野で、特定の研究トピックに関するリーダーボードの自動生成のための斬新でよく組織化されたフレームワークであるリーダーボードオートジェネレーション(LAG)を紹介します。
毎日更新される多数のAIペーパーに直面して、研究者がすべての論文の提案された方法、実験結果、および設定を追跡し、効率的な自動リーダーボード構造の必要性を促すことが困難になります。
大規模な言語モデル(LLM)は、このプロセスを自動化する上で約束を提供しますが、マルチドキュメントの要約、リーダーボードの生成、実験の公正な比較などの課題はまだ調査中です。
Lagは、紙の収集、実験結果の抽出と統合、リーダーボードの生成、および品質評価を含む体系的なアプローチを通じて、これらの課題を解決します。
私たちの貢献には、リーダーボードの建設問題に対する包括的なソリューション、信頼できる評価方法、および高品質のリーダーボードを示す実験結果が含まれます。

要約(オリジナル)

This paper introduces Leaderboard Auto Generation (LAG), a novel and well-organized framework for automatic generation of leaderboards on a given research topic in rapidly evolving fields like Artificial Intelligence (AI). Faced with a large number of AI papers updated daily, it becomes difficult for researchers to track every paper’s proposed methods, experimental results, and settings, prompting the need for efficient automatic leaderboard construction. While large language models (LLMs) offer promise in automating this process, challenges such as multi-document summarization, leaderboard generation, and experiment fair comparison still remain under exploration. LAG solves these challenges through a systematic approach that involves the paper collection, experiment results extraction and integration, leaderboard generation, and quality evaluation. Our contributions include a comprehensive solution to the leaderboard construction problem, a reliable evaluation method, and experimental results showing the high quality of leaderboards.

arxiv情報

著者 Jian Wu,Jiayu Zhang,Dongyuan Li,Linyi Yang,Aoxiao Zhong,Renhe Jiang,Qingsong Wen,Yue Zhang
発行日 2025-02-25 13:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LAG: LLM agents for Leaderboard Auto Generation on Demanding はコメントを受け付けていません

FLARE: A Framework for Stellar Flare Forecasting using Stellar Physical Properties and Historical Records

要約

恒星フレアイベントは、天文学研究のための重要な観察サンプルです。
ただし、記録されたフレアイベントは限られたままです。
恒星のフレア予測は、研究の取り組みをサポートするために追加のフレアイベントサンプルを提供できます。
この可能性にもかかわらず、これまでに恒星フレア予測の特殊なモデルは提案されていません。
この論文では、恒星の物理的特性と履歴フレアレコードの両方がフレア予測タスクの貴重な入力であることを実証する広範な実験的証拠を提示します。
次に、フレア(機能アンサンブルを介してライトカーブベースの天文レコードを予測する)を紹介します。
フレアは、新しいソフトプロンプトモジュールと残差レコード融合モジュールを通じて、恒星の物理的特性と履歴フレアレコードを統合します。
公開されているケプラーライトカーブデータセットに関する実験は、フレアがすべての評価メトリックにわたって他の方法と比較して優れたパフォーマンスを達成することを示しています。
最後に、包括的なケーススタディを通じてモデルの予測機能を検証します。

要約(オリジナル)

Stellar flare events are critical observational samples for astronomical research; however, recorded flare events remain limited. Stellar flare forecasting can provide additional flare event samples to support research efforts. Despite this potential, no specialized models for stellar flare forecasting have been proposed to date. In this paper, we present extensive experimental evidence demonstrating that both stellar physical properties and historical flare records are valuable inputs for flare forecasting tasks. We then introduce FLARE (Forecasting Light-curve-based Astronomical Records via features Ensemble), the first-of-its-kind large model specifically designed for stellar flare forecasting. FLARE integrates stellar physical properties and historical flare records through a novel Soft Prompt Module and Residual Record Fusion Module. Our experiments on the publicly available Kepler light curve dataset demonstrate that FLARE achieves superior performance compared to other methods across all evaluation metrics. Finally, we validate the forecast capability of our model through a comprehensive case study.

arxiv情報

著者 Bingke Zhu,Xiaoxiao Wang,Minghui Jia,Yihan Tao,Xiao Kong,Ali Luo,Yingying Chen,Ming Tang,Jinqiao Wang
発行日 2025-02-25 14:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, astro-ph.SR, cs.AI | FLARE: A Framework for Stellar Flare Forecasting using Stellar Physical Properties and Historical Records はコメントを受け付けていません

Non-maximizing policies that fulfill multi-criterion aspirations in expectation

要約

動的なプログラミングと強化学習では、確率的環境におけるエージェントの連続的な意思決定のポリシーは、通常、目標をスカラー報酬関数として表現し、予想される合計報酬を最大化するポリシーを求めることによって決定されます。
しかし、人間が気にする多くの目標は、当然世界の複数の側面に関係しているため、それらを単一の報酬機能に凝縮する方法は明らかではないかもしれません。
さらに、最大化は仕様ゲームに苦しんでおり、得られたポリシーは意図しない方法で高い予想される合計報酬を達成し、しばしば極端なまたは無意味な行動をとっています。
ここでは、複数の明確な評価メトリックを備えた有限の非環式マルコフ決定プロセスを考慮します。これは、ユーザーが最大化したい量を必ずしも表しているわけではありません。
エージェントのタスクは、評価メトリックの予想される合計のベクトルが、吸引セットと呼ばれるいくつかの凸セットに分類されることを保証することです。
私たちのアルゴリズムは、このタスクがシンプルを使用して実現可能性セットを近似し、願望を前進させながら、実行可能なままにしていることを保証します。
可能な状態 – アクション – サクサクセルのトリプルの数に複雑な線形と、評価メトリックの数に多項式があります。
さらに、選択されたポリシーと目標の明示的に非最大化された性質は、アクションの選択にヒューリスティックな安全基準を適用するために使用できる追加の自由度を生み出します。
エージェントをより保守的な行動に向けることを目的とするこのような安全基準について説明します。

要約(オリジナル)

In dynamic programming and reinforcement learning, the policy for the sequential decision making of an agent in a stochastic environment is usually determined by expressing the goal as a scalar reward function and seeking a policy that maximizes the expected total reward. However, many goals that humans care about naturally concern multiple aspects of the world, and it may not be obvious how to condense those into a single reward function. Furthermore, maximization suffers from specification gaming, where the obtained policy achieves a high expected total reward in an unintended way, often taking extreme or nonsensical actions. Here we consider finite acyclic Markov Decision Processes with multiple distinct evaluation metrics, which do not necessarily represent quantities that the user wants to be maximized. We assume the task of the agent is to ensure that the vector of expected totals of the evaluation metrics falls into some given convex set, called the aspiration set. Our algorithm guarantees that this task is fulfilled by using simplices to approximate feasibility sets and propagate aspirations forward while ensuring they remain feasible. It has complexity linear in the number of possible state-action-successor triples and polynomial in the number of evaluation metrics. Moreover, the explicitly non-maximizing nature of the chosen policy and goals yields additional degrees of freedom, which can be used to apply heuristic safety criteria to the choice of actions. We discuss several such safety criteria that aim to steer the agent towards more conservative behavior.

arxiv情報

著者 Simon Dima,Simon Fischer,Jobst Heitzig,Joss Oliver
発行日 2025-02-25 14:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T20, 90C40, 91B06, cs.AI, econ.TH, F.2.2, math.OC | Non-maximizing policies that fulfill multi-criterion aspirations in expectation はコメントを受け付けていません