Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning

要約

推論指向強化学習(RORL)は大規模言語モデル(LLM)の推論能力を強化する。しかし、RORLでは報酬が少ないため、効果的な学習は適切な難易度の問題の選択に大きく依存する。カリキュラム学習は難易度を調整することでこれに対処しようとしているが、多くの場合、静的なスケジュールに依存しており、最近のオンラインフィルタリング手法でさえ、理論的根拠とその有効性の体系的理解が不足している。本研究では、学習モデルがその場で中間的な精度を達成するような問題でバッチをキュレーションすることで、RORL学習、すなわちバランスの取れたオンライン難易度フィルタリングの効果を最大化できることを理論的・実証的に示す。我々はまず、初期方針と最適方針の間のKLダイバージェンスの下界が、サンプリングされた精度の分散で表現できることを導出する。これらの洞察に基づき、バランスドフィルタリングが下界を最大化し、より良い性能につながることを示す。5つの難易度の高い数学推論ベンチマークの実験結果から、バランスド・オンライン・フィルタリングは、通常のGRPOと比較して、AIMEでさらに10%、平均で4%の改善をもたらすことが示された。さらに、更なる分析により、サンプル効率と訓練時間効率の向上が示され、60%の訓練時間と訓練セットの量で、プレーンGRPOの最大報酬を上回る。

要約(オリジナル)

Reasoning-Oriented Reinforcement Learning (RORL) enhances the reasoning ability of Large Language Models (LLMs). However, due to the sparsity of rewards in RORL, effective training is highly dependent on the selection of problems of appropriate difficulty. Although curriculum learning attempts to address this by adjusting difficulty, it often relies on static schedules, and even recent online filtering methods lack theoretical grounding and a systematic understanding of their effectiveness. In this work, we theoretically and empirically show that curating the batch with the problems that the training model achieves intermediate accuracy on the fly can maximize the effectiveness of RORL training, namely balanced online difficulty filtering. We first derive that the lower bound of the KL divergence between the initial and the optimal policy can be expressed with the variance of the sampled accuracy. Building on those insights, we show that balanced filtering can maximize the lower bound, leading to better performance. Experimental results across five challenging math reasoning benchmarks show that balanced online filtering yields an additional 10% in AIME and 4% improvements in average over plain GRPO. Moreover, further analysis shows the gains in sample efficiency and training time efficiency, exceeding the maximum reward of plain GRPO within 60% training time and the volume of the training set.

arxiv情報

著者 Sanghwan Bae,Jiwoo Hong,Min Young Lee,Hanbyul Kim,JeongYeon Nam,Donghyun Kwak
発行日 2025-04-04 11:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning はコメントを受け付けていません

A Survey on Moral Foundation Theory and Pre-Trained Language Models: Current Advances and Challenges

要約

道徳的価値観は、初期の文明に深く根ざしており、社会の秩序や共通の利益を規制する規範や法律の中で体系化されている。道徳的価値観は、人間の行動や文化的指向の心理的基礎を理解する上で重要な役割を果たしている。道徳的基盤理論(Moral Foundation Theory:MFT)は、異なる文化が個人や社会の生活を形成する方法の根底にある中核的な道徳的基盤を特定する、確立された枠組みである。自然言語処理、特に事前訓練言語モデル(PLM)における最近の進歩は、テキストデータからの道徳的側面の抽出と分析を可能にしている。本調査では、MFTに基づいたPLMの包括的なレビューを行い、PLMにおける道徳的傾向の分析と、MFTの文脈におけるPLMの応用を提供する。また、関連するデータセットと辞書をレビューし、傾向、限界、将来の方向性について議論する。PLMとMFTの交差点について構造化された概要を提供することで、PLMの領域における道徳心理学的洞察の架け橋となり、道徳的に認識されたAIシステムを構築するためのさらなる研究開発への道を開く。

要約(オリジナル)

Moral values have deep roots in early civilizations, codified within norms and laws that regulated societal order and the common good. They play a crucial role in understanding the psychological basis of human behavior and cultural orientation. The Moral Foundation Theory (MFT) is a well-established framework that identifies the core moral foundations underlying the manner in which different cultures shape individual and social lives. Recent advancements in natural language processing, particularly Pre-trained Language Models (PLMs), have enabled the extraction and analysis of moral dimensions from textual data. This survey presents a comprehensive review of MFT-informed PLMs, providing an analysis of moral tendencies in PLMs and their application in the context of the MFT. We also review relevant datasets and lexicons and discuss trends, limitations, and future directions. By providing a structured overview of the intersection between PLMs and MFT, this work bridges moral psychology insights within the realm of PLMs, paving the way for further research and development in creating morally aware AI systems.

arxiv情報

著者 Lorenzo Zangari,Candida M. Greco,Davide Picca,Andrea Tagarelli
発行日 2025-04-04 11:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY, cs.DL, cs.HC | A Survey on Moral Foundation Theory and Pre-Trained Language Models: Current Advances and Challenges はコメントを受け付けていません

Do Robot Snakes Dream like Electric Sheep? Investigating the Effects of Architectural Inductive Biases on Hallucination

要約

日常生活における大規模言語モデル(LLM)の重要性の高まりは、その生成能力に起因するところが大きいが、その使用に関するリスクやコストにも起因するところがある。ひとつには、LLMは誤った情報や誤解を招く情報を幻視する傾向があり、その信頼性を制限している。もうひとつは、従来の自己注意をベースとしたLLMに関連する計算上の限界に注目が集まっていることで、それを克服するための新しい選択肢、特にリカレントモデルが登場している。しかし、これら2つの懸念を同時に考慮することは、まだ珍しいことである。アーキテクチャの変化は、幻覚に関する既存の懸念を悪化させるのか、軽減させるのか?幻覚がどこでどのように起こるのかに影響を与えるのか?広範な評価を通じて、これらの建築に基づく帰納的バイアスが、幻覚の傾向にどのような影響を与えるかを研究する。幻覚は特定のアーキテクチャに限定されない一般的な現象であることに変わりはないが、幻覚が発生する状況や、特定のタイプの幻覚が誘発されやすいかどうかは、モデルアーキテクチャによって大きく異なる可能性がある。これらの知見は、幻覚を扱うためのより普遍的な技術を設計する方法を検討するだけでなく、これら両方の問題を相互に関連してよりよく理解する必要性を浮き彫りにしている。

要約(オリジナル)

The growth in prominence of large language models (LLMs) in everyday life can be largely attributed to their generative abilities, yet some of this is also owed to the risks and costs associated with their use. On one front is their tendency to hallucinate false or misleading information, limiting their reliability. On another is the increasing focus on the computational limitations associated with traditional self-attention based LLMs, which has brought about new alternatives, in particular recurrent models, meant to overcome them. Yet it remains uncommon to consider these two concerns simultaneously. Do changes in architecture exacerbate/alleviate existing concerns about hallucinations? Do they affect how and where they occur? Through an extensive evaluation, we study how these architecture-based inductive biases affect the propensity to hallucinate. While hallucination remains a general phenomenon not limited to specific architectures, the situations in which they occur and the ease with which specific types of hallucinations can be induced can significantly differ based on the model architecture. These findings highlight the need for better understanding both these problems in conjunction with each other, as well as consider how to design more universal techniques for handling hallucinations.

arxiv情報

著者 Jerry Huang,Prasanna Parthasarathi,Mehdi Rezagholizadeh,Boxing Chen,Sarath Chandar
発行日 2025-04-04 11:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Do Robot Snakes Dream like Electric Sheep? Investigating the Effects of Architectural Inductive Biases on Hallucination はコメントを受け付けていません

Assessing SPARQL capabilities of Large Language Models

要約

大規模言語モデル(LLM)と知識グラフ(KG)の統合は、知識駆動型アプリケーションに大きな相乗効果をもたらす可能性がある。可能性のある統合の1つは、セマンティック・ウェブで使用されるような形式言語の解釈と生成であり、SPARQLはKGにアクセスするためのコア技術である。本論文では、LLMがSPARQL、特にSPARQL SELECTクエリと連携して動作する能力を、定量的なアプローチで測定することに焦点を当てる。 LLM-KG-Benchフレームワークにさまざまなベンチマークタスクを実装し、複数のLLMで自動実行と評価を行いました。タスクは、構文、セマンティックリード、セマンティッククリエイト、ナレッジグラフプロンプトインクルージョンの役割の次元で能力を評価する。 この新しいベンチマークタスクで、GPT、Gemini、Claudeの各モデルを評価した。その結果、SPARQL SELECTクエリの処理はLLMにとって依然として困難であり、タスクの複雑さだけでなく特定のLLMにも大きく依存することがわかった。基本的な構文エラーを修正することは、現在評価されているLLMの中で最も優れているLLMでは問題ないようですが、意味的に正しいSPARQL SELECTクエリを作成することは、いくつかのケースで困難です。

要約(オリジナル)

The integration of Large Language Models (LLMs) with Knowledge Graphs (KGs) offers significant synergistic potential for knowledge-driven applications. One possible integration is the interpretation and generation of formal languages, such as those used in the Semantic Web, with SPARQL being a core technology for accessing KGs. In this paper, we focus on measuring out-of-the box capabilities of LLMs to work with SPARQL and more specifically with SPARQL SELECT queries applying a quantitative approach. We implemented various benchmarking tasks in the LLM-KG-Bench framework for automated execution and evaluation with several LLMs. The tasks assess capabilities along the dimensions of syntax, semantic read, semantic create, and the role of knowledge graph prompt inclusion. With this new benchmarking tasks, we evaluated a selection of GPT, Gemini, and Claude models. Our findings indicate that working with SPARQL SELECT queries is still challenging for LLMs and heavily depends on the specific LLM as well as the complexity of the task. While fixing basic syntax errors seems to pose no problems for the best of the current LLMs evaluated, creating semantically correct SPARQL SELECT queries is difficult in several cases.

arxiv情報

著者 Lars-Peter Meyer,Johannes Frey,Felix Brei,Natanael Arndt
発行日 2025-04-04 11:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR | Assessing SPARQL capabilities of Large Language Models はコメントを受け付けていません

PaperBench: Evaluating AI’s Ability to Replicate AI Research

要約

最先端のAI研究を再現するAIエージェントの能力を評価するベンチマーク、PaperBenchを紹介する。エージェントは、ICML2024のスポットライト論文とオーラル論文20本をゼロから再現する必要があり、これには論文投稿の理解、コードベースの開発、実験の成功などが含まれる。客観的な評価のために、各レプリケーションタスクを明確な採点基準を持つより小さなサブタスクに階層的に分解するルーブリックを開発しました。PaperBenchには合計8,316の個別評価可能なタスクが含まれています。ルーブリックはICMLの各論文の著者と共同開発し、正確さと現実性を追求しています。また、スケーラブルな評価を可能にするため、ルーブリックに照らして複製を自動的に採点するLLMベースのジャッジを開発し、ジャッジ用のベンチマークを別途作成することでジャッジのパフォーマンスを評価する。いくつかのフロンティアモデルをPaperBenchで評価した結果、オープンソースの足場を用いたClaude 3.5 Sonnet (New)が、平均21.0%の複製スコアを達成した。最後に、PaperBenchのサブセットに挑戦する一流のML博士を募集し、モデルはまだ人間のベースラインを上回らないことを発見した。我々は、AIエージェントのAI工学的能力を理解するための将来の研究を促進するために、我々のコードを公開する。

要約(オリジナル)

We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge’s performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We \href{https://github.com/openai/preparedness}{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.

arxiv情報

著者 Giulio Starace,Oliver Jaffe,Dane Sherburn,James Aung,Jun Shern Chan,Leon Maksin,Rachel Dias,Evan Mays,Benjamin Kinsella,Wyatt Thompson,Johannes Heidecke,Amelia Glaese,Tejal Patwardhan
発行日 2025-04-04 12:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | PaperBench: Evaluating AI’s Ability to Replicate AI Research はコメントを受け付けていません

The AI Cosmologist I: An Agentic System for Automated Data Analysis

要約

AIコスモロジストは、宇宙論的/天文学的データ解析と機械学習研究のワークフローを自動化するために設計されたエージェントシステムである。このシステムは、人間の研究者が通常行う科学的プロセスを模倣し、アイデアの創出から実験評価、研究普及までの完全なパイプラインを実装している。このシステムは、計画、コーディング、実行、分析、合成に特化したエージェントを採用しており、これらが連携して新しいアプローチを開発する。従来の自動機械学習システムとは異なり、AIコスモロジストは多様な実装戦略を生成し、完全なコードを記述し、実行エラーを処理し、結果を分析し、実験結果に基づいて新しいアプローチを合成する。我々は、AIコスモロジストの能力をいくつかの機械学習タスクで実証し、どのように解空間を探索し、実験結果に基づいて反復し、異なるアプローチから成功した要素を組み合わせることができるかを示す。この結果は、エージェントシステムが研究プロセスの一部を自動化し、科学的発見を加速する可能性があることを示している。本稿で使用したコードと実験データは、GitHub(https://github.com/adammoss/aicosmologist)で公開されている。付録の論文例は、データセットとタスクの記述のみから出発して、完全な科学論文を自律的に作成するシステムの能力を示している。

要約(オリジナル)

We present the AI Cosmologist, an agentic system designed to automate cosmological/astronomical data analysis and machine learning research workflows. This implements a complete pipeline from idea generation to experimental evaluation and research dissemination, mimicking the scientific process typically performed by human researchers. The system employs specialized agents for planning, coding, execution, analysis, and synthesis that work together to develop novel approaches. Unlike traditional auto machine-learning systems, the AI Cosmologist generates diverse implementation strategies, writes complete code, handles execution errors, analyzes results, and synthesizes new approaches based on experimental outcomes. We demonstrate the AI Cosmologist capabilities across several machine learning tasks, showing how it can successfully explore solution spaces, iterate based on experimental results, and combine successful elements from different approaches. Our results indicate that agentic systems can automate portions of the research process, potentially accelerating scientific discovery. The code and experimental data used in this paper are available on GitHub at https://github.com/adammoss/aicosmologist. Example papers included in the appendix demonstrate the system’s capability to autonomously produce complete scientific publications, starting from only the dataset and task description

arxiv情報

著者 Adam Moss
発行日 2025-04-04 13:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: astro-ph.CO, astro-ph.GA, astro-ph.IM, cs.AI, physics.data-an | The AI Cosmologist I: An Agentic System for Automated Data Analysis はコメントを受け付けていません

Comparison of SAT-based and ASP-based Algorithms for Inconsistency Measurement

要約

命題知識ベースにおける矛盾度決定問題を解くための、充足可能性問題(SAT)解法と解答集合計画法(ASP)に基づくアルゴリズムを提案する。我々は、それぞれの決定問題が多項式階層の第1レベルにある6つの異なる矛盾尺度を考察する。すなわち、contension inconsistency measure、forgoting-based inconsistency measure、hitting set inconsistency measure、max-distance inconsistency measure、sum-distance inconsistency measure、hit-distance inconsistency measureである。広範な実験的分析において、SATベースとASPベースのアプローチを互いに比較し、また素朴なベースラインアルゴリズムとも比較した。その結果、全体として、SATベースとASPベースの両アプローチは、実行時間の点で明らかに素朴なベースライン法を上回ることが示された。さらに、提案したASPベースのアプローチは、本研究で考慮した6つの不整合性指標全てに関して、SATベースのアプローチよりも優れた性能を示す。さらに、前述の結果をより詳細に説明するために、追加の実験を行う。

要約(オリジナル)

We present algorithms based on satisfiability problem (SAT) solving, as well as answer set programming (ASP), for solving the problem of determining inconsistency degrees in propositional knowledge bases. We consider six different inconsistency measures whose respective decision problems lie on the first level of the polynomial hierarchy. Namely, these are the contension inconsistency measure, the forgetting-based inconsistency measure, the hitting set inconsistency measure, the max-distance inconsistency measure, the sum-distance inconsistency measure, and the hit-distance inconsistency measure. In an extensive experimental analysis, we compare the SAT-based and ASP-based approaches with each other, as well as with a set of naive baseline algorithms. Our results demonstrate that overall, both the SAT-based and the ASP-based approaches clearly outperform the naive baseline methods in terms of runtime. The results further show that the proposed ASP-based approaches perform superior to the SAT-based ones with regard to all six inconsistency measures considered in this work. Moreover, we conduct additional experiments to explain the aforementioned results in greater detail.

arxiv情報

著者 Isabelle Kuhlmann,Anna Gessler,Vivien Laszlo,Matthias Thimm
発行日 2025-04-04 13:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | Comparison of SAT-based and ASP-based Algorithms for Inconsistency Measurement はコメントを受け付けていません

ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling

要約

最適化モデリングは、実世界の問題に対処するためのオペレーションズリサーチ(OR)ツールの適用において重要な役割を果たすが、ORの専門家による広範な専門知識が必要とされる難題である。大規模言語モデル(LLM)の出現により、このようなタスクを合理化・自動化する新たな機会が出現した。しかし、現在の研究は、GPT-4のようなクローズドソースのLLMと、広範なプロンプトエンジニアリング技術に依存している。このような依存は、最適化モデリングのための高品質なトレーニングデータセットが少ないことに起因しており、その結果、コストの上昇、処理時間の長期化、プライバシーの問題が生じている。これらの課題に対処するため、我々の研究は、最適化モデリングとソルバーコードの開発が可能なオープンソースのLLMをトレーニングするための実行可能な経路を初めて提案し、最終的に最適化モデリングと解法の自動化に優れた能力をもたらす。特に、最適化モデリングのための半自動データ合成フレームワークである「sc OR-Instruct」を設計し、特定のシナリオやモデル・タイプのためにカスタマイズ可能な機能拡張を可能にします。また、本研究では、実用的なOR問題を解くLLMを評価する最初の産業ベンチマークであるIndustryORを導入する。合成されたデータを用いて7BスケールのオープンソースLLM(ORLMs{https://github.com/Cardinal-Operations/ORLM}と呼ばれる)をいくつか訓練し、NL4OPT、MAMO、およびIndustryORベンチマークにおいて競争力のある性能を達成し、最適化モデリング能力が大幅に向上したことを示す。さらに、我々の実験は、ORLMの性能をさらに向上させるスケーリング則と強化学習の可能性を強調している。また、実用的な産業アプリケーションにおけるORLMのワークフローと人間と機械のインタラクション・パラダイムについても論じている。

要約(オリジナル)

Optimization modeling plays a critical role in the application of Operations Research (OR) tools to address real-world problems, yet they pose challenges and require extensive expertise from OR experts. With the advent of large language models (LLMs), new opportunities have emerged to streamline and automate such task. However, current research predominantly relies on closed-source LLMs such as GPT-4, along with extensive prompt engineering techniques. This reliance stems from the scarcity of high-quality training datasets for optimization modeling, resulting in elevated costs, prolonged processing times, and privacy concerns. To address these challenges, our work is the first to propose a viable path for training open-source LLMs that are capable of optimization modeling and developing solver codes, eventually leading to a superior ability for automating optimization modeling and solving. Particularly, we design the {\sc OR-Instruct}, a semi-automated data synthesis framework for optimization modeling that enables customizable enhancements for specific scenarios or model types. This work also introduces IndustryOR, the first industrial benchmark for evaluating LLMs in solving practical OR problems. We train several 7B-scale open-source LLMs using synthesized data (dubbed ORLMs{https://github.com/Cardinal-Operations/ORLM}), which exhibit significantly enhanced optimization modeling capabilities, achieving competitive performance across the NL4OPT, MAMO, and IndustryOR benchmarks. Additionally, our experiments highlight the potential of scaling law and reinforcement learning to further enhance the performance of ORLMs. The workflows and human-machine interaction paradigms of ORLMs in practical industrial applications are also discussed in the paper.

arxiv情報

著者 Chenyu Huang,Zhengyang Tang,Shixi Hu,Ruoqing Jiang,Xin Zheng,Dongdong Ge,Benyou Wang,Zizhuo Wang
発行日 2025-04-04 13:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG | ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling はコメントを受け付けていません

SpectR: Dynamically Composing LM Experts with Spectral Routing

要約

大規模で汎用的な言語モデルの学習には大きな課題がある。特定のタスクやドメイン用に事前に訓練されたモデルから微調整された専門家モデルの利用可能性が高まっており、有望な代替手段を提供している。このような既存のエキスパートモデルの可能性を実世界のアプリケーションで活用するためには、与えられたタスクに最適なモデルを選択したりマージしたりする効果的な手法が必要である。本稿では、推論中の時間ステップ毎にエキスパートモデルを動的に合成するアプローチであるSPECTRを紹介する。本手法は追加の学習を必要とせず、トークン単位やレイヤ単位での柔軟なモデルの組み合わせが可能であることが特徴である。実験の結果、SPECTRは学習不要な代替手法よりもルーティング精度を向上させ、エキスパート領域におけるタスク性能を向上させることが実証された。

要約(オリジナル)

Training large, general-purpose language models poses significant challenges. The growing availability of specialized expert models, fine-tuned from pretrained models for specific tasks or domains, offers a promising alternative. Leveraging the potential of these existing expert models in real-world applications requires effective methods to select or merge the models best suited for a given task. This paper introduces SPECTR, an approach for dynamically composing expert models at each time step during inference. Notably, our method requires no additional training and enables flexible, token- and layer-wise model combinations. Our experimental results demonstrate that SPECTR improves routing accuracy over alternative training-free methods, increasing task performance across expert domains.

arxiv情報

著者 William Fleshman,Benjamin Van Durme
発行日 2025-04-04 13:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | SpectR: Dynamically Composing LM Experts with Spectral Routing はコメントを受け付けていません

Real-time Speech Summarization for Medical Conversations

要約

医師と患者の会話では、医療に関連する情報を特定することが重要であり、会話要約の必要性が生じている。このシステムでは、会話中のN個の発話ごとにローカル要約を生成し、会話終了後にグローバル要約を生成する。このシステムは、技術的な観点から計算コストを削減すると同時に、ビジネス的な観点からユーザーエクスペリエンスを向上させることができる。第二に、我々はVietMed-Sumを発表する。VietMed-Sumは我々の知る限り、初の医療会話用の音声要約データセットである。第三に、LLMと人間のアノテーターを共同で利用し、医療会話要約のためのゴールドスタンダードと合成要約を作成した最初の例である。最後に、VietMed-Sumにおける最新モデルのベースライン結果を示す。全てのコード、データ(英語訳とベトナム語訳)、モデルはオンラインで入手可能: https://github.com/leduckhai/MultiMed/tree/master/VietMed-Sum

要約(オリジナル)

In doctor-patient conversations, identifying medically relevant information is crucial, posing the need for conversation summarization. In this work, we propose the first deployable real-time speech summarization system for real-world applications in industry, which generates a local summary after every N speech utterances within a conversation and a global summary after the end of a conversation. Our system could enhance user experience from a business standpoint, while also reducing computational costs from a technical perspective. Secondly, we present VietMed-Sum which, to our knowledge, is the first speech summarization dataset for medical conversations. Thirdly, we are the first to utilize LLM and human annotators collaboratively to create gold standard and synthetic summaries for medical conversation summarization. Finally, we present baseline results of state-of-the-art models on VietMed-Sum. All code, data (English-translated and Vietnamese) and models are available online: https://github.com/leduckhai/MultiMed/tree/master/VietMed-Sum

arxiv情報

著者 Khai Le-Duc,Khai-Nguyen Nguyen,Long Vo-Dang,Truong-Son Hy
発行日 2025-04-04 14:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Real-time Speech Summarization for Medical Conversations はコメントを受け付けていません