Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

要約

DeepSeek-R1-Zeroは、補強学習(RL)を通じて純粋にLLMSの推論能力の出現を成功裏に実証しました。
このブレークスルーに触発されて、MLLMの推論能力を高めるためにRLをどのように利用できるかを探ります。
ただし、RLを使用した直接トレーニングは、実質的な高品質のマルチモーダル推論データがないため、MLLMSでの質問や反省などの複雑な推論機能をアクティブにするのに苦労しています。
この問題に対処するために、マルチモーダル推論能力を改善するために、MLLM、Vision-R1の推論を提案します。
具体的には、最初に、既存のMLLMとDeepSeek-R1をモダリティブリッジングとデータフィルタリングを通じて、200KマルチモーダルCOTデータセット、Vision-R1-Cold Datasetを取得することにより、人間の注釈なしで高品質のマルチモーダルCOTデータセットを構築します。
Vision-R1のコールドスタート初期化データとして機能します。
コールドスタート後の考え直しによって引き起こされる最適化の課題を軽減するために、進歩的な思考抑制トレーニング(PTST)戦略を提案し、グループ相対ポリシー最適化(GRPO)をハードフォーマット結果報酬機能で採用して、10Kマルチモーダル数学データセットで正確で複雑な推論プロセスを学習するモデルの能力を徐々に改善します。
包括的な実験では、私たちのモデルが、さまざまなマルチモーダル数学推論ベンチマークにわたって$ \ sim $ 6%の平均改善を達成することを示しています。
Vision-R1-7Bは、広く使用されているMathvistaベンチマークで73.5%の精度を達成します。これは、主要な推論モデルであるOpenai O1よりもわずか0.4%低いです。
データセットとコードは、https://github.com/osilly/vision-r1でリリースされます。

要約(オリジナル)

DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by this breakthrough, we explore how RL can be utilized to enhance the reasoning capability of MLLMs. However, direct training with RL struggles to activate complex reasoning capabilities such as questioning and reflection in MLLMs, due to the absence of substantial high-quality multimodal reasoning data. To address this issue, we propose the reasoning MLLM, Vision-R1, to improve multimodal reasoning capability. Specifically, we first construct a high-quality multimodal CoT dataset without human annotations by leveraging an existing MLLM and DeepSeek-R1 through modality bridging and data filtering to obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as cold-start initialization data for Vision-R1. To mitigate the optimization challenges caused by overthinking after cold start, we propose Progressive Thinking Suppression Training (PTST) strategy and employ Group Relative Policy Optimization (GRPO) with the hard formatting result reward function to gradually refine the model’s ability to learn correct and complex reasoning processes on a 10K multimodal math dataset. Comprehensive experiments show our model achieves an average improvement of $\sim$6% across various multimodal math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely used MathVista benchmark, which is only 0.4% lower than the leading reasoning model, OpenAI O1. The datasets and code will be released in: https://github.com/Osilly/Vision-R1 .

arxiv情報

著者 Wenxuan Huang,Bohan Jia,Zijie Zhai,Shaosheng Cao,Zheyu Ye,Fei Zhao,Zhe Xu,Yao Hu,Shaohui Lin
発行日 2025-03-11 09:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models はコメントを受け付けていません

Emotion-Aware Embedding Fusion in LLMs (Flan-T5, LLAMA 2, DeepSeek-R1, and ChatGPT 4) for Intelligent Response Generation

要約

共感的で一貫した反応は、自動配置されたチャットボットが促進された心理療法で重要です。
この研究では、精神医学的アプリケーションにおける大規模な言語モデル(LLM)の感情的および文脈的理解を高めるという課題に対処します。
階層的融合と注意メカニズムを統合する新しいフレームワークである感情を認識した埋め込み融合を紹介し、治療転写産物のセマンティックと感情の特徴に優先順位を付けます。
私たちのアプローチは、NRC感情レキシコン、ベイダー、ワードネット、センティワードネットを含む複数の感情レキシコンを組み合わせており、Flan-T5、Llama 2、Deepseek-R1、ChatGPT 4などの最先端のLLMを組み合わせています。
感情的な表現を改良するためのプーリングテクニックを備えた機能。
マルチヘッドの自己触たちや交差文学を含むアッテン形式のメカニズムは、感情的および文脈的特徴をさらに優先し、セッション全体の感情的変化の時間的モデリングを可能にします。
BERT、GPT-3、およびRobertaを使用して計算された加工された埋め込みは、Facebook AI類似性検索ベクトルデータベースに保存されており、密なベクトル空間全体で効率的な類似性検索とクラスタリングを可能にします。
ユーザーのクエリでは、関連するセグメントが取得され、LLMSのコンテキストとして提供され、共感的でコンテキスト的に関連する応答を生成する能力が向上します。
提案されたフレームワークは、AI駆動型セラピーチャットボットを含む実際の適用性を実証するために、複数の実践的なケースで評価されます。
このシステムは、既存のメンタルヘルスプラットフォームに統合して、検索された治療セッションデータに基づいてパーソナライズされた応答を生成できます。

要約(オリジナル)

Empathetic and coherent responses are critical in auto-mated chatbot-facilitated psychotherapy. This study addresses the challenge of enhancing the emotional and contextual understanding of large language models (LLMs) in psychiatric applications. We introduce Emotion-Aware Embedding Fusion, a novel framework integrating hierarchical fusion and attention mechanisms to prioritize semantic and emotional features in therapy transcripts. Our approach combines multiple emotion lexicons, including NRC Emotion Lexicon, VADER, WordNet, and SentiWordNet, with state-of-the-art LLMs such as Flan-T5, LLAMA 2, DeepSeek-R1, and ChatGPT 4. Therapy session transcripts, comprising over 2,000 samples are segmented into hierarchical levels (word, sentence, and session) using neural networks, while hierarchical fusion combines these features with pooling techniques to refine emotional representations. Atten-tion mechanisms, including multi-head self-attention and cross-attention, further prioritize emotional and contextual features, enabling temporal modeling of emotion-al shifts across sessions. The processed embeddings, computed using BERT, GPT-3, and RoBERTa are stored in the Facebook AI similarity search vector database, which enables efficient similarity search and clustering across dense vector spaces. Upon user queries, relevant segments are retrieved and provided as context to LLMs, enhancing their ability to generate empathetic and con-textually relevant responses. The proposed framework is evaluated across multiple practical use cases to demonstrate real-world applicability, including AI-driven therapy chatbots. The system can be integrated into existing mental health platforms to generate personalized responses based on retrieved therapy session data.

arxiv情報

著者 Abdur Rasool,Muhammad Irfan Shahzad,Hafsa Aslam,Vincent Chan,Muhammad Ali Arshad
発行日 2025-03-11 10:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Emotion-Aware Embedding Fusion in LLMs (Flan-T5, LLAMA 2, DeepSeek-R1, and ChatGPT 4) for Intelligent Response Generation はコメントを受け付けていません

Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation

要約

品質推定(QE) – 翻訳品質の自動評価 – は、データのキュレーションからトレーニングやデコードまで、翻訳パイプラインのいくつかの段階で最近重要になりました。
QEメトリックは、人間の判断に合わせて最適化されていますが、社会的バイアスをコードするかどうかはほとんど見過ごされています。
偏ったQEリスクは、視界と使いやすさのギャップを悪化させることにより、特定の人口統計グループを他の人に支持します。
このペーパーでは、QEメトリックのジェンダーバイアスを定義および調査し、機械翻訳(MT)に対する下流の影響について説明します。
複数のドメイン、データセット、言語にわたる最先端のQEメトリックを使用した実験では、重要なバイアスが明らかになります。
ソース内の人間のエンティティの性別が非公開の場合、男性的な翻訳が女性的に変化した翻訳よりも高いスコアが高く、性別中立翻訳が罰せられます。
コンテキストのキューが性別を非表示にした場合でも、コンテキストを使用するQEメトリックを使用すると、男性の指示物よりも女性の正しい翻訳の変曲を選ぶ際に、より多くのエラーが発生します。
さらに、バイアスされたQEメトリックは、データフィルタリングと品質認識デコードに影響します。
私たちの調査結果は、性別を中心としたQEメトリックの開発と評価に新たな焦点の必要性を強調しています。

要約(オリジナル)

Quality estimation (QE) — the automatic assessment of translation quality — has recently become crucial across several stages of the translation pipeline, from data curation to training and decoding. While QE metrics have been optimized to align with human judgments, whether they encode social biases has been largely overlooked. Biased QE risks favoring certain demographic groups over others, e.g., by exacerbating gaps in visibility and usability. This paper defines and investigates gender bias of QE metrics and discusses its downstream implications for machine translation (MT). Experiments with state-of-the-art QE metrics across multiple domains, datasets, and languages reveal significant bias. When a human entity’s gender in the source is undisclosed, masculine-inflected translations score higher than feminine-inflected ones and gender-neutral translations are penalized. Even when contextual cues disambiguate gender, using context-aware QE metrics leads to more errors in picking the correct translation inflection for feminine than masculine referents. Moreover, a biased QE metric affects data filtering and quality-aware decoding. Our findings highlight the need for renewed focus in developing and evaluating QE metrics centered around gender.

arxiv情報

著者 Emmanouil Zaranis,Giuseppe Attanasio,Sweta Agrawal,André F. T. Martins
発行日 2025-03-11 10:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation はコメントを受け付けていません

Beyond Outlining: Heterogeneous Recursive Planning for Adaptive Long-form Writing with Language Models

要約

長型のライティングエージェントは、情報の検索、推論、構成間の柔軟な統合と相互作用が必要です。
現在のアプローチは、事前に決められたワークフローと厳格な思考パターンに依存して、執筆前にアウトラインを生成し、執筆中に制約された適応性をもたらします。
この論文では、再帰的なタスク分解と3つの基本的なタスクタイプ、つまり検索、推論、構成の動的統合を通じて人間のような適応文章を達成する一般的なエージェントフレームワークを提案します。
私たちの方法論の特徴:1)再帰的なタスク分解と実行を介して、ワークフローの書き込みの人為的な制限を排除する計画メカニズム。
2)不均一なタスク分解を促進するタスクタイプの統合。
フィクションライティングとテクニカルレポートの両方の生成の両方の評価は、私たちの方法がすべての自動評価メトリックにわたって一貫して最先端のアプローチを上回ることを示しています。

要約(オリジナル)

Long-form writing agents require flexible integration and interaction across information retrieval, reasoning, and composition. Current approaches rely on predetermined workflows and rigid thinking patterns to generate outlines before writing, resulting in constrained adaptability during writing. In this paper we propose a general agent framework that achieves human-like adaptive writing through recursive task decomposition and dynamic integration of three fundamental task types, i.e. retrieval, reasoning, and composition. Our methodology features: 1) a planning mechanism that interleaves recursive task decomposition and execution, eliminating artificial restrictions on writing workflow; and 2) integration of task types that facilitates heterogeneous task decomposition. Evaluations on both fiction writing and technical report generation show that our method consistently outperforms state-of-the-art approaches across all automatic evaluation metrics, which demonstrate the effectiveness and broad applicability of our proposed framework.

arxiv情報

著者 Ruibin Xiong,Yimeng Chen,Dmitrii Khizbullin,Jürgen Schmidhuber
発行日 2025-03-11 10:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Beyond Outlining: Heterogeneous Recursive Planning for Adaptive Long-form Writing with Language Models はコメントを受け付けていません

Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges

要約

大規模な言語モデル(LLM)は、ヘルスケアシステム全体の外来紹介タスクにますます適用されています。
ただし、特に動的でインタラクティブなシナリオにおいて、それらの有効性を評価するための標準化された評価基準が不足しています。
この研究では、インテリジェントな外来紹介(IOR)システム内のタスクの管理におけるLLMの機能と制限を体系的に調べ、そのようなシステム専用に設計された包括的な評価フレームワークを提案します。
このフレームワークは、2つのコアタスクで構成されています。定義された外来紹介の能力の評価に焦点を当てた静的評価と、反復対話を通じて外来患者の紹介の推奨事項を改良する能力を評価する動的評価です。
私たちの調査結果は、LLMSがBertのようなモデルよりも限られた利点を提供していることを示唆していますが、インタラクティブな対話中に効果的な質問をすることで有望です。

要約(オリジナル)

Large language models (LLMs) are increasingly applied to outpatient referral tasks across healthcare systems. However, there is a lack of standardized evaluation criteria to assess their effectiveness, particularly in dynamic, interactive scenarios. In this study, we systematically examine the capabilities and limitations of LLMs in managing tasks within Intelligent Outpatient Referral (IOR) systems and propose a comprehensive evaluation framework specifically designed for such systems. This framework comprises two core tasks: static evaluation, which focuses on evaluating the ability of predefined outpatient referrals, and dynamic evaluation, which evaluates capabilities of refining outpatient referral recommendations through iterative dialogues. Our findings suggest that LLMs offer limited advantages over BERT-like models, but show promise in asking effective questions during interactive dialogues.

arxiv情報

著者 Xiaoxiao Liu,Qingying Xiao,Junying Chen,Xiangyi Feng,Xiangbo Wu,Bairui Zhang,Xiang Wan,Jian Chang,Guangjun Yu,Yan Hu,Benyou Wang
発行日 2025-03-11 11:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges はコメントを受け付けていません

Towards Scalable and Cross-Lingual Specialist Language Models for Oncology

要約

臨床腫瘍学は、しばしば矛盾、情報の欠落、あいまいさを含む広大で非構造化されたデータを生成し、データ駆動型の意思決定のための信頼できる洞察を抽出することを困難にします。
一般的な大規模な言語モデル(LLMS)は、特殊な臨床用語、コンテキスト依存の解釈、マルチモーダルデータ統合など、ドメイン固有の推論の欠如により、これらの課題と闘っています。
これらの問題は、命令チューニング、検索された生成(RAG)、およびグラフベースの知識統合を組み合わせた、腫瘍学的、効率的で適応性のあるNLPフレームワークで対処します。
当社の軽量モデルは、名前付きエンティティ認識(がん診断の識別)、エンティティのリンク(エンティティを標準化されたオントロジーにリンクするなど)、TNMステージング、文書分類(病理学レポートからのがんサブ分類)、治療反応の予測などの腫瘍学固有のタスクで効果的であることが証明されています。
私たちのフレームワークは、適応性とリソース効率を強調しています。
ユニバーシティホスピタルチューリッヒ(USZ)で収集された最小限のドイツ語の指示を含めて、少量の英語データデータが言語間で知識を効果的に転送できるかどうかをテストします。
このアプローチは、軽量モデルの動機を反映しており、強力なパフォーマンスと計算コストの削減のバランスを取り、リソース制限されたヘルスケア設定に適しています。
腫瘍学データセットのモデルを検証し、名前付きエンティティ認識、関係抽出、およびドキュメント分類で強力な結果を示しました。

要約(オリジナル)

Clinical oncology generates vast, unstructured data that often contain inconsistencies, missing information, and ambiguities, making it difficult to extract reliable insights for data-driven decision-making. General-purpose large language models (LLMs) struggle with these challenges due to their lack of domain-specific reasoning, including specialized clinical terminology, context-dependent interpretations, and multi-modal data integration. We address these issues with an oncology-specialized, efficient, and adaptable NLP framework that combines instruction tuning, retrieval-augmented generation (RAG), and graph-based knowledge integration. Our lightweight models prove effective at oncology-specific tasks, such as named entity recognition (e.g., identifying cancer diagnoses), entity linking (e.g., linking entities to standardized ontologies), TNM staging, document classification (e.g., cancer subtype classification from pathology reports), and treatment response prediction. Our framework emphasizes adaptability and resource efficiency. We include minimal German instructions, collected at the University Hospital Zurich (USZ), to test whether small amounts of non-English language data can effectively transfer knowledge across languages. This approach mirrors our motivation for lightweight models, which balance strong performance with reduced computational costs, making them suitable for resource-limited healthcare settings. We validated our models on oncology datasets, demonstrating strong results in named entity recognition, relation extraction, and document classification.

arxiv情報

著者 Morteza Rohanian,Tarun Mehra,Nicola Miglino,Farhad Nooralahzadeh,Michael Krauthammer,Andreas Wicki
発行日 2025-03-11 11:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Scalable and Cross-Lingual Specialist Language Models for Oncology はコメントを受け付けていません

Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation

要約

自動メトリックがますます強くなり、広く採用されるにつれて、モデル開発中に意図せずに「メトリックを賭ける」リスクが上昇します。
この問題は、メトリック干渉(MINT)、つまり、モデルの調整と評価の両方に同じまたは関連するメトリックの使用によって引き起こされます。
Mintは、実務家をシステムのパフォーマンスについて過度に最適であるように誤っていることができます。システム出力が干渉メトリックの関数になると、推定された品質は人間の判断との相関を失います。
この作業では、トレーニングデータのフィルタリングと品質信号の解読というマシン翻訳関連のタスクにおけるMINTの2つの一般的なケースを分析します。
重要なことに、Mintは、メトリックが直接最適化されていない場合でも、インスタンスレベルのメトリックスコアを強く歪めていることがわかりました。チューニングには使用されていない評価に異なるが関連するメトリックを活用するという一般的な戦略に疑問を投げかけることです。
この問題に対処するために、MintJust、Mintの下でより信頼できる評価の方法を提案します。
WMT24 MT共有タスクテストセットでは、MintAddadjustは、特に高品質のシステムでは、言語のペアの大部分にわたる最先端のメトリックよりも正確に翻訳とシステムをランク付けします。
さらに、MintAddadjustは、主催者が使用するアンサンブルメソッドであるAutorankを上回ります。

要約(オリジナル)

As automatic metrics become increasingly stronger and widely adopted, the risk of unintentionally ‘gaming the metric’ during model development rises. This issue is caused by metric interference (Mint), i.e., the use of the same or related metrics for both model tuning and evaluation. Mint can misguide practitioners into being overoptimistic about the performance of their systems: as system outputs become a function of the interfering metric, their estimated quality loses correlation with human judgments. In this work, we analyze two common cases of Mint in machine translation-related tasks: filtering of training data, and decoding with quality signals. Importantly, we find that Mint strongly distorts instance-level metric scores, even when metrics are not directly optimized for — questioning the common strategy of leveraging a different, yet related metric for evaluation that is not used for tuning. To address this problem, we propose MintAdjust, a method for more reliable evaluation under Mint. On the WMT24 MT shared task test set, MintAdjust ranks translations and systems more accurately than state-of-the-art-metrics across a majority of language pairs, especially for high-quality systems. Furthermore, MintAdjust outperforms AutoRank, the ensembling method used by the organizers.

arxiv情報

著者 José Pombal,Nuno M. Guerreiro,Ricardo Rei,André F. T. Martins
発行日 2025-03-11 11:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation はコメントを受け付けていません

IFShip: Interpretable Fine-grained Ship Classification with Domain Knowledge-Enhanced Vision-Language Models

要約

エンドツーエンドの解釈は、現在、リモートセンシングの細粒船分類(RS-FGSC)タスクを支配しています。
ただし、推論プロセスは解釈できないままであり、これらのモデルが「ブラックボックス」システムとして批判することにつながります。
この問題に対処するために、ドメインの知識強化されたチェーンオブサベート(COT)プロンプト生成メカニズムを提案します。これは、タスク固有の命令に従うデータセットであるタイタニック系FGを半自動的に構築するために使用されます。
Titanic-FGSをトレーニングすることにより、一般的なドメインビジョン言語モデル(VLM)をFGSCタスクに適応させ、Ifshipという名前のモデルになります。
Ifshipに基づいて、FGSCの問題を段階的な推論タスクとして再定義するFGSCビジュアルチャットボットを開発し、自然言語で推論プロセスを伝えます。
実験結果は、Ifshipが解釈可能性と分類精度の両方で最先端のFGSCアルゴリズムを上回ることを示しています。
さらに、LlavaやMinigpt-4などのVLMと比較して、IfshipはFGSCタスクで優れたパフォーマンスを示しています。
きめ細かい船の種類が人間の目に認識できる場合、正確な一連の推論を提供し、そうでない場合は解釈可能な説明を提供します。

要約(オリジナル)

End-to-end interpretation currently dominates the remote sensing fine-grained ship classification (RS-FGSC) task. However, the inference process remains uninterpretable, leading to criticisms of these models as ‘black box’ systems. To address this issue, we propose a domain knowledge-enhanced Chain-of-Thought (CoT) prompt generation mechanism, which is used to semi-automatically construct a task-specific instruction-following dataset, TITANIC-FGS. By training on TITANIC-FGS, we adapt general-domain vision-language models (VLMs) to the FGSC task, resulting in a model named IFShip. Building upon IFShip, we develop an FGSC visual chatbot that redefines the FGSC problem as a step-by-step reasoning task and conveys the reasoning process in natural language. Experimental results show that IFShip outperforms state-of-the-art FGSC algorithms in both interpretability and classification accuracy. Furthermore, compared to VLMs such as LLaVA and MiniGPT-4, IFShip demonstrates superior performance on the FGSC task. It provides an accurate chain of reasoning when fine-grained ship types are recognizable to the human eye and offers interpretable explanations when they are not.

arxiv情報

著者 Mingning Guo,Mengwei Wu,Yuxiang Shen,Haifeng Li,Chao Tao
発行日 2025-03-11 12:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | IFShip: Interpretable Fine-grained Ship Classification with Domain Knowledge-Enhanced Vision-Language Models はコメントを受け付けていません

MAD Speech: Measures of Acoustic Diversity of Speech

要約

生成された音声言語モデルは、幅広い声、韻律、記録条件で音声を生み出し、自然な発話の多様性に近づいているようです。
ただし、生成された音声が音響的に多様である程度は、適切なメトリックの欠如のために不明のままです。
私たちは、音響の多様性の軽量の指標を開発することにより、このギャップに対処します。
音声、性別、感情、アクセント、バックグラウンドノイズの5つの側面の測定に焦点を当てています。
メトリックを、特殊なフェセット埋め込みモデルの構成と、埋め込み空間内の多様性を測定する集約関数として構築します。
次に、各ファセットに対して先験的に既知の多様性の好みを備えた一連のデータセットを構築します。
これらのデータセットを使用して、提案されたメトリックがベースラインよりも根本的な多様性との強力な一致を達成することを実証します。
最後に、いくつかの実生活の評価シナリオで提案されたメトリックの適用性を紹介します。
狂ったスピーチは公開されています。

要約(オリジナル)

Generative spoken language models produce speech in a wide range of voices, prosody, and recording conditions, seemingly approaching the diversity of natural speech. However, the extent to which generated speech is acoustically diverse remains unclear due to a lack of appropriate metrics. We address this gap by developing lightweight metrics of acoustic diversity, which we collectively refer to as MAD Speech. We focus on measuring five facets of acoustic diversity: voice, gender, emotion, accent, and background noise. We construct the metrics as a composition of specialized, per-facet embedding models and an aggregation function that measures diversity within the embedding space. Next, we build a series of datasets with a priori known diversity preferences for each facet. Using these datasets, we demonstrate that our proposed metrics achieve a stronger agreement with the ground-truth diversity than baselines. Finally, we showcase the applicability of our proposed metrics across several real-life evaluation scenarios. MAD Speech is made publicly accessible.

arxiv情報

著者 Matthieu Futeral,Andrea Agostinelli,Marco Tagliasacchi,Neil Zeghidour,Eugene Kharitonov
発行日 2025-03-11 12:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | MAD Speech: Measures of Acoustic Diversity of Speech はコメントを受け付けていません

WritingBench: A Comprehensive Benchmark for Generative Writing

要約

大規模な言語モデル(LLMS)の最近の進歩により、テキスト生成機能が大幅に向上していますが、生成ライティングでのパフォーマンスを評価することは依然として課題です。
既存のベンチマークは、主に一般的なテキスト生成に焦点を当てているか、ライティングタスクに制限されており、さまざまなドメインにわたって高品質の書面コンテンツの多様な要件をキャプチャできません。
このギャップを埋めるために、ライティングベンチは、6つのコアライティングドメインと100のサブドメインでLLMを評価するために設計された包括的なベンチマークであり、創造的で説得力のある、有益な、技術的な執筆を網羅しています。
さらに、LLMがインスタンス固有の評価基準を動的に生成できるようにするクエリ依存の評価フレームワークを提案します。
このフレームワークは、基準を認識したスコアリングのための微調整された批評家モデルによって補完され、スタイル、形式、および長さの評価を可能にします。
フレームワークの妥当性は、データキュレーション機能によってさらに実証されており、7Bパラメーターモデルが最新の(SOTA)パフォーマンスにアプローチできるようにします。
LLMの開発を書面で進めるために、評価ツールとモジュラーフレームワークコンポーネントとともに、ベンチマークをオープンソーシングします。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework’s validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.

arxiv情報

著者 Yuning Wu,Jiahao Mei,Ming Yan,Chenliang Li,Shaopeng Lai,Yuran Ren,Zijia Wang,Ji Zhang,Mengyue Wu,Qin Jin,Fei Huang
発行日 2025-03-11 12:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | WritingBench: A Comprehensive Benchmark for Generative Writing はコメントを受け付けていません