LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models

要約

エキスパート(MOE)の混合物は、最近、継続的なマルチモーダル学習のための大規模な言語モデル(LLMS)のスケーラビリティと適応性を進めました。
ただし、これらのモデルを効率的に拡張して連続したタスクに対応することは依然として困難です。
新しいタスクが到着すると、ナイーブモデルの拡張は急速なパラメーターの成長につながりますが、共有ルーティングコンポーネントを変更すると、しばしば壊滅的な忘却を引き起こし、以前に学んだ知識を損ないます。
これらの問題に対処するために、以前のタスクのリプレイデータを必要とせず、パラメーター効率と堅牢な知識保持の両方を保証するLLMSの継続的な学習フレームワークであるLLAVA-CMOEを提案します。
私たちのアプローチでは、プローブガイド付きの知識拡張メカニズムを紹介します。これは、プローブの専門家を使用して、新しい専門家がいつ、どこに追加されるべきかを動的に決定し、タスクの複雑さに合わせた適応的で最小限のパラメーター拡張を可能にします。
さらに、各タスクに専用の軽量ルーターを割り当てる確率的タスクロケーターを提示します。
推論中にタスクラベルが不明であるという実際的な問題を処理するために、VAEベースの再構成戦略を活用して、入力分布を一致させ、自動で正確な専門家の割り当てを可能にすることにより、最も適切なルーターを特定します。
この設計は、ルーティングの競合と壊滅的な忘却を緩和し、明示的なタスクラベルなしで堅牢な継続的な学習を可能にします。
8つの多様なVQAタスクをカバーするコインベンチマークでの広範な実験は、LLAVA-CMOEがコンパクトなモデルサイズで強力な継続的な学習パフォーマンスを提供し、以前の方法と比較して忘却とパラメーターオーバーヘッドを大幅に削減することを示しています。
これらの結果は、大規模な言語モデルでのパラメーター効率の高い継続的な学習に対するアプローチの有効性とスケーラビリティを示しています。
私たちのコードはまもなくオープンソーシングされます。

要約(オリジナル)

Mixture of Experts (MoE) architectures have recently advanced the scalability and adaptability of large language models (LLMs) for continual multimodal learning. However, efficiently extending these models to accommodate sequential tasks remains challenging. As new tasks arrive, naive model expansion leads to rapid parameter growth, while modifying shared routing components often causes catastrophic forgetting, undermining previously learned knowledge. To address these issues, we propose LLaVA-CMoE, a continual learning framework for LLMs that requires no replay data of previous tasks and ensures both parameter efficiency and robust knowledge retention. Our approach introduces a Probe-Guided Knowledge Extension mechanism, which uses probe experts to dynamically determine when and where new experts should be added, enabling adaptive and minimal parameter expansion tailored to task complexity. Furthermore, we present a Probabilistic Task Locator that assigns each task a dedicated, lightweight router. To handle the practical issue that task labels are unknown during inference, we leverage a VAE-based reconstruction strategy to identify the most suitable router by matching input distributions, allowing automatic and accurate expert allocation. This design mitigates routing conflicts and catastrophic forgetting, enabling robust continual learning without explicit task labels. Extensive experiments on the CoIN benchmark, covering eight diverse VQA tasks, demonstrate that LLaVA-CMoE delivers strong continual learning performance with a compact model size, significantly reducing forgetting and parameter overhead compared to prior methods. These results showcase the effectiveness and scalability of our approach for parameter-efficient continual learning in large language models. Our code will be open-sourced soon.

arxiv情報

著者 Hengyuan Zhao,Ziqin Wang,Qixin Sun,Kaiyou Song,Yilin Li,Xiaolin Hu,Qingpei Guo,Si Liu
発行日 2025-06-13 11:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models はコメントを受け付けていません

Improving Causal Interventions in Amnesic Probing with Mean Projection or LEACE

要約

健忘環境は、モデルの挙動に関する特定の言語情報の影響を調べるために使用される手法です。
これには、関連情報を特定して削除し、主なタスクに関するモデルのパフォーマンスが変化するかどうかを評価することが含まれます。
削除された情報が関連する場合、モデルのパフォーマンスは低下するはずです。
このアプローチの難しさは、他の情報を変更せずにターゲット情報のみを削除することにあります。
広く使用されている除去技術である反復Nullspace投影(INLP)が、ターゲット情報を排除するときに表現にランダムな変更を導入することが示されています。
私たちは、平均投影(MP)とリース、2つの提案された代替案、よりターゲットを絞った方法で情報を削除し、それによって記憶喪失の調査を通じて行動の説明を得る可能性を高めることを示します。

要約(オリジナル)

Amnesic probing is a technique used to examine the influence of specific linguistic information on the behaviour of a model. This involves identifying and removing the relevant information and then assessing whether the model’s performance on the main task changes. If the removed information is relevant, the model’s performance should decline. The difficulty with this approach lies in removing only the target information while leaving other information unchanged. It has been shown that Iterative Nullspace Projection (INLP), a widely used removal technique, introduces random modifications to representations when eliminating target information. We demonstrate that Mean Projection (MP) and LEACE, two proposed alternatives, remove information in a more targeted manner, thereby enhancing the potential for obtaining behavioural explanations through Amnesic Probing.

arxiv情報

著者 Alicja Dobrzeniecka,Antske Fokkens,Pia Sommerauer
発行日 2025-06-13 11:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Causal Interventions in Amnesic Probing with Mean Projection or LEACE はコメントを受け付けていません

LLMs for Sentence Simplification: A Hybrid Multi-Agent prompting Approach

要約

このペーパーでは、複雑な文章を論理的で単純化した文のシーケンスに変換するという課題に対処し、大規模な言語モデルの助けを借りて意味的および論理的な完全性を維持します。
高度なプロンプトとマルチエージェントアーキテクチャを組み合わせたハイブリッドアプローチを提案して、文の簡素化プロセスを強化します。
実験結果は、私たちのアプローチがビデオゲームデザインアプリケーションのために書かれた複雑な文の70%を正常に簡素化できることを示しています。
それに比べて、単一エージェントのアプローチでは、同じタスクで48%の成功率が得られました。

要約(オリジナル)

This paper addresses the challenge of transforming complex sentences into sequences of logical, simplified sentences while preserving semantic and logical integrity with the help of Large Language Models. We propose a hybrid approach that combines advanced prompting with multi-agent architectures to enhance the sentence simplification process. Experimental results show that our approach was able to successfully simplify 70% of the complex sentences written for video game design application. In comparison, a single-agent approach attained a 48% success rate on the same task.

arxiv情報

著者 Pratibha Zunjare,Michael Hsiao
発行日 2025-06-13 11:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLMs for Sentence Simplification: A Hybrid Multi-Agent prompting Approach はコメントを受け付けていません

Configurable Preference Tuning with Rubric-Guided Synthetic Data

要約

直接選好最適化(DPO)を支えるなど、AIアライメントの人間のフィードバックのモデルは、多くの場合、順応性を制限し、特異な静的な設定セットで焼きます。
このペーパーでは、明示的で人間の解釈可能な指示に基づいて動作を動的に調整する能力を備えた言語モデルを与えるための新しいフレームワークである構成可能な優先チューニング(CPT)を導入することにより、モノリシックな好みの仮定に挑戦します。
CPTは、執筆スタイルのような望ましい属性を定義する構造化された細粒のルーブリックから派生したシステムプロンプトに条件付けられた合成的に生成された優先順位データを活用します。
これらのルーブリック誘導の好みを微調整することにより、LLMは、再訓練なしで、システムプロンプトに応答して、推論時に出力を変調することを学びます。
このアプローチは、きめ細かい制御を提供するだけでなく、より微妙でコンテキスト依存的な人間のフィードバックをモデル化するメカニズムも提供します。
トレーニングコード、生成されたデータセット、微調整されたモデルなどのいくつかの実験的アーティファクトは、https://github.com/vicgalle/configurable-preference-tuningでリリースされています

要約(オリジナル)

Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning

arxiv情報

著者 Víctor Gallego
発行日 2025-06-13 12:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Configurable Preference Tuning with Rubric-Guided Synthetic Data はコメントを受け付けていません

The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference

要約

Deep Learning(DL)の最近の進歩により、FP16、BF16、および8または16ビットの整数などの還元型形式への従来の64ビットフローティングポイント(FP64)計算から、混合前算術と組み合わせて移行しました。
この遷移により、計算スループットが強化され、メモリと帯域幅の使用が削減され、エネルギー効率が向上し、リソース制約のエッジデバイスに大きな利点があります。
このシフトをサポートするために、ハードウェアアーキテクチャはそれに応じて進化しました。現在、DLワークロードに合わせた混合精度ベクトルユニットとマトリックスエンジンを露出する適応ISAS(命令セットアーキテクチャ)を含みます。
多くのDLおよび科学的コンピューティングタスクの中心にあるのは、SIMD(単一命令、複数のデータ)ユニットのAxpy Vector命令を使用して歴史的に最適化された基本的なカーネルである一般的なマトリックスマトリックス乗算GEMMです。
ただし、ハードウェアが量子化された推論用に最適化された混合環境ドットプロダクト中心操作に向かって移動するにつれて、これらのレガシーアプローチは段階的に廃止されています。
これに応じて、私たちの論文は従来の高性能GEMMを再訪し、X86_64、ARM、RISC-Vを含む最新のISA全体で混合整数(MIP)算術に適応するための戦略について説明しています。
具体的には、3つの代表的なCPUアーキテクチャにわたるフローティングポイント実装にわたって、今日の特殊なハードウェアをよりよく活用し、MIP算術からの大幅なパフォーマンスの向上を示す新しいマイクロカーネル設計とデータレイアウトを説明します。
これらの貢献は、不均一なアーキテクチャでのDL推論の要求に駆られるGEMM最適化の新しい時代を強調し、マトリックス増殖の「カンブリア紀」と呼ぶものをマークします。

要約(オリジナル)

Recent advances in deep learning (DL) have led to a shift from traditional 64-bit floating point (FP64) computations toward reduced-precision formats, such as FP16, BF16, and 8- or 16-bit integers, combined with mixed-precision arithmetic. This transition enhances computational throughput, reduces memory and bandwidth usage, and improves energy efficiency, offering significant advantages for resource-constrained edge devices. To support this shift, hardware architectures have evolved accordingly, now including adapted ISAs (Instruction Set Architectures) that expose mixed-precision vector units and matrix engines tailored for DL workloads. At the heart of many DL and scientific computing tasks is the general matrix-matrix multiplication gemm, a fundamental kernel historically optimized using axpy vector instructions on SIMD (single instruction, multiple data) units. However, as hardware moves toward mixed-precision dot-product-centric operations optimized for quantized inference, these legacy approaches are being phased out. In response to this, our paper revisits traditional high-performance gemm and describes strategies for adapting it to mixed-precision integer (MIP) arithmetic across modern ISAs, including x86_64, ARM, and RISC-V. Concretely, we illustrate novel micro-kernel designs and data layouts that better exploit today’s specialized hardware and demonstrate significant performance gains from MIP arithmetic over floating-point implementations across three representative CPU architectures. These contributions highlight a new era of gemm optimization-driven by the demands of DL inference on heterogeneous architectures, marking what we term as the ‘Cambrian period’ for matrix multiplication.

arxiv情報

著者 Héctor Martínez,Adrián Castelló,Francisco D. Igual,Enrique S. Quintana-Ortí
発行日 2025-06-13 12:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference はコメントを受け付けていません

VM14K: First Vietnamese Medical Benchmark

要約

医療ベンチマークは、英語を話す非英語を話すコミュニティのヘルスケアにおける言語モデルの能力を評価するために不可欠であるため、実際のアプリケーションの品質を確保するのに役立ちます。
ただし、すべてのコミュニティに十分なリソースと標準化された方法があるわけではなく、このようなベンチマークを効果的に構築および設計する方法はなく、英語以外の医療データは通常断片化されており、検証が困難です。
この問題に取り組むためのアプローチを開発し、それを適用して、34の医療専門分野で14,000の複数選択の質問を特徴とする最初のベトナムの医療質問ベンチマークを作成しました。
当社のベンチマークは、慎重にキュレーションされた健康診断や臨床記録を含む、さまざまな検証可能な情報源を使用して構築され、最終的に医療専門家が注釈を付けました。
ベンチマークには、教科書によく見られる基本的な生物学的知識から、高度な推論が必要な典型的な臨床症例研究に至るまで、4つの難易度レベルが含まれています。
この設計により、その広範なカバレッジと詳細な主題固有の専門知識のおかげで、ターゲット言語での言語モデルの幅と深さの両方の医学的理解を評価できます。
ベンチマークを3つの部分でリリースします。サンプルパブリックセット(4K質問)、完全なパブリックセット(10K質問)、リーダーボード評価に使用されるプライベートセット(2K質問)です。
各セットには、すべての医療サブフィールドと難易度が含まれています。
私たちのアプローチは他の言語でスケーラブルであり、医療ドメインでの将来の多言語ベンチマークの開発をサポートするために、データ構築パイプラインをオープンソーシングします。

要約(オリジナル)

Medical benchmarks are indispensable for evaluating the capabilities of language models in healthcare for non-English-speaking communities,therefore help ensuring the quality of real-life applications. However, not every community has sufficient resources and standardized methods to effectively build and design such benchmark, and available non-English medical data is normally fragmented and difficult to verify. We developed an approach to tackle this problem and applied it to create the first Vietnamese medical question benchmark, featuring 14,000 multiple-choice questions across 34 medical specialties. Our benchmark was constructed using various verifiable sources, including carefully curated medical exams and clinical records, and eventually annotated by medical experts. The benchmark includes four difficulty levels, ranging from foundational biological knowledge commonly found in textbooks to typical clinical case studies that require advanced reasoning. This design enables assessment of both the breadth and depth of language models’ medical understanding in the target language thanks to its extensive coverage and in-depth subject-specific expertise. We release the benchmark in three parts: a sample public set (4k questions), a full public set (10k questions), and a private set (2k questions) used for leaderboard evaluation. Each set contains all medical subfields and difficulty levels. Our approach is scalable to other languages, and we open-source our data construction pipeline to support the development of future multilingual benchmarks in the medical domain.

arxiv情報

著者 Thong Nguyen,Duc Nguyen,Minh Dang,Thai Dao,Long Nguyen,Quan H. Nguyen,Dat Nguyen,Kien Tran,Minh Tran
発行日 2025-06-13 12:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VM14K: First Vietnamese Medical Benchmark はコメントを受け付けていません

Entropy Controllable Direct Preference Optimization

要約

大規模な言語モデル(LLM)の訓練後、人間のフィードバック(RLHF)からの強化学習は、人間の好みに合わせた生成を達成するための効果的なアプローチです。
直接選好最適化(DPO)により、報酬モデルなしでは、単純なバイナリ交差エントロピー損失を備えたポリシートレーニングが可能になります。
DPOの目的は、参照ポリシーへのモードを求めるフィッティングを促進する逆KLの発散によって正規化されます。
それにもかかわらず、逆KLの発散を最小化すると、参照分布のモードをキャプチャできない可能性があることを示しています。これにより、ポリシーのパフォーマンスが損なわれる可能性があります。
この観察に基づいて、DPO、H-DPOへの単純な変更を提案します。これにより、結果として生じるポリシーのエントロピーを制御し、分布のシャープネスを強化し、モードを求めるフィッティングをより効果的に可能にします。
実験では、H-DPOがさまざまなタスクでDPOを上回っていることを示し、数学タスクのパス@$ K $評価で優れた結果を示しています。
さらに、H-DPOは簡単に実装でき、DPOの損失計算を軽微な変更のみが必要であるため、LLMSのトレーニングにおける幅広いアプリケーションに非常に実用的で有望です。

要約(オリジナル)

In the post-training of large language models (LLMs), Reinforcement Learning from Human Feedback (RLHF) is an effective approach to achieve generation aligned with human preferences. Direct Preference Optimization (DPO) allows for policy training with a simple binary cross-entropy loss without a reward model. The objective of DPO is regularized by reverse KL divergence that encourages mode-seeking fitting to the reference policy. Nonetheless, we indicate that minimizing reverse KL divergence could fail to capture a mode of the reference distribution, which may hurt the policy’s performance. Based on this observation, we propose a simple modification to DPO, H-DPO, which allows for control over the entropy of the resulting policy, enhancing the distribution’s sharpness and thereby enabling mode-seeking fitting more effectively. In our experiments, we show that H-DPO outperformed DPO across various tasks, demonstrating superior results in pass@$k$ evaluations for mathematical tasks. Moreover, H-DPO is simple to implement, requiring only minor modifications to the loss calculation of DPO, which makes it highly practical and promising for wide-ranging applications in the training of LLMs.

arxiv情報

著者 Motoki Omura,Yasuhiro Fujita,Toshiki Kataoka
発行日 2025-06-13 12:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Entropy Controllable Direct Preference Optimization はコメントを受け付けていません

Table-R1: Region-based Reinforcement Learning for Table Understanding

要約

テーブルは、構造化された列列相互作用のために言語モデルのユニークな課題を提示し、効果的な理解のために特別なアプローチを必要とします。
大規模な言語モデル(LLMS)は、テーブルの推論と、考え方(COT)や思考プログラム(POT)などのテクニックを通じてテーブル推論に潜在的な可能性を示していますが、テーブル質問の回答のパフォーマンスを最適化することは目立たないままです。
この論文では、地域の証拠を推論ステップに統合することによりLLMテーブルの理解を高める新しい強化学習アプローチである地域ベースのTable-R1を紹介します。
私たちの方法では、領域強化された監視された微調整(再SFT)を使用して、回答を生成する前に関連するテーブル領域を特定するモデルを導き、テキスト、シンボリック、およびプログラムベースの推論を組み込みます。
さらに、テーブルアウェアグループの相対的なポリシー最適化(TARPO)は、領域の精度を動的にバランスさせ、正確性に応答する混合報酬システムを導入します。
実験では、Table-R1が3つのベンチマークデータセットの複数のベースモデルで14.36ポイントの平均パフォーマンス改善を達成し、パラメーターの10倍でベースラインモデルを上回ることさえ、TARPOはGRPOと比較して67.5%減少し、有効なタブラーの推論においてLLM機能を大幅に進めます。

要約(オリジナル)

Tables present unique challenges for language models due to their structured row-column interactions, necessitating specialized approaches for effective comprehension. While large language models (LLMs) have demonstrated potential in table reasoning through prompting and techniques like chain-of-thought (CoT) and program-of-thought (PoT), optimizing their performance for table question answering remains underexplored. In this paper, we introduce region-based Table-R1, a novel reinforcement learning approach that enhances LLM table understanding by integrating region evidence into reasoning steps. Our method employs Region-Enhanced Supervised Fine-Tuning (RE-SFT) to guide models in identifying relevant table regions before generating answers, incorporating textual, symbolic, and program-based reasoning. Additionally, Table-Aware Group Relative Policy Optimization (TARPO) introduces a mixed reward system to dynamically balance region accuracy and answer correctness, with decaying region rewards and consistency penalties to align reasoning steps. Experiments show that Table-R1 achieves an average performance improvement of 14.36 points across multiple base models on three benchmark datasets, even outperforming baseline models with ten times the parameters, while TARPO reduces response token consumption by 67.5% compared to GRPO, significantly advancing LLM capabilities in efficient tabular reasoning.

arxiv情報

著者 Zhenhe Wu,Jian Yang,Jiaheng Liu,Xianjie Wu,Changzai Pan,Jie Zhang,Yu Zhao,Shuangyong Song,Yongxiang Li,Zhoujun Li
発行日 2025-06-13 13:02:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Table-R1: Region-based Reinforcement Learning for Table Understanding はコメントを受け付けていません

DART: Distilling Autoregressive Reasoning to Silent Thought

要約

チェーンオブテーブ(COT)の推論は、複雑なタスクの解決において大規模な言語モデル(LLM)を大幅に進めてきました。
ただし、その自己回帰パラダイムは、重要な計算オーバーヘッドにつながり、潜伏感度に敏感なアプリケーションでの展開を妨げます。
これに対処するために、\ textbf {dart}(\ textbf {d} istilling \ textbf {a} utoregressive \ textbf {r} silent \ textbf {t} hought)を提案します。
具体的には、DARTは2つのトレーニング経路を導入します。従来の推論のためのCOT経路と、いくつかのSTトークンから直接回答を生成するST経路です。
ST経路は、軽量の推論進化モジュール(REM)を利用して隠された状態をCOT経路に揃え、STトークンが有益な埋め込みに進化できるようにします。
推論中、ST経路のみが活性化され、進化するSTトークンを活用して答えを直接提供します。
広範な実験結果は、DARTが既存のベースラインに匹敵する推論パフォーマンスを達成しながら、効率的な推論のための実現可能な代替手段として機能することを実現することを示しています。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has significantly advanced Large Language Models (LLMs) in solving complex tasks. However, its autoregressive paradigm leads to significant computational overhead, hindering its deployment in latency-sensitive applications. To address this, we propose \textbf{DART} (\textbf{D}istilling \textbf{A}utoregressive \textbf{R}easoning to Silent \textbf{T}hought), a self-distillation framework that enables LLMs to replace autoregressive CoT with non-autoregressive Silent Thought (ST). Specifically, DART introduces two training pathways: the CoT pathway for traditional reasoning and the ST pathway for generating answers directly from a few ST tokens. The ST pathway utilizes a lightweight Reasoning Evolvement Module (REM) to align its hidden states with the CoT pathway, enabling the ST tokens to evolve into informative embeddings. During inference, only the ST pathway is activated, leveraging evolving ST tokens to deliver the answer directly. Extensive experimental results demonstrate that DART achieves comparable reasoning performance to existing baselines while offering significant efficiency gains, serving as a feasible alternative for efficient reasoning.

arxiv情報

著者 Nan Jiang,Ziming Wu,De-Chuan Zhan,Fuming Lai,Shaobing Lian
発行日 2025-06-13 13:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DART: Distilling Autoregressive Reasoning to Silent Thought はコメントを受け付けていません

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

要約

ディープリサーチエージェントは、LLMベースのエージェントの顕著なカテゴリです。
MultiStep Web探索、ターゲットを絞った検索、および高次の合成を自律的に調整することにより、それらは膨大な量のオンライン情報をアナリストグレードの引用豊富なレポートに変換します。
ただし、これらのエージェントの機能を体系的に評価するための包括的なベンチマークは存在しません。
このギャップを埋めるために、100のPHDレベルの研究タスクで構成されるベンチマークであるDeepresearch Benchを提示します。それぞれが22の異なる分野でドメインの専門家によって細心の注意を払って作成されています。
DRAの評価は本質的に複雑で労働集約的です。
したがって、人間の判断と強い整合性を達成する2つの新しい方法論を提案します。
1つ目は、生成された研究レポートの品質を評価するための適応基準を備えた参照ベースの方法です。
他のフレームワークは、効果的な引用数と全体的な引用の精度を評価することにより、DRAの情報検索機能と収集機能を評価するために導入されています。
https://github.com/ayanami0730/deep_research_benchに、これらのフレームワークのオープンソースのディープレッジベンチと主要なコンポーネントがあり、実用的なLLMベースのエージェントの開発を加速します。

要約(オリジナル)

Deep Research Agents are a prominent category of LLM-based agents. By autonomously orchestrating multistep web exploration, targeted retrieval, and higher-order synthesis, they transform vast amounts of online information into analyst-grade, citation-rich reports–compressing hours of manual desk research into minutes. However, a comprehensive benchmark for systematically evaluating the capabilities of these agents remains absent. To bridge this gap, we present DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks, each meticulously crafted by domain experts across 22 distinct fields. Evaluating DRAs is inherently complex and labor-intensive. We therefore propose two novel methodologies that achieve strong alignment with human judgment. The first is a reference-based method with adaptive criteria to assess the quality of generated research reports. The other framework is introduced to evaluate DRA’s information retrieval and collection capabilities by assessing its effective citation count and overall citation accuracy. We have open-sourced DeepResearch Bench and key components of these frameworks at https://github.com/Ayanami0730/deep_research_bench to accelerate the development of practical LLM-based agents.

arxiv情報

著者 Mingxuan Du,Benfeng Xu,Chiwei Zhu,Xiaorui Wang,Zhendong Mao
発行日 2025-06-13 13:17:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents はコメントを受け付けていません