Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning

要約

大規模な言語モデル(LLM)の最近の進歩により、2Kから2mのトークン、さらにはさらに長いシーケンスを処理することができました。
ただし、入力シーケンスの長さを拡張するだけでも、必ずしも効果的な長いコンテキストの理解につながるわけではありません。
この研究では、効果的な長いコンテストの理解を促進するために、監督された方法でチェーンオブ考え(COT)の推論をLLMに統合します。
これを達成するために、長いコンテキストの推論を改善するために設計された金融ドメインに合成データセットであるLongfinanceQAを紹介します。
既存のロングコンテキスト合成データとは異なり、LongFinanceQAには、最終的な結論の前に中間COTの推論が含まれています。これにより、LLMは明示的な推論を実行し、長期の理解における精度と解釈性を向上させることが奨励されています。
合成COTの推論を生成するために、プロパティ駆動型のエージェント推論(PAI)を提案します。これは、プロパティの抽出、検索、要約を含む人間のような推論ステップをシミュレートするエージェントフレームワークです。
Loong BenchmarkでGPT-4O-MINI W/ PAIを評価することにより、PAIの推論能力を評価し、標準のGPT-4O-MINIを20.0%上回ります。
さらに、LongFinanceQAでLlama-3.1-8B-Instructを微調整し、LoongのFinancial Subsetで24.6%の増加を達成しました。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have enabled them to process increasingly longer sequences, ranging from 2K to 2M tokens and even beyond. However, simply extending the input sequence length does not necessarily lead to effective long-context understanding. In this study, we integrate Chain-of-Thought (CoT) reasoning into LLMs in a supervised manner to facilitate effective long-context understanding. To achieve this, we introduce LongFinanceQA, a synthetic dataset in the financial domain designed to improve long-context reasoning. Unlike existing long-context synthetic data, LongFinanceQA includes intermediate CoT reasoning before the final conclusion, which encourages LLMs to perform explicit reasoning, improving accuracy and interpretability in long-context understanding. To generate synthetic CoT reasoning, we propose Property-driven Agentic Inference (PAI), an agentic framework that simulates human-like reasoning steps, including property extraction, retrieval, and summarization. We evaluate PAI’s reasoning capabilities by assessing GPT-4o-mini w/ PAI on the Loong benchmark, outperforming standard GPT-4o-mini by 20.0%. Furthermore, we fine-tune LLaMA-3.1-8B-Instruct on LongFinanceQA, achieving a 24.6% gain on Loong’s financial subset.

arxiv情報

著者 Jingyang Lin,Andy Wong,Tian Xia,Shenghua He,Hui Wei,Mei Han,Jiebo Luo
発行日 2025-02-18 18:50:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning はコメントを受け付けていません

AlignFreeze: Navigating the Impact of Realignment on the Layers of Multilingual Models Across Diverse Languages

要約

再編成技術は、多言語モデルの横断的転送を強化するためにしばしば採用されていますが、それでも、微調整されたソース言語とは大きく異なる言語のパフォーマンスを低下させることがあります。
このペーパーでは、再編成中にレイヤーの下半分または上半分をフリーズする方法であるAlignFreezeを紹介します。
4つのタスク、3つのモデル、および35の言語での制御された実験により、再編成はすべてのレイヤーに影響を与えるが、低いレイヤーにとって最も有害な場合があることがわかります。
下層を凍結すると、性能の低下を防ぐことができます。
特に、AlignFreezeは、完全な再編成が失敗する言語のスピーチ(POS)のタグ付けパフォーマンスを改善します。XLM-Rを使用すると、完全な再調整よりも7つの言語での精度の複数の標準偏差の改善を提供します。

要約(オリジナル)

Realignment techniques are often employed to enhance cross-lingual transfer in multilingual language models, still, they can sometimes degrade performance in languages that differ significantly from the fine-tuned source language. This paper introduces AlignFreeze, a method that freezes either the layers’ lower half or upper half during realignment. Through controlled experiments on 4 tasks, 3 models, and in 35 languages, we find that realignment affects all the layers but can be the most detrimental to the lower ones. Freezing the lower layers can prevent performance degradation. Particularly, AlignFreeze improves Part-of-Speech (PoS) tagging performances in languages where full realignment fails: with XLM-R, it provides improvements of more than one standard deviation in accuracy in seven more languages than full realignment.

arxiv情報

著者 Steve Bakos,Félix Gaschi,David Guzmán,Riddhi More,Kelly Chutong Li,En-Shiun Annie Lee
発行日 2025-02-18 15:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AlignFreeze: Navigating the Impact of Realignment on the Layers of Multilingual Models Across Diverse Languages はコメントを受け付けていません

Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger

要約

大規模な言語モデル(LLM)は、顕著な緊急機能を示しており、特殊な処理またはリアルタイムデータを必要とする複雑な問題のために外部ツールを活用することにより、機能タスクの実行を変換します。
既存の研究により、LLMSアクセスが多様なツール(プログラム通訳者、検索エンジン、天気/地図アプリなど)へのアクセスを拡大していますが、これらのツールを使用する必要性は見落とされがちであり、無差別なツールの呼び出しにつながります。
この素朴なアプローチは、2つの重要な問題を引き起こします。(1)不必要なツール呼び出しによる遅延の増加、および(2)外部ツールとの誤った相互作用に起因する潜在的なエラー。
このホワイトペーパーでは、メタ認知をLLMSの能力の自己評価のプロキシとして紹介し、モデルの独自の制限に対する認識を表しています。
これに基づいて、外部ツール使用のための適応的な意思決定戦略であるMECOを提案します。
MECOは、表現空間で高レベルの認知信号をキャプチャし、ツールを呼び出すタイミングを導くことにより、メタ認知スコアを定量化します。
特に、Mecoは微調整フリーであり、最小限のコストが発生します。
私たちの実験は、MECOがLLMの内部認知信号を正確に検出し、複数のベースモデルとベンチマークにわたってツール使用の意思決定を大幅に改善することを示しています。

要約(オリジナル)

Large language models (LLMs) have shown remarkable emergent capabilities, transforming the execution of functional tasks by leveraging external tools for complex problems that require specialized processing or real-time data. While existing research expands LLMs access to diverse tools (e.g., program interpreters, search engines, weather/map apps), the necessity of using these tools is often overlooked, leading to indiscriminate tool invocation. This naive approach raises two key issues:(1) increased delays due to unnecessary tool calls, and (2) potential errors resulting from faulty interactions with external tools. In this paper, we introduce meta-cognition as a proxy for LLMs self-assessment of their capabilities, representing the model’s awareness of its own limitations. Based on this, we propose MeCo, an adaptive decision-making strategy for external tool use. MeCo quantifies metacognitive scores by capturing high-level cognitive signals in the representation space, guiding when to invoke tools. Notably, MeCo is fine-tuning-free and incurs minimal cost. Our experiments show that MeCo accurately detects LLMs’ internal cognitive signals and significantly improves tool-use decision-making across multiple base models and benchmarks.

arxiv情報

著者 Wenjun Li,Dexun Li,Kuicai Dong,Cong Zhang,Hao Zhang,Weiwen Liu,Yasheng Wang,Ruiming Tang,Yong Liu
発行日 2025-02-18 15:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger はコメントを受け付けていません

A Survey of Text Classification Under Class Distribution Shift

要約

機械学習(ML)モデルの基本的な根本的な仮定は、トレーニングデータとテストデータが同じ分布からサンプリングされることです。
ただし、毎日の実践では、この仮定はしばしば破壊されます。つまり、テストデータの分布は時間とともに変化し、従来のMLモデルの適用を妨げます。
分布シフトが自然に発生するドメインの1つは、常に議論する新しいトピックを見つけるため、テキスト分類です。
この目的のために、オープンセットのテキスト分類と関連するタスクを研究する研究記事を調査します。
分布シフトの種類と対応する問題定式化の種類、つまり〜学習、ユニバーサム、ゼロショット学習、およびオープンセット学習を定義する制約に基づいて、この領域の方法を分割します。
次に、問題のセットアップごとに主要な緩和アプローチについて説明します。
最後に、私たちはいくつかの将来の仕事の方向性を特定し、最先端の境界を押し広げることを目指しています。
興味深いことに、継続的な学習は、シフトクラス分布によって引き起こされる多くの問題を解決できることがわかります。
https://github.com/eduard6421/open-set-surveyで関連する論文のリストを維持しています。

要約(オリジナル)

The basic underlying assumption of machine learning (ML) models is that the training and test data are sampled from the same distribution. However, in daily practice, this assumption is often broken, i.e.~the distribution of the test data changes over time, which hinders the application of conventional ML models. One domain where the distribution shift naturally occurs is text classification, since people always find new topics to discuss. To this end, we survey research articles studying open-set text classification and related tasks. We divide the methods in this area based on the constraints that define the kind of distribution shift and the corresponding problem formulation, i.e.~learning with the Universum, zero-shot learning, and open-set learning. We next discuss the predominant mitigation approaches for each problem setup. Finally, we identify several future work directions, aiming to push the boundaries beyond the state of the art. Interestingly, we find that continual learning can solve many of the issues caused by the shifting class distribution. We maintain a list of relevant papers at https://github.com/Eduard6421/Open-Set-Survey.

arxiv情報

著者 Adriana Valentina Costache,Silviu Florin Gheorghe,Eduard Gabriel Poesina,Paul Irofti,Radu Tudor Ionescu
発行日 2025-02-18 15:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | A Survey of Text Classification Under Class Distribution Shift はコメントを受け付けていません

Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

要約

SAILOR2は、南東アジア(海)言語向けの最先端の多言語モデルのファミリーで、多様なアプリケーションに合わせて1B、8B、および20Bサイズで入手できます。
QWEN2.5に基づいて、SAILOR2は、中国語と英語の習熟度を維持しながら、13の海の言語をサポートするために、500Bトークン(400Bの海洋特有および100Bリプレイトークン)で連続前トレーニングを受けます。
SAILOR2-20Bモデルは、海の言語全体でGPT-4oに対して50-50の勝利を達成しています。
また、データキュレーション、トレーニング前、トレーニング後、モデルのカスタマイズ、評価の5つの重要な側面を含む、多言語モデルを効率的な方法で開発する方法に関する包括的な料理本も提供します。
SAILOR2モデル(Apache 2.0ライセンス)が海の地域で言語開発を促進し、Sailor2 Cookbookが研究者に他のサービス不足の言語向けに、より包括的なLLMを構築するよう促すことを願っています。

要約(オリジナル)

Sailor2 is a family of cutting-edge multilingual language models for South-East Asian (SEA) languages, available in 1B, 8B, and 20B sizes to suit diverse applications. Building on Qwen2.5, Sailor2 undergoes continuous pre-training on 500B tokens (400B SEA-specific and 100B replay tokens) to support 13 SEA languages while retaining proficiency in Chinese and English. Sailor2-20B model achieves a 50-50 win rate against GPT-4o across SEA languages. We also deliver a comprehensive cookbook on how to develop the multilingual model in an efficient manner, including five key aspects: data curation, pre-training, post-training, model customization and evaluation. We hope that Sailor2 model (Apache 2.0 license) will drive language development in the SEA region, and Sailor2 cookbook will inspire researchers to build more inclusive LLMs for other under-served languages.

arxiv情報

著者 Longxu Dou,Qian Liu,Fan Zhou,Changyu Chen,Zili Wang,Ziqi Jin,Zichen Liu,Tongyao Zhu,Cunxiao Du,Penghui Yang,Haonan Wang,Jiaheng Liu,Yongchi Zhao,Xiachong Feng,Xin Mao,Man Tsung Yeung,Kunat Pipatanakul,Fajri Koto,Min Si Thu,Hynek Kydlíček,Zeyi Liu,Qunshu Lin,Sittipong Sripaisarnmongkol,Kridtaphad Sae-Khow,Nirattisai Thongchim,Taechawat Konkaew,Narong Borijindargoon,Anh Dao,Matichon Maneegard,Phakphum Artkaew,Zheng-Xin Yong,Quan Nguyen,Wannaphong Phatthiyaphaibun,Hoang H. Tran,Mike Zhang,Shiqi Chen,Tianyu Pang,Chao Du,Xinyi Wan,Wei Lu,Min Lin
発行日 2025-02-18 16:04:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs はコメントを受け付けていません

Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version)

要約

このホワイトペーパーでは、将来のライドリクエストの場所と数が不明ですが、経験的分布によって推定できる大規模な都市環境の自律的なマルチエージェントタクシールーティングの問題に焦点を当てています。
最近の理論では、安定した基本ポリシーを備えたロールアウトアルゴリズムがほぼ最適な安定したポリシーを生成することが示されています。
ルーティング設定では、その実行が時間の経過とともに均一に制限されている未解決の要求の数を維持する場合、ポリシーは安定しています。
展開ベースのアプローチは、将来の需要に関する考慮事項を備えた協力的なマルチエージェントポリシーを学習するのに適していますが、そのような方法を大規模な都市環境に適用することは、安定性に必要な多数のタクシーのために計算的に高価です。
このホワイトペーパーでは、計算コストを削減しながら安定したほぼ最適なポリシーを達成しながら、おおよそのマルチエージェントロールアウトベースの2フェーズアルゴリズムを提案することにより、マルチエージェントロールアウトの計算ボトルネックに対処することを目指しています。
当社のアプローチは、予測された需要と、ユーザーの計算リソースを考慮して順次実行できるタクシーの最大数に基づいて、セクターにグラフを分割します。
このアルゴリズムは、セクター全体でタクシーを再バランスするために瞬間的な割り当て(IA)を適用し、各セクターで並行して実行されるセクター全体のマルチエージェントロールアウトアルゴリズムを適用します。
2つの主な理論的結果を提供します。1)IAが安定しているのに十分なタクシー$ m $の数を特徴付けます。
2)IAの安定性を維持するために、IAの安定性を無限に維持するために、必要な条件を$ M $に導き出します。
私たちの数値結果は、私たちのアプローチが理論的条件を満たす$ m $の安定性を達成することを示しています。
また、提案されている2位のアルゴリズムが、マップ全体で1回のロールアウトと同等のパフォーマンスを持っているが、ランタイムが大幅に低いことを経験的に実証しています。

要約(オリジナル)

In this paper, we focus on the autonomous multiagent taxi routing problem for a large urban environment where the location and number of future ride requests are unknown a-priori, but can be estimated by an empirical distribution. Recent theory has shown that a rollout algorithm with a stable base policy produces a near-optimal stable policy. In the routing setting, a policy is stable if its execution keeps the number of outstanding requests uniformly bounded over time. Although, rollout-based approaches are well-suited for learning cooperative multiagent policies with considerations for future demand, applying such methods to a large urban environment can be computationally expensive due to the large number of taxis required for stability. In this paper, we aim to address the computational bottleneck of multiagent rollout by proposing an approximate multiagent rollout-based two phase algorithm that reduces computational costs, while still achieving a stable near-optimal policy. Our approach partitions the graph into sectors based on the predicted demand and the maximum number of taxis that can run sequentially given the user’s computational resources. The algorithm then applies instantaneous assignment (IA) for re-balancing taxis across sectors and a sector-wide multiagent rollout algorithm that is executed in parallel for each sector. We provide two main theoretical results: 1) characterize the number of taxis $m$ that is sufficient for IA to be stable; 2) derive a necessary condition on $m$ to maintain stability for IA as time goes to infinity. Our numerical results show that our approach achieves stability for an $m$ that satisfies the theoretical conditions. We also empirically demonstrate that our proposed two phase algorithm has equivalent performance to the one-at-a-time rollout over the entire map, but with significantly lower runtimes.

arxiv情報

著者 Daniel Garces,Sushmita Bhattacharya,Dimitri Bertsekas,Stephanie Gil
発行日 2025-02-18 16:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version) はコメントを受け付けていません

B-cos LM: Efficiently Transforming Pre-trained Language Models for Improved Explainability

要約

ブラックボックスモデルの事後説明方法現在の神経モデルの説明可能性がないため、しばしば忠実さと人間の解釈可能性と格闘しています。
一方、B-COSネットワークは、アーキテクチャおよび計算の適応を通じてモデルの説明可能性を改善するために導入されていますが、これまでのところ、それらのアプリケーションはコンピュータービジョンモデルと関連するトレーニングパイプラインに限定されています。
この作業では、B-COS LMS、つまりNLPタスクに力を与えられたB-COSネットワークを紹介します。
私たちのアプローチは、B-COS変換とタスクの微調整を組み合わせて、以前のB-COSメソッドと比較して効率を改善することにより、事前に訓練された言語モデルをB-COS LMSに直接変換します。
私たちの自動および人間の評価結果は、B-COS LMSが従来の微調整に匹敵するタスクのパフォーマンスを維持しながら、事後の方法よりも忠実で人間の解釈可能な説明を生成することを示しています。
詳細な分析では、B-COS LMSが学習プロセスと説明パターンで従来の微調整されたモデルとどのように異なるかを調査します。
最後に、調査結果に基づいてB-COS LMSを効果的に構築するための実用的なガイドラインを提供します。
私たちのコードは、https://anonymous.4open.science/r/bcos_lmで入手できます。

要約(オリジナル)

Post-hoc explanation methods for black-box models often struggle with faithfulness and human interpretability due to the lack of explainability in current neural models. Meanwhile, B-cos networks have been introduced to improve model explainability through architectural and computational adaptations, but their application has so far been limited to computer vision models and their associated training pipelines. In this work, we introduce B-cos LMs, i.e., B-cos networks empowered for NLP tasks. Our approach directly transforms pre-trained language models into B-cos LMs by combining B-cos conversion and task fine-tuning, improving efficiency compared to previous B-cos methods. Our automatic and human evaluation results demonstrate that B-cos LMs produce more faithful and human interpretable explanations than post hoc methods, while maintaining task performance comparable to conventional fine-tuning. Our in-depth analysis explores how B-cos LMs differ from conventionally fine-tuned models in their learning processes and explanation patterns. Finally, we provide practical guidelines for effectively building B-cos LMs based on our findings. Our code is available at https://anonymous.4open.science/r/bcos_lm.

arxiv情報

著者 Yifan Wang,Sukrut Rao,Ji-Ung Lee,Mayank Jobanputra,Vera Demberg
発行日 2025-02-18 16:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | B-cos LM: Efficiently Transforming Pre-trained Language Models for Improved Explainability はコメントを受け付けていません

Free Argumentative Exchanges for Explaining Image Classifiers

要約

ディープラーニングモデルは強力な画像分類器ですが、その不透明度は信頼性を妨げます。
説明これらの分類器内で推論プロセスを忠実に、そして明確な方法でキャプチャする方法は、それらの完全な複雑さとサイズのために不足しています。
画像分類子の出力を2人のエージェント間で議論し、それぞれが特定のクラスを主張する新しい方法を定義することにより、この問題の解決策を提供します。
これらの議論は、自由な議論の交換(FAX)の具体的なインスタンスとして取得します。これは、エージェントが他のエージェントによる意見を当初述べたものとは異なる方法で内面化できるようにする新しい議論に基づいたマルチエージェントフレームワークです。
2つのメトリック(コンセンサスと説得率)を定義して、画像分類器の論争的説明としてFAXの有用性を評価します。
次に、FAXがこれらのメトリックに沿ってうまく機能することを示す多くの経験的実験を実施し、従来の非重要な説明方法よりも画像分類器に対してより忠実であることを示します。
すべての実装は、https://github.com/koriavinash1/faxで見つけることができます。

要約(オリジナル)

Deep learning models are powerful image classifiers but their opacity hinders their trustworthiness. Explanation methods for capturing the reasoning process within these classifiers faithfully and in a clear manner are scarce, due to their sheer complexity and size. We provide a solution for this problem by defining a novel method for explaining the outputs of image classifiers with debates between two agents, each arguing for a particular class. We obtain these debates as concrete instances of Free Argumentative eXchanges (FAXs), a novel argumentation-based multi-agent framework allowing agents to internalise opinions by other agents differently than originally stated. We define two metrics (consensus and persuasion rate) to assess the usefulness of FAXs as argumentative explanations for image classifiers. We then conduct a number of empirical experiments showing that FAXs perform well along these metrics as well as being more faithful to the image classifiers than conventional, non-argumentative explanation methods. All our implementations can be found at https://github.com/koriavinash1/FAX.

arxiv情報

著者 Avinash Kori,Antonio Rago,Francesca Toni
発行日 2025-02-18 16:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Free Argumentative Exchanges for Explaining Image Classifiers はコメントを受け付けていません

Personalized Top-k Set Queries Over Predicted Scores

要約

この作業は、予測されたスコアにわたってトップKクエリに答える際の大規模な言語モデルなど、高価な外部オラクルの適用性を研究しています。
このようなスコアは、ユーザー定義の関数によって発生し、マルチモーダルデータを介したパーソナライズされたクエリに回答します。
関数を構築物に分解できる限り、任意のセットベースのスコアリング関数を処理する一般的な計算フレームワークを提案します。
特定の時点で、フレームワークは一連の応答とその部分的な予測スコアを想定しており、真のトップKになる可能性のあるセットのコレクションを維持します。
オラクルを呼び出すのは費用がかかるため、私たちのフレームワークは次の構造、つまり真のトップKを識別する可能性を最大化するために神託を尋ねる次の最良の質問を慎重に識別します。
その可能性を定量化する原則的な確率モデルを提示します。
アルゴリズムの設計における効率の機会を研究しています。
3つの大規模なデータセット、スコアリング機能、およびベースラインで評価を実行します。
実験は、結果の精度を確保しながらLLM呼び出しを必要とするベースラインよりも数桁の改善を達成するため、フレームワークの有効性を示しています。
スケーラビリティ実験は、大規模なアプリケーションでフレームワークを使用できることをさらに示しています。

要約(オリジナル)

This work studies the applicability of expensive external oracles such as large language models in answering top-k queries over predicted scores. Such scores are incurred by user-defined functions to answer personalized queries over multi-modal data. We propose a generic computational framework that handles arbitrary set-based scoring functions, as long as the functions could be decomposed into constructs, each of which sent to an oracle (in our case an LLM) to predict partial scores. At a given point in time, the framework assumes a set of responses and their partial predicted scores, and it maintains a collection of possible sets that are likely to be the true top-k. Since calling oracles is costly, our framework judiciously identifies the next construct, i.e., the next best question to ask the oracle so as to maximize the likelihood of identifying the true top-k. We present a principled probabilistic model that quantifies that likelihood. We study efficiency opportunities in designing algorithms. We run an evaluation with three large scale datasets, scoring functions, and baselines. Experiments indicate the efficacy of our framework, as it achieves an order of magnitude improvement over baselines in requiring LLM calls while ensuring result accuracy. Scalability experiments further indicate that our framework could be used in large-scale applications.

arxiv情報

著者 Sohrab Namazi Nia,Subhodeep Ghosh,Senjuti Basu Roy,Sihem Amer-Yahia
発行日 2025-02-18 16:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG | Personalized Top-k Set Queries Over Predicted Scores はコメントを受け付けていません

You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with a Multi-Agent Conversations

要約

会議の要約は、主にプライバシーの制限と高価な収集プロセスのために、限られた高品質のデータに苦しんでいます。
このギャップには、英語で500の会議と300件のドイツ語でこのギャップに対処します。これは、心理学的に接地された参加者プロファイルを定義し、会話の概要を定義することで、特定の知識ソースでトランスクリプトを生成する新しいマルチエージェント会議統合フレームワークであるMimicがプロデュースしました。
大規模な言語モデル(LLM)の議論を調整します。
モジュール式後処理ステップは、これらの出力を改良し、潜在的な繰り返しと過度に正式なトーンを緩和し、大規模な一貫した信頼できる対話を確保します。
また、自然性、社会的行動の信頼性、および転写の困難を評価する心理的に根拠のある評価フレームワークを提案します。
人間の評価は、名声が現実的な自発性(自然性では4.5/5)に近似し、スピーカー中心の課題(音声言語では3/5)を保持し、より豊かな情報指向の難易度(4/5が難易度)を導入することを示しています。
これらの調査結果は、名声が現実世界の会議条件にとって優れたスケーラブルなプロキシであることを強調しています。
これにより、会話のデータを必要とするタスクで、要約調査やその他の会話中心のアプリケーションを満たすための新しいテストシナリオを可能にし、行動制約の下でソーシャルシナリオをシミュレートする必要があります。

要約(オリジナル)

Meeting summarization suffers from limited high-quality data, mainly due to privacy restrictions and expensive collection processes. We address this gap with FAME, a dataset of 500 meetings in English and 300 in German produced by MIMIC, our new multi-agent meeting synthesis framework that generates meeting transcripts on a given knowledge source by defining psychologically grounded participant profiles, outlining the conversation, and orchestrating a large language model (LLM) debate. A modular post-processing step refines these outputs, mitigating potential repetitiveness and overly formal tones, ensuring coherent, credible dialogues at scale. We also propose a psychologically grounded evaluation framework assessing naturalness, social behavior authenticity, and transcript difficulties. Human assessments show that FAME approximates real-meeting spontaneity (4.5/5 in naturalness), preserves speaker-centric challenges (3/5 in spoken language), and introduces richer information-oriented difficulty (4/5 in difficulty). These findings highlight that FAME is a good and scalable proxy for real-world meeting conditions. It enables new test scenarios for meeting summarization research and other conversation-centric applications in tasks requiring conversation data or simulating social scenarios under behavioral constraints.

arxiv情報

著者 Frederic Kirstein,Muneeb Khan,Jan Philip Wahle,Terry Ruas,Bela Gipp
発行日 2025-02-18 16:21:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with a Multi-Agent Conversations はコメントを受け付けていません