Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric

要約

データの多様性は、大規模な言語モデルの指示の調整に重要です。
既存の研究では、高品質のデータセットを構築し、モデルのパフォーマンスを向上させるために、さまざまな多様性を意識したデータ選択方法を調査しました。
ただし、データの多様性を正確に定義および測定するという根本的な問題は、標準不足のままであり、データエンジニアリングの明確なガイダンスを制限しています。
これに対処するために、広範な微調整実験を通じてモデルパフォーマンスとの相関を評価することにより、11の既存の多様性測定方法を体系的に分析します。
我々の結果は、信頼できる多様性尺度がサンプル間の違いとサンプル空間の情報密度の両方を適切に説明する必要があることを示しています。
これに基づいて、サンプルレベルの「ノベルティ」に基づいた新しい多様性メトリックであるNovelsumを提案します。
シミュレートされたデータと現実世界の両方のデータの実験は、Noblesumが多様性の変動を正確に捉え、命令チューニングされたモデルパフォーマンスと0.97の相関を達成し、データエンジニアリングの実践を導く際のその価値を強調することを示しています。
Novelsumを最適化目標として、既存のアプローチを上回る貪欲で多様性指向のデータ選択戦略をさらに開発し、メトリックの有効性と実用的な重要性の両方を検証します。
このコードはhttps://github.com/umeannever/novelsumで入手できます。

要約(オリジナル)

Data diversity is crucial for the instruction tuning of large language models. Existing studies have explored various diversity-aware data selection methods to construct high-quality datasets and enhance model performance. However, the fundamental problem of precisely defining and measuring data diversity remains underexplored, limiting clear guidance for data engineering. To address this, we systematically analyze 11 existing diversity measurement methods by evaluating their correlation with model performance through extensive fine-tuning experiments. Our results indicate that a reliable diversity measure should properly account for both inter-sample differences and the information density in the sample space. Building on this, we propose NovelSum, a new diversity metric based on sample-level ‘novelty.’ Experiments on both simulated and real-world data show that NovelSum accurately captures diversity variations and achieves a 0.97 correlation with instruction-tuned model performance, highlighting its value in guiding data engineering practices. With NovelSum as an optimization objective, we further develop a greedy, diversity-oriented data selection strategy that outperforms existing approaches, validating both the effectiveness and practical significance of our metric. The code is available at https://github.com/UmeanNever/NovelSum.

arxiv情報

著者 Yuming Yang,Yang Nan,Junjie Ye,Shihan Dou,Xiao Wang,Shuo Li,Huijie Lv,Mingqi Wu,Tao Gui,Qi Zhang,Xuanjing Huang
発行日 2025-06-02 15:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric はコメントを受け付けていません

Improving Factuality with Explicit Working Memory

要約

大規模な言語モデルは、幻覚として知られる問題である事実上不正確なコンテンツを生成できます。
最近の作品は、繰り返しのプロンプトを通じて事実性を向上させるために、検索された高級世代の上に構築されていますが、これらの方法は従来のRAGデザインによって制限されています。
これらの課題に対処するために、外部リソースからリアルタイムのフィードバックを受け取るワーキングメモリを統合することにより、長期のテキスト生成の事実性を高める新しいアプローチであるEWE(明示的な作業記憶)を紹介します。
メモリは、オンラインのファクトチェックと検索フィードバックに基づいて更新され、GENERTIONプロセス中にEWEが誤った請求を修正し、より正確で信頼性の高い出力を確保することができます。
私たちの実験は、羊が4つの事実を求める長い形式の生成データセットの強力なベースラインよりも優れていることを示しており、回答の有用性を犠牲にすることなく、事実上のメトリックであるVeriscoreを2〜6ポイント増加させます。
さらなる分析により、メモリの更新、メモリユニットの構成、検索データストアの品質のルールの設計が、モデルのパフォーマンスに影響を与えるための重要な要因であることが明らかになりました。

要約(オリジナル)

Large language models can generate factually inaccurate content, a problem known as hallucination. Recent works have built upon retrieved-augmented generation to improve factuality through iterative prompting but these methods are limited by the traditional RAG design. To address these challenges, we introduce EWE (Explicit Working Memory), a novel approach that enhances factuality in long-form text generation by integrating a working memory that receives real-time feedback from external resources. The memory is refreshed based on online fact-checking and retrieval feedback, allowing EWE to rectify false claims during the generation process and ensure more accurate and reliable outputs. Our experiments demonstrate that Ewe outperforms strong baselines on four fact-seeking long-form generation datasets, increasing the factuality metric, VeriScore, by 2 to 6 points absolute without sacrificing the helpfulness of the responses. Further analysis reveals that the design of rules for memory updates, configurations of memory units, and the quality of the retrieval datastore are crucial factors for influencing model performance.

arxiv情報

著者 Mingda Chen,Yang Li,Karthik Padthe,Rulin Shao,Alicia Sun,Luke Zettlemoyer,Gargi Ghosh,Wen-tau Yih
発行日 2025-06-02 16:27:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Improving Factuality with Explicit Working Memory はコメントを受け付けていません

3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark

要約

大規模なビジョン言語モデル(LVLM)は医学で積極的に調査されていますが、正確な診断と専門的な対話を組み合わせた遠隔医療相談を実施する能力は採用されていません。
このペーパーでは、LVLM駆動の遠隔委員会の相談をシミュレートおよび評価するためのオープンソースフレームワークである3MDBench(Medical Multimodal Multi-Agent Dialogue Benchmark)を紹介します。
3MDBenchは、4つの気質ベースの患者エージェントと、診断の精度と対話の質を共同で評価する評価者エージェントを通じて患者の変動をシミュレートします。
これには、テキストと画像ベースのデータを組み合わせた、実際の遠隔医療相互作用から描かれた34の診断にわたる3013症例が含まれています。
実験研究では、GPT-4O-MINI、LLAVA-3.2-11B-Vision-Instruct、QWEN2-VL-7B-Instructなど、一般的なLVLMの診断戦略を比較しています。
内部推論を伴うマルチモーダルの対話により、非自治的設定よりもF1スコアが6.5%向上し、コンテキスト認識の情報を求める質問の重要性を強調することが実証されています。
さらに、診断畳み込み畳み込みネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%増加します。
ソースコードは、https://anonymous.4open.science/r/3mdbench_acl-0511で入手できます。

要約(オリジナル)

Though Large Vision-Language Models (LVLMs) are being actively explored in medicine, their ability to conduct telemedicine consultations combining accurate diagnosis with professional dialogue remains underexplored. In this paper, we present 3MDBench (Medical Multimodal Multi-agent Dialogue Benchmark), an open-source framework for simulating and evaluating LVLM-driven telemedical consultations. 3MDBench simulates patient variability through four temperament-based Patient Agents and an Assessor Agent that jointly evaluate diagnostic accuracy and dialogue quality. It includes 3013 cases across 34 diagnoses drawn from real-world telemedicine interactions, combining textual and image-based data. The experimental study compares diagnostic strategies for popular LVLMs, including GPT-4o-mini, LLaVA-3.2-11B-Vision-Instruct, and Qwen2-VL-7B-Instruct. We demonstrate that multimodal dialogue with internal reasoning improves F1 score by 6.5% over non-dialogue settings, highlighting the importance of context-aware, information-seeking questioning. Moreover, injecting predictions from a diagnostic convolutional network into the LVLM’s context boosts F1 by up to 20%. Source code is available at https://anonymous.4open.science/r/3mdbench_acl-0511.

arxiv情報

著者 Ivan Sviridov,Amina Miftakhova,Artemiy Tereshchenko,Galina Zubkova,Pavel Blinov,Andrey Savchenko
発行日 2025-06-02 16:50:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T42, cs.CL, cs.HC, cs.MA, I.2.1 | 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark はコメントを受け付けていません

Multimodal Conversation Structure Understanding

要約

会話は通常、役割によって構成されます – 誰が話しているか、誰が演説されている、誰が聞いているのか – スピーカーの床または話題の焦点の変化とともに壊れるスレッドで展開します。
大規模な言語モデル(LLM)は、対話と推論において信じられないほどの機能を示していますが、特にマルチモーダルのマルチパーティ設定で、きめの細かい会話構造を理解する能力は未定です。
このギャップに対処するために、会話の役割の帰属(スピーカー、宛先、副参加者)と会話のスレッド(発話のリンクとクラスタリング)に焦点を当てた一連のタスクを紹介し、会話分析と社会言語学を利用します。
これらのタスクをサポートするために、スピーカーと返信関係、5,755人の宛先、および3,142人の副関与者のために4,398の注釈の人間の注釈付きデータセットを提示します。
データセットで一般的な視聴覚LLMSおよびビジョン言語モデルを評価し、実験結果は、マルチモーダルの会話構造の理解が依然として挑戦的であることを示唆しています。
最もパフォーマンスのあるオーディオビジュアルLLMは、特にスピーカーと宛先の認識で、すべてのメトリックのすべてのビジョン言語モデルよりも優れています。
ただし、会話参加者が匿名化されると、パフォーマンスは大幅に低下します。
クリップの会話参加者の数は、ロールアトリショナルパフォーマンスの最も強い負の予測因子であり、アコースティッククライアリティ(ピッチとスペクトル重心で測定)および検出されたフェースカバーは、正の関連性をもたらします。
この作業が、会話構造についてより効果的に推論できるマルチモーダルLLMの将来の評価と開発の基礎を築くことを願っています。

要約(オリジナル)

Conversations are usually structured by roles — who is speaking, who’s being addressed, and who’s listening — and unfold in threads that break with changes in speaker floor or topical focus. While large language models (LLMs) have shown incredible capabilities in dialogue and reasoning, their ability to understand fine-grained conversational structure, especially in multi-modal, multi-party settings, remains underexplored. To address this gap, we introduce a suite of tasks focused on conversational role attribution (speaker, addressees, side-participants) and conversation threading (utterance linking and clustering), drawing on conversation analysis and sociolinguistics. To support those tasks, we present a human annotated dataset of 4,398 annotations for speakers and reply-to relationship, 5,755 addressees, and 3,142 side-participants. We evaluate popular audio-visual LLMs and vision-language models on our dataset, and our experimental results suggest that multimodal conversational structure understanding remains challenging. The most performant audio-visual LLM outperforms all vision-language models across all metrics, especially in speaker and addressee recognition. However, its performance drops significantly when conversation participants are anonymized. The number of conversation participants in a clip is the strongest negative predictor of role-attribution performance, while acoustic clarity (measured by pitch and spectral centroid) and detected face coverage yield positive associations. We hope this work lays the groundwork for future evaluation and development of multimodal LLMs that can reason more effectively about conversation structure.

arxiv情報

著者 Kent K. Chang,Mackenzie Hanh Cramer,Anna Ho,Ti Ti Nguyen,Yilin Yuan,David Bamman
発行日 2025-06-02 17:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multimodal Conversation Structure Understanding はコメントを受け付けていません

Completing A Systematic Review in Hours instead of Months with Interactive AI Agents

要約

体系的なレビュー(SRS)は、ヘルスケアなどの高品質の分野でのエビデンスに基づいた実践には不可欠ですが、多くの場合、集中的な労働と、完了するまでに数か月かかる長いプロセスによって妨げられます。
ドメインの専門知識に対する需要が高いため、既存の自動要約方法は、関連する研究を正確に特定し、高品質の要約を生み出すことができません。
そのため、このワークフローに革命をもたらす大規模な言語モデルを搭載した人間中心のインタラクティブAIエー​​ジェントであるInsightagentを紹介します。
Insightagentは、セマンティクスに基づいて大規模な文献コーパスを分割し、文献のより焦点を絞った処理のためにマルチエージェント設計を採用しており、生成されたSRSの品質を大幅に改善します。
Insightagentはまた、コーパスとエージェントの軌跡の直感的な視覚化を提供し、ユーザーがエージェントのアクションを簡単に監視し、専門知識に基づいてリアルタイムのフィードバックを提供できるようにします。
9人の医療専門家を対象としたユーザー調査は、視覚化と相互作用メカニズムが合成されたSRの品質を27.2%効果的に改善し、人間が書いた品質の79.7%に達することを実証しています。
同時に、ユーザーの満足度が34.4%向上します。
洞察力の場合、高品質の系統的レビューを完了するのに臨床医が数か月ではなく約1.5時間しかかかりません。

要約(オリジナル)

Systematic reviews (SRs) are vital for evidence-based practice in high stakes disciplines, such as healthcare, but are often impeded by intensive labors and lengthy processes that can take months to complete. Due to the high demand for domain expertise, existing automatic summarization methods fail to accurately identify relevant studies and generate high-quality summaries. To that end, we introduce InsightAgent, a human-centered interactive AI agent powered by large language models that revolutionize this workflow. InsightAgent partitions a large literature corpus based on semantics and employs a multi-agent design for more focused processing of literature, leading to significant improvement in the quality of generated SRs. InsightAgent also provides intuitive visualizations of the corpus and agent trajectories, allowing users to effortlessly monitor the actions of the agent and provide real-time feedback based on their expertise. Our user studies with 9 medical professionals demonstrate that the visualization and interaction mechanisms can effectively improve the quality of synthesized SRs by 27.2%, reaching 79.7% of human-written quality. At the same time, user satisfaction is improved by 34.4%. With InsightAgent, it only takes a clinician about 1.5 hours, rather than months, to complete a high-quality systematic review.

arxiv情報

著者 Rui Qiu,Shijie Chen,Yu Su,Po-Yin Yen,Han-Wei Shen
発行日 2025-06-02 17:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Completing A Systematic Review in Hours instead of Months with Interactive AI Agents はコメントを受け付けていません

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

要約

現実世界のソフトウェア開発ワークフローを密接に反映する、大規模な言語モデル(LLMS)の競争力のある評価フレームワークであるSwingarenaを紹介します。
従来の静的ベンチマークとは異なり、SwingArenaは、テストケースを作成し、継続的な統合(CI)パイプラインを通じてパッチを作成し、パッチを検証するパッチを生成する提出者としてLLMをペアリングすることにより、ソフトウェア反復の共同プロセスをモデル化します。
これらのインタラクティブな評価をサポートするために、大規模なコードベースから構文的および意味的に関連するコードスニペットを提供し、複数のプログラミング言語(C ++、Python、錆、GO)をサポートすることにより、検索コード生成(RACG)モジュールを導入します。
これにより、フレームワークは、トークンの制限を尊重しながら、多様なタスクとコンテキストを拡大することができます。
2,300の問題のプールから選択された400を超える高品質の現実世界のGithub問題を使用して、GPT-4oのようなモデルが積極的なパッチ生成で優れているのに対し、CI検証の正しさを優先することを示しています。
SwingArenaは、現実的でCI駆動型ソフトウェア開発設定でLLMを評価するためのスケーラブルで拡張可能な方法論を提示します。
詳細については、プロジェクトページ(Swing-bench.github.io)をご覧ください

要約(オリジナル)

We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs) that closely mirrors real-world software development workflows. Unlike traditional static benchmarks, SwingArena models the collaborative process of software iteration by pairing LLMs as submitters, who generate patches, and reviewers, who create test cases and verify the patches through continuous integration (CI) pipelines. To support these interactive evaluations, we introduce a retrieval-augmented code generation (RACG) module that efficiently handles long-context challenges by providing syntactically and semantically relevant code snippets from large codebases, supporting multiple programming languages (C++, Python, Rust, and Go). This enables the framework to scale across diverse tasks and contexts while respecting token limitations. Our experiments, using over 400 high-quality real-world GitHub issues selected from a pool of 2,300 issues, show that models like GPT-4o excel at aggressive patch generation, whereas DeepSeek and Gemini prioritize correctness in CI validation. SwingArena presents a scalable and extensible methodology for evaluating LLMs in realistic, CI-driven software development settings. More details are available on our project page: swing-bench.github.io

arxiv情報

著者 Wendong Xu,Jing Xiong,Chenyang Zhao,Qiujiang Chen,Haoran Wang,Hui Shen,Zhongwei Wan,Jianbo Dai,Taiqiang Wu,He Xiao,Chaofan Tao,Z. Morley Mao,Ying Sheng,Zhijiang Guo,Hongxia Yang,Bei Yu,Lingpeng Kong,Quanquan Gu,Ngai Wong
発行日 2025-06-02 17:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving はコメントを受け付けていません

Don’t Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning

要約

機械学習(ML)はさまざまなドメインに革命をもたらし、いくつかの分野で予測機能を提供しています。
ただし、MLツールのアクセシビリティが向上しているため、多くの実践者は、深いMLの専門知識を欠いており、基礎となるアルゴリズムを完全に理解することなくユーザーフレンドリーなインターフェイスを利用して、「ボタンを押す」アプローチを採用しています。
このアプローチは利便性を提供しますが、結果の信頼性についての懸念を引き起こし、パフォーマンス評価が誤っているなどの課題につながります。
このペーパーでは、データリークと呼ばれるMLの重大な問題に対処します。そこでは、意図しない情報がトレーニングデータを汚染し、モデルのパフォーマンス評価に影響を与えます。
ユーザーは、理解が不足しているため、不注意に重要なステップを見落としている可能性があり、実際のシナリオでは保持されない楽観的なパフォーマンスの推定につながる可能性があります。
新しいデータの評価されたパフォーマンスと実際のパフォーマンスの間の不一致は大きな懸念事項です。
特に、このペーパーでは、MLのデータリークを分類し、特定の条件がMLワークフローを通じてどのように伝播できるかについて説明します。
さらに、データの漏れと対処される特定のタスクとの関係を調査し、転送学習での発生を調査し、標準の誘導MLとトランスダクティブMLフレームワークを比較します。
結論は、堅牢で信頼性の高いMLアプリケーションのデータリークに対処することの重要性を強調し、重要な調査結果を要約しています。

要約(オリジナル)

Machine Learning (ML) has revolutionized various domains, offering predictive capabilities in several areas. However, with the increasing accessibility of ML tools, many practitioners, lacking deep ML expertise, adopt a ‘push the button’ approach, utilizing user-friendly interfaces without a thorough understanding of underlying algorithms. While this approach provides convenience, it raises concerns about the reliability of outcomes, leading to challenges such as incorrect performance evaluation. This paper addresses a critical issue in ML, known as data leakage, where unintended information contaminates the training data, impacting model performance evaluation. Users, due to a lack of understanding, may inadvertently overlook crucial steps, leading to optimistic performance estimates that may not hold in real-world scenarios. The discrepancy between evaluated and actual performance on new data is a significant concern. In particular, this paper categorizes data leakage in ML, discussing how certain conditions can propagate through the ML workflow. Furthermore, it explores the connection between data leakage and the specific task being addressed, investigates its occurrence in Transfer Learning, and compares standard inductive ML with transductive ML frameworks. The conclusion summarizes key findings, emphasizing the importance of addressing data leakage for robust and reliable ML applications.

arxiv情報

著者 Andrea Apicella,Francesco Isgrò,Roberto Prevete
発行日 2025-06-02 10:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Don’t Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning はコメントを受け付けていません

Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling

要約

自閉症スペクトラム障害(ASD)は、社会的コミュニケーション、反復行動、および感覚処理の課題を特徴とする神経発達条件です。
ASDの重要な研究分野の1つは、治療中の子供の行動の変化を経時的に評価することです。
この目的を備えた標準的なプロトコルはBOSCCです。これには、事前に定義された一連のアクティビティを実行する子供と臨床医との間の二項相互作用が含まれます。
これらの相互作用における子どもの行動を理解することの基本的な側面は、特に誰が話すのかを特定する自動音声理解です。
この分野での従来のアプローチは、観客の観点から記録された音声サンプルに大きく依存しており、エゴセントリックな音声モデリングに関する研究は限られています。
この研究では、ウェアラブルセンサーを使用してエゴセントリックな観点からBOSCCインタビューで音声サンプリングを実行する実験を設計し、トレーニング前のEGO4D音声サンプルを探索して、ダイアジック相互作用における子どもと講演者の分類を強化します。
私たちの調査結果は、スピーカーの分類精度を向上させるためのエゴセントリックな音声コレクションと事前トレーニングの可能性を強調しています。

要約(オリジナル)

Autism spectrum disorder (ASD) is a neurodevelopmental condition characterized by challenges in social communication, repetitive behavior, and sensory processing. One important research area in ASD is evaluating children’s behavioral changes over time during treatment. The standard protocol with this objective is BOSCC, which involves dyadic interactions between a child and clinicians performing a pre-defined set of activities. A fundamental aspect of understanding children’s behavior in these interactions is automatic speech understanding, particularly identifying who speaks and when. Conventional approaches in this area heavily rely on speech samples recorded from a spectator perspective, and there is limited research on egocentric speech modeling. In this study, we design an experiment to perform speech sampling in BOSCC interviews from an egocentric perspective using wearable sensors and explore pre-training Ego4D speech samples to enhance child-adult speaker classification in dyadic interactions. Our findings highlight the potential of egocentric speech collection and pre-training to improve speaker classification accuracy.

arxiv情報

著者 Tiantian Feng,Anfeng Xu,Xuan Shi,Somer Bishop,Shrikanth Narayanan
発行日 2025-06-02 13:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling はコメントを受け付けていません

When LLMs Play the Telephone Game: Cultural Attractors as Conceptual Tools to Evaluate LLMs in Multi-turn Settings

要約

大規模な言語モデル(LLM)が互いに相互作用し、オンラインでよりますます多くのテキストを生成するにつれて、あるLLMから次のLMに渡されるときに情報がどのように変換されるかをよりよく理解することが重要になります。
重要な研究では個々のLLMの行動が調査されていますが、既存の研究では、繰り返されるLLM相互作用から生じる集合的な行動と情報の歪みをほとんど見落としています。
単一の出力レベルでは無視できる小さなバイアスは、相互作用の反復で増幅されるリスクがあり、潜在的にコンテンツをアトラクタ状態に向けて進化させる可能性があります。
一連の電話ゲーム実験では、人間の文化的進化文献から借用したトランスミッションチェーン設計を適用します。LLMエージェントは、チェーン内の次のエージェントの前のエージェントからテキストを繰り返し受け取り、生産し、送信します。
伝送チェーン全体のテキスト毒性、陽性、難易度、長さの進化を追跡することにより、バイアスとアトラクタの存在を明らかにし、初期テキスト、命令、言語モデル、モデルサイズへの依存を研究します。
たとえば、より制約されたタスクと比較して、よりオープンエンドの指示がより強力な魅力効果につながることがわかります。
また、異なるテキストプロパティが魅力効果に対して異なる感度を示し、毒性が長さよりも強いアトラクタにつながることがわかります。
これらの調査結果は、マルチステップ伝送のダイナミクスを考慮することの重要性を強調し、LLMの文化的ダイナミクスのより包括的な理解に向けた最初のステップを表しています。

要約(オリジナル)

As large language models (LLMs) start interacting with each other and generating an increasing amount of text online, it becomes crucial to better understand how information is transformed as it passes from one LLM to the next. While significant research has examined individual LLM behaviors, existing studies have largely overlooked the collective behaviors and information distortions arising from iterated LLM interactions. Small biases, negligible at the single output level, risk being amplified in iterated interactions, potentially leading the content to evolve towards attractor states. In a series of telephone game experiments, we apply a transmission chain design borrowed from the human cultural evolution literature: LLM agents iteratively receive, produce, and transmit texts from the previous to the next agent in the chain. By tracking the evolution of text toxicity, positivity, difficulty, and length across transmission chains, we uncover the existence of biases and attractors, and study their dependence on the initial text, the instructions, language model, and model size. For instance, we find that more open-ended instructions lead to stronger attraction effects compared to more constrained tasks. We also find that different text properties display different sensitivity to attraction effects, with toxicity leading to stronger attractors than length. These findings highlight the importance of accounting for multi-step transmission dynamics and represent a first step towards a more comprehensive understanding of LLM cultural dynamics.

arxiv情報

著者 Jérémy Perez,Grgur Kovač,Corentin Léger,Cédric Colas,Gaia Molinaro,Maxime Derex,Pierre-Yves Oudeyer,Clément Moulin-Frier
発行日 2025-06-02 14:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.MA, I.2.7, physics.soc-ph | When LLMs Play the Telephone Game: Cultural Attractors as Conceptual Tools to Evaluate LLMs in Multi-turn Settings はコメントを受け付けていません

Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models

要約

ファンデーションモデル(FM、大規模言語モデル(LLMS)などのFM)のバランスをとるために、人々は多くの場合、さまざまなサイズと機能のFMSにリクエストをルーティングするルーティングモデルをトレーニングすることを選択します。
既存のルーティングモデルは、慎重にキュレーションされたデータから最適なルーティング決定を学習することに依存しており、複雑な計算を更新する必要があり、弱いFMの潜在的な進化を考慮しないでください。
この論文では、リアルタイムの適応ルーティング(RAR)を提案します。これは、FMルーティングの決定を継続的に適応させるアプローチを提案します。
目標は、より強く、より高価なFMSへの依存を減らすことです。
人気のあるMMLUベンチマークのさまざまなサブセットでアプローチを評価します。
時間が経つにつれて、私たちのアプローチは、一般的な応答の質の約90.5%を維持しながら、計算上の高価なモデルへの要求を50.2%少ないルーティングします。
さらに、より強力なモデルから生成されたガイドは、ドメイン内の一般化を示しており、スタンドアロンの弱いFMとの同等のアプローチと比較して、より良い応答の品質をもたらしました。

要約(オリジナル)

To balance the quality and inference cost of a Foundation Model (FM, such as large language models (LLMs)) powered software, people often opt to train a routing model that routes requests to FMs with different sizes and capabilities. Existing routing models rely on learning the optimal routing decision from carefully curated data, require complex computations to be updated, and do not consider the potential evolution of weaker FMs. In this paper, we propose Real-time Adaptive Routing (RAR), an approach to continuously adapt FM routing decisions while using guided in-context learning to enhance the capabilities of weaker FM. The goal is to reduce reliance on stronger, more expensive FMs. We evaluate our approach on different subsets of the popular MMLU benchmark. Over time, our approach routes 50.2% fewer requests to computationally expensive models while maintaining around 90.5% of the general response quality. In addition, the guides generated from stronger models have shown intra-domain generalization and led to a better quality of responses compared to an equivalent approach with a standalone weaker FM.

arxiv情報

著者 Kirill Vasilevski,Dayi Lin,Ahmed E. Hassan
発行日 2025-06-02 14:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA | Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models はコメントを受け付けていません