Writing as a testbed for open ended agents

要約

膨大なソリューションスペースのため、LLMSにとってオープンエンドのタスクは、特に成功に明確で客観的な定義がない場合、広大な探索と適応可能な戦略の両方を要求しています。
その膨大なソリューションスペースと主観的評価基準を備えた執筆は、そのような問題を研究するための説得力のあるテストベッドを提供します。
このホワイトペーパーでは、LLMSが共同の共同作家として機能する可能性を調査し、テキストの改善を自律的に提案および実装できることを調査します。
3つの著名なLLMS -Gemini 1.5 Pro、Claude 3.5 Sonnet、およびGPT -4oを分析し、アクションの多様性、人間の整合性、および反復改善機能に全体的なパフォーマンスにどのように影響するかに焦点を当てています。
この作業は、自動運転執筆エージェントをベンチマークするためのフレームワークを確立し、より広く、多様なオープンエンドドメインで優れている可能性のあるシステムを構築するための基本的な課題と潜在的なソリューションを強調しています。

要約(オリジナル)

Open-ended tasks are particularly challenging for LLMs due to the vast solution space, demanding both expansive exploration and adaptable strategies, especially when success lacks a clear, objective definition. Writing, with its vast solution space and subjective evaluation criteria, provides a compelling testbed for studying such problems. In this paper, we investigate the potential of LLMs to act as collaborative co-writers, capable of suggesting and implementing text improvements autonomously. We analyse three prominent LLMs – Gemini 1.5 Pro, Claude 3.5 Sonnet, and GPT-4o – focusing on how their action diversity, human alignment, and iterative improvement capabilities impact overall performance. This work establishes a framework for benchmarking autonomous writing agents and, more broadly, highlights fundamental challenges and potential solutions for building systems capable of excelling in diverse open-ended domains.

arxiv情報

著者 Sian Gooding,Lucia Lopez-Rivilla,Edward Grefenstette
発行日 2025-03-25 14:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク