CELI: Controller-Embedded Language Model Interactions

要約

制御ロジックを言語モデル (LM) プロンプト内に直接統合し、複雑な多段階タスクの実行を容易にするフレームワークである、コントローラー組み込み言語モデル インタラクション (CELI) を紹介します。
CELI は、言語モデルの操作コンテキスト内に制御ロジックを直接埋め込むことで、既存のプロンプト エンジニアリングおよびワークフロー最適化技術の制限に対処し、進化するタスク要件への動的な適応を可能にします。
私たちのフレームワークは、従来のプログラミング実行環境から LM に制御を移し、外部システムや機能とのシームレスな対話を維持しながら、LM が計算ワークフローを自律的に管理できるようにします。
CELI は、可変引数を使用した任意の関数呼び出しをサポートし、LM の適応推論機能と従来のソフトウェア パラダイムの構造化制御メカニズムの間のギャップを橋渡しします。
CELI の多用途性と有効性を評価するために、コード生成 (HumanEval ベンチマーク) とマルチステージ コンテンツ生成 (Wikipedia スタイルの記事) という 2 つの異なるドメインでケース スタディを実施しました。
結果は、さまざまなドメインにわたって顕著なパフォーマンスの向上を示しています。
CELI は、HumanEval コード生成ベンチマークで、ベースライン GPT-4 モデルの最も報告されたスコアより 4.9 パーセントの改善を達成しました。
多段階コンテンツ生成では、最適に構成された場合、CELI が作成した Wikipedia スタイルの記事の 94.4% が初稿の品質を満たすかそれを上回り、44.4% が高品質を達成しました。
これらの成果は、多様な計算領域にわたる AI 主導のワークフローを最適化する CELI の可能性を強調しています。

要約(オリジナル)

We introduce Controller-Embedded Language Model Interactions (CELI), a framework that integrates control logic directly within language model (LM) prompts, facilitating complex, multi-stage task execution. CELI addresses limitations of existing prompt engineering and workflow optimization techniques by embedding control logic directly within the operational context of language models, enabling dynamic adaptation to evolving task requirements. Our framework transfers control from the traditional programming execution environment to the LMs, allowing them to autonomously manage computational workflows while maintaining seamless interaction with external systems and functions. CELI supports arbitrary function calls with variable arguments, bridging the gap between LMs’ adaptive reasoning capabilities and conventional software paradigms’ structured control mechanisms. To evaluate CELI’s versatility and effectiveness, we conducted case studies in two distinct domains: code generation (HumanEval benchmark) and multi-stage content generation (Wikipedia-style articles). The results demonstrate notable performance improvements across a range of domains. CELI achieved a 4.9 percentage point improvement over the best reported score of the baseline GPT-4 model on the HumanEval code generation benchmark. In multi-stage content generation, 94.4% of CELI-produced Wikipedia-style articles met or exceeded first draft quality when optimally configured, with 44.4% achieving high quality. These outcomes underscore CELI’s potential for optimizing AI-driven workflows across diverse computational domains.

arxiv情報

著者 Jan-Samuel Wagner,Dave DeCaprio,Abishek Chiffon Muthu Raja,Jonathan M. Holman,Lauren K. Brady,Sky C. Cheung,Hosein Barzekar,Eric Yang,Mark Anthony Martinez II,David Soong,Sriram Sridhar,Han Si,Brandon W. Higgs,Hisham Hamadeh,Scott Ogden
発行日 2024-10-18 17:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68N19, 68Q32, 68T50, cs.AI, cs.CL, cs.SE, D.2.2 パーマリンク