要約
特に複雑さが高い場合、会議のスケジューリングなどの実際のテキスト計画タスクはLLMに大きな挑戦をもたらしました。
以前の研究では、主に閉鎖モデルを使用した自動回帰的生成プランの生成を研究しましたが、プランを出力するために実行されるプログラムを生成する際に、推論中に複雑さを伴う出力の長さをスケーリングするものを含む、閉鎖モデルとオープンソースモデルの両方を体系的に評価します。
標準のPythonコードだけでなく、制約満足度問題ソルバーへのコードも検討します。
タスクのアルゴリズムの性質にもかかわらず、プログラミングはしばしば計画を上回るとは限りませんが、計画を上回ることを示しています。
詳細なエラー分析は、一般化を妨げる生成されたコードの堅牢性と効率の欠如も示しています。
要約(オリジナル)
Real-life textual planning tasks such as meeting scheduling have posed much challenge to LLMs especially when the complexity is high. While previous work primarily studied auto-regressive generation of plans with closed-source models, we systematically evaluate both closed- and open-source models, including those that scales output length with complexity during inference, in generating programs, which are executed to output the plan. We consider not only standard Python code, but also the code to a constraint satisfaction problem solver. Despite the algorithmic nature of the task, we show that programming often but not always outperforms planning. Our detailed error analysis also indicates a lack of robustness and efficiency in the generated code that hinders generalization.
arxiv情報
著者 | Rikhil Amonkar,Ronan Le Bras,Li Zhang |
発行日 | 2025-05-19 15:35:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google