Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization

要約

この研究は、特定のクエリに応じてコンテキストの概要 (会議トランスクリプト) が生成される、クエリベースの会議要約のタスクに焦点を当てています。
このタスクに大規模言語モデル (LLM) を使用する場合、コンテキストが同じであっても、通常、新しいクエリごとに LLM 推論エンドポイント/API への新しい呼び出しがトリガーされます。
ただし、LLM 推論エンドポイントを繰り返し呼び出すと、運用環境で LLM を使用するコストが大幅に増加するため、現実の多くのユースケースでは LLM が非現実的になります。
この問題に対処するために、この論文では、同じ入力コンテキストに対するクエリを 1 つのプロンプトに組み合わせて、繰り返しの呼び出しを最小限に抑えることが会議の要約にうまく使用できるかどうかを調査します。
この点に関して、私たちはさまざまな人気のある LLM (GPT-4、Gemini、Claude-3、LLaMA-2、Mistral、Phi-3、Qwen-2) のパフォーマンスを単一クエリ設定とマルチクエリ設定で比較することにより広範な実験を実施しています。

予想される形式で応答を生成する際の 100% の信頼性は通常、特定のクローズドソース LLM に限定されており、ほとんどのオープンソース LLM は遅れていることがわかります (Mistral や Phi-3 などのいくつかの 7B パラメーター LLM を除く)。
マルチクエリ プロンプトは、会議の要約における推論コストを大幅に最適化するのに役立つ可能性があると結論付けています。

要約(オリジナル)

This work focuses on the task of query-based meeting summarization in which the summary of a context (meeting transcript) is generated in response to a specific query. When using Large Language Models (LLMs) for this task, usually a new call to the LLM inference endpoint/API is triggered for each new query, even if the context stays the same. However, repeated calls to the LLM inference endpoints would significantly increase the costs of using them in production, making LLMs impractical for many real-world use cases. To address this problem, in this paper, we investigate whether combining the queries for the same input context in a single prompt to minimize repeated calls can be successfully used in meeting summarization. In this regard, we conduct extensive experiments by comparing the performance of various popular LLMs: GPT-4, Gemini, Claude-3, LLaMA-2, Mistral, Phi-3, and Qwen-2 in single-query and multi-query settings. We observe that 100% reliability in generating the response in the expected format is usually limited to certain closed-source LLMs, with most open-source LLMs lagging behind (except a few 7B parameters LLMs like Mistral and Phi-3). We conclude that multi-query prompting could be useful to significantly optimize the inference costs in meeting summarization.

arxiv情報

著者 Md Tahmid Rahman Laskar,Elena Khasanova,Xue-Yong Fu,Cheng Chen,Shashi Bhushan TN
発行日 2024-07-19 12:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク