Beyond Text: Unveiling Multimodal Proficiency of Large Language Models with MultiAPI Benchmark

要約

ChatGPT のような大規模言語モデルの普及により、言語の理解と生成が大幅に進歩し、幅広いアプリケーションに影響を与えています。
ただし、これらのモデルは主にテキストベースのタスクに優れており、現実世界のマルチモーダル情報の複雑さは無視されています。
この研究では、マルチモーダルなコンテキストにおける LLM の習熟度を拡大することを目的とした、先駆的な包括的な大規模 API ベンチマーク データセットである MultiAPI を紹介します。
ChatGPT を通じて共同開発された MultiAPI は、235 の多様な API 呼び出しと 2,038 のコンテキスト プロンプトで構成され、マルチモーダル タスクを処理するツール拡張 LLM の独自のプラットフォーム評価を提供します。
包括的な実験を通じて、LLM は API 呼び出しの意思決定には熟練しているものの、ドメインの識別、関数の選択、および引数の生成において課題に直面していることが判明しました。
さらに、驚くべきことに、補助コンテキストが実際にパフォーマンスを損なう可能性があることに気づきました。
詳細なエラー分析は、これらの課題に対処するための新しいパラダイムへの道を開き、将来の LLM 研究の潜在的な方向性を示唆します。

要約(オリジナル)

The proliferation of Large Language Models like ChatGPT has significantly advanced language understanding and generation, impacting a broad spectrum of applications. However, these models predominantly excel in text-based tasks, overlooking the complexity of real-world multimodal information. This study introduces MultiAPI, a pioneering comprehensive large-scale API benchmark dataset aimed at expanding LLMs’ proficiency in multimodal contexts. Developed collaboratively through ChatGPT, MultiAPI consists of 235 diverse API calls and 2,038 contextual prompts, offering a unique platform evaluation of tool-augmented LLMs handling multimodal tasks. Through comprehensive experiments, our findings reveal that while LLMs demonstrate proficiency in API call decision-making, they face challenges in domain identification, function selection, and argument generation. What’s more, we surprisingly notice that auxiliary context can actually impair the performance. An in-depth error analysis paves the way for a new paradigm to address these challenges, suggesting a potential direction for future LLM research.

arxiv情報

著者 Xiao Liu,Jianfeng Lin,Jiawei Zhang
発行日 2023-11-21 23:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク