マルチモーダル GPT は、ソフトウェア エンジニアリングと生成人工知能の間の相互作用における分水嶺を表します。
GPT-4 は、単なる自然言語ではなく、画像とテキストの入力を受け入れます。
私たちは、GPT-4 のこれらの強化された機能から生じる関連するユースケースを調査します。
私たちの知る限り、図と自然言語を組み合わせたマルチモーダル GPT を介して実行されるソフトウェア エンジニアリング タスクを含む同様のユースケースを調査した研究は他にありません。
Multimodal GPTs represent a watershed in the interplay between Software Engineering and Generative Artificial Intelligence. GPT-4 accepts image and text inputs, rather than simply natural language. We investigate relevant use cases stemming from these enhanced capabilities of GPT-4. To the best of our knowledge, no other work has investigated similar use cases involving Software Engineering tasks carried out via multimodal GPTs prompted with a mix of diagrams and natural language.
著者 | Roberto Rossi |
発行日 | 2025-01-13 17:42:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google