Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering

要約

この調査では、ビデオ品質の7つの重要なカテゴリにわたってゼロショット分類のためのGPTベースのモデルを調査および最適化することにより、ビデオコンテンツ分類における業界の課題に取り組んでいます。
迅速な最適化とポリシーの改良を通じてGPTのパフォーマンスを改善するための新しいアプローチを提供し、複雑なポリシーを単純化することで誤動が大幅に減少することを示しています。
さらに、従来の単一プロムプト方法よりも優れた新しい分解 – 凝集ベースのプロンプトエンジニアリング手法を導入します。
実質的な業界の問題で実施されたこれらの実験は、思慮深い迅速な設計が追加の微調整なしでGPTのパフォーマンスを大幅に向上させることができることを示しており、業界のさまざまなドメインでビデオ分類システムを改善するための効果的でスケーラブルなソリューションを提供します。

要約(オリジナル)

In this study, we tackle industry challenges in video content classification by exploring and optimizing GPT-based models for zero-shot classification across seven critical categories of video quality. We contribute a novel approach to improving GPT’s performance through prompt optimization and policy refinement, demonstrating that simplifying complex policies significantly reduces false negatives. Additionally, we introduce a new decomposition-aggregation-based prompt engineering technique, which outperforms traditional single-prompt methods. These experiments, conducted on real industry problems, show that thoughtful prompt design can substantially enhance GPT’s performance without additional finetuning, offering an effective and scalable solution for improving video classification systems across various domains in industry.

arxiv情報

著者 Mark Beliaev,Victor Yang,Madhura Raju,Jiachen Sun,Xinghai Hu
発行日 2025-02-14 03:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク