KAHANI: Culturally-Nuanced Visual Storytelling Pipeline for Non-Western Cultures

要約

大規模言語モデル (LLM) と Text-To-Image (T2I) モデルは、説得力のあるテキストとビジュアル ストーリーを生成する機能を実証しています。
しかし、彼らの作品は主にグローバル・ノースの感性と一致しており、多くの場合、部外者の視線が他文化に向けられることになります。
その結果、非西洋コミュニティは文化的に特有のストーリーを生み出すために特別な努力を払わなければなりません。
この課題に対処するために、私たちは非西洋文化向けに文化に基づいたビジュアル ストーリーを生成する KAHANI と呼ばれるビジュアル ストーリーテリング パイプラインを開発しました。
当社のパイプラインは、既製モデル GPT-4 Turbo および Stable Diffusion XL (SDXL) を活用しています。
思考連鎖 (CoT) と T2I プロンプト技術を使用することで、ユーザーのプロンプトから文化的背景を捉え、登場人物やシーン構成の生き生きとした説明を生成します。
KAHANI の有効性を評価するために、インドのさまざまな地域の参加者が 2 つのツールによって生成されたストーリーの文化的関連性を比較する、ChatGPT-4 (DALL-E3 を使用) との比較ユーザー調査を実施しました。
ユーザー調査に対して実行された定性的および定量的分析の結果は、KAHANI が ChatGPT-4 と比較してより多くの文化的に特定のアイテム (CSI) を取得して組み込むことができることを示しました。
文化的能力とビジュアル ストーリー生成の品質の両方の点で、私たちのパイプラインは 36 件の比較のうち 27 件で ChatGPT-4 を上回りました。

要約(オリジナル)

Large Language Models (LLMs) and Text-To-Image (T2I) models have demonstrated the ability to generate compelling text and visual stories. However, their outputs are predominantly aligned with the sensibilities of the Global North, often resulting in an outsider’s gaze on other cultures. As a result, non-Western communities have to put extra effort into generating culturally specific stories. To address this challenge, we developed a visual storytelling pipeline called KAHANI that generates culturally grounded visual stories for non-Western cultures. Our pipeline leverages off-the-shelf models GPT-4 Turbo and Stable Diffusion XL (SDXL). By using Chain of Thought (CoT) and T2I prompting techniques, we capture the cultural context from user’s prompt and generate vivid descriptions of the characters and scene compositions. To evaluate the effectiveness of KAHANI, we conducted a comparative user study with ChatGPT-4 (with DALL-E3) in which participants from different regions of India compared the cultural relevance of stories generated by the two tools. Results from the qualitative and quantitative analysis performed on the user study showed that KAHANI was able to capture and incorporate more Culturally Specific Items (CSIs) compared to ChatGPT-4. In terms of both its cultural competence and visual story generation quality, our pipeline outperformed ChatGPT-4 in 27 out of the 36 comparisons.

arxiv情報

著者 Hamna,Deepthi Sudharsan,Agrima Seth,Ritvik Budhiraja,Deepika Khullar,Vyshak Jain,Kalika Bali,Aditya Vashistha,Sameer Segal
発行日 2024-10-28 08:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク