RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

要約

コードミックスは、単一の文の複数の言語からの語彙的および文法的要素の統合であり、特に多言語社会で一般的な広範な言語現象です。
インドでは、ソーシャルメディアユーザーは、ローマのスクリプトを使用して、特にオンライングループを形成して関連するローカル情報を共有する移民コミュニティの間で、コード混合会話に頻繁に参加します。
この論文は、特にローマの音訳されたベンガル語と英語と混ざったコードミックスされた会話から関連情報を抽出するという課題に焦点を当てています。
この研究では、コードが組み込まれた会話から最も関連性の高い回答を自動的に識別するメカニズムを開発することにより、これらの課題に対処するための新しいアプローチを提示します。
Facebookからのクエリとドキュメントで構成されるデータセット、およびこのタスクを支援するためのクエリ関連ファイル(QREL)を実験しました。
私たちの結果は、複雑でコード混合されたデジタル会話から関連情報を抽出する際のアプローチの有効性を示しており、多言語および非公式のテキスト環境におけるより広い自然言語処理の分野に貢献しています。
関連するドキュメントの順次性質を使用して、クエリに対応する関連ドキュメントを検出するのに役立つ数学モデルをフレーム化するために、プロンプトを介してGPT-3.5ターボを使用します。

要約(オリジナル)

Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-03-26 12:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク