RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

要約

コードミックスは、単一の文の複数の言語からの語彙的および文法的要素の統合であり、特に多言語社会で一般的な広範な言語現象です。
インドでは、ソーシャルメディアユーザーは、ローマのスクリプトを使用して、特にオンライングループを形成して関連するローカル情報を共有する移民コミュニティの間で、コード混合会話に頻繁に参加します。
この論文は、特にローマの音訳されたベンガル語と英語と混ざったコードミックスされた会話から関連情報を抽出するという課題に焦点を当てています。
この研究では、コードが組み込まれた会話から最も関連性の高い回答を自動的に識別するメカニズムを開発することにより、これらの課題に対処するための新しいアプローチを提示します。
Facebookからのクエリとドキュメントで構成されるデータセット、およびこのタスクを支援するためのクエリ関連ファイル(QREL)を実験しました。
私たちの結果は、複雑でコード混合されたデジタル会話から関連情報を抽出する際のアプローチの有効性を示しており、多言語および非公式のテキスト環境におけるより広い自然言語処理の分野に貢献しています。
関連するドキュメントの順次性質を使用して、クエリに対応する関連ドキュメントを検出するのに役立つ数学モデルをフレーム化するために、プロンプトを介してGPT-3.5ターボを使用します。

要約(オリジナル)

Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-03-26 12:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval はコメントを受け付けていません

Enhancing Depression Detection via Question-wise Modality Fusion

要約

うつ病は、非常に一般的で障害のある状態であり、実質的な個人的および社会的コストを負担します。
現在のうつ病の診断では、臨床医が実施した自己報告アンケートまたはインタビューを通じて、人のうつ病の重症度を決定することが含まれます。
これはしばしば治療が遅れることにつながり、かなりの人的資源を伴います。
したがって、いくつかの作品は、マルチモーダルデータを使用してプロセスを自動化しようとします。
ただし、通常、次のことを見落としています。i)アンケートの各質問の各モダリティの変動的貢献とii)タスクの順序分類を使用します。
これにより、最適な融合とトレーニング方法が生じます。
この作業では、これらの問題に取り組むために、新しい不均衡な順序ログロス(IMBOLL)関数で訓練された新しい質問ごとのモダリティフュージョン(QuestMF)フレームワークを提案します。
フレームワークのパフォーマンスは、e-DAICデータセットの現在の最先端モデルに匹敵し、各質問のスコアを予測することで解釈可能性を向上させます。
これは、臨床医が個人の症状を特定し、それに応じて介入をカスタマイズできるようにするのに役立ちます。
また、QuestMFフレームワークのコードを公開しています。

要約(オリジナル)

Depression is a highly prevalent and disabling condition that incurs substantial personal and societal costs. Current depression diagnosis involves determining the depression severity of a person through self-reported questionnaires or interviews conducted by clinicians. This often leads to delayed treatment and involves substantial human resources. Thus, several works try to automate the process using multimodal data. However, they usually overlook the following: i) The variable contribution of each modality for each question in the questionnaire and ii) Using ordinal classification for the task. This results in sub-optimal fusion and training methods. In this work, we propose a novel Question-wise Modality Fusion (QuestMF) framework trained with a novel Imbalanced Ordinal Log-Loss (ImbOLL) function to tackle these issues. The performance of our framework is comparable to the current state-of-the-art models on the E-DAIC dataset and enhances interpretability by predicting scores for each question. This will help clinicians identify an individual’s symptoms, allowing them to customise their interventions accordingly. We also make the code for the QuestMF framework publicly available.

arxiv情報

著者 Aishik Mandal,Dana Atzil-Slonim,Thamar Solorio,Iryna Gurevych
発行日 2025-03-26 12:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Depression Detection via Question-wise Modality Fusion はコメントを受け付けていません

Explainable ICD Coding via Entity Linking

要約

臨床コーディングはヘルスケアの重要なタスクですが、臨床コーディングを自動化するための従来の方法は、生産環境でコーダーに十分な明示的な証拠を提供しない場合があります。
医療コーダーは、コードの帰属を正当化する入力健康記録に少なくとも1つの明示的な通過が存在することを確認する必要があるため、この証拠は非常に重要です。
したがって、タスクを問題をリンクするエンティティとして再構築することを提案します。このエンティティでは、各ドキュメントにコードのセットとそれぞれのテキスト証拠が注釈が付けられ、より良いヒューマンマシンコラボレーションを可能にします。
大規模な言語モデル(LLMS)のパラメーター効率の高い微調整を活用することと、制約されたデコードとともに、臨床言及を曖昧にするのに効果的であり、少ないショットシナリオでうまく機能するこの問題を解決するための3つのアプローチを導入します。

要約(オリジナル)

Clinical coding is a critical task in healthcare, although traditional methods for automating clinical coding may not provide sufficient explicit evidence for coders in production environments. This evidence is crucial, as medical coders have to make sure there exists at least one explicit passage in the input health record that justifies the attribution of a code. We therefore propose to reframe the task as an entity linking problem, in which each document is annotated with its set of codes and respective textual evidence, enabling better human-machine collaboration. By leveraging parameter-efficient fine-tuning of Large Language Models (LLMs), together with constrained decoding, we introduce three approaches to solve this problem that prove effective at disambiguating clinical mentions and that perform well in few-shot scenarios.

arxiv情報

著者 Leonor Barreiros,Isabel Coutinho,Gonçalo M. Correia,Bruno Martins
発行日 2025-03-26 12:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explainable ICD Coding via Entity Linking はコメントを受け付けていません

KIEval: Evaluation Metric for Document Key Information Extraction

要約

Document Key Information Extraction(KIE)は、ドキュメント画像の貴重な情報を構造化データに変換するテクノロジーであり、産業環境で重要な機能となっています。
ただし、このテクノロジーの現在の評価メトリックは、産業用アプリケーションの重要な属性を正確に反映していません。
この論文では、ドキュメントKIEモデルの新しいアプリケーション中心の評価メトリックであるKievalを紹介します。
以前のメトリックとは異なり、Kievalは、個々の情報(エンティティ)の抽出だけでなく、構造化された情報(グループ化)の抽出だけでなく、ドキュメントKIEモデルを評価します。
構造化された情報の評価は、産業用設定のドキュメントからグループ化された情報を抽出することをより反映したドキュメントKIEモデルの評価を提供します。
産業用途を念頭に置いて設計されたキーバルは、実際にドキュメントKIEモデルを開発または適用するための標準的な評価メトリックになることができると考えています。
コードは公開されます。

要約(オリジナル)

Document Key Information Extraction (KIE) is a technology that transforms valuable information in document images into structured data, and it has become an essential function in industrial settings. However, current evaluation metrics of this technology do not accurately reflect the critical attributes of its industrial applications. In this paper, we present KIEval, a novel application-centric evaluation metric for Document KIE models. Unlike prior metrics, KIEval assesses Document KIE models not just on the extraction of individual information (entity) but also of the structured information (grouping). Evaluation of structured information provides assessment of Document KIE models that are more reflective of extracting grouped information from documents in industrial settings. Designed with industrial application in mind, we believe that KIEval can become a standard evaluation metric for developing or applying Document KIE models in practice. The code will be publicly available.

arxiv情報

著者 Minsoo Khang,Sang Chul Jung,Sungrae Park,Teakgyu Hong
発行日 2025-03-26 12:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KIEval: Evaluation Metric for Document Key Information Extraction はコメントを受け付けていません

Exploring the Effect of Robotic Embodiment and Empathetic Tone of LLMs on Empathy Elicitation

要約

この研究では、社会的エージェントとの相互作用を通じて、第三者に対する共感の誘発を調査します。
参加者は、物理的なロボットまたは音声対応のチャットボットのいずれかに関与しました。どちらも、共感的なトーンを示すか、ニュートラルのいずれかを示すようにプログラムされた大規模な言語モデル(LLM)によって駆動されます。
相互作用は、架空のキャラクターであるケイティバンクスに焦点を当てています。
参加者がボランティアを喜んで測定したケイティを支援する意欲と、エージェントに対する認識とともに、60人の参加者に対して評価されました。
結果は、ロボットの具体化も共感的なトーンも、参加者のボランティアへの意欲に大きな影響を与えなかったことを示しています。
LLMは人間の共感を効果的にシミュレートしましたが、参加者の真の共感的反応を促進することは挑戦的でした。

要約(オリジナル)

This study investigates the elicitation of empathy toward a third party through interaction with social agents. Participants engaged with either a physical robot or a voice-enabled chatbot, both driven by a large language model (LLM) programmed to exhibit either an empathetic tone or remain neutral. The interaction is focused on a fictional character, Katie Banks, who is in a challenging situation and in need of financial donations. The willingness to help Katie, measured by the number of hours participants were willing to volunteer, along with their perceptions of the agent, were assessed for 60 participants. Results indicate that neither robotic embodiment nor empathetic tone significantly influenced participants’ willingness to volunteer. While the LLM effectively simulated human empathy, fostering genuine empathetic responses in participants proved challenging.

arxiv情報

著者 Liza Darwesh,Jaspreet Singh,Marin Marian,Eduard Alexa,Koen Hindriks,Kim Baraka
発行日 2025-03-26 13:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.RO, H.5.2, I.2.7, I.2.9 | Exploring the Effect of Robotic Embodiment and Empathetic Tone of LLMs on Empathy Elicitation はコメントを受け付けていません

NoLiMa: Long-Context Evaluation Beyond Literal Matching

要約

最近の大規模な言語モデル(LLMS)は、128K〜1Mトークンの範囲の長いコンテキストをサポートしています。
これらの機能を評価するための一般的な方法は、ヘイスタックの針(NIAH)テストです。これには、「ヘイスタック」(長い無関係なコンテキスト)から「針」(関連情報)を取得することが含まれます。
このアプローチの拡張には、ディストラクタの増加、ファクトチェーン、およびコンテキスト内の推論が含まれます。
ただし、これらのベンチマークでは、モデルはタスクを簡素化するために針と干し草のスタックの間の既存のリテラルマッチを活用できます。
これに対処するために、慎重に設計された針セットでニアを拡張するベンチマークであるノリマを紹介します。ここでは、質問と針が最小限の語彙オーバーラップを備えており、ヘイスタック内の針を見つけるための潜在的な関連性を推測するモデルが必要です。
少なくとも128Kトークンのコンテキストをサポートすると主張する12の一般的なLLMを評価します。
短いコンテキスト(<1K)ではうまく機能しますが、コンテキストの長さが増加するにつれてパフォーマンスは大幅に低下します。 たとえば、32Kでは、10モデルが強力な短い長さのベースラインの50%を下回ります。 トップパフォーマンスの例外の1つであるGPT-4Oでさえ、99.3%から69.7%のほぼ完璧なベースラインから減少を経験します。 私たちの分析は、これらの衰退が、文字通りの一致がないときに長いコンテキストで注意メカニズムが直面する難易度の増加から生じ、関連する情報を取得することを難しくすることを示唆しています。 https://github.com/adobe-research/nolimaでデータセットと評価コードを公開しています。

要約(オリジナル)

Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a ‘needle’ (relevant information) from a ‘haystack’ (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 12 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 10 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information. We publicly release the dataset and evaluation code at https://github.com/adobe-research/NoLiMa.

arxiv情報

著者 Ali Modarressi,Hanieh Deilamsalehy,Franck Dernoncourt,Trung Bui,Ryan A. Rossi,Seunghyun Yoon,Hinrich Schütze
発行日 2025-03-26 13:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NoLiMa: Long-Context Evaluation Beyond Literal Matching はコメントを受け付けていません

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

要約

推論モデルの最近の進歩は、特に詳細かつ包括的な推論プロセスを採用することにより、特に数学的推論などの複雑なタスクの精度の大幅な改善を実証しています。
ただし、これらの長い推論シーケンスを生成することは、計算的に高価で時間がかかります。
この非効率性に対処するために、特定のタスクの固有の並列性を活用して、推論プロセスを加速します。
具体的には、複数の並列推論ブランチが存在する場合、特殊な注意マスクを使用してステップごとに複数のトークンをデコードし、単一のシーケンス内でそれらを処理します。
実験結果は、基本的に精度を維持しながら、デコード時間で100%以上のスピードアップを達成することを示しています。

要約(オリジナル)

Recent advances in reasoning models have demonstrated significant improvements in accuracy, particularly for complex tasks such as mathematical reasoning, by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning branches exist, we decode multiple tokens per step using a specialized attention mask, processing them within a single sequence. Experimental results show that our method achieves over 100% speedup in decoding time while basically maintaining accuracy.

arxiv情報

著者 Yijiong Yu
発行日 2025-03-26 13:28:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence はコメントを受け付けていません

A Retrieval-Based Approach to Medical Procedure Matching in Romanian

要約

医療提供者から保険会社が使用する標準化された用語への医療処置の名前を正確にマッピングすることは、重要でありながら複雑なタスクです。
命名規則の矛盾は、誤った手続きにつながり、民間の医療環境で行政上の非効率性と保険請求の問題を引き起こします。
多くの企業は依然として手動マッピングに人事を使用していますが、自動化の明確な機会があります。
このペーパーでは、ルーマニアのヘルスケアシステムにおける医療名の一致のための文の埋め込みを活用する検索ベースのアーキテクチャを提案します。
この課題は、既存の前提条件の言語モデルが医療テキストへのドメイン固有の適応を欠いているルーマニア語などの過小評価されている言語では非常に困難です。
このタスクに最も効果的なソリューションを特定するために、ルーマニア、多言語、および医療ドメイン固有の表現を含む複数の埋め込みモデルを評価します。
私たちの調査結果は、ルーマニア語などの低リソース言語の医療NLPのより広い分野に貢献しています。

要約(オリジナル)

Accurately mapping medical procedure names from healthcare providers to standardized terminology used by insurance companies is a crucial yet complex task. Inconsistencies in naming conventions lead to missclasified procedures, causing administrative inefficiencies and insurance claim problems in private healthcare settings. Many companies still use human resources for manual mapping, while there is a clear opportunity for automation. This paper proposes a retrieval-based architecture leveraging sentence embeddings for medical name matching in the Romanian healthcare system. This challenge is significantly more difficult in underrepresented languages such as Romanian, where existing pretrained language models lack domain-specific adaptation to medical text. We evaluate multiple embedding models, including Romanian, multilingual, and medical-domain-specific representations, to identify the most effective solution for this task. Our findings contribute to the broader field of medical NLP for low-resource languages such as Romanian.

arxiv情報

著者 Andrei Niculae,Adrian Cosma,Emilian Radoi
発行日 2025-03-26 13:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Retrieval-Based Approach to Medical Procedure Matching in Romanian はコメントを受け付けていません

Low-resource Information Extraction with the European Clinical Case Corpus

要約

医療領域の多言語データセットであるE3C-3.0を提示します。これは、疾患と検査結果の関係が注釈された臨床症例を含むものです。
データセットには、5つの言語(英語、フランス語、イタリア語、スペイン語、バスク)のネイティブテキストと、英語のソースから翻訳および投影されたテキストの両方が含まれています。
大規模な言語モデル(LLM)や人間の修正に基づく自動注釈投影など、半自動アプローチが実装されています。
現在の最先端のLLMがE3C-3.0データセットで微調整されることから利益を得ることができることを示すいくつかの実験を提示します。
また、異なる言語での転送学習が非常に効果的であり、データの希少性を軽減することも示しています。
最後に、ネイティブデータと予測データの両方でパフォーマンスを比較します。
https://huggingface.co/collections/nlp-fbk/e3c-projected-676a7d6221608d60e4e9fd89でデータをリリースします。

要約(オリジナル)

We present E3C-3.0, a multilingual dataset in the medical domain, comprising clinical cases annotated with diseases and test-result relations. The dataset includes both native texts in five languages (English, French, Italian, Spanish and Basque) and texts translated and projected from the English source into five target languages (Greek, Italian, Polish, Slovak, and Slovenian). A semi-automatic approach has been implemented, including automatic annotation projection based on Large Language Models (LLMs) and human revision. We present several experiments showing that current state-of-the-art LLMs can benefit from being fine-tuned on the E3C-3.0 dataset. We also show that transfer learning in different languages is very effective, mitigating the scarcity of data. Finally, we compare performance both on native data and on projected data. We release the data at https://huggingface.co/collections/NLP-FBK/e3c-projected-676a7d6221608d60e4e9fd89 .

arxiv情報

著者 Soumitra Ghosh,Begona Altuna,Saeed Farzi,Pietro Ferrazzi,Alberto Lavelli,Giulia Mezzanotte,Manuela Speranza,Bernardo Magnini
発行日 2025-03-26 14:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Low-resource Information Extraction with the European Clinical Case Corpus はコメントを受け付けていません

Optimizing Case-Based Reasoning System for Functional Test Script Generation with Large Language Models

要約

この作業では、ターゲットソフトウェアの動的に進化するコード構造を理解する必要がある機能テストスクリプトを生成するための大規模な言語モデル(LLMS)の可能性を調査します。
これを達成するために、4Rサイクル(つまり、検索、再利用、修正、保持)を使用してケースベースの推論(CBR)システムを提案します。これは、テスト意図の説明と対応するテストスクリプトを維持およびレバレッジして、テストスクリプト生成のLLMを促進します。
ユーザーエクスペリエンスをさらに向上させるために、CBRシステムの最適化方法であるRE4を導入します。これは、再ランキングベースの検索微調整と再利用Finetuningを強化します。
具体的には、最初に、セマンティックとスクリプトの類似性が高い肯定的な例を特定し、コストのかかるラベル付けなしでレトリーバーモデルを微調整するための信頼できる擬似ラベルを提供します。
次に、監視された微調整を適用し、続いて補強材の微調整段階を使用して、LLMSを生産シナリオに合わせて、取得したケースの忠実な再利用を確保します。
Huawei Datacomの2つの製品開発ユニットに関する広範な実験結果は、提案されたCBR+RE4の優位性を示しています。
特に、提案されたRE4メソッドがLLMSの繰り返しの生成の問題を軽減するのに役立つことも示しています。

要約(オリジナル)

In this work, we explore the potential of large language models (LLMs) for generating functional test scripts, which necessitates understanding the dynamically evolving code structure of the target software. To achieve this, we propose a case-based reasoning (CBR) system utilizing a 4R cycle (i.e., retrieve, reuse, revise, and retain), which maintains and leverages a case bank of test intent descriptions and corresponding test scripts to facilitate LLMs for test script generation. To improve user experience further, we introduce Re4, an optimization method for the CBR system, comprising reranking-based retrieval finetuning and reinforced reuse finetuning. Specifically, we first identify positive examples with high semantic and script similarity, providing reliable pseudo-labels for finetuning the retriever model without costly labeling. Then, we apply supervised finetuning, followed by a reinforcement learning finetuning stage, to align LLMs with our production scenarios, ensuring the faithful reuse of retrieved cases. Extensive experimental results on two product development units from Huawei Datacom demonstrate the superiority of the proposed CBR+Re4. Notably, we also show that the proposed Re4 method can help alleviate the repetitive generation issues with LLMs.

arxiv情報

著者 Siyuan Guo,Huiwu Liu,Xiaolong Chen,Yuming Xie,Liang Zhang,Tao Han,Hechang Chen,Yi Chang,Jun Wang
発行日 2025-03-26 14:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE | Optimizing Case-Based Reasoning System for Functional Test Script Generation with Large Language Models はコメントを受け付けていません