Synthetic Fluency: Hallucinations, Confabulations, and the Creation of Irish Words in LLM-Generated Translations

要約

この研究では、アイルランドへの大規模な言語モデル(LLM)翻訳の幻覚を調べています。特に、モデルが新しい、存在しない単語を生成する例に焦点を当てています。
これらの幻覚を動詞および名詞カテゴリ内で分類し、後者の間で6つの異なるパターンを特定します。
さらに、これらの幻覚がアイルランドの形態学的ルールと、彼らが示す言語的傾向を順守するかどうかを分析します。
私たちの調査結果は、GPT-4.OとGPT-4.Oの両方が同様のタイプの幻覚を生成しますが、ミニモデルはそれらを非常に高い頻度で生成することを示しています。
分類を超えて、議論はアイルランド語に対するこれらの幻覚の意味についての投機的な質問を提起します。
決定的な答えを求めるのではなく、LLMの使用の増加と、アイルランドの語彙と言語の進化を形作る上での潜在的な役割に関して、思考のために食物を提供します。
私たちは、特に低リソースの形態学的に豊富な言語の文脈において、そのような技術が時間の経過とともに言語にどのように影響するかについて議論することを促すことを目指しています。

要約(オリジナル)

This study examines hallucinations in Large Language Model (LLM) translations into Irish, specifically focusing on instances where the models generate novel, non-existent words. We classify these hallucinations within verb and noun categories, identifying six distinct patterns among the latter. Additionally, we analyse whether these hallucinations adhere to Irish morphological rules and what linguistic tendencies they exhibit. Our findings show that while both GPT-4.o and GPT-4.o Mini produce similar types of hallucinations, the Mini model generates them at a significantly higher frequency. Beyond classification, the discussion raises speculative questions about the implications of these hallucinations for the Irish language. Rather than seeking definitive answers, we offer food for thought regarding the increasing use of LLMs and their potential role in shaping Irish vocabulary and linguistic evolution. We aim to prompt discussion on how such technologies might influence language over time, particularly in the context of low-resource, morphologically rich languages.

arxiv情報

著者 Sheila Castilho,Zoe Fitzsimmons,Claire Holton,Aoife Mc Donagh
発行日 2025-04-10 12:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Context-Aware Monolingual Human Evaluation of Machine Translation

要約

このペーパーでは、参照のためのソースが与えられていないときに、機械翻訳(MT)を評価するための文脈を認識している単一言語の人間の評価の可能性を探ります。
この目的のために、単一言語をバイリンガル評価(ソーステキストを含む)と比較します。単一のMTシステムの評価と、ペアワイズMTシステムの比較評価です。
4人のプロの翻訳者が、評価を割り当ててエラーに注釈を付け、経験に関するフィードバックを提供することにより、単一言語とバイリンガルの両方の評価を実行しました。
我々の調査結果は、文脈を認識している単言語の人間の評価が、人間のバイリンガル評価に匹敵する結果を達成し、MTを評価するための効率的なアプローチとしての単一言語評価の実現可能性と可能性を示唆することを示唆しています。

要約(オリジナル)

This paper explores the potential of context-aware monolingual human evaluation for assessing machine translation (MT) when no source is given for reference. To this end, we compare monolingual with bilingual evaluations (with source text), under two scenarios: the evaluation of a single MT system, and the comparative evaluation of pairwise MT systems. Four professional translators performed both monolingual and bilingual evaluations by assigning ratings and annotating errors, and providing feedback on their experience. Our findings suggest that context-aware monolingual human evaluation achieves comparable outcomes to human bilingual evaluations, and suggest the feasibility and potential of monolingual evaluation as an efficient approach to assessing MT.

arxiv情報

著者 Silvio Picinini,Sheila Castilho
発行日 2025-04-10 12:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | コメントする

Proactive User Information Acquisition via Chats on User-Favored Topics

要約

最新のニュースの共有や高齢者の虚弱の防止など、具体的な利点を提供するように設計されたチャット指向のダイアログシステムは、多くの場合、ユーザーファイアーなトピック(Pivot)のチャットを介して特定のユーザー情報を積極的に取得する必要があります。
この研究では、これらのシステムの技術的基盤を前進させるように設計されたピボットタスクを提案しています。
このタスクでは、システムは、事前に定義されたトピックでチャットに関与しながら、ユーザーを突然感じさせることなく、事前定義された質問に対するユーザーの回答を取得する必要があります。
最近の大規模な言語モデル(LLMS)でさえ、ピボットタスクで成功率が低いことがわかりました。
より効果的なシステムを開発するために、分析に適したデータセットを構築しました。
最後に、このデータセットの分析を通じて得られた洞察を組み込むことにより、このタスクのシンプルだが効果的なシステムを開発しました。

要約(オリジナル)

Chat-oriented dialogue systems designed to provide tangible benefits, such as sharing the latest news or preventing frailty in senior citizens, often require Proactive acquisition of specific user Information via chats on user-faVOred Topics (PIVOT). This study proposes the PIVOT task, designed to advance the technical foundation for these systems. In this task, a system needs to acquire the answers of a user to predefined questions without making the user feel abrupt while engaging in a chat on a predefined topic. We found that even recent large language models (LLMs) show a low success rate in the PIVOT task. We constructed a dataset suitable for the analysis to develop more effective systems. Finally, we developed a simple but effective system for this task by incorporating insights obtained through the analysis of this dataset.

arxiv情報

著者 Shiki Sato,Jun Baba,Asahi Hentona,Shinji Iwata,Akifumi Yoshimoto,Koichiro Yoshino
発行日 2025-04-10 12:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

MRD-RAG: Enhancing Medical Diagnosis with Multi-Round Retrieval-Augmented Generation

要約

近年、医療大規模な言語モデル(LLMS)を正確かつ迅速に展開することが重要な傾向になりました。
これらの中で、検索された生成(RAG)は、迅速な展開とプライバシー保護の特徴のために大きな注目を集めています。
ただし、既存の医療用ラグフレームワークにはまだ欠点があります。
ほとんどの既存の医療ラグフレームワークは、単一ラウンドの質問回答タスク用に設計されており、マルチラウンドの診断対話には適していません。
一方、既存の医療マルチラウンドラグフレームワークでは、医師のように正確に調査する潜在的な疾患間の相互接続を考慮していません。
これらの問題に対処するために、医師の診断プロセスを模倣するマルチラウンドの診断RAG(MRD-RAG)フレームワークを提案します。
このRAGフレームワークは、潜在的な疾患の診断情報を分析し、医師のように多ラウンドの診断を正確に行うことができます。
提案されたフレームワークの有効性を評価するために、GPTと人間の医師によるさまざまな方法での評価を使用して、2つの最新の医療データセットと2つの伝統的な漢方薬データセットで実験を実施します。
結果は、RAGフレームワークがLLMSの診断パフォーマンスを大幅に向上させることができることを示しており、医療診断におけるアプローチの可能性を強調しています。
コードとデータは、プロジェクトWebサイトhttps://github.com/yixiangch/mrd-rag/tree/masterにあります。

要約(オリジナル)

In recent years, accurately and quickly deploying medical large language models (LLMs) has become a significant trend. Among these, retrieval-augmented generation (RAG) has garnered significant attention due to its features of rapid deployment and privacy protection. However, existing medical RAG frameworks still have shortcomings. Most existing medical RAG frameworks are designed for single-round question answering tasks and are not suitable for multi-round diagnostic dialogue. On the other hand, existing medical multi-round RAG frameworks do not consider the interconnections between potential diseases to inquire precisely like a doctor. To address these issues, we propose a Multi-Round Diagnostic RAG (MRD-RAG) framework that mimics the doctor’s diagnostic process. This RAG framework can analyze diagnosis information of potential diseases and accurately conduct multi-round diagnosis like a doctor. To evaluate the effectiveness of our proposed frameworks, we conduct experiments on two modern medical datasets and two traditional Chinese medicine datasets, with evaluations by GPT and human doctors on different methods. The results indicate that our RAG framework can significantly enhance the diagnostic performance of LLMs, highlighting the potential of our approach in medical diagnosis. The code and data can be found in our project website https://github.com/YixiangCh/MRD-RAG/tree/master.

arxiv情報

著者 Yixiang Chen,Penglei Sun,Xiang Li,Xiaowen Chu
発行日 2025-04-10 13:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

DeepGreen: Effective LLM-Driven Green-washing Monitoring System Designed for Empirical Testing — Evidence from China

要約

このペーパーでは、企業のグリーンウォッシング動作を検出するための大規模な言語モデル駆動型(LLM駆動型)システムであるDeepGreenを提案します。
DeepGREENは、デュアルレイヤーLLM分析を利用して、財務諸表の潜在的なグリーンキーワードを事前に識別し、LLMの反復セマンティック分析を介して実装の程度を評価します。
コア変数の緑化は、2層の出力からの比率から派生しています。
89,893語で構成されるA-Share市場から68社の204社の財務諸表を抽出し、DeepGreenを通じて分析します。
バイオリンのプロットとK-meansのクラスタリングでサポートされている分析は、洞察を明らかにし、Huazheng ESGの評価に対する変数を検証します。
規制機関と投資家に新しい視点を提供し、従来の方法を補完する積極的な監視ツールとして機能します。環境の実装は、企業の資産収益率を大幅に引き上げることができることを示していますが、規模には不均一性があります。
中小企業は、グリーンの実装を介して資産リターンへの貢献が限られているため、グリーンワシングの動機が強くなっています。

要約(オリジナル)

This paper proposes DeepGreen, an Large Language Model Driven (LLM-Driven) system for detecting corporate green-washing behaviour. Utilizing dual-layer LLM analysis, DeepGreen preliminarily identifies potential green keywords in financial statements and then assesses their implementation degree via iterative semantic analysis of LLM. A core variable GreenImplement is derived from the ratio from the two layers’ output. We extract 204 financial statements of 68 companies from A-share market over three years, comprising 89,893 words, and analyse them through DeepGreen. Our analysis, supported by violin plots and K-means clustering, reveals insights and validates the variable against the Huazheng ESG rating. It offers a novel perspective for regulatory agencies and investors, serving as a proactive monitoring tool that complements traditional methods.Empirical tests show that green implementation can significantly boost the asset return rate of companies, but there is heterogeneity in scale. Small and medium-sized companies have limited contribution to asset return via green implementation, so there is a stronger motivation for green-washing.

arxiv情報

著者 Congluo Xu,Yu Miao,Yiling Xiao,Chengmengjia Lin
発行日 2025-04-10 13:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, econ.GN, q-fin.EC | コメントする

Automated Construction of a Knowledge Graph of Nuclear Fusion Energy for Effective Elicitation and Retrieval of Information

要約

このドキュメントでは、大規模なドキュメントコーパスからドメイン固有の知識を構築および表現するための知識グラフの自動構築に対するマルチステップアプローチについて説明します。
私たちの方法を適用して、核融合エネルギーの最初の知識グラフを構築します。これは、広大な範囲と不均一性を特徴とする高度に専門化されたフィールドです。
これは、自動指定されたエンティティ認識やエンティティ解像度など、パイプラインの主要な機能をテストするための理想的なベンチマークです。
事前に訓練された大規模な言語モデルを使用してこれらの課題に対処する方法を示し、人間が生成した自然言語を特徴付けるZIPFの法律に対するパフォーマンスを評価します。
さらに、大規模な言語モデルとマルチプロムプトアプローチを組み合わせたナレッジグラフ検索の高性化システムを開発します。
このシステムは、相互接続されたエンティティ全体で推論を必要とする複雑なマルチホップ質問を含む、自然言語クエリに対する文脈的に関連する回答を提供します。

要約(オリジナル)

In this document, we discuss a multi-step approach to automated construction of a knowledge graph, for structuring and representing domain-specific knowledge from large document corpora. We apply our method to build the first knowledge graph of nuclear fusion energy, a highly specialized field characterized by vast scope and heterogeneity. This is an ideal benchmark to test the key features of our pipeline, including automatic named entity recognition and entity resolution. We show how pre-trained large language models can be used to address these challenges and we evaluate their performance against Zipf’s law, which characterizes human-generated natural language. Additionally, we develop a knowledge-graph retrieval-augmented generation system that combines large language models with a multi-prompt approach. This system provides contextually relevant answers to natural-language queries, including complex multi-hop questions that require reasoning across interconnected entities.

arxiv情報

著者 A. Loreti,K. Chen,R. George,R. Firth,A. Agnello,S. Tanaka
発行日 2025-04-10 13:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Zero-Shot Cross-Domain Code Search without Fine-Tuning

要約

コード検索は、自然言語クエリの意味的に関連するコードスニペットを取得することを目的としています。
事前に訓練された言語モデル(PLMS)はこのタスクで顕著なパフォーマンスを示していますが、クロスドメインのシナリオで苦労しており、多くの場合、ゼロショット設定でコストのかかる微調整または向上パフォーマンスの低下が必要です。
モデル微調整の合成データを生成するRapidは、現在、ゼロショットクロスドメインコード検索の唯一の効果的な方法です。
その有効性にもかかわらず、迅速な要求は微調整にかなりの計算リソースを要求し、各ドメインの特殊なモデルを維持する必要があります。
ゼロショットクロスドメインコード検索に取り組むための鍵は、ドメイン間のギャップを埋めることにあります。
この作業では、クエリコード検索のクエリコードマッチングプロセスを2つの簡単なタスクに分割することを提案します:クエリコームメントマッチングとコードコードマッチング。
私たちの経験的研究は、ゼロショットクロスドメイン設定の3つのマッチングスキーマの間の強い相補性、つまりクエリコード、クエリコメント、およびコードコードマッチングを明らかにしています。
調査結果に基づいて、クロスドメインコード検索のためのゼロショットで微調整されていないアプローチであるCodeBridgeを提案します。
具体的には、CodeBridgeは大規模な言語モデル(LLM)を使用してコメントと擬似コードを生成し、PLMベースの類似性スコアリングとサンプリングベースの融合を介してクエリコード、クエリコメント、およびコードコードマッチングを組み合わせます。
実験結果は、私たちのアプローチが、最先端のPLMベースのコード検索アプローチ、つまりCocosodaとUnixCoderをそれぞれ3つのデータセットで平均21.4%および24.9%上回ることを示しています。
また、私たちのアプローチは、コストのかかる微調整が必​​要なゼロショットクロスドメインコード検索アプローチの結果よりも優れている、または等しい結果と同等の結果をもたらします。

要約(オリジナル)

Code search aims to retrieve semantically relevant code snippets for natural language queries. While pre-trained language models (PLMs) have shown remarkable performance in this task, they struggle in cross-domain scenarios, often requiring costly fine-tuning or facing performance drops in zero-shot settings. RAPID, which generates synthetic data for model fine-tuning, is currently the only effective method for zero-shot cross-domain code search. Despite its effectiveness, RAPID demands substantial computational resources for fine-tuning and needs to maintain specialized models for each domain, underscoring the need for a zero-shot, fine-tuning-free approach for cross-domain code search. The key to tackling zero-shot cross-domain code search lies in bridging the gaps among domains. In this work, we propose to break the query-code matching process of code search into two simpler tasks: query-comment matching and code-code matching. Our empirical study reveals the strong complementarity among the three matching schemas in zero-shot cross-domain settings, i.e., query-code, query-comment, and code-code matching. Based on the findings, we propose CodeBridge, a zero-shot, fine-tuning-free approach for cross-domain code search. Specifically, CodeBridge uses Large Language Models (LLMs) to generate comments and pseudo-code, then combines query-code, query-comment, and code-code matching via PLM-based similarity scoring and sampling-based fusion. Experimental results show that our approach outperforms the state-of-the-art PLM-based code search approaches, i.e., CoCoSoDa and UniXcoder, by an average of 21.4% and 24.9% in MRR, respectively, across three datasets. Our approach also yields results that are better than or comparable to those of the zero-shot cross-domain code search approach RAPID, which requires costly fine-tuning.

arxiv情報

著者 Keyu Liang,Zhongxin Liu,Chao Liu,Zhiyuan Wan,David Lo,Xiaohu Yang
発行日 2025-04-10 13:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | コメントする

Efficient Tuning of Large Language Models for Knowledge-Grounded Dialogue Generation

要約

大規模な言語モデル(LLMS)は、顕著なテキストの理解と生成能力を示しますが、トレーニングデータに含まれていない最新またはドメイン固有の知識を利用する能力がしばしば欠けています。
このギャップに対処するために、知識に基づいた対話生成のためのLLMSを微調整するための効率的な方法であるKeditを紹介します。
Keditは2つの主要なフェーズで動作します。まず、情報ボトルネックを採用して、取得した知識を学習可能なパラメーターに圧縮し、計算オーバーヘッドを最小限に抑えながら重要な情報を保持します。
第二に、軽量の知識認識アダプターは、微調整中にこれらの圧縮された知識ベクトルをLLMに統合し、モデルパラメーターの2 \%未満を更新します。
ウィキペディアのウィザードと新しく構築されたPubMed-Dialogデータセットの実験結果は、Keditが文脈的に関連する有益な応答を生成し、自動、LLMベース、および人間の評価で競争力のあるベースラインを上回ることを示しています。
このアプローチは、前提条件のLLMの強度と、動的知識を組み込むために必要な適応性を効果的に組み合わせて、医学などの分野にスケーラブルなソリューションを提示します。

要約(オリジナル)

Large language models (LLMs) demonstrate remarkable text comprehension and generation capabilities but often lack the ability to utilize up-to-date or domain-specific knowledge not included in their training data. To address this gap, we introduce KEDiT, an efficient method for fine-tuning LLMs for knowledge-grounded dialogue generation. KEDiT operates in two main phases: first, it employs an information bottleneck to compress retrieved knowledge into learnable parameters, retaining essential information while minimizing computational overhead. Second, a lightweight knowledge-aware adapter integrates these compressed knowledge vectors into the LLM during fine-tuning, updating less than 2\% of the model parameters. The experimental results on the Wizard of Wikipedia and a newly constructed PubMed-Dialog dataset demonstrate that KEDiT excels in generating contextually relevant and informative responses, outperforming competitive baselines in automatic, LLM-based, and human evaluations. This approach effectively combines the strengths of pretrained LLMs with the adaptability needed for incorporating dynamic knowledge, presenting a scalable solution for fields such as medicine.

arxiv情報

著者 Bo Zhang,Hui Ma,Dailin Li,Jian Ding,Jian Wang,Bo Xu,HongFei Lin
発行日 2025-04-10 13:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Expressivity and Speech Synthesis

要約

話をする能力を機械に吹き込むことは、人工知能(AI)の研究の長年の追求でした。
コミュニティは、当初から、発話の意味的な意味を正確に伝える高忠実度のスピーチを統合することを目的としているだけでなく、人間ができる感情的な表現の範囲をカバーする変曲で色付けすることも目的としています。
長年の研究の後、私たちは、単一の孤立した発話に関しては、これを達成することの尖った態度にあるようです。
これにより、これらの単一の発話をより複雑で長期的な行動を合成する目的と組み合わせることに関して、探求する潜在的な潜在的な手段が豊富に発表されます。
この章では、これまでのところ私たちをもたらした方法論的進歩を概説し、その切望されている次のレベルの人工表現力に到達するための継続的な取り組みをスケッチします。
また、急速に進歩する表現音声統合(ESS)テクノロジーと相まって社会的意味を議論し、それらのリスクを軽減し、ESS能力の倫理規範との整合を確保する方法を強調します。

要約(オリジナル)

Imbuing machines with the ability to talk has been a longtime pursuit of artificial intelligence (AI) research. From the very beginning, the community has not only aimed to synthesise high-fidelity speech that accurately conveys the semantic meaning of an utterance, but also to colour it with inflections that cover the same range of affective expressions that humans are capable of. After many years of research, it appears that we are on the cusp of achieving this when it comes to single, isolated utterances. This unveils an abundance of potential avenues to explore when it comes to combining these single utterances with the aim of synthesising more complex, longer-term behaviours. In the present chapter, we outline the methodological advances that brought us so far and sketch out the ongoing efforts to reach that coveted next level of artificial expressivity. We also discuss the societal implications coupled with rapidly advancing expressive speech synthesis (ESS) technology and highlight ways to mitigate those risks and ensure the alignment of ESS capabilities with ethical norms.

arxiv情報

著者 Andreas Triantafyllopoulos,Björn W. Schuller
発行日 2025-04-10 14:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering

要約

チャートは遍在しています。多くの場合、人々はそれらを使用してデータを分析し、質問に答え、重要な洞察を発見するためです。
ただし、チャートで複雑な分析タスクを実行するには、重要な知覚的および認知的努力が必要です。
チャート質問応答(CQA)システムは、モデルがデータの視覚的表現で解釈および推論できるようにすることにより、このプロセスを自動化します。
ただし、Chartqaのような既存のベンチマークには、現実世界の多様性がなく、最近では最新の大型ビジョン言語モデル(LVLMS)でパフォーマンスの飽和を示しています。
これらの制限に対処するために、InfographicsやDashboardを含むさまざまなチャートタイプにまたがる157の多様なソースからの1,341のチャートを含む新しいベンチマークであるChartqaproを紹介し、複数の選択、会話、視床下部、および未回答の質問など、さまざまなタイプの1,948の質問を特徴とします。
21のモデルでの評価は、ChartqaproのLVLMSのパフォーマンスが大幅に低下することを示しています。
たとえば、Claude Sonnet 3.5はChartqaで90.5%を獲得しましたが、Chartqaproでは55.81%のみであり、チャート推論の複雑さを強調しています。
詳細なエラー分析とアブレーション研究で調査結果を補完し、チャートの理解と推論でLVLMを進めるための重要な課題と機会を特定します。
https://github.com/vis-nlp/chartqaproでChartqaproをリリースします。

要約(オリジナル)

Charts are ubiquitous, as people often use them to analyze data, answer questions, and discover critical insights. However, performing complex analytical tasks with charts requires significant perceptual and cognitive effort. Chart Question Answering (CQA) systems automate this process by enabling models to interpret and reason with visual representations of data. However, existing benchmarks like ChartQA lack real-world diversity and have recently shown performance saturation with modern large vision-language models (LVLMs). To address these limitations, we introduce ChartQAPro, a new benchmark that includes 1,341 charts from 157 diverse sources, spanning various chart types, including infographics and dashboards, and featuring 1,948 questions in various types, such as multiple-choice, conversational, hypothetical, and unanswerable questions, to better reflect real-world challenges. Our evaluations with 21 models show a substantial performance drop for LVLMs on ChartQAPro; e.g., Claude Sonnet 3.5 scores 90.5% on ChartQA but only 55.81% on ChartQAPro, underscoring the complexity of chart reasoning. We complement our findings with detailed error analyses and ablation studies, identifying key challenges and opportunities for advancing LVLMs in chart understanding and reasoning. We release ChartQAPro at https://github.com/vis-nlp/ChartQAPro.

arxiv情報

著者 Ahmed Masry,Mohammed Saidul Islam,Mahir Ahmed,Aayush Bajaj,Firoz Kabir,Aaryaman Kartha,Md Tahmid Rahman Laskar,Mizanur Rahman,Shadikur Rahman,Mehrad Shahmohammadi,Megh Thakkar,Md Rizwan Parvez,Enamul Hoque,Shafiq Joty
発行日 2025-04-10 14:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする