MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis

要約

鑑別診断(DDX)は、臨床的意思決定の基本的でありながら複雑な側面であり、医師は症状、前件、および医学知識に基づいて、可能な病気のランク付けされたリストを反復的に改良します。
大規模な言語モデルの最近の進歩はDDXのサポートに有望であることが示されていますが、既存のアプローチは、単一データセットの評価、コンポーネントの孤立した最適化、完全な患者プロファイルに関する非現実的な仮定、および単一の診断などの重要な制限に直面しています。
完全な患者プロファイルにアクセスできると仮定するのではなく、診断推論が反復学習を通じて進化するインタラクティブDDX向けに設計されたモジュラー説明可能なDDXエージェント(MEDDXAGENT)フレームワークを導入します。
MedDxagentは、3つのモジュラーコンポーネントを統合します。(1)オーケストレーター(DDXDriver)、(2)シミュレーターを採用する履歴、および(3)知識の検索および診断戦略のための2つの専門的なエージェント。
堅牢な評価を確保するために、呼吸、皮膚、希少疾患をカバーする包括的なDDXベンチマークを導入します。
単一ターンの診断アプローチを分析し、最初に患者プロファイルが利用できない場合の反復改良の重要性を実証します。
当社の幅広い評価は、MedDxagentが大小のLLMと小さなLLMの両方でインタラクティブDDXの10%以上の精度の向上を達成し、その診断推論プロセスに重要な説明可能性を提供することを示しています。

要約(オリジナル)

Differential Diagnosis (DDx) is a fundamental yet complex aspect of clinical decision-making, in which physicians iteratively refine a ranked list of possible diseases based on symptoms, antecedents, and medical knowledge. While recent advances in large language models have shown promise in supporting DDx, existing approaches face key limitations, including single-dataset evaluations, isolated optimization of components, unrealistic assumptions about complete patient profiles, and single-attempt diagnosis. We introduce a Modular Explainable DDx Agent (MEDDxAgent) framework designed for interactive DDx, where diagnostic reasoning evolves through iterative learning, rather than assuming a complete patient profile is accessible. MEDDxAgent integrates three modular components: (1) an orchestrator (DDxDriver), (2) a history taking simulator, and (3) two specialized agents for knowledge retrieval and diagnosis strategy. To ensure robust evaluation, we introduce a comprehensive DDx benchmark covering respiratory, skin, and rare diseases. We analyze single-turn diagnostic approaches and demonstrate the importance of iterative refinement when patient profiles are not available at the outset. Our broad evaluation demonstrates that MEDDxAgent achieves over 10% accuracy improvements in interactive DDx across both large and small LLMs, while offering critical explainability into its diagnostic reasoning process.

arxiv情報

著者 Daniel Rose,Chia-Chien Hung,Marco Lepri,Israa Alqassem,Kiril Gashteovski,Carolin Lawrence
発行日 2025-02-26 14:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis はコメントを受け付けていません

BIG-Bench Extra Hard

要約

大規模な言語モデル(LLM)は、日常のアプリケーションでますます展開されており、堅牢な一般的な推論能力と多様な推論スキルセットを要求しています。
ただし、現在のLLM推論ベンチマークは、主に数学的およびコーディング能力に焦点を当てており、より広範な推論の習慣を評価する際にギャップを残しています。
特定の例外の1つは、LLMの一般的な推論能力を評価するための重要なベンチマークとして機能してきた大手ベンチデータセットです。これは、統一されたフレームワーク内のさまざまなスキルにわたる一般的な推論の包括的な評価を可能にする多様な挑戦的なタスクのおかげで。
ただし、LLMSの最近の進歩により、Big-Benchの飽和が生じ、その難しいバージョンのBig-Bench Hard(BBH)が生じています。
最先端のモデルは、BBHの多くのタスクでほぼ完璧なスコアを達成し、そのユーティリティを減少させます。
この制限に対処するために、LLM推論評価の境界を押し広げるために設計された新しいベンチマークであるBig-Bench Extra Hard(BBEH)を紹介します。
BBEHは、BBHの各タスクを、同様の推論能力を調査するが、困難を大幅に増加させる新しいタスクに置き換えます。
BBEHのさまざまなモデルを評価し、最高の汎用モデルでは9.8 \%の(高調波)精度を観察し、最良の推論専門モデルでは44.8 \%を観察します。
https://github.com/google-deepmind/bbehでBBEHを公開します。

要約(オリジナル)

Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.

arxiv情報

著者 Mehran Kazemi,Bahare Fatemi,Hritik Bansal,John Palowitch,Chrysovalantis Anastasiou,Sanket Vaibhav Mehta,Lalit K. Jain,Virginia Aglietti,Disha Jindal,Peter Chen,Nishanth Dikkala,Gladys Tyen,Xin Liu,Uri Shalit,Silvia Chiappa,Kate Olszewska,Yi Tay,Vinh Q. Tran,Quoc V. Le,Orhan Firat
発行日 2025-02-26 14:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BIG-Bench Extra Hard はコメントを受け付けていません

LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts

要約

\ textbf {目的:}文書視覚的質問応答(ドキュメントVQA)マルチモーダルシステムに挑戦して、テキスト、レイアウト、視覚的モダリティを全体的に処理して適切な回答を提供します。
ドキュメントVQAは、ドキュメントの量が増え、デジタル化に対する需要が高いため、近年人気が高まっています。
それにもかかわらず、ドキュメントVQAデータセットのほとんどは、英語などの高リソース言語で開発されています。
\ textbf {メソッド:}このホワイトペーパーでは、receptevqa(\ textbf {reception} \ textbf {v} isual \ textbf {q} uestion \ textbf {a} nswering)を提示します。
データセットには、\ textbf {9,000+}領収書画像と\ textbf {60,000+}手動で注釈付きの質問回答ペアが含まれます。
私たちの研究に加えて、ligt(\ textbf {l} ayout- \ textbf {i} nfududude \ textbf {g} enerative \ textbf {t} ransformer)、レイアウトアウェアエンコーダーデコーダーアーキテクチャである、レイアウトアウェアエンコーダーデコーダーアーキテクチャである、レイアウトアウェアエンコーダーデコダーアーキテクチャであるLayout-Awareエンコーダーデコダーアーキテクチャを紹介します。
モジュール。
\ textBf {results:} ReceiptVQAの実験は、私たちのアーキテクチャが有望なパフォーマンスをもたらし、優れたベースラインと比較して競争結果を達成したことを示しています。
さらに、実験結果の分析を通して、エンコーダーのみのモデルアーキテクチャを使用すると、回答を生成できるアーキテクチャと比較してかなりの欠点があることがわかりました。
また、言語モデルからの意味的理解の重要な役割にもかかわらず、データセットに取り組むために複数のモダリティを組み合わせる必要があることも観察しました。
\ textBf {結論:}私たちの仕事が、ベトナム文書VQAの将来の発展を奨励し、促進し、ベトナム語の多様なマルチモーダル研究コミュニティに貢献することを願っています。

要約(オリジナル)

\textbf{Purpose:} Document Visual Question Answering (document VQA) challenges multimodal systems to holistically handle textual, layout, and visual modalities to provide appropriate answers. Document VQA has gained popularity in recent years due to the increasing amount of documents and the high demand for digitization. Nonetheless, most of document VQA datasets are developed in high-resource languages such as English. \textbf{Methods:} In this paper, we present ReceiptVQA (\textbf{Receipt} \textbf{V}isual \textbf{Q}uestion \textbf{A}nswering), the initial large-scale document VQA dataset in Vietnamese dedicated to receipts, a document kind with high commercial potentials. The dataset encompasses \textbf{9,000+} receipt images and \textbf{60,000+} manually annotated question-answer pairs. In addition to our study, we introduce LiGT (\textbf{L}ayout-\textbf{i}nfused \textbf{G}enerative \textbf{T}ransformer), a layout-aware encoder-decoder architecture designed to leverage embedding layers of language models to operate layout embeddings, minimizing the use of additional neural modules. \textbf{Results:} Experiments on ReceiptVQA show that our architecture yielded promising performance, achieving competitive results compared with outstanding baselines. Furthermore, throughout analyzing experimental results, we found evident patterns that employing encoder-only model architectures has considerable disadvantages in comparison to architectures that can generate answers. We also observed that it is necessary to combine multiple modalities to tackle our dataset, despite the critical role of semantic understanding from language models. \textbf{Conclusion:} We hope that our work will encourage and facilitate future development in Vietnamese document VQA, contributing to a diverse multimodal research community in the Vietnamese language.

arxiv情報

著者 Thanh-Phong Le,Trung Le Chi Phan,Nghia Hieu Nguyen,Kiet Van Nguyen
発行日 2025-02-26 15:09:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts はコメントを受け付けていません

FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge

要約

さまざまな研究では、不正な曝露を防ぐために、言語モデルから敏感な知識や私的知識を取り除こうとしています。
しかし、以前の研究では、関連する知識を慎重に検討する必要がある知識の複雑で相互に接続された性質を見落としています。
具体的には、学習方法が削除すべき相互接続された知識を忠実に消去し、関連性があるがまったく異なるコンテキストで存在する知識を維持するかどうかを評価できませんでした。
この問題を解決するために、まず表面的な概念と呼ばれる新しい概念を定義します。これは、非学習方法が相互に接続された知識を削除するか、意図せずに無関係な知識を消去できない現象を指します。
定義に基づいて、実際の知識QA設定で学習することの忠実さを分析および評価するために、新しいベンチマークであるWaithunを紹介します。
さらに、知識関連のニューロンのみを更新して、忠実な学習を達成するために、新しい未学習の方法であるKlueを提案します。
Klueは、説明可能性方法を使用して知識ニューロンを識別し、選択した染色サンプルを使用してそれらのニューロンのみを更新します。
実験結果は、広く使用されている未学習の方法が忠実な学習を確実に保証できないことを示していますが、私たちの方法は実際のQA学習において重要な有効性を示しています。

要約(オリジナル)

Various studies have attempted to remove sensitive or private knowledge from a language model to prevent its unauthorized exposure. However, prior studies have overlooked the complex and interconnected nature of knowledge, where related knowledge must be carefully examined. Specifically, they have failed to evaluate whether an unlearning method faithfully erases interconnected knowledge that should be removed, retaining knowledge that appears relevant but exists in a completely different context. To resolve this problem, we first define a new concept called superficial unlearning, which refers to the phenomenon where an unlearning method either fails to erase the interconnected knowledge it should remove or unintentionally erases irrelevant knowledge. Based on the definition, we introduce a new benchmark, FaithUn, to analyze and evaluate the faithfulness of unlearning in real-world knowledge QA settings. Furthermore, we propose a novel unlearning method, KLUE, which updates only knowledge-related neurons to achieve faithful unlearning. KLUE identifies knowledge neurons using an explainability method and updates only those neurons using selected unforgotten samples. Experimental results demonstrate that widely-used unlearning methods fail to ensure faithful unlearning, while our method shows significant effectiveness in real-world QA unlearning.

arxiv情報

著者 Nakyeong Yang,Minsung Kim,Seunghyun Yoon,Joongbo Shin,Kyomin Jung
発行日 2025-02-26 15:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge はコメントを受け付けていません

MultiConAD: A Unified Multilingual Conversational Dataset for Early Alzheimer’s Detection

要約

認知症は、主要な原因としてアルツハイマー病(AD)を伴う進行性認知症候群です。
会話ベースの広告検出は、言語の機能不全はADの初期バイオマーカーであるため、臨床方法に代わる費用対効果の高い代替品を提供します。
ただし、ほとんどの以前の研究では、AD検出がバイナリ分類問題として組み立てられており、早期介入のための重要な段階である軽度の認知障害(MCI)を特定する能力が制限されています。
また、研究は主に単一言語のデータセット、主に英語で依存しており、言語間の一般化を制限しています。
このギャップに対処するために、3つの重要な貢献をします。
まず、16の公開されている認知症関連の会話データセットを統一することにより、広告検出のための新しい多言語データセットを紹介します。
このコーパスは、英語、スペイン語、中国語、ギリシャ語にまたがっており、さまざまな認知評価タスクから派生したオーディオデータとテキストデータの両方が組み込まれています。
第二に、MCIを含むより細かい分類を実行し、まばらで密なテキスト表現を使用してさまざまな分類器を評価します。
第三に、私たちは単一言語および多言語の設定で実験を実施し、一部の言語は多言語トレーニングの恩恵を受けるが、他の言語は独立してより良いパフォーマンスを発揮することを発見しました。
この研究は、多言語広告検出の課題を強調し、モデルの一般化と堅牢性を改善することを目的とした言語固有のアプローチと技術​​の両方に関する将来の研究を可能にします。

要約(オリジナル)

Dementia is a progressive cognitive syndrome with Alzheimer’s disease (AD) as the leading cause. Conversation-based AD detection offers a cost-effective alternative to clinical methods, as language dysfunction is an early biomarker of AD. However, most prior research has framed AD detection as a binary classification problem, limiting the ability to identify Mild Cognitive Impairment (MCI)-a crucial stage for early intervention. Also, studies primarily rely on single-language datasets, mainly in English, restricting cross-language generalizability. To address this gap, we make three key contributions. First, we introduce a novel, multilingual dataset for AD detection by unifying 16 publicly available dementia-related conversational datasets. This corpus spans English, Spanish, Chinese, and Greek and incorporates both audio and text data derived from a variety of cognitive assessment tasks. Second, we perform finer-grained classification, including MCI, and evaluate various classifiers using sparse and dense text representations. Third, we conduct experiments in monolingual and multilingual settings, finding that some languages benefit from multilingual training while others perform better independently. This study highlights the challenges in multilingual AD detection and enables future research on both language-specific approaches and techniques aimed at improving model generalization and robustness.

arxiv情報

著者 Arezo Shakeri,Mina Farmanbar,Krisztian Balog
発行日 2025-02-26 15:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MultiConAD: A Unified Multilingual Conversational Dataset for Early Alzheimer’s Detection はコメントを受け付けていません

Bi’an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)の幻覚を効果的に減少させますが、一貫性のないまたはサポートされていないコンテンツを生成できます。
LLM-as-a-judgeは、その実装の単純さのためにRAG幻覚検出に広く使用されていますが、包括的な評価ベンチマークの欠如とドメインが最適化された裁判官モデルの欠如という2つの主な課題に直面しています。
これらのギャップを埋めるために、バイリンガルのベンチマークデータセットと軽量の裁判官モデルを備えた新しいフレームワークである\ textBf {bi’an}を紹介します。
データセットは、複数のRAGシナリオで厳密な評価をサポートし、裁判官モデルはコンパクトなオープンソースLLMから微調整されています。
Bi’Anbenchでの広範な実験的評価は、14Bモデルがベースラインモデルを5倍以上のパラメータースケールを超え、最先端のクローズドソースLLMをライバルで上回ることを示しています。
すぐにhttps://github.com/openspg/kag​​でデータとモデルをリリースします。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) effectively reduces hallucinations in Large Language Models (LLMs) but can still produce inconsistent or unsupported content. Although LLM-as-a-Judge is widely used for RAG hallucination detection due to its implementation simplicity, it faces two main challenges: the absence of comprehensive evaluation benchmarks and the lack of domain-optimized judge models. To bridge these gaps, we introduce \textbf{Bi’an}, a novel framework featuring a bilingual benchmark dataset and lightweight judge models. The dataset supports rigorous evaluation across multiple RAG scenarios, while the judge models are fine-tuned from compact open-source LLMs. Extensive experimental evaluations on Bi’anBench show our 14B model outperforms baseline models with over five times larger parameter scales and rivals state-of-the-art closed-source LLMs. We will release our data and models soon at https://github.com/OpenSPG/KAG.

arxiv情報

著者 Zhouyu Jiang,Mengshu Sun,Zhiqiang Zhang,Lei Liang
発行日 2025-02-26 15:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Bi’an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation はコメントを受け付けていません

Negation-Induced Forgetting in LLMs

要約

この研究では、大規模な言語モデル(LLM)が否定誘発忘却(NIF)を示すかどうかを調査します。これは、オブジェクトまたはイベントの誤った属性を否定することが、正しい属性を肯定することと比較してこのオブジェクトまたはイベントのリコールの減少につながることを示すかどうかを調査します(Mayo et al。、2014; Zang et al。、2023)。
Zang et al。
(2023)CHATGPT-3.5、GPT-4O MINIおよびLLAMA3-70B-Instructでこの効果をテストする実験的フレームワーク。
我々の結果は、ChatGPT-3.5がNIFを示しており、否定された情報が肯定された情報よりもリコールされる可能性が低いことを示しています。
GPT-4O-MINIはわずかに有意なNIF効果を示し、Llama-3-70BはNIFを示しませんでした。
調査結果は、一部のLLMで否定誘発性の忘却の初期証拠を提供し、これらのモデルで同様の認知バイアスが出現する可能性があることを示唆しています。
この作業は、メモリ関連の現象がLLMSでどのように現れるかを理解するための予備的なステップです。

要約(オリジナル)

The study explores whether Large Language Models (LLMs) exhibit negation-induced forgetting (NIF), a cognitive phenomenon observed in humans where negating incorrect attributes of an object or event leads to diminished recall of this object or event compared to affirming correct attributes (Mayo et al., 2014; Zang et al., 2023). We adapted Zang et al. (2023) experimental framework to test this effect in ChatGPT-3.5, GPT-4o mini and Llama3-70b-instruct. Our results show that ChatGPT-3.5 exhibits NIF, with negated information being less likely to be recalled than affirmed information. GPT-4o-mini showed a marginally significant NIF effect, while LLaMA-3-70B did not exhibit NIF. The findings provide initial evidence of negation-induced forgetting in some LLMs, suggesting that similar cognitive biases may emerge in these models. This work is a preliminary step in understanding how memory-related phenomena manifest in LLMs.

arxiv情報

著者 Francesca Capuano,Ellen Boschert,Barbara Kaup
発行日 2025-02-26 15:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Negation-Induced Forgetting in LLMs はコメントを受け付けていません

AfroBench: How Good are Large Language Models on African Languages?

要約

メガなどの大規模な多言語評価には、高品質の評価データが不足しているため、既存のアフリカのデータセットの発見が限られているため、ほんの一握りのアフリカ言語しか含まれていません。
この表現の欠如は、多様な言語とタスクにわたる包括的なLLM評価を妨げます。
これらの課題に対処するために、Afrobenchを紹介します。これは、64のアフリカ言語、15のタスク、22のデータセットにわたるLLMのパフォーマンスを評価するためのマルチタスクベンチマークです。
Afrobenchは、9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問に答えるタスク、および1つの数学的推論タスクで構成されています。
LLMSプロンプトのパフォーマンスを、BertおよびT5スタイルのモデルに基づいて微調整されたベースラインと比較する結果を提示します。
私たちの結果は、ほとんどのタスクにわたる英語やアフリカの言語など、高リソース言語間のパフォーマンスの大きなギャップを示唆しています。
しかし、パフォーマンスは、単一言語のデータリソースの可用性に基づいて異なります。
私たちの調査結果は、アフリカ言語のパフォーマンスが現在のLLMのハードルであり続けており、このギャップを埋めるための追加の努力の必要性を強調していることを確認しています。
https://mcgill-nlp.github.io/afrobench/

要約(オリジナル)

Large-scale multilingual evaluations, such as MEGA, often include only a handful of African languages due to the scarcity of high-quality evaluation data and the limited discoverability of existing African datasets. This lack of representation hinders comprehensive LLM evaluation across a diverse range of languages and tasks. To address these challenges, we introduce AfroBench — a multi-task benchmark for evaluating the performance of LLMs across 64 African languages, 15 tasks and 22 datasets. AfroBench consists of nine natural language understanding datasets, six text generation datasets, six knowledge and question answering tasks, and one mathematical reasoning task. We present results comparing the performance of prompting LLMs to fine-tuned baselines based on BERT and T5-style models. Our results suggest large gaps in performance between high-resource languages, such as English, and African languages across most tasks; but performance also varies based on the availability of monolingual data resources. Our findings confirm that performance on African languages continues to remain a hurdle for current LLMs, underscoring the need for additional efforts to close this gap. https://mcgill-nlp.github.io/AfroBench/

arxiv情報

著者 Jessica Ojo,Odunayo Ogundepo,Akintunde Oladipo,Kelechi Ogueji,Jimmy Lin,Pontus Stenetorp,David Ifeoluwa Adelani
発行日 2025-02-26 15:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AfroBench: How Good are Large Language Models on African Languages? はコメントを受け付けていません

Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription

要約

自動音声認識(ASR)の多くの実際のアプリケーションでは、重複した音声の処理が必要です。
一般的な方法では、最初に音声をASRが実行されるオーバーラップのないストリームに分離することが含まれます。
最近、TF-Gridnetは、実際の反響条件で音声分離の印象的なパフォーマンスを示しています。
さらに、混合エンコーダが提案され、混合音声を活用して分離アーティファクトの効果を軽減することが提案されました。
この作業では、静的な2スピーカーシナリオから、任意の数のスピーカーとさまざまな程度のオーバーラップを特徴とする自然な会議のコンテキストに混合エンコーダーを拡張しました。
さらに、TF-Gridnetを含むさまざまな強度の分離器との統合により、その限界を示します。
私たちの実験は、単一のマイクを使用したリブリックの新しい最先端のパフォーマンスをもたらします。
彼らは、TF-グリッドネットが、混合エンコーディングとは無関係に以前の方法とOracle分離の間のギャップを大幅に閉じていることを示しています。
さらに、改善の残りの可能性を調査します。

要約(オリジナル)

Many real-life applications of automatic speech recognition (ASR) require processing of overlapped speech. A common method involves first separating the speech into overlap-free streams on which ASR is performed. Recently, TF-GridNet has shown impressive performance in speech separation in real reverberant conditions. Furthermore, a mixture encoder was proposed that leverages the mixed speech to mitigate the effect of separation artifacts. In this work, we extended the mixture encoder from a static two-speaker scenario to a natural meeting context featuring an arbitrary number of speakers and varying degrees of overlap. We further demonstrate its limits by the integration with separators of varying strength including TF-GridNet. Our experiments result in a new state-of-the-art performance on LibriCSS using a single microphone. They show that TF-GridNet largely closes the gap between previous methods and oracle separation independent of mixture encoding. We further investigate the remaining potential for improvement.

arxiv情報

著者 Peter Vieting,Simon Berger,Thilo von Neumann,Christoph Boeddeker,Ralf Schlüter,Reinhold Haeb-Umbach
発行日 2025-02-26 15:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription はコメントを受け付けていません

UniGenCoder: Merging Seq2Seq and Seq2Tree Paradigms for Unified Code Generation

要約

深い学習ベースのコード生成は、開発者が今日プログラムを書く方法を完全に変えました。
コード生成への既存のアプローチは、ターゲットコードを一連のトークンとして生成するシーケンスからシーケンスへのパラダイム、またはコードを一連のアクションとして出力するシーケンスツリーパラダイムのいずれかに焦点を合わせています。
これらの2つのパラダイムは直感的に相補的ですが、それらの組み合わせは以前に調査されていません。
これらの2つのパラダイムの下で生成されたコードを比較することにより、それらを統合することが重要な可能性をもたらすことがわかります。
このホワイトペーパーでは、共有エンコーダー、2つのパラダイムを統合するための最小限のパラメーターセットを備えた共有デコーダー、および各インスタンスで最適なパラダイムを動的に選択するセレクターで構成されるコード関連の生成タスクのユニゲンコーダーを提案します。
また、モデルトレーニング中に、最初にマルチタスク学習と蒸留戦略を実行して、2つのパラダイム間の知識移転を促進し、次に対照的な学習を活用してセレクターを訓練します。
テキストからコードへの実験結果とコードからコードへの生成タスクは、提案されたモデルの有効性を示しています。
https://github.com/deeplearnxmu/unigencoderでコードをリリースします。

要約(オリジナル)

Deep learning-based code generation has completely transformed the way developers write programs today. Existing approaches to code generation have focused either on the Sequence-to-Sequence paradigm, which generates target code as a sequence of tokens, or the Sequence-to-Tree paradigm, which outputs code as a sequence of actions. While these two paradigms are intuitively complementary, their combination has not been previously explored. By comparing the code generated under these two paradigms, we find that integrating them holds significant potential. In this paper, we propose UniGenCoder for code-related generation tasks, which consists of a shared encoder, a shared decoder with a minimal set of additional parameters to unify two paradigms, and a selector that dynamically chooses optimal paradigm for each instance. Also, during the model training, we first perform the multi-task learning and distillation strategies to facilitate knowledge transfer between two paradigms, and then leverage contrastive learning to train the selector. Experimental results on the text-to-code and code-to-code generation tasks demonstrate the effectiveness of our proposed model. We release our code at https://github.com/DeepLearnXMU/UniGenCoder.

arxiv情報

著者 Liangying Shao,Yanfu Yan,Denys Poshyvanyk,Jinsong Su
発行日 2025-02-26 15:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UniGenCoder: Merging Seq2Seq and Seq2Tree Paradigms for Unified Code Generation はコメントを受け付けていません