Improving Unsupervised Constituency Parsing via Maximizing Semantic Information

要約

教師なし構成素解析器は、文中のフレーズをツリー状の構文構成素構造に整理し、文の意味構造を反映する。しかし、文の対数尤度(LL)を最大化するという従来の目的は、構文構造と意味論との密接な関係を明示的に考慮していないため、LL値と構文解析精度との間に弱い相関関係が生じる。本論文では、構文構造に符号化された意味情報であるSemInfoを最大化することによって構文解析器を学習する新しい目的を導入する。セマンティクスを表現するためにBag-of-Substringsモデルを導入し、確率重み付き情報メトリックを用いてSemInfo値を推定する。SemInfo最大化目標を確率文脈自由文法(PCFG)構文解析器の学習に適用し、Tree Conditional Random Field(TreeCRF)ベースのモデルを開発することで、学習を容易にする。実験により、SemInfoはLLよりも解析精度と強い相関があることが示され、SemInfoがより優れた教師なし解析目的であることが立証された。その結果、我々のアルゴリズムは、5つのPCFGバリアントと4つの言語において、平均7.85文-F1スコアで構文解析精度を大幅に向上させ、4つの言語のうち3つの言語において最先端レベルの結果を達成した。

要約(オリジナル)

Unsupervised constituency parsers organize phrases within a sentence into a tree-shaped syntactic constituent structure that reflects the organization of sentence semantics. However, the traditional objective of maximizing sentence log-likelihood (LL) does not explicitly account for the close relationship between the constituent structure and the semantics, resulting in a weak correlation between LL values and parsing accuracy. In this paper, we introduce a novel objective that trains parsers by maximizing SemInfo, the semantic information encoded in constituent structures. We introduce a bag-of-substrings model to represent the semantics and estimate the SemInfo value using the probability-weighted information metric. We apply the SemInfo maximization objective to training Probabilistic Context-Free Grammar (PCFG) parsers and develop a Tree Conditional Random Field (TreeCRF)-based model to facilitate the training. Experiments show that SemInfo correlates more strongly with parsing accuracy than LL, establishing SemInfo as a better unsupervised parsing objective. As a result, our algorithm significantly improves parsing accuracy by an average of 7.85 sentence-F1 scores across five PCFG variants and in four languages, achieving state-of-the-art level results in three of the four languages.

arxiv情報

著者 Junjie Chen,Xiangheng He,Yusuke Miyao,Danushka Bollegala
発行日 2025-04-04 11:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Improving Unsupervised Constituency Parsing via Maximizing Semantic Information はコメントを受け付けていません

Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings

要約

ステレオタイプは非常に悪質であることが知られており、その発見は極めて重要である。しかし、現在の研究では、LLMにおけるステレオタイプ・バイアスの検出と評価に主眼が置かれており、ステレオタイプの研究は初期段階にとどまっている。多くの研究は、ステレオタイプとステレオタイプ・バイアスを明確に区別できておらず、この分野の研究の進展を著しく遅らせている。ステレオタイプとアンチ・ステレオタイプの検出は、社会に関する知識を必要とする問題であり、それゆえ、責任あるAIにおいて最も困難な分野の一つである。本研究では、この課題を調査し、4つのタプルの定義を提案し、ステレオタイプ、反ステレオタイプ、ステレオタイプ的バイアス、バイアスを区別する正確な用語を提供し、それらの様々な側面に対する貴重な洞察を提供する。本論文では、StereoSetやWinoQueerのような現在のデータセットを最適に利用することで、このタスクのためにキュレートされた高品質のベンチマークデータセットであるStereoDetectを提案する。我々は、10B未満のパラメータを持つ推論のための言語モデルが、しばしばアンチステレオタイプを検出する際に混乱することを実証する。また、ステレオタイプ検出のための他の現行モデルと我々のモデルを比較することで、十分にキュレーションされたデータセットの重要性を示す。データセットとコードはhttps://github.com/KaustubhShejole/StereoDetect。

要約(オリジナル)

Stereotypes are known to be highly pernicious, making their detection critically important. However, current research predominantly focuses on detecting and evaluating stereotypical biases in LLMs, leaving the study of stereotypes in its early stages. Many studies have failed to clearly distinguish between stereotypes and stereotypical biases, which has significantly slowed progress in advancing research in this area. Stereotype and anti-stereotype detection is a problem that requires knowledge of society; hence, it is one of the most difficult areas in Responsible AI. This work investigates this task, where we propose a four-tuple definition and provide precise terminology distinguishing stereotype, anti-stereotype, stereotypical bias, and bias, offering valuable insights into their various aspects. In this paper, we propose StereoDetect, a high-quality benchmarking dataset curated for this task by optimally utilizing current datasets such as StereoSet and WinoQueer, involving a manual verification process and the transfer of semantic information. We demonstrate that language models for reasoning with fewer than 10B parameters often get confused when detecting anti-stereotypes. We also demonstrate the critical importance of well-curated datasets by comparing our model with other current models for stereotype detection. The dataset and code is available at https://github.com/KaustubhShejole/StereoDetect.

arxiv情報

著者 Kaustubh Shivshankar Shejole,Pushpak Bhattacharyya
発行日 2025-04-04 11:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, cs.HC | Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings はコメントを受け付けていません

RMB: Comprehensively Benchmarking Reward Models in LLM Alignment

要約

報酬モデル(RM)は、大規模言語モデル(LLM)のアライメントを導き、人間が好む行動へと導く。RMを評価することは、LLMをより良くアライメントするための鍵となる。しかし、現在のRMの評価は、評価データの分布が限られていることや、評価方法がアライメント目的と密接に関連していないことから、アライメント性能と直接対応しない可能性がある。これらの限界に対処するため、我々は、49以上の実世界シナリオをカバーし、ペアワイズ評価とBoN(Best-of-N)評価の両方を含む包括的なRMベンチマークであるRMBを提案する。本ベンチマークと下流のアライメントタスクの性能との間に正の相関があることを示す。本ベンチマークに基づき、最先端のRMについて広範な分析を行い、これまでのベンチマークでは発見できなかったRMの汎化の欠点を明らかにし、生成的RMの可能性を強調する。さらに、報酬モデルにおける未解決の問題を掘り下げ、特に報酬モデルの評価における多数決の有効性を検証し、評価基準や指示方法の影響など、生成的RMの影響要因を分析する。我々の評価コードとデータセットは、https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark。

要約(オリジナル)

Reward models (RMs) guide the alignment of large language models (LLMs), steering them toward behaviors preferred by humans. Evaluating RMs is the key to better aligning LLMs. However, the current evaluation of RMs may not directly correspond to their alignment performance due to the limited distribution of evaluation data and evaluation methods that are not closely related to alignment objectives. To address these limitations, we propose RMB, a comprehensive RM benchmark that covers over 49 real-world scenarios and includes both pairwise and Best-of-N (BoN) evaluations to better reflect the effectiveness of RMs in guiding alignment optimization. We demonstrate a positive correlation between our benchmark and the downstream alignment task performance. Based on our benchmark, we conduct extensive analysis on the state-of-the-art RMs, revealing their generalization defects that were not discovered by previous benchmarks, and highlighting the potential of generative RMs. Furthermore, we delve into open questions in reward models, specifically examining the effectiveness of majority voting for the evaluation of reward models and analyzing the impact factors of generative RMs, including the influence of evaluation criteria and instructing methods. Our evaluation code and datasets are available at https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark.

arxiv情報

著者 Enyu Zhou,Guodong Zheng,Binghai Wang,Zhiheng Xi,Shihan Dou,Rong Bao,Wei Shen,Limao Xiong,Jessica Fan,Yurong Mou,Rui Zheng,Tao Gui,Qi Zhang,Xuanjing Huang
発行日 2025-04-04 11:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | RMB: Comprehensively Benchmarking Reward Models in LLM Alignment はコメントを受け付けていません

Locations of Characters in Narratives: Andersen and Persuasion Datasets

要約

物語文脈の中で空間理解を把握する機械の能力は、読解の興味深い側面であり、研究が続けられている。物語における登場人物とそれぞれの場所との関係を理解するAIの能力をテストするという目標に突き動かされ、我々は2つの新しいデータセットを紹介する:AndersenとPersuasionである。Andersenデータセットでは、ハンス・クリスチャン・アンデルセンの「Andersen’s Fairy Tales」から15の童話を選択し、各話を通して登場人物とそれぞれの場所を手作業で注釈した。同様に、Persuasionデータセットでは、Jane Austenの小説’Persuasion’の登場人物とその場所を手作業で注釈した。我々はこれらのデータセットを用いて大規模言語モデル(LLM)をプロンプトした。プロンプトは物語や小説から抜粋し、その抜粋に登場する人物の場所を尋ねる質問と組み合わせることで作成される。私たちがテストした5つのLLMのうち、Andersenデータセットで最も良い結果を出したLLMは61.85%の例で場所を正確に特定し、Persuasionデータセットで最も良い結果を出したLLMは56.06%の例で場所を正確に特定した。

要約(オリジナル)

The ability of machines to grasp spatial understanding within narrative contexts is an intriguing aspect of reading comprehension that continues to be studied. Motivated by the goal to test the AI’s competence in understanding the relationship between characters and their respective locations in narratives, we introduce two new datasets: Andersen and Persuasion. For the Andersen dataset, we selected fifteen children’s stories from ‘Andersen’s Fairy Tales’ by Hans Christian Andersen and manually annotated the characters and their respective locations throughout each story. Similarly, for the Persuasion dataset, characters and their locations in the novel ‘Persuasion’ by Jane Austen were also manually annotated. We used these datasets to prompt Large Language Models (LLMs). The prompts are created by extracting excerpts from the stories or the novel and combining them with a question asking the location of a character mentioned in that excerpt. Out of the five LLMs we tested, the best-performing one for the Andersen dataset accurately identified the location in 61.85% of the examples, while for the Persuasion dataset, the best-performing one did so in 56.06% of the cases.

arxiv情報

著者 Batuhan Ozyurt,Roya Arkhmammadova,Deniz Yuret
発行日 2025-04-04 13:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, I.2.7 | Locations of Characters in Narratives: Andersen and Persuasion Datasets はコメントを受け付けていません

Neutralizing the Narrative: AI-Powered Debiasing of Online News Articles

要約

報道における偏向は、特に犯罪、政治、社会問題に関して、人々の認識に大きな影響を与える。従来の偏向検出手法は、主に人間のモデレーションに依存しており、主観的な解釈やスケーラビリティの制約に悩まされている。ここでは、先進的な大規模言語モデル(LLM)、特にGPT-4o、GPT-4o Mini、Gemini Pro、Gemini Flash、Llama 8B、Llama 3Bを活用したAI駆動型フレームワークを紹介し、ニュース記事中のバイアスを体系的に特定し、緩和する。この目的のために、我々は10年間(2013年~2023年)にわたる5つの政治的に多様なニュースソースから30,000以上の犯罪関連記事からなる広範なデータセットを収集する。(2)GPT-4o Miniを用いた反復的なデバイアス、自動再評価と人間レビュアーの両方による検証。その結果、GPT-4o Miniの偏り検出精度とデビアスの有効性が実証された。さらに、我々の分析により、社会政治力学や現実世界の出来事と相関するメディアの偏向の時間的・地理的変動が明らかになった。本研究は、偏向緩和のためのスケーラブルな計算方法論に貢献し、報道における公正さと説明責任を促進する。

要約(オリジナル)

Bias in news reporting significantly impacts public perception, particularly regarding crime, politics, and societal issues. Traditional bias detection methods, predominantly reliant on human moderation, suffer from subjective interpretations and scalability constraints. Here, we introduce an AI-driven framework leveraging advanced large language models (LLMs), specifically GPT-4o, GPT-4o Mini, Gemini Pro, Gemini Flash, Llama 8B, and Llama 3B, to systematically identify and mitigate biases in news articles. To this end, we collect an extensive dataset consisting of over 30,000 crime-related articles from five politically diverse news sources spanning a decade (2013-2023). Our approach employs a two-stage methodology: (1) bias detection, where each LLM scores and justifies biased content at the paragraph level, validated through human evaluation for ground truth establishment, and (2) iterative debiasing using GPT-4o Mini, verified by both automated reassessment and human reviewers. Empirical results indicate GPT-4o Mini’s superior accuracy in bias detection and effectiveness in debiasing. Furthermore, our analysis reveals temporal and geographical variations in media bias correlating with socio-political dynamics and real-world events. This study contributes to scalable computational methodologies for bias mitigation, promoting fairness and accountability in news reporting.

arxiv情報

著者 Chen Wei Kuo,Kevin Chu,Nouar AlDahoul,Hazem Ibrahim,Talal Rahwan,Yasir Zaki
発行日 2025-04-04 15:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY | Neutralizing the Narrative: AI-Powered Debiasing of Online News Articles はコメントを受け付けていません

Pub-Guard-LLM: Detecting Fraudulent Biomedical Articles with Reliable Explanations

要約

科学論文に不正行為が含まれていることが明らかになり、その数は増加の一途をたどっており、医学などの分野における研究の信頼性と安全性に深刻な脅威をもたらしている。我々はPub-Guard-LLMを提案する。Pub-Guard-LLMはバイオメディカル科学論文の不正検出に特化した初の大規模言語モデルベースのシステムである。我々はPub-Guard-LLMを展開するための3つのアプリケーションモードを提供する:バニラ推論、検索拡張生成、マルチエージェント討論。各モードでは予測結果をテキストで説明することができる。我々のシステムの性能を評価するために、メタデータと撤回ラベルを含む11K以上の実世界の生物医学論文からなるオープンソースのベンチマーク、PubMed Retractionを紹介する。その結果、Pub-Guard-LLMは全てのモードにおいて一貫して様々なベースラインの性能を凌駕し、より信頼性の高い説明、すなわち、複数の評価方法によって評価された場合にベースラインによって生成された説明よりも関連性が高く首尾一貫しているとみなされる説明を提供することが示された。Pub-Guard-LLMは、科学的不正検出における検出性能と説明可能性の両方を向上させることで、新規かつ効果的なオープンソースツールを用いて研究の完全性を守ることに貢献する。

要約(オリジナル)

A significant and growing number of published scientific articles is found to involve fraudulent practices, posing a serious threat to the credibility and safety of research in fields such as medicine. We propose Pub-Guard-LLM, the first large language model-based system tailored to fraud detection of biomedical scientific articles. We provide three application modes for deploying Pub-Guard-LLM: vanilla reasoning, retrieval-augmented generation, and multi-agent debate. Each mode allows for textual explanations of predictions. To assess the performance of our system, we introduce an open-source benchmark, PubMed Retraction, comprising over 11K real-world biomedical articles, including metadata and retraction labels. We show that, across all modes, Pub-Guard-LLM consistently surpasses the performance of various baselines and provides more reliable explanations, namely explanations which are deemed more relevant and coherent than those generated by the baselines when evaluated by multiple assessment methods. By enhancing both detection performance and explainability in scientific fraud detection, Pub-Guard-LLM contributes to safeguarding research integrity with a novel, effective, open-source tool.

arxiv情報

著者 Lihu Chen,Shuojie Fu,Gabriel Freedman,Cemre Zor,Guy Martin,James Kinross,Uddhav Vaghela,Ovidiu Serban,Francesca Toni
発行日 2025-04-04 15:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Pub-Guard-LLM: Detecting Fraudulent Biomedical Articles with Reliable Explanations はコメントを受け付けていません

Diverse In-Context Example Selection After Decomposing Programs and Aligned Utterances Improves Semantic Parsing

要約

LLMは、自然言語の発話から構造化されたプログラムへのseq2seqトランスレータとして使われることが多くなっている。アトミックラベルやトークン列とは異なり、プログラムは抽象構文木(AST)として表現される。このような構造化表現は、LLMに提示される文脈内例(ICE)の設計と選択に関する新しい問題を提起する。我々は、利用可能なICEツリーのプールを、テストインスタンスを解くのに適した断片に分解することに重点を置く。次に、プロンプト構文制約を持つLLMの(追加的な)呼び出しを使用して、断片を対応する発話に自動的にマッピングする方法を提案する。最後に、多様なICEを選択するための最近の手法を、ICE全体と断片化されたICEインスタンスで動作するように適応・拡張する。我々のシステムSCUD4ICLを、一般的な多様な意味解析ベンチマークで評価した結果、我々の提案する分解された多様な実証手法により、目に見えて精度が向上することが示された。特に、より小さいLLM、より大きなラベルツリーを持つICEプール、より低リソース言語のプログラムに対して顕著な効果がある。

要約(オリジナル)

LLMs are increasingly used as seq2seq translators from natural language utterances to structured programs, a process called semantic interpretation. Unlike atomic labels or token sequences, programs are naturally represented as abstract syntax trees (ASTs). Such structured representation raises novel issues related to the design and selection of in-context examples (ICEs) presented to the LLM. We focus on decomposing the pool of available ICE trees into fragments, some of which may be better suited to solving the test instance. Next, we propose how to use (additional invocations of) an LLM with prompted syntax constraints to automatically map the fragments to corresponding utterances. Finally, we adapt and extend a recent method for diverse ICE selection to work with whole and fragmented ICE instances. We evaluate our system, SCUD4ICL, on popular diverse semantic parsing benchmarks, showing visible accuracy gains from our proposed decomposed diverse demonstration method. Benefits are particularly notable for smaller LLMs, ICE pools having larger labeled trees, and programs in lower resource languages.

arxiv情報

著者 Mayank Kothyari,Sunita Sarawagi,Soumen Chakrabarti,Gaurav Arora,Srujana Merugu
発行日 2025-04-04 15:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Diverse In-Context Example Selection After Decomposing Programs and Aligned Utterances Improves Semantic Parsing はコメントを受け付けていません

Adaptive Semantic Prompt Caching with VectorQ

要約

意味的プロンプトキャッシュは、意味的に類似したプロンプトに対してキャッシュされたLLM生成応答を再利用することにより、大規模言語モデル(LLM)推論の待ち時間とコストを削減する。ベクトル類似度メトリクスは、埋め込まれたプロンプトとキャッシュ内の最近傍のプロンプトとの間の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、類似性スコアがキャッシュヒットをもたらすのに十分高いかどうかを分類するために、静的な閾値に依存している。我々は、この画一的な閾値では、異なる埋め込みにおいて不十分であることを示す。我々は、埋込みの不確実性に適応する埋込み固有の閾値領域を学習する、閾値収束保証のあるオンラインフレームワークであるVectorQを提案する。3つの多様なデータセットを組み合わせた評価を通じて、VectorQが全ての静的閾値において一貫して最先端のシステムを凌駕し、最大26倍のキャッシュヒット率向上と最大74%のエラー率低減を達成することを示す。

要約(オリジナル)

Semantic prompt caches reduce the latency and cost of large language model (LLM) inference by reusing cached LLM-generated responses for semantically similar prompts. Vector similarity metrics assign a numerical score to quantify the similarity between an embedded prompt and its nearest neighbor in the cache. Existing systems rely on a static threshold to classify whether the similarity score is sufficiently high to result in a cache hit. We show that this one-size-fits-all threshold is insufficient across different embeddings. We propose VectorQ, an online framework with a threshold convergence guarantee to learn embedding-specific threshold regions that adapt to the uncertainty of an embedding. Through evaluations on a combination of three diverse datasets, we show that VectorQ consistently outperforms state-of-the-art systems across all static thresholds, achieving up to 26x increases in cache hit rate and error rate reductions up to 74%.

arxiv情報

著者 Luis Gaspar Schroeder,Shu Liu,Alejandro Cuadron,Mark Zhao,Stephan Krusche,Alfons Kemper,Matei Zaharia,Joseph E. Gonzalez
発行日 2025-04-04 16:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | Adaptive Semantic Prompt Caching with VectorQ はコメントを受け付けていません

Extending the SAREF4ENER Ontology with Flexibility Based on FlexOffers

要約

エネルギーシステムにおける再生可能エネルギーの増加をサポートするための重要な要素は、柔軟性、すなわちエネルギー負荷を時間と量において変更する可能性である。多くの柔軟性モデルが設計されているが、正確なモデルは、長い時間軸や多数の機器に対してスケールすることができない。このため、FlexOffer(FOs)モデルが設計され、デバイスに依存しない柔軟性の近似値を精度よく提供し、長い時間軸や多数のデバイスに対してはるかに優れたスケーリングを実現しています。エネルギー融通性の現実的な実装の重要な側面は、スマートビルディングなどにおいて、多くの種類のスマートエネルギー機器や市場システムとの柔軟なデータ交換を可能にすることである。そのためには、データ形式を標準化するオントロジーが必要である。しかし、エネルギー目的でスマートデバイスを統合するための現在の業界標準オントロジーであるSAREF for Energy Flexibility (SAREF4ENER)は、柔軟性のサポートが限定的であるため、重要なユースケースをサポートすることができない。本論文では、後方互換性を維持しながら、高度なユースケースを含むFlexOfferモデルの完全なサポートを統合するSAREF4ENERの拡張を提案する。この新しいオントロジーモジュールは、電気自動車、バッテリー、ヒートポンプなどの高度な機器の柔軟性を正確に記述することができる。また、多くのフレキシブルな負荷タイプに関連する固有の不確実性も捉えることができる。

要約(オリジナル)

A key element to support the increased amounts of renewable energy in the energy system is flexibility, i.e., the possibility of changing energy loads in time and amount. Many flexibility models have been designed; however, exact models fail to scale for long time horizons or many devices. Because of this, the FlexOffer (FOs) model has been designed, to provide device-independent approximations of flexibility with good accuracy, and much better scaling for long time horizons and many devices. An important aspect of the real-life implementation of energy flexibility is enabling flexible data exchange with many types of smart energy appliances and market systems, e.g., in smart buildings. For this, ontologies standardizing data formats are required. However, the current industry standard ontology for integrating smart devices for energy purposes, SAREF for Energy Flexibility (SAREF4ENER) only has limited support for flexibility and thus cannot support important use cases. In this paper we propose an extension of SAREF4ENER that integrates full support for the complete FlexOffer model, including advanced use cases, while maintaining backward compatibility. This novel ontology module can accurately describe flexibility for advanced devices such as electric vehicles, batteries, and heat pumps. It can also capture the inherent uncertainty associated with many flexible load types.

arxiv情報

著者 Fabio Lilliu,Amir Laadhar,Christian Thomsen,Diego Reforgiato Recupero,Torben Bach Pedersen
発行日 2025-04-04 17:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Extending the SAREF4ENER Ontology with Flexibility Based on FlexOffers はコメントを受け付けていません

Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification

要約

本稿では、Text-To-Audio(TTA)モデルを用いて現実的なデータセットを生成するための効果的なプロンプト戦略の設計について検討する。また、これらのデータセットを効率的に組み合わせ、音声分類タスクにおける有用性を高めるための様々な手法を分析する。2つのTTAモデルを用いて2つの音声分類データセットを評価することにより、様々なプロンプト戦略を適用した。その結果、タスクに特化したプロンプト戦略は、データ生成において基本的なプロンプトアプローチを大幅に上回ることが明らかになった。さらに、異なるTTAモデルを用いて生成されたデータセットをマージすることで、単に学習データセットのサイズを増やすよりも効果的に分類性能が向上することが証明された。全体として、我々の結果は、合成データを用いた効果的なデータ増強技術としてのこれらの手法の利点を強調している。

要約(オリジナル)

This paper investigates the design of effective prompt strategies for generating realistic datasets using Text-To-Audio (TTA) models. We also analyze different techniques for efficiently combining these datasets to enhance their utility in sound classification tasks. By evaluating two sound classification datasets with two TTA models, we apply a range of prompt strategies. Our findings reveal that task-specific prompt strategies significantly outperform basic prompt approaches in data generation. Furthermore, merging datasets generated using different TTA models proves to enhance classification performance more effectively than merely increasing the training dataset size. Overall, our results underscore the advantages of these methods as effective data augmentation techniques using synthetic data.

arxiv情報

著者 Francesca Ronchini,Ho-Hsiang Wu,Wei-Cheng Lin,Fabio Antonacci
発行日 2025-04-04 10:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification はコメントを受け付けていません