Which Demographics do LLMs Default to During Annotation?

要約

アノテーターの人口統計と文化的背景は、テキスト アノテーションで割り当てるラベルに影響します。たとえば、年配の女性は「兄弟」に宛てられたメッセージを読むのを不快に感じるかもしれませんが、10 代の男性はそれが適切であると考えるかもしれません。
したがって、社会のメンバーを過小評価しないためには、ラベルのバリエーションを認識することが重要です。
データ アノテーションに大規模言語モデル (LLM) を使用するという文脈で、この観察から 2 つの研究方向が開発されました。すなわち、(1) LLM のバイアスと固有の知識を研究すること、および (2) 人口統計情報でプロンプトを操作することによって出力に多様性を導入することです。

私たちはこれら 2 つの研究要素を組み合わせて、人口統計が与えられていない場合に LLM がどの人口統計に頼るかという質問をします。
この質問に答えるために、LLM が本質的にヒューマン アノテーターのどの属性を模倣しているかを評価します。
さらに、非人口統計条件付きプロンプトとプラセボ条件付きプロンプト (例: 「あなたは 5 番の家に住んでいるアノテーターです」) を、人口統計条件付きプロンプト (「あなたは 45 歳の男性で、ポライトネス アノテーションの専門家です」) と比較します。
. {インスタンス}をどのように評価しますか?’)。
私たちは、POPQUORN データセット上の礼儀正しさと不快さの注釈について、これらの質問を研究します。POPQUORN データセットは、これまで LLM ベースの分析には使用されていない、人口統計に基づく人間のラベルの変動を調査するために制御された方法で作成されたコーパスです。
私たちは、人口動態の促進において性別、人種、年齢に関連する顕著な影響を観察しました。これは、そのような影響が見出されなかった以前の研究とは対照的です。

要約(オリジナル)

Demographics and cultural background of annotators influence the labels they assign in text annotation — for instance, an elderly woman might find it offensive to read a message addressed to a ‘bro’, but a male teenager might find it appropriate. It is therefore important to acknowledge label variations to not under-represent members of a society. Two research directions developed out of this observation in the context of using large language models (LLM) for data annotations, namely (1) studying biases and inherent knowledge of LLMs and (2) injecting diversity in the output by manipulating the prompt with demographic information. We combine these two strands of research and ask the question to which demographics an LLM resorts to when no demographics is given. To answer this question, we evaluate which attributes of human annotators LLMs inherently mimic. Furthermore, we compare non-demographic conditioned prompts and placebo-conditioned prompts (e.g., ‘you are an annotator who lives in house number 5’) to demographics-conditioned prompts (‘You are a 45 year old man and an expert on politeness annotation. How do you rate {instance}’). We study these questions for politeness and offensiveness annotations on the POPQUORN data set, a corpus created in a controlled manner to investigate human label variations based on demographics which has not been used for LLM-based analyses so far. We observe notable influences related to gender, race, and age in demographic prompting, which contrasts with previous studies that found no such effects.

arxiv情報

著者 Christopher Bagdon,Aidan Combs,Lynn Greschner,Roman Klinger,Jiahui Li,Sean Papay,Nadine Probol,Yarik Menchaca Resendiz,Johannes Schäfer,Aswathy Velutharambath,Sabine Weber,Amelie Wührl
発行日 2024-10-11 14:02:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Which Demographics do LLMs Default to During Annotation? はコメントを受け付けていません

Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation

要約

検索拡張生成 (RAG) は、外部知識の導入を通じて、オープンドメインの質問応答タスク (OpenQA) で大規模言語モデル (LLM) によって生成される事実誤認と幻覚出力の問題を軽減します。
しかし、複雑な QA の場合、既存の RAG 手法は、取得タイミングが実際の情報ニーズを正確に反映しているか、事前に取得した知識を十分に考慮しているかに関係なく、LLM を使用して取得タイミングを能動的に予測し、取得した情報を生成に直接使用するため、不十分な QA が発生する可能性があります。
情報収集とやり取りが行われ、質の低い回答が得られます。
これらに対処するために、複雑な QA タスク向けに、Adaptive Note-Enhanced RAG (Adaptive-Note) と呼ばれる一般的な RAG アプローチを提案します。これには、新しい Retriever および
-記憶パラダイム。
具体的には、アダプティブ ノートは知識の成長に関する包括的なビューを導入し、新しい情報をノートの形式で繰り返し収集し、既存の最適な知識構造に更新して、高品質の知識の相互作用を強化します。
さらに、十分な知識の探索を促進するために、適応的なメモベースの停止探索戦略を採用して、「何を取得するか、いつ停止するか」を決定します。
私たちは 5 つの複雑な QA データセットに対して広範な実験を実施し、その結果は私たちの手法とそのコンポーネントの優位性と有効性を実証しています。
コードとデータは https://github.com/thunlp/Adaptive-Note にあります。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) mitigates issues of the factual errors and hallucinated outputs generated by Large Language Models (LLMs) in open-domain question-answering tasks (OpenQA) via introducing external knowledge. For complex QA, however, existing RAG methods use LLMs to actively predict retrieval timing and directly use the retrieved information for generation, regardless of whether the retrieval timing accurately reflects the actual information needs, or sufficiently considers prior retrieved knowledge, which may result in insufficient information gathering and interaction, yielding low-quality answers. To address these, we propose a generic RAG approach called Adaptive Note-Enhanced RAG (Adaptive-Note) for complex QA tasks, which includes the iterative information collector, adaptive memory reviewer, and task-oriented generator, while following a new Retriever-and-Memory paradigm. Specifically, Adaptive-Note introduces an overarching view of knowledge growth, iteratively gathering new information in the form of notes and updating them into the existing optimal knowledge structure, enhancing high-quality knowledge interactions. In addition, we employ an adaptive, note-based stop-exploration strategy to decide ‘what to retrieve and when to stop’ to encourage sufficient knowledge exploration. We conduct extensive experiments on five complex QA datasets, and the results demonstrate the superiority and effectiveness of our method and its components. The code and data are at https://github.com/thunlp/Adaptive-Note.

arxiv情報

著者 Ruobing Wang,Daren Zha,Shi Yu,Qingfei Zhao,Yuxuan Chen,Yixuan Wang,Shuo Wang,Yukun Yan,Zhenghao Liu,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2024-10-11 14:03:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation はコメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

要約

理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト (公式および非公式)、および背景雑音条件 (クリーンおよび中程度) などの音声信号のさまざまな特性の下で音声を正確に書き写す機能を備えています。
このようなモデルを構築するには、多様な音声特性を含む大量のトレーニング データが必要です。
現在、インドネシアのデータは読み上げられた形式的できれいな話し言葉が大半を占めており、他の話し方の多様性を含むインドネシア語データが不足しています。
インドネシア語の自動音声認識 (ASR) を開発するために、私たちは最先端の音声認識モデル、つまり大規模多言語音声 (MMS) とささやき声に関する研究を紹介し、また、インドネシア語の音声認識を容易にするための多様性を備えたインドネシア語音声で構成されるデータセットを編集しました。
勉強。
さらに、さまざまな変動グループ間でインドネシア語音声データを転写するモデルの予測能力を調査します。
単語誤り率 (WER) と文字誤り率 (CER) の減少が示すように、さまざまな特性を持つデータセット全体で Whisper 微調整モデルによって最良の結果が得られました。
さらに、話し方のばらつきがモデルのパフォーマンスに最も影響を与えることがわかりました。

要約(オリジナル)

An ideal speech recognition model has the capability to transcribe speech accurately under various characteristics of speech signals, such as speaking style (read and spontaneous), speech context (formal and informal), and background noise conditions (clean and moderate). Building such a model requires a significant amount of training data with diverse speech characteristics. Currently, Indonesian data is dominated by read, formal, and clean speech, leading to a scarcity of Indonesian data with other speech variabilities. To develop Indonesian automatic speech recognition (ASR), we present our research on state-of-the-art speech recognition models, namely Massively Multilingual Speech (MMS) and Whisper, as well as compiling a dataset comprising Indonesian speech with variabilities to facilitate our study. We further investigate the models’ predictive ability to transcribe Indonesian speech data across different variability groups. The best results were achieved by the Whisper fine-tuned model across datasets with various characteristics, as indicated by the decrease in word error rate (WER) and character error rate (CER). Moreover, we found that speaking style variability affected model performance the most.

arxiv情報

著者 Aulia Adila,Dessi Lestari,Ayu Purwarianti,Dipta Tanaya,Kurniawati Azizah,Sakriani Sakti
発行日 2024-10-11 14:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities はコメントを受け付けていません

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

要約

Direct Preference Optimization (DPO) とそのバリアントは、言語モデルを人間の好みに合わせるために使用されることが増えています。
これらの方法は、好ましくない応答と比べて好ましい応答をより頻繁に生成するようにモデルを学習させるように設計されていますが、これまでの研究では、訓練中に好ましい応答の可能性がしばしば低下することが観察されています。
現在の研究は、尤度変位と呼ばれるこの直観に反する現象の原因と影響を明らかにしています。
我々は、尤度のずれが壊滅的な影響を及ぼし、確率の質量を好ましい応答から反対の意味の応答にシフトさせる可能性があることを実証します。
簡単な例として、$\texttt{Never}$ よりも $\texttt{No}$ を優先するようにモデルをトレーニングすると、$\texttt{Yes}$ の確率が大幅に増加します。
さらに、安全でないプロンプトを拒否するようにモデルを調整する場合、確率質量を好ましい拒否反応から有害な反応にシフトすることによって(たとえば、ラマ-3-8B-命令の拒否率を74.4から低下させる)、そのようなずれが意図せずに不調整につながる可能性があることを示します。
%から33.4%)。
我々は、中心化された隠れ埋め込み類似性 (CHES) スコアによって測定されるように、尤度の変位が類似の埋め込みを誘発する選好によって駆動されることを理論的に特徴付けます。
経験的に、CHES スコアを使用すると、特定のデータセット内の尤度の変位に最も寄与するトレーニング サンプルを特定できます。
これらのサンプルをフィルタリングして除去することで、実験における意図しない不整列が効果的に軽減されました。
より広範に、私たちの結果は、十分に明確な好みを持つデータを厳選することの重要性を強調しており、そのために CHES スコアが価値があると私たちは考えています。

要約(オリジナル)

Direct Preference Optimization (DPO) and its variants are increasingly used for aligning language models with human preferences. Although these methods are designed to teach a model to generate preferred responses more frequently relative to dispreferred responses, prior work has observed that the likelihood of preferred responses often decreases during training. The current work sheds light on the causes and implications of this counter-intuitive phenomenon, which we term likelihood displacement. We demonstrate that likelihood displacement can be catastrophic, shifting probability mass from preferred responses to responses with an opposite meaning. As a simple example, training a model to prefer $\texttt{No}$ over $\texttt{Never}$ can sharply increase the probability of $\texttt{Yes}$. Moreover, when aligning the model to refuse unsafe prompts, we show that such displacement can unintentionally lead to unalignment, by shifting probability mass from preferred refusal responses to harmful responses (e.g., reducing the refusal rate of Llama-3-8B-Instruct from 74.4% to 33.4%). We theoretically characterize that likelihood displacement is driven by preferences that induce similar embeddings, as measured by a centered hidden embedding similarity (CHES) score. Empirically, the CHES score enables identifying which training samples contribute most to likelihood displacement in a given dataset. Filtering out these samples effectively mitigated unintentional unalignment in our experiments. More broadly, our results highlight the importance of curating data with sufficiently distinct preferences, for which we believe the CHES score may prove valuable.

arxiv情報

著者 Noam Razin,Sadhika Malladi,Adithya Bhaskar,Danqi Chen,Sanjeev Arora,Boris Hanin
発行日 2024-10-11 14:22:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization はコメントを受け付けていません

Measuring the Inconsistency of Large Language Models in Preferential Ranking

要約

大規模言語モデル (LLM) の最近の進歩にもかかわらず、その偏見と幻覚の問題は依然として残り、一貫した優先順位を提供する LLM の能力は依然として研究されていません。
この研究では、一貫した順序優先度を提供する LLM の能力を調査します。これは、高密度の決定空間があるシナリオや絶対的な答えが欠如しているシナリオでは重要な側面です。
順序理論に基づいた一貫性の形式化を導入し、推移性、非対称性、可逆性、無関係な選択肢からの独立性などの基準を概説します。
厳選された最先端の LLM に関する診断実験では、これらの LLM がこれらの基準を満たすことができないことが明らかになりました。これは、強い位置バイアスと劣った推移性を示しており、無関係な代替案によって好みが簡単に左右されることを示しています。
これらの調査結果は、LLM によって生成された優先順位の重大な矛盾を浮き彫りにし、これらの制限に対処するためのさらなる研究の必要性を強調しています。

要約(オリジナル)

Despite large language models’ (LLMs) recent advancements, their bias and hallucination issues persist, and their ability to offer consistent preferential rankings remains underexplored. This study investigates the capacity of LLMs to provide consistent ordinal preferences, a crucial aspect in scenarios with dense decision space or lacking absolute answers. We introduce a formalization of consistency based on order theory, outlining criteria such as transitivity, asymmetry, reversibility, and independence from irrelevant alternatives. Our diagnostic experiments on selected state-of-the-art LLMs reveal their inability to meet these criteria, indicating a strong positional bias and poor transitivity, with preferences easily swayed by irrelevant alternatives. These findings highlight a significant inconsistency in LLM-generated preferential rankings, underscoring the need for further research to address these limitations.

arxiv情報

著者 Xiutian Zhao,Ke Wang,Wei Peng
発行日 2024-10-11 14:27:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Measuring the Inconsistency of Large Language Models in Preferential Ranking はコメントを受け付けていません

RoRA-VLM: Robust Retrieval-Augmented Vision Language Models

要約

現在の視覚言語モデル (VLM) は、主に視覚オブジェクトとシーンの間のすべての関連付けを、対応するエンティティと背景知識に正確にエンコードするという課題により、知識集約型タスクでは依然としてパフォーマンスが劣っています。
検索拡張手法は外部の知識を統合する効率的な方法を提供しますが、それを視覚言語領域に拡張すると、(1) マルチモーダル クエリ内に固有の不一致があるため、外部ソースから関連情報を正確に取得すること、(2) 回復力があることという点で独特の課題が生じます。
取得されたマルチモーダルな知識の断片に含まれる、無関係で無関係でノイズの多い情報に影響を与えます。
この研究では、VLM 向けに特別に調整された斬新で堅牢な検索拡張フレームワークである RORA-VLM を紹介します。このフレームワークには、次の 2 つの重要な革新があります。 (1) 画像アンカー付きテキストクエリ拡張による 2 段階の検索プロセスにより、視覚的クエリと視覚的クエリを相乗的に組み合わせることができます。
クエリ内のテキスト情報を検索し、最も関連性の高いマルチモーダルなナレッジ スニペットを取得します。
(2) 検索拡張トレーニングプロセスに敵対的なノイズを注入することで、取得されたマルチモーダル知識内の無関係な情報に対する VLM の復元力を強化し、画像内に表示される無関係なエンティティなどの無関係な視覚情報をフィルタリングする、堅牢な検索拡張方法。
クエリ指向の視覚的なトークン改良戦略を介して。
私たちは、広く採用されている 3 つのベンチマーク データセットに対して、提案した手法の有効性と堅牢性を検証するために広範な実験を実施しています。
私たちの結果は、RORA-VLM により、最小限のトレーニング インスタンスで基本モデルのパフォーマンスが大幅に向上し、すべてのベンチマークで常に最新の検索拡張 VLM を上回るパフォーマンスを実現できると同時に、新しいゼロショット ドメインを示していることを示しています。
転送能力。

要約(オリジナル)

Current vision-language models (VLMs) still exhibit inferior performance on knowledge-intensive tasks, primarily due to the challenge of accurately encoding all the associations between visual objects and scenes to their corresponding entities and background knowledge. While retrieval augmentation methods offer an efficient way to integrate external knowledge, extending them to vision-language domain presents unique challenges in (1) precisely retrieving relevant information from external sources due to the inherent discrepancy within the multimodal queries, and (2) being resilient to the irrelevant, extraneous and noisy information contained in the retrieved multimodal knowledge snippets. In this work, we introduce RORA-VLM, a novel and robust retrieval augmentation framework specifically tailored for VLMs, with two key innovations: (1) a 2-stage retrieval process with image-anchored textual-query expansion to synergistically combine the visual and textual information in the query and retrieve the most relevant multimodal knowledge snippets; and (2) a robust retrieval augmentation method that strengthens the resilience of VLMs against irrelevant information in the retrieved multimodal knowledge by injecting adversarial noises into the retrieval-augmented training process, and filters out extraneous visual information, such as unrelated entities presented in images, via a query-oriented visual token refinement strategy. We conduct extensive experiments to validate the effectiveness and robustness of our proposed methods on three widely adopted benchmark datasets. Our results demonstrate that with a minimal amount of training instance, RORA-VLM enables the base model to achieve significant performance improvement and constantly outperform state-of-the-art retrieval-augmented VLMs on all benchmarks while also exhibiting a novel zero-shot domain transfer capability.

arxiv情報

著者 Jingyuan Qi,Zhiyang Xu,Rulin Shao,Yang Chen,Jing Di,Yu Cheng,Qifan Wang,Lifu Huang
発行日 2024-10-11 14:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RoRA-VLM: Robust Retrieval-Augmented Vision Language Models はコメントを受け付けていません

Do Large Language Models have Shared Weaknesses in Medical Question Answering?

要約

大規模言語モデル (LLM) は医療ベンチマークを急速に改善しましたが、その信頼性の低さは、現実世界で安全に使用する上で依然として課題となっています。
特定のモデルではなく、カテゴリとして LLM を使用できるように設計するには、モデル全体に​​現れる共通の長所と短所を理解する必要があります。
この課題に対処するために、さまざまな上位 LLM のベンチマークを実施し、モデル全体で一貫したパターンを特定します。
私たちは、ポーランドの医師免許試験から新たに収集された $874 の質問に対して $16$ の有名な LLM をテストします。
各質問について、トップ 1 の精度と割り当てられた確率の分布に基づいて各モデルをスコア付けします。
次に、これらの結果を、人間にとっての質問の難易度、質問の長さ、他のモデルのスコアなどの要素と比較します。
LLM の精度はペアごとに正の相関がありました ($0.39$ ~ $0.58$)。
モデルのパフォーマンスは人間のパフォーマンスとも相関していましたが ($0.09$ ~ $0.13$)、最高得点の人間と最低得点の人間の質問レベルの精度の差とは負の相関がありました ($-0.09$ ~ $-0.14$)。
上位の出力確率と質問の長さは、それぞれ精度の正と負の予測因子でした (p$< 0.05$)。 最高得点の LLM である GPT-4o Turbo は $84\%$ を獲得し、Claude Opus、Gemini 1.5 Pro、および Llama 3/3.1 は $74\%$ から $79\%$ の間でした。 私たちは、人間の受験者との類似点だけでなく、質問に正しく答えるモデル間の類似点の証拠を発見しました。 通常、モデルが大きいほどパフォーマンスが向上しますが、トレーニング、アーキテクチャ、データの違いも大きな影響を与えます。 モデルの精度は信頼度と正の相関がありましたが、質問の長さとは負の相関がありました。 私たちは古いモデルでも同様の結果を発見し、同様のトレーニング方法を使用する将来のモデルでもこれらのパターンが持続する可能性が高いと主張しています。

要約(オリジナル)

Large language models (LLMs) have made rapid improvement on medical benchmarks, but their unreliability remains a persistent challenge for safe real-world uses. To design for the use LLMs as a category, rather than for specific models, requires developing an understanding of shared strengths and weaknesses which appear across models. To address this challenge, we benchmark a range of top LLMs and identify consistent patterns across models. We test $16$ well-known LLMs on $874$ newly collected questions from Polish medical licensing exams. For each question, we score each model on the top-1 accuracy and the distribution of probabilities assigned. We then compare these results with factors such as question difficulty for humans, question length, and the scores of the other models. LLM accuracies were positively correlated pairwise ($0.39$ to $0.58$). Model performance was also correlated with human performance ($0.09$ to $0.13$), but negatively correlated to the difference between the question-level accuracy of top-scoring and bottom-scoring humans ($-0.09$ to $-0.14$). The top output probability and question length were positive and negative predictors of accuracy respectively (p$< 0.05$). The top scoring LLM, GPT-4o Turbo, scored $84\%$, with Claude Opus, Gemini 1.5 Pro and Llama 3/3.1 between $74\%$ and $79\%$. We found evidence of similarities between models in which questions they answer correctly, as well as similarities with human test takers. Larger models typically performed better, but differences in training, architecture, and data were also highly impactful. Model accuracy was positively correlated with confidence, but negatively correlated with question length. We find similar results with older models, and argue that these patterns are likely to persist across future models using similar training methods.

arxiv情報

著者 Andrew M. Bean,Karolina Korgul,Felix Krones,Robert McCraith,Adam Mahdi
発行日 2024-10-11 14:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do Large Language Models have Shared Weaknesses in Medical Question Answering? はコメントを受け付けていません

Lifelong Event Detection via Optimal Transport

要約

継続的イベント検出 (CED) は、新しいタスク (新たに登場するイベント タイプ) を学習すると、以前のタスクのパフォーマンスが妨げられるという壊滅的な忘却現象により、手ごわい課題を引き起こします。
このペーパーでは、最適トランスポート原理を利用して分類モジュールの最適化を、事前トレーニング済みの言語モデリングで定義されている各クラスの本質的な性質に合わせて調整する新しいアプローチである、最適トランスポートによる生涯イベント検出 (LEDOT) を紹介します。

私たちの手法は、リプレイ セット、プロトタイプの潜在表現、革新的な最適トランスポート コンポーネントを統合しています。
MAVEN および ACE データセットに対する広範な実験により、LEDOT の優れたパフォーマンスが実証され、常に最先端のベースラインを上回っています。
この結果は、LEDOT が継続的なイベント検出における先駆的なソリューションであり、進化する環境における壊滅的な物忘れに対処するためのより効果的かつ微妙なアプローチを提供することを強調しています。

要約(オリジナル)

Continual Event Detection (CED) poses a formidable challenge due to the catastrophic forgetting phenomenon, where learning new tasks (with new coming event types) hampers performance on previous ones. In this paper, we introduce a novel approach, Lifelong Event Detection via Optimal Transport (LEDOT), that leverages optimal transport principles to align the optimization of our classification module with the intrinsic nature of each class, as defined by their pre-trained language modeling. Our method integrates replay sets, prototype latent representations, and an innovative Optimal Transport component. Extensive experiments on MAVEN and ACE datasets demonstrate LEDOT’s superior performance, consistently outperforming state-of-the-art baselines. The results underscore LEDOT as a pioneering solution in continual event detection, offering a more effective and nuanced approach to addressing catastrophic forgetting in evolving environments.

arxiv情報

著者 Viet Dao,Van-Cuong Pham,Quyen Tran,Thanh-Thien Le,Linh Ngo Van,Thien Huu Nguyen
発行日 2024-10-11 15:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Lifelong Event Detection via Optimal Transport はコメントを受け付けていません

Revisiting Hierarchical Text Classification: Inference and Metrics

要約

階層テキスト分類 (HTC) は、階層として編成された構造化スペース内のテキストにラベルを割り当てるタスクです。
最近の研究では、HTC を従来のマルチラベル分類問題として扱い、そのように評価しています。
代わりに、特別に設計された階層メトリクスに基づいてモデルを評価することを提案し、メトリクスの選択と予測推論方法の複雑さを実証します。
私たちは、新しい挑戦的なデータセットを導入し、新しい理論的に動機付けられた損失を含む、一連のシンプルだが強力なベースラインと比較して、最新の洗練されたモデルを公正に評価します。
最後に、これらのベースラインが最新モデルと競合することが非常に多いことを示します。
これは、HTC に新しい手法を提案する際に、評価手法を慎重に検討することの重要性を強調しています。
コードの実装とデータセットは \url{https://github.com/RomanPlaud/revisitingHTC} で入手できます。

要約(オリジナル)

Hierarchical text classification (HTC) is the task of assigning labels to a text within a structured space organized as a hierarchy. Recent works treat HTC as a conventional multilabel classification problem, therefore evaluating it as such. We instead propose to evaluate models based on specifically designed hierarchical metrics and we demonstrate the intricacy of metric choice and prediction inference method. We introduce a new challenging dataset and we evaluate fairly, recent sophisticated models, comparing them with a range of simple but strong baselines, including a new theoretically motivated loss. Finally, we show that those baselines are very often competitive with the latest models. This highlights the importance of carefully considering the evaluation methodology when proposing new methods for HTC. Code implementation and dataset are available at \url{https://github.com/RomanPlaud/revisitingHTC}.

arxiv情報

著者 Roman Plaud,Matthieu Labeau,Antoine Saillenfest,Thomas Bonald
発行日 2024-10-11 15:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Revisiting Hierarchical Text Classification: Inference and Metrics はコメントを受け付けていません

AutoPersuade: A Framework for Evaluating and Explaining Persuasive Arguments

要約

説得力のあるメッセージを構築するための 3 つの部分からなるフレームワークである AutoPersuade を紹介します。
まず、人間による評価を含む議論の大規模なデータセットを厳選します。
次に、説得力に影響を与える議論の特徴を特定するための新しいトピック モデルを開発します。
最後に、このモデルを使用して新しい議論の有効性を予測し、説明を提供するためにさまざまなコンポーネントの因果的影響を評価します。
私たちは、ビーガニズムの議論に関する実験的研究を通じて AutoPersuade を検証し、人間の研究とサンプル外の予測でその有効性を実証します。

要約(オリジナル)

We introduce AutoPersuade, a three-part framework for constructing persuasive messages. First, we curate a large dataset of arguments with human evaluations. Next, we develop a novel topic model to identify argument features that influence persuasiveness. Finally, we use this model to predict the effectiveness of new arguments and assess the causal impact of different components to provide explanations. We validate AutoPersuade through an experimental study on arguments for veganism, demonstrating its effectiveness with human studies and out-of-sample predictions.

arxiv情報

著者 Till Raphael Saenger,Musashi Hinck,Justin Grimmer,Brandon M. Stewart
発行日 2024-10-11 15:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AutoPersuade: A Framework for Evaluating and Explaining Persuasive Arguments はコメントを受け付けていません