NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models

要約

大規模言語モデル (LLM) における幻覚は、特に事実の正確さが重要な一か八かのアプリケーションにおいて、依然として大きな障害となっています。
表現の編集および読み取り方法は幻覚の軽減に進歩を遂げていますが、特殊なツールとドメイン内サンプルでのトレーニングに大きく依存しているため、拡張が難しく、過剰学習が起こりやすくなっています。
これにより、精度の向上と多様なデータセットへの一般化が制限されます。
この論文では、アテンション ヘッド ノルムの未開発の可能性を利用して、ゼロショット多肢選択質問 (MCQ) における事実の精度を劇的に向上させる、軽量な手法であるノルム投票 (NoVo) を紹介します。
NoVo は、わずか 30 個のランダム サンプルを使用した、効率的な推論のみのアルゴリズムを使用して、真実相関の頭部ノルムを自動的に選択することから始まり、NoVo がさまざまなデータセットに簡単に拡張できるようになります。
その後、選択されたヘッド ノルムが単純な投票アルゴリズムに採用され、予測精度が大幅に向上します。
TruthfulQA MC1 では、NoVo は現在の最先端および以前のすべての方法を驚異的なマージンで上回っています (少なくとも 19 精度ポイント)。
NoVo は、20 の多様なデータセットに対する並外れた一般化を示し、その 90% 以上で大幅な向上が見られ、現在のすべての表現編集および読み取り方法をはるかに上回っています。
NoVo はまた、戦略を微調整し、テキストによる敵対的防御を構築することで有望な利益が得られることも明らかにしています。
ヘッド基準を備えた NoVo の有効性は、LLM の解釈可能性、堅牢性、信頼性において新たな境地を開きます。

要約(オリジナル)

Hallucinations in Large Language Models (LLMs) remain a major obstacle, particularly in high-stakes applications where factual accuracy is critical. While representation editing and reading methods have made strides in reducing hallucinations, their heavy reliance on specialised tools and training on in-domain samples, makes them difficult to scale and prone to overfitting. This limits their accuracy gains and generalizability to diverse datasets. This paper presents a lightweight method, Norm Voting (NoVo), which harnesses the untapped potential of attention head norms to dramatically enhance factual accuracy in zero-shot multiple-choice questions (MCQs). NoVo begins by automatically selecting truth-correlated head norms with an efficient, inference-only algorithm using only 30 random samples, allowing NoVo to effortlessly scale to diverse datasets. Afterwards, selected head norms are employed in a simple voting algorithm, which yields significant gains in prediction accuracy. On TruthfulQA MC1, NoVo surpasses the current state-of-the-art and all previous methods by an astounding margin — at least 19 accuracy points. NoVo demonstrates exceptional generalization to 20 diverse datasets, with significant gains in over 90\% of them, far exceeding all current representation editing and reading methods. NoVo also reveals promising gains to finetuning strategies and building textual adversarial defence. NoVo’s effectiveness with head norms opens new frontiers in LLM interpretability, robustness and reliability.

arxiv情報

著者 Zheng Yi Ho,Siyuan Liang,Sen Zhang,Yibing Zhan,Dacheng Tao
発行日 2024-10-11 16:40:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models はコメントを受け付けていません

ALVIN: Active Learning Via INterpolation

要約

アクティブ ラーニングは、ラベルのないデータのプールから最も有用なインスタンスを選択することで、アノテーションの労力を最小限に抑えることを目的としています。
しかし、典型的な能動学習手法では、クラス内の個別の例グループの存在が見落とされており、その普及率はさまざまであり、たとえば、職業分類データセットでは、特定の人口統計が特定のクラスに不均衡に表されています。
この見落としにより、モデルは予測の近道、つまり、適切に表現されたグループ内で発生する入力属性とラベル間の偽の相関に依存することになります。
この問題に対処するために、ALVIN (Active Learning Via INterpolation) を提案します。ALVIN は、過小表現されたグループと十分に表現されたグループのサンプル間でクラス内補間を実行し、アンカー、つまり表現空間内のサンプル グループ間に位置する人工的な点を作成します。
ALVIN は、注釈のアンカーに近いインスタンスを選択することで、ショートカットの影響を打ち消す表現空間の領域にモデルを公開する有益な例を特定します。
重要なのは、モデルではこれらの例は確実性が高いとみなされるため、一般的なアクティブ ラーニング手法では無視される可能性が高くなります。
感情分析、自然言語推論、言い換え検出を含む 6 つのデータセットに関する実験結果は、ALVIN が分布内および分布外の汎化の両方で最先端のアクティブ ラーニング手法を上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Active Learning aims to minimize annotation effort by selecting the most useful instances from a pool of unlabeled data. However, typical active learning methods overlook the presence of distinct example groups within a class, whose prevalence may vary, e.g., in occupation classification datasets certain demographics are disproportionately represented in specific classes. This oversight causes models to rely on shortcuts for predictions, i.e., spurious correlations between input attributes and labels occurring in well-represented groups. To address this issue, we propose Active Learning Via INterpolation (ALVIN), which conducts intra-class interpolations between examples from under-represented and well-represented groups to create anchors, i.e., artificial points situated between the example groups in the representation space. By selecting instances close to the anchors for annotation, ALVIN identifies informative examples exposing the model to regions of the representation space that counteract the influence of shortcuts. Crucially, since the model considers these examples to be of high certainty, they are likely to be ignored by typical active learning methods. Experimental results on six datasets encompassing sentiment analysis, natural language inference, and paraphrase detection demonstrate that ALVIN outperforms state-of-the-art active learning methods in both in-distribution and out-of-distribution generalization.

arxiv情報

著者 Michalis Korakakis,Andreas Vlachos,Adrian Weller
発行日 2024-10-11 16:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | ALVIN: Active Learning Via INterpolation はコメントを受け付けていません

Learning Representations of Instruments for Partial Identification of Treatment Effects

要約

観察データから治療効果を信頼性高く推定することは、医学などの多くの分野において重要です。
ただし、因果推論の文献における標準的な仮定としての無交絡性に違反すると、推定は困難になります。
この研究では、任意の (潜在的に高次元の) 手段を活用して、条件付き平均治療効果 (CATE) の限界を推定します。
私たちの貢献は 3 つあります。 (1) CATE 上で有効な境界を生み出すために、機器を離散表現空間にマッピングすることにより、部分的な識別のための新しいアプローチを提案します。
これは、現実世界のアプリケーションで信頼性の高い意思決定を行うために非常に重要です。
(2) 潜在的な機器空間の調整された神経分割を使用して、厳密な境界を学習する 2 段階の手順を導き出します。
結果として、数値近似や敵対的トレーニングによる不安定性の問題を回避します。
さらに、私たちの手順は、有限サンプル設定での推定の分散を減らし、より信頼性の高い推定値を生成することを目的としています。
(3) 私たちの手順が推定の分散を減らしながら有効な範囲を取得することを理論的に示します。
さらに、さまざまな設定での有効性を実証するために広範な実験を実施します。
全体として、私たちの手順は、潜在的に高次元の手段(たとえば、メンデルのランダム化など)を利用するための新しい道を実践者に提供します。

要約(オリジナル)

Reliable estimation of treatment effects from observational data is important in many disciplines such as medicine. However, estimation is challenging when unconfoundedness as a standard assumption in the causal inference literature is violated. In this work, we leverage arbitrary (potentially high-dimensional) instruments to estimate bounds on the conditional average treatment effect (CATE). Our contributions are three-fold: (1) We propose a novel approach for partial identification through a mapping of instruments to a discrete representation space so that we yield valid bounds on the CATE. This is crucial for reliable decision-making in real-world applications. (2) We derive a two-step procedure that learns tight bounds using a tailored neural partitioning of the latent instrument space. As a result, we avoid instability issues due to numerical approximations or adversarial training. Furthermore, our procedure aims to reduce the estimation variance in finite-sample settings to yield more reliable estimates. (3) We show theoretically that our procedure obtains valid bounds while reducing estimation variance. We further perform extensive experiments to demonstrate the effectiveness across various settings. Overall, our procedure offers a novel path for practitioners to make use of potentially high-dimensional instruments (e.g., as in Mendelian randomization).

arxiv情報

著者 Jonas Schweisthal,Dennis Frauen,Maresa Schröder,Konstantin Hess,Niki Kilbertus,Stefan Feuerriegel
発行日 2024-10-11 16:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Learning Representations of Instruments for Partial Identification of Treatment Effects はコメントを受け付けていません

Overcoming Slow Decision Frequencies in Continuous Control: Model-Based Sequence Reinforcement Learning for Model-Free Control

要約

強化学習 (RL) は急速に人間レベルの制御能力に達し、それを超えています。
ただし、最先端の RL アルゴリズムでは、多くの場合、人間の能力よりも大幅に速いタイムステップと反応時間が必要ですが、これは現実世界の設定では非現実的であり、通常は専用のハードウェアが必要です。
このような速度は現実世界では達成するのが難しく、多くの場合、特殊なハードウェアが必要になります。
シーケンス強化学習 (SRL) は、特定の入力状態に対して一連のアクションを生成するように設計された RL アルゴリズムであり、より低い決定頻度で効果的な制御を可能にします。
SRL は、さまざまな時間スケールで動作するモデルとアクタークリティカル アーキテクチャの両方を採用することで、アクション シーケンスを学習するという課題に対処します。
我々は、批評家がモデルを使用して原始的なアクション間の中間状態を推定し、シーケンス内の個々のアクションごとに学習信号を提供する「時間的想起」メカニズムを提案します。
トレーニングが完了すると、アクターはモデルとは独立してアクション シーケンスを生成し、より遅い頻度でモデルフリーの制御を実現できます。
一連の連続制御タスクで SRL を評価し、アクター サンプルの複雑さを大幅に軽減しながら、最先端のアルゴリズムに匹敵するパフォーマンスを達成することを実証しました。
さまざまな決定頻度にわたるパフォーマンスをより適切に評価するために、周波数平均スコア (FAS) メトリクスを導入します。
私たちの結果は、SRL が FAS の点で従来の RL アルゴリズムを大幅に上回り、可変の決定頻度を必要とするアプリケーションに特に適していることを示しています。
さらに、SRL とモデルベースのオンライン計画を比較し、オンライン プランナーが計画に使用するトレーニング中に同じモデルを活用しながら、SRL が優れた FAS を達成することを示します。

要約(オリジナル)

Reinforcement learning (RL) is rapidly reaching and surpassing human-level control capabilities. However, state-of-the-art RL algorithms often require timesteps and reaction times significantly faster than human capabilities, which is impractical in real-world settings and typically necessitates specialized hardware. Such speeds are difficult to achieve in the real world and often requires specialized hardware. We introduce Sequence Reinforcement Learning (SRL), an RL algorithm designed to produce a sequence of actions for a given input state, enabling effective control at lower decision frequencies. SRL addresses the challenges of learning action sequences by employing both a model and an actor-critic architecture operating at different temporal scales. We propose a ‘temporal recall’ mechanism, where the critic uses the model to estimate intermediate states between primitive actions, providing a learning signal for each individual action within the sequence. Once training is complete, the actor can generate action sequences independently of the model, achieving model-free control at a slower frequency. We evaluate SRL on a suite of continuous control tasks, demonstrating that it achieves performance comparable to state-of-the-art algorithms while significantly reducing actor sample complexity. To better assess performance across varying decision frequencies, we introduce the Frequency-Averaged Score (FAS) metric. Our results show that SRL significantly outperforms traditional RL algorithms in terms of FAS, making it particularly suitable for applications requiring variable decision frequencies. Additionally, we compare SRL with model-based online planning, showing that SRL achieves superior FAS while leveraging the same model during training that online planners use for planning.

arxiv情報

著者 Devdhar Patel,Hava Siegelmann
発行日 2024-10-11 16:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Overcoming Slow Decision Frequencies in Continuous Control: Model-Based Sequence Reinforcement Learning for Model-Free Control はコメントを受け付けていません

Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective

要約

最近、ナレッジ グラフ (KG) は、KG ベースの検索拡張フレームワークなどで、幻覚を緩和し、推論能力を強化するために大規模言語モデル (LLM) とうまく結合されています。
ただし、現在の KG-LLM フレームワークには厳密な不確実性の推定が欠けており、一か八かのアプリケーションでの信頼性の高い導入が制限されています。
KG-LLM フレームワークに不確実性の定量化を直接組み込むと、その複雑なアーキテクチャとナレッジ グラフと言語モデル コンポーネント間の複雑な相互作用により課題が生じます。
このギャップに対処するために、我々は、KG-LLM フレームワークに不確実性の定量化を組み込んだ、信頼できる新しい KG-LLM フレームワークである Uncertainty Aware Knowledge-Graph Reasoning (UAG) を提案します。
私たちは、等角予測を活用して予測セットに理論的な保証を提供する、不確実性を認識した複数ステップの推論フレームワークを設計します。
マルチステッププロセスのエラー率を管理するために、個々のコンポーネント内のエラー率を調整するエラー率制御モジュールをさらに導入します。
広範な実験により、私たちが提案する UAG は、予測セット/間隔のサイズをベースラインより平均 40% 削減しながら、事前に定義された任意のカバレッジ レートを達成できることが示されています。

要約(オリジナル)

Recently, Knowledge Graphs (KGs) have been successfully coupled with Large Language Models (LLMs) to mitigate their hallucinations and enhance their reasoning capability, such as in KG-based retrieval-augmented frameworks. However, current KG-LLM frameworks lack rigorous uncertainty estimation, limiting their reliable deployment in high-stakes applications. Directly incorporating uncertainty quantification into KG-LLM frameworks presents challenges due to their complex architectures and the intricate interactions between the knowledge graph and language model components. To address this gap, we propose a new trustworthy KG-LLM framework, Uncertainty Aware Knowledge-Graph Reasoning (UAG), which incorporates uncertainty quantification into the KG-LLM framework. We design an uncertainty-aware multi-step reasoning framework that leverages conformal prediction to provide a theoretical guarantee on the prediction set. To manage the error rate of the multi-step process, we additionally introduce an error rate control module to adjust the error rate within the individual components. Extensive experiments show that our proposed UAG can achieve any pre-defined coverage rate while reducing the prediction set/interval size by 40% on average over the baselines.

arxiv情報

著者 Bo Ni,Yu Wang,Lu Cheng,Erik Blasch,Tyler Derr
発行日 2024-10-11 16:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective はコメントを受け付けていません

SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning

要約

大規模言語モデル (LLM) の微調整は、さまざまな下流タスクに効果的であることが証明されています。
ただし、LLM のサイズが大きくなるにつれて、バックプロパゲーションのメモリ要求はますます法外なものになります。
0 次 (ZO) 最適化手法は、勾配の推定にフォワード パスを使用することでメモリ効率の高い代替手段を提供しますが、勾配推定の分散は通常、モデルのパラメーターの次元に線形に比例するため、LLM にとっては重大な問題となります。
この論文では、LLM の高次元性によってもたらされる課題に対処するために、ランダムな部分空間 0 次 (SubZero) 最適化を提案します。
トレーニングのパフォーマンスを向上させながらメモリ消費を大幅に削減する、LLM 向けに調整された低ランク摂動を導入します。
さらに、勾配推定がバックプロパゲーション勾配に非常に近似し、従来の ZO 法よりも低い分散を示し、SGD と組み合わせた場合に確実に収束することを証明します。
実験結果は、SubZero がさまざまな言語モデリング タスクにわたって、MeZO などの標準的な ZO アプローチと比較して、微調整パフォーマンスを強化し、より高速な収束を達成することを示しています。

要約(オリジナル)

Fine-tuning Large Language Models (LLMs) has proven effective for a variety of downstream tasks. However, as LLMs grow in size, the memory demands for backpropagation become increasingly prohibitive. Zeroth-order (ZO) optimization methods offer a memory-efficient alternative by using forward passes to estimate gradients, but the variance of gradient estimates typically scales linearly with the model’s parameter dimension$\unicode{x2013}$a significant issue for LLMs. In this paper, we propose the random Subspace Zeroth-order (SubZero) optimization to address the challenges posed by LLMs’ high dimensionality. We introduce a low-rank perturbation tailored for LLMs that significantly reduces memory consumption while improving training performance. Additionally, we prove that our gradient estimation closely approximates the backpropagation gradient, exhibits lower variance than traditional ZO methods, and ensures convergence when combined with SGD. Experimental results show that SubZero enhances fine-tuning performance and achieves faster convergence compared to standard ZO approaches like MeZO across various language modeling tasks.

arxiv情報

著者 Ziming Yu,Pan Zhou,Sike Wang,Jia Li,Hua Huang
発行日 2024-10-11 17:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning はコメントを受け付けていません

An Ontology-based Approach Towards Traceable Behavior Specifications in Automated Driving

要約

自動運転システムを搭載した公共交通機関の車両には、さまざまな期待が求められます。とりわけ、その動作は安全であり、道路規則に準拠し、ユーザーにモビリティを提供する必要があります。
これは、このようなシステムの開発者にとって課題となります。開発者は、たとえばシステム設計時の要件に関して、この動作を指定する責任があります。
この記事で説明するように、この仕様には常に仮定とトレードオフの必要性が伴います。
その結果、そのような動作仕様に不備が発生し、安全でないシステム動作につながる可能性があります。
仕様の不備の特定をサポートするには、要件とそれぞれの前提を明示する必要があります。
この記事では、自動運転システム搭載車両の動作を指定するためのオントロジーベースのアプローチとして、セマンティック規範動作分析を提案します。
当社はオントロジーを使用して、対象となる運用環境の指定された動作を正式に表現し、指定された動作と対処されたステークホルダーのニーズとの間のトレーサビリティを確立します。
さらに、2 つのシナリオ例を使用して、ドイツの法的文脈における意味規範行動分析の適用を説明し、結果を評価します。
私たちの評価では、動作仕様における前提条件の明示的な文書化が、仕様の不備の特定とその対処の両方をサポートしていることが示されています。
したがって、この記事では、自動運転におけるオントロジーベースの動作仕様を促進するための要件、用語、およびそれに応じた方法論を提供します。

要約(オリジナル)

Vehicles in public traffic that are equipped with Automated Driving Systems are subject to a number of expectations: Among other aspects, their behavior should be safe, conforming to the rules of the road and provide mobility to their users. This poses challenges for the developers of such systems: Developers are responsible for specifying this behavior, for example, in terms of requirements at system design time. As we will discuss in the article, this specification always involves the need for assumptions and trade-offs. As a result, insufficiencies in such a behavior specification can occur that can potentially lead to unsafe system behavior. In order to support the identification of specification insufficiencies, requirements and respective assumptions need to be made explicit. In this article, we propose the Semantic Norm Behavior Analysis as an ontology-based approach to specify the behavior for an Automated Driving System equipped vehicle. We use ontologies to formally represent specified behavior for a targeted operational environment, and to establish traceability between specified behavior and the addressed stakeholder needs. Furthermore, we illustrate the application of the Semantic Norm Behavior Analysis in a German legal context with two example scenarios and evaluate our results. Our evaluation shows that the explicit documentation of assumptions in the behavior specification supports both the identification of specification insufficiencies and their treatment. Therefore, this article provides requirements, terminology and an according methodology to facilitate ontology-based behavior specifications in automated driving.

arxiv情報

著者 Nayel Fabian Salem,Marcus Nolte,Veronica Haber,Till Menzel,Hans Steege,Robert Graubohm,Markus Maurer
発行日 2024-10-11 17:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, cs.SY, eess.SY | An Ontology-based Approach Towards Traceable Behavior Specifications in Automated Driving はコメントを受け付けていません

The structure of the token space for large language models

要約

大規模な言語モデルは、発話のセグメント (トークン) を高次元の周囲の潜在空間に当てはめることによって、自然言語に存在する相関構造をエンコードし、その空間でモデルが動作します。
私たちは、大規模な言語モデルの動作と制限についての基礎的な第一原理の理解を発展させるためには、このトークン部分空間の位相的および幾何学的構造を理解することが重要であると主張します。
この記事では、トークン部分空間の次元とリッチ スカラー曲率の推定量を示し、それを中程度のサイズの 3 つのオープンソース大規模言語モデル (GPT2、LLEMMA7B、および MISTRAL7B) に適用します。
これらの測定を使用する 3 つのモデルすべてで、トークン部分空間は多様体ではなく、層状多様体であり、個々の層のそれぞれでリッチ曲率が大幅に負であることがわかります。
さらに、寸法と曲率がモデルの生成の流暢性と相関していることもわかり、これらの発見がモデルの動作に影響を与えることを示唆しています。

要約(オリジナル)

Large language models encode the correlational structure present in natural language by fitting segments of utterances (tokens) into a high dimensional ambient latent space upon which the models then operate. We assert that in order to develop a foundational, first-principles understanding of the behavior and limitations of large language models, it is crucial to understand the topological and geometric structure of this token subspace. In this article, we present estimators for the dimension and Ricci scalar curvature of the token subspace, and apply it to three open source large language models of moderate size: GPT2, LLEMMA7B, and MISTRAL7B. In all three models, using these measurements, we find that the token subspace is not a manifold, but is instead a stratified manifold, where on each of the individual strata, the Ricci curvature is significantly negative. We additionally find that the dimension and curvature correlate with generative fluency of the models, which suggest that these findings have implications for model behavior.

arxiv情報

著者 Michael Robinson,Sourya Dey,Shauna Sweet
発行日 2024-10-11 17:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 53Z50, 58Z05, cs.AI, math.DG | The structure of the token space for large language models はコメントを受け付けていません

Hierarchical Universal Value Function Approximators

要約

強化学習値関数の複数の目標の集合に対するユニバーサル近似器の構築において重要な進歩があり、これはパラメータ化された方法で状態の長期収益を推定する際の重要な要素です。
オプション フレームワークを使用して、階層型汎用値関数近似器 (H-UVFA) を導入することで、これを階層型強化学習に拡張します。
これにより、時間抽象化設定で期待されるスケーリング、計画、および一般化の追加の利点を活用できるようになります。
私たちは、2 つの階層値関数 $Q(s, g, o; \theta)$ と $Q(s, g, o,
a; \θ)$。
最後に、HUVFA の一般化を実証し、HUVFA が対応する UVFA よりも優れたパフォーマンスを発揮することを示します。

要約(オリジナル)

There have been key advancements to building universal approximators for multi-goal collections of reinforcement learning value functions — key elements in estimating long-term returns of states in a parameterized manner. We extend this to hierarchical reinforcement learning, using the options framework, by introducing hierarchical universal value function approximators (H-UVFAs). This allows us to leverage the added benefits of scaling, planning, and generalization expected in temporal abstraction settings. We develop supervised and reinforcement learning methods for learning embeddings of the states, goals, options, and actions in the two hierarchical value functions: $Q(s, g, o; \theta)$ and $Q(s, g, o, a; \theta)$. Finally we demonstrate generalization of the HUVFAs and show they outperform corresponding UVFAs.

arxiv情報

著者 Rushiv Arora
発行日 2024-10-11 17:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6, stat.ML | Hierarchical Universal Value Function Approximators はコメントを受け付けていません

Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis

要約

現在、世界ではmpoxの発生が発生しており、WHOにより国際的に懸念される公衆衛生上の緊急事態が宣言されています。
ソーシャル メディア マイニングに関連するこれまでの研究では、mpox の発生に関する Instagram の投稿のデータセットの開発に焦点を当てたものはありませんでした。
この論文で紹介する研究は、この研究ギャップに対処することを目的としており、この分野に 2 つの科学的貢献をもたらします。
まず、2022 年 7 月 23 日から 2024 年 9 月 5 日までに公開された、mpox に関する 60,127 件の Instagram 投稿の多言語データセットを示しています。 https://dx.doi.org/10.21227/7fvc-y093 で入手可能なこのデータセットには、Instagram が含まれています
mpox に関する投稿が 52 か国語で掲載されています。
これらの投稿ごとに、投稿 ID、投稿の説明、公開日、言語、投稿の翻訳版 (英語への翻訳は Google Translate API を使用して実行されました) が、データセット内の個別の属性として表示されます。
このデータセットを開発した後、感情分析、ヘイトスピーチ検出、不安またはストレスの検出が実行されました。
このプロセスには、各投稿を、(i) 感情クラスの 1 つ (つまり、恐怖、驚き、喜び、悲しみ、怒り、嫌悪、または中立)、(ii) 嫌いか嫌いか、(iii) 不安/ストレスが検出されたか、または
不安やストレスは検出されませんでした。
これらの結果は、データセット内の個別の属性として表示されます。
次に、感情分析、ヘイトスピーチ分析、不安またはストレス分析を行った結果を示します。
感情クラスの変動 (恐怖、驚き、喜び、悲しみ、怒り、嫌悪感、中立) は、それぞれ 27.95%、2.57%、8.69%、5.94%、2.69%、1.53%、50.64% であることが観察されました。
ヘイトスピーチの検出に関しては、95.75% の投稿にはヘイトが含まれておらず、残りの 4.25% の投稿にはヘイトが含まれていました。
最後に、投稿の 72.05% は不安やストレスをまったく示しておらず、残りの 27.95% の投稿は何らかの形の不安やストレスを示していました。

要約(オリジナル)

The world is currently experiencing an outbreak of mpox, which has been declared a Public Health Emergency of International Concern by WHO. No prior work related to social media mining has focused on the development of a dataset of Instagram posts about the mpox outbreak. The work presented in this paper aims to address this research gap and makes two scientific contributions to this field. First, it presents a multilingual dataset of 60,127 Instagram posts about mpox, published between July 23, 2022, and September 5, 2024. The dataset, available at https://dx.doi.org/10.21227/7fvc-y093, contains Instagram posts about mpox in 52 languages. For each of these posts, the Post ID, Post Description, Date of publication, language, and translated version of the post (translation to English was performed using the Google Translate API) are presented as separate attributes in the dataset. After developing this dataset, sentiment analysis, hate speech detection, and anxiety or stress detection were performed. This process included classifying each post into (i) one of the sentiment classes, i.e., fear, surprise, joy, sadness, anger, disgust, or neutral, (ii) hate or not hate, and (iii) anxiety/stress detected or no anxiety/stress detected. These results are presented as separate attributes in the dataset. Second, this paper presents the results of performing sentiment analysis, hate speech analysis, and anxiety or stress analysis. The variation of the sentiment classes – fear, surprise, joy, sadness, anger, disgust, and neutral were observed to be 27.95%, 2.57%, 8.69%, 5.94%, 2.69%, 1.53%, and 50.64%, respectively. In terms of hate speech detection, 95.75% of the posts did not contain hate and the remaining 4.25% of the posts contained hate. Finally, 72.05% of the posts did not indicate any anxiety/stress, and the remaining 27.95% of the posts represented some form of anxiety/stress.

arxiv情報

著者 Nirmalya Thakur
発行日 2024-10-11 17:19:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI, H.2.8 | Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis はコメントを受け付けていません