FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation

要約

生成モデルは、さまざまなアプリケーションで顕著な成功を収めており、マルチGPUコンピューティングの需要を促進しています。
GPU間通信は、マルチGPUコンピューティングシステム、特に消費者グレードGPUのボトルネックになります。
同時のハードウェアの実行を活用することにより、計算と通信のレイテンシの重複は、通信オーバーヘッドを緩和するための効果的な手法です。
効率的で適応可能なオーバーラップ設計は、(1)タイルごとのオーバーラップを満たす必要があることを特定します。
それにもかかわらず、現在のデザインは、これらすべての機能に同時に最適化することができません。
この問題に対処するために、タイルごとのオーバーラップ、干渉のない計算、および通信不可知論を特徴とする軽量設計であるフラッシュオーバーラップを提案します。
FlashOverLapは、計算プロセスを中断することなくタイルごとのデータ依存関係を識別するための新しいシグナル伝達メカニズムを使用し、データを連続アドレスに再発行し、NCCL APIを呼び出すだけで通信を可能にします。
実験は、このような軽量設計が最大1.65倍のスピードアップを達成し、ほとんどの場合、既存の作品を上回ることを示しています。

要約(オリジナル)

Generative models have achieved remarkable success across various applications, driving the demand for multi-GPU computing. Inter-GPU communication becomes a bottleneck in multi-GPU computing systems, particularly on consumer-grade GPUs. By exploiting concurrent hardware execution, overlapping computation and communication latency is an effective technique for mitigating the communication overhead. We identify that an efficient and adaptable overlapping design should satisfy (1) tile-wise overlapping to maximize the overlapping opportunity, (2) interference-free computation to maintain the original computational performance, and (3) communication agnosticism to reduce the development burden against varying communication primitives. Nevertheless, current designs fail to simultaneously optimize for all of those features. To address the issue, we propose FlashOverlap, a lightweight design characterized by tile-wise overlapping, interference-free computation, and communication agnosticism. FlashOverlap utilizes a novel signaling mechanism to identify tile-wise data dependency without interrupting the computation process, and reorders data to contiguous addresses, enabling communication by simply calling NCCL APIs. Experiments show that such a lightweight design achieves up to 1.65x speedup, outperforming existing works in most cases.

arxiv情報

著者 Ke Hong,Xiuhong Li,Minxu Liu,Qiuli Mao,Tianqi Wu,Zixiao Huang,Lufang Chen,Zhong Wang,Yichong Zhang,Zhenhua Zhu,Guohao Dai,Yu Wang
発行日 2025-04-28 06:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG | FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation はコメントを受け付けていません

Persona Dynamics: Unveiling the Impact of Personality Traits on Agents in Text-Based Games

要約

人工剤は、複雑な相互作用や意思決定のタスクの中心になりつつありますが、行動を望ましい人間の価値に合わせることは依然として開かれた課題です。
この作業では、人間のような性格特性が、テキストベースのインタラクティブ環境内でエージェントの行動とパフォーマンスにどのように影響するかを調査します。
Panda:Personality Adapted Neural Decisionエージェントを紹介します。これは、人格特性をエージェントに投影して行動を導くための新しい方法です。
テキストベースのゲームエージェントに性格を誘導するために、(i)エージェントのアクションが示す性格タイプを特定するためにパーソナリティ分類器を訓練し、(ii)パーソナリティプロファイルをエージェントのポリシー学習パイプラインに直接統合します。
25のテキストベースのゲームで16の異なる性格タイプを具体化し、軌跡を分析するエージェントを展開することにより、エージェントのアクション決定を特定の性格プロファイルに導くことができることを実証します。
さらに、より高いレベルのオープン性を特徴とするような特定の性格タイプは、パフォーマンスの顕著な利点を表示します。
これらの発見は、インタラクティブな環境でより整合し、効果的で、人間中心の意思決定を促進するための人格に適したエージェントの約束を強調しています。

要約(オリジナル)

Artificial agents are increasingly central to complex interactions and decision-making tasks, yet aligning their behaviors with desired human values remains an open challenge. In this work, we investigate how human-like personality traits influence agent behavior and performance within text-based interactive environments. We introduce PANDA: Personality Adapted Neural Decision Agents, a novel method for projecting human personality traits onto agents to guide their behavior. To induce personality in a text-based game agent, (i) we train a personality classifier to identify what personality type the agent’s actions exhibit, and (ii) we integrate the personality profiles directly into the agent’s policy-learning pipeline. By deploying agents embodying 16 distinct personality types across 25 text-based games and analyzing their trajectories, we demonstrate that an agent’s action decisions can be guided toward specific personality profiles. Moreover, certain personality types, such as those characterized by higher levels of Openness, display marked advantages in performance. These findings underscore the promise of personality-adapted agents for fostering more aligned, effective, and human-centric decision-making in interactive environments.

arxiv情報

著者 Seungwon Lim,Seungbeen Lee,Dongjun Min,Youngjae Yu
発行日 2025-04-28 07:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Persona Dynamics: Unveiling the Impact of Personality Traits on Agents in Text-Based Games はコメントを受け付けていません

Unveiling the Hidden: Movie Genre and User Bias in Spoiler Detection

要約

映画のレビューのネタバレは、IMDBや腐ったトマトなどのプラットフォームで重要であり、利点と欠点を提供します。
彼らはいくつかの視聴者の選択を導くことができますが、事前にプロットの詳細を好まない人にも影響を与え、効果的なネタバレ検出を不可欠にします。
既存のネタバレ検出方法は、主にレビューテキストを分析し、多くの場合、映画のジャンルとユーザーバイアスの影響を見落とし、有効性を制限します。
これに対処するために、映画のレビューデータを分析し、ネタバレ率のジャンル固有のバリエーションを見つけ、特定のユーザーがネタバレを投稿する可能性が高いことを特定します。
これらの調査結果に基づいて、GUSDと呼ばれる新しいスポイラー検出フレームワークを紹介します(コードはhttps://github.com/ai-explorer-123/gusdで入手できます)(ジャンル固有のユーザー固有のネタバレ検出)。
ユーザーバイアスは、レビュー履歴の動的グラフモデリングを通じて計算されます。
さらに、R2GFORMERモジュールは、グラフ情報のRetGAT(Retentive Graph Attention Network)を組み合わせ、ジャンル固有の集約のためのジャンルフォーカーを組み合わせます。
GMOE(ジャンルアウェアの専門家の混合)モデルは、ジャンルに基づいて専門の専門家にレビューをさらに割り当てます。
ベンチマークデータセットでの広範なテストは、GUSDが最新の結果を達成することを示しています。
このアプローチは、ジャンルとユーザー固有のパターンに対処し、映画のレビュープラットフォームでのユーザーエクスペリエンスを向上させることにより、ネタバレの検出を進めます。

要約(オリジナル)

Spoilers in movie reviews are important on platforms like IMDb and Rotten Tomatoes, offering benefits and drawbacks. They can guide some viewers’ choices but also affect those who prefer no plot details in advance, making effective spoiler detection essential. Existing spoiler detection methods mainly analyze review text, often overlooking the impact of movie genres and user bias, limiting their effectiveness. To address this, we analyze movie review data, finding genre-specific variations in spoiler rates and identifying that certain users are more likely to post spoilers. Based on these findings, we introduce a new spoiler detection framework called GUSD (The code is available at https://github.com/AI-explorer-123/GUSD) (Genre-aware and User-specific Spoiler Detection), which incorporates genre-specific data and user behavior bias. User bias is calculated through dynamic graph modeling of review history. Additionally, the R2GFormer module combines RetGAT (Retentive Graph Attention Network) for graph information and GenreFormer for genre-specific aggregation. The GMoE (Genre-Aware Mixture of Experts) model further assigns reviews to specialized experts based on genre. Extensive testing on benchmark datasets shows that GUSD achieves state-of-the-art results. This approach advances spoiler detection by addressing genre and user-specific patterns, enhancing user experience on movie review platforms.

arxiv情報

著者 Haokai Zhang,Shengtao Zhang,Zijian Cai,Heng Wang,Ruixuan Zhu,Zinan Zeng,Minnan Luo
発行日 2025-04-28 07:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Unveiling the Hidden: Movie Genre and User Bias in Spoiler Detection はコメントを受け付けていません

Detecting Effects of AI-Mediated Communication on Language Complexity and Sentiment

要約

言語パターンに対する大きな言語モデルの微妙な人間のような効果を考えると、この研究では、ソーシャルメディアに対するAIを介したコミュニケーション(AI-MC)の影響を検出するための言語の変化を時間の経過とともに調べます。
2020年の970,919のツイート(Pre-chatgpt)の970,919のツイートを2024年の同じ期間の20,000のツイートと比較します。これらはすべて、選挙期間中にドナルドトランプに言及しています。
Flesch-Kincaidの読みやすさと極性スコアの組み合わせを使用して、テキストの複雑さと感情の変化を分析します。
我々の発見は、平均感情極性(0.12対0.04)の有意な増加と、主に中立の含有量(2020年の54.8%から2024年の39.8%)からより肯定的な表現(28.6%から45.9%)へのシフトを明らかにしています。
これらの発見は、ソーシャルメディアコミュニケーションにおけるAIの存在の増加だけでなく、言語や感情的な表現パターンへの影響も示唆しています。

要約(オリジナル)

Given the subtle human-like effects of large language models on linguistic patterns, this study examines shifts in language over time to detect the impact of AI-mediated communication (AI- MC) on social media. We compare a replicated dataset of 970,919 tweets from 2020 (pre-ChatGPT) with 20,000 tweets from the same period in 2024, all of which mention Donald Trump during election periods. Using a combination of Flesch-Kincaid readability and polarity scores, we analyze changes in text complexity and sentiment. Our findings reveal a significant increase in mean sentiment polarity (0.12 vs. 0.04) and a shift from predominantly neutral content (54.8% in 2020 to 39.8% in 2024) to more positive expressions (28.6% to 45.9%). These findings suggest not only an increasing presence of AI in social media communication but also its impact on language and emotional expression patterns.

arxiv情報

著者 Kristen Sussman,Daniel Carter
発行日 2025-04-28 08:01:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, I.2.7 | Detecting Effects of AI-Mediated Communication on Language Complexity and Sentiment はコメントを受け付けていません

WikiNER-fr-gold: A Gold-Standard NER Corpus

要約

この記事では、多言語のエンティティ認識コーパスであるウィキナーコーパスの品質に取り組み、その統合バージョンを提供します。
ウィキナーの注釈は、半監視された方法で生産されました。つまり、事後に操作されていません。
そのようなコーパスは銀標準と呼ばれます。
この論文では、ウィキナーの割合の改訂版であるWikiner-Fr-Goldを提案します。
私たちのコーパスは、元のフランスのサブコルパスのランダムにサンプリングされた20%(700Kトークンを含む26,818文)で構成されています。
アノテーションガイドラインを定義するために、各カテゴリに含まれるエンティティタイプを要約することから始め、コーパスの修正に進みます。
最後に、Wikiner-FRコーパスで観察されたエラーと矛盾の分析を提示し、潜在的な将来の仕事の方向性について説明します。

要約(オリジナル)

We address in this article the the quality of the WikiNER corpus, a multilingual Named Entity Recognition corpus, and provide a consolidated version of it. The annotation of WikiNER was produced in a semi-supervised manner i.e. no manual verification has been carried out a posteriori. Such corpus is called silver-standard. In this paper we propose WikiNER-fr-gold which is a revised version of the French proportion of WikiNER. Our corpus consists of randomly sampled 20% of the original French sub-corpus (26,818 sentences with 700k tokens). We start by summarizing the entity types included in each category in order to define an annotation guideline, and then we proceed to revise the corpus. Finally we present an analysis of errors and inconsistency observed in the WikiNER-fr corpus, and we discuss potential future work directions.

arxiv情報

著者 Danrun Cao,Nicolas Béchet,Pierre-François Marteau
発行日 2025-04-28 08:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | WikiNER-fr-gold: A Gold-Standard NER Corpus はコメントを受け付けていません

m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training

要約

生物医学研究における大規模な言語モデル(LLMS)の急速な進歩は、既存のオープンソース注釈付きの科学corporaの限界を強調しています。
生物医学的知識の複雑な階層によってもたらされる課題に対処するために、生物医学の領域でのLLMトレーニングに合わせた科学的蒸留のための知識主導型のマルチエージェントフレームワークを提案します。
私たちのアプローチの中心は、それぞれが医療被験者の見出し(メッシュ)階層に導かれた専門的なエージェントが、膨大な科学文献から高品質のテキストデータを自律的に抽出、合成、自己評価するために連携して作業する共同マルチエージェントアーキテクチャです。
これらのエージェントは、ドメイン固有の質問回答ペアを集合的に生成および改良し、包括的なカバレッジと生物医学的オントロジーとの一貫性を確保しながら、手動の関与を最小限に抑えます。
広範な実験結果は、マルチエージェント蒸留データセットで訓練された言語モデルが生物医学的な質問を回答するタスクの顕著な改善を達成し、強力なライフサイエンスLLMベースラインと高度な独自モデルの両方を上回ることを示しています。
特に、当社のAI対応データセットにより、LLAMA3-70Bは、より大きなスケールにもかかわらず、MEDPROMPTおよびMED-PALM-2でGPT-4を上回ることができます。
詳細なアブレーション研究と症例分析により、フレームワーク内の各エージェントの有効性と相乗効果をさらに検証し、生物医学LLMトレーニングにおけるマルチエージェントコラボレーションの可能性を強調します。

要約(オリジナル)

The rapid progress of large language models (LLMs) in biomedical research has underscored the limitations of existing open-source annotated scientific corpora, which are often insufficient in quantity and quality. Addressing the challenge posed by the complex hierarchy of biomedical knowledge, we propose a knowledge-driven, multi-agent framework for scientific corpus distillation tailored for LLM training in the biomedical domain. Central to our approach is a collaborative multi-agent architecture, where specialized agents, each guided by the Medical Subject Headings (MeSH) hierarchy, work in concert to autonomously extract, synthesize, and self-evaluate high-quality textual data from vast scientific literature. These agents collectively generate and refine domain-specific question-answer pairs, ensuring comprehensive coverage and consistency with biomedical ontologies while minimizing manual involvement. Extensive experimental results show that language models trained on our multi-agent distilled datasets achieve notable improvements in biomedical question-answering tasks, outperforming both strong life sciences LLM baselines and advanced proprietary models. Notably, our AI-Ready dataset enables Llama3-70B to surpass GPT-4 with MedPrompt and Med-PaLM-2, despite their larger scale. Detailed ablation studies and case analyses further validate the effectiveness and synergy of each agent within the framework, highlighting the potential of multi-agent collaboration in biomedical LLM training.

arxiv情報

著者 Meng Xiao,Xunxin Cai,Chengrui Wang,Yuanchun Zhou
発行日 2025-04-28 08:18:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.QM | m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training はコメントを受け付けていません

An Attempt to Develop a Neural Parser based on Simplified Head-Driven Phrase Structure Grammar on Vietnamese

要約

この論文では、単純化されたヘッド駆動型フレーズ構造文法(HPSG)に基づいて、ベトナムのニューラルパーサーを開発することを目指しました。
既存のコーパスであるVietTreeBankとVNDTには、単純化されたHPSGルールに準拠していない選挙区と依存のツリーペアの約15%がありました。
単純化されたHPSGルールを順守していないコーパラの問題に対処しようとするために、トレーニングと開発セットからサンプルをランダムに順応させて、それらを単純化したHPSGに準拠させました。
次に、ベトナムのテキストをエンコードできるPhobertまたはXLM-Robertaモデルに置き換えることにより、Penn TreeBankの最初の単純化されたHPSGニューラルパーサーを変更しました。
修正されたVietTreeBankとVNDT Corporaで実験を実施しました。
私たちの広範な実験は、単純化されたHPSGニューラルパーサーが、同じ予測された部分的な部分(POS)タグを自己攻撃的構成団として使用する場合、選挙区の解析のために82%の新しい最先端のFスコアを達成したことを示しました。
さらに、より高いラベル付けされたアタッチメントスコア(UAS)で依存関係解析に関する以前の研究よりも優れていました。
ただし、言語の専門家と相談しなかったため、パーサーは、元のラベルを変更せずにARC順列に焦点を当てているために、おそらくより低いラベル付きアタッチメントスコア(LAS)スコアを取得しました。
最後に、このペーパーの調査結果は、ベトナムの自然言語処理のために樹木が開発する際に、単純化されたHPSGが言語専門家により多くの注意を払うべきであることを示唆しています。

要約(オリジナル)

In this paper, we aimed to develop a neural parser for Vietnamese based on simplified Head-Driven Phrase Structure Grammar (HPSG). The existing corpora, VietTreebank and VnDT, had around 15% of constituency and dependency tree pairs that did not adhere to simplified HPSG rules. To attempt to address the issue of the corpora not adhering to simplified HPSG rules, we randomly permuted samples from the training and development sets to make them compliant with simplified HPSG. We then modified the first simplified HPSG Neural Parser for the Penn Treebank by replacing it with the PhoBERT or XLM-RoBERTa models, which can encode Vietnamese texts. We conducted experiments on our modified VietTreebank and VnDT corpora. Our extensive experiments showed that the simplified HPSG Neural Parser achieved a new state-of-the-art F-score of 82% for constituency parsing when using the same predicted part-of-speech (POS) tags as the self-attentive constituency parser. Additionally, it outperformed previous studies in dependency parsing with a higher Unlabeled Attachment Score (UAS). However, our parser obtained lower Labeled Attachment Score (LAS) scores likely due to our focus on arc permutation without changing the original labels, as we did not consult with a linguistic expert. Lastly, the research findings of this paper suggest that simplified HPSG should be given more attention to linguistic expert when developing treebanks for Vietnamese natural language processing.

arxiv情報

著者 Duc-Vu Nguyen,Thang Chau Phan,Quoc-Nam Nguyen,Kiet Van Nguyen,Ngan Luu-Thuy Nguyen
発行日 2025-04-28 08:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Attempt to Develop a Neural Parser based on Simplified Head-Driven Phrase Structure Grammar on Vietnamese はコメントを受け付けていません

Graph-Based Spectral Decomposition for Parameter Coordination in Language Model Fine-Tuning

要約

このホワイトペーパーでは、グラフスペクトル分析で強化された大規模な言語モデルのパラメーターコラボレーション最適化アルゴリズムを提案します。
目標は、トレーニング中の微調整効率と構造認識の両方を改善することです。
提案された方法では、事前に訓練された言語モデルのパラメーターは、グラフ内のノードとして扱われます。
加重グラフが構築され、ラプラシアンスペクトル分解が適用され、周波​​数ドメインモデリングとパラメーター空間の構造表現が可能になります。
この構造に基づいて、共同損失関数が設計されています。
タスクの損失をスペクトル正規化用語と組み合わせて、パラメーター間の共同更新を容易にします。
さらに、最適化段階でスペクトルフィルタリングメカニズムが導入されます。
このメカニズムは、勾配を構造認識的に調整し、モデルのトレーニング安定性と収束動作を強化します。
この方法は、従来の微調整比較、少数のショット一般化テスト、収束速度分析など、複数のタスクで評価されます。
すべての設定で、提案されたアプローチは優れたパフォーマンスを示しています。
実験結果は、スペクトル共同最適化フレームワークがパラメーターの摂動を効果的に削減し、全体的なモデルパフォーマンスを維持しながら微調整品質を向上させることを確認します。
この作業は、大規模モデルのパラメーター効率の高いトレーニング方法論を進め、深い学習最適化における構造信号処理の重要性を強化し、言語モデルの適応性とパフォーマンスを強化するための堅牢で一般化可能なフレームワークを提供することにより、人工知能の分野に大きく貢献します。

要約(オリジナル)

This paper proposes a parameter collaborative optimization algorithm for large language models, enhanced with graph spectral analysis. The goal is to improve both fine-tuning efficiency and structural awareness during training. In the proposed method, the parameters of a pre-trained language model are treated as nodes in a graph. A weighted graph is constructed, and Laplacian spectral decomposition is applied to enable frequency-domain modeling and structural representation of the parameter space. Based on this structure, a joint loss function is designed. It combines the task loss with a spectral regularization term to facilitate collaborative updates among parameters. In addition, a spectral filtering mechanism is introduced during the optimization phase. This mechanism adjusts gradients in a structure-aware manner, enhancing the model’s training stability and convergence behavior. The method is evaluated on multiple tasks, including traditional fine-tuning comparisons, few-shot generalization tests, and convergence speed analysis. In all settings, the proposed approach demonstrates superior performance. The experimental results confirm that the spectral collaborative optimization framework effectively reduces parameter perturbations and improves fine-tuning quality while preserving overall model performance. This work contributes significantly to the field of artificial intelligence by advancing parameter-efficient training methodologies for large-scale models, reinforcing the importance of structural signal processing in deep learning optimization, and offering a robust, generalizable framework for enhancing language model adaptability and performance.

arxiv情報

著者 Hanlu Zhang,Yumeng Ma,Shuo Wang,Guiran Liu,Binrong Zhu
発行日 2025-04-28 08:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Graph-Based Spectral Decomposition for Parameter Coordination in Language Model Fine-Tuning はコメントを受け付けていません

Data Processing for the OpenGPT-X Model Family

要約

このホワイトペーパーでは、OpenGPT-Xプロジェクト向けに開発されたデータ準備パイプラインの包括的な概要を説明します。これは、オープンおよびハイパフォーマンスの多言語大手言語モデル(LLMS)を作成することを目的とした大規模なイニシアチブです。
プロジェクトの目標は、欧州連合内の実際のアプリケーションに特に焦点を当てて、すべての主要なヨーロッパ言語をカバーするモデルを提供することです。
モデルトレーニング用の最終データセットの準備に対するデータ選択と要件定義から始めて、すべてのデータ処理手順を説明します。
これらの各カテゴリは個別のパイプラインによって処理されるため、キュレーションされたデータとWebデータを区別します。キュレーションされたデータは最小限のフィルタリングを受け、Webデータは広範なフィルタリングと重複排除を必要とします。
この区別により、両方のパイプラインの特殊なアルゴリズムソリューションの開発が導かれました。
処理方法の説明に加えて、データセットの詳細な分析を提供し、ヨーロッパのデータ規制との透明性と整合性を高めます。
最後に、プロジェクト中に直面する重要な洞察と課題を共有し、LLMSの大規模な多言語データ準備の将来の努力に関する推奨事項を提供します。

要約(オリジナル)

This paper presents a comprehensive overview of the data preparation pipeline developed for the OpenGPT-X project, a large-scale initiative aimed at creating open and high-performance multilingual large language models (LLMs). The project goal is to deliver models that cover all major European languages, with a particular focus on real-world applications within the European Union. We explain all data processing steps, starting with the data selection and requirement definition to the preparation of the final datasets for model training. We distinguish between curated data and web data, as each of these categories is handled by distinct pipelines, with curated data undergoing minimal filtering and web data requiring extensive filtering and deduplication. This distinction guided the development of specialized algorithmic solutions for both pipelines. In addition to describing the processing methodologies, we provide an in-depth analysis of the datasets, increasing transparency and alignment with European data regulations. Finally, we share key insights and challenges faced during the project, offering recommendations for future endeavors in large-scale multilingual data preparation for LLMs.

arxiv情報

著者 Nicolo’ Brandizzi,Hammam Abdelwahab,Anirban Bhowmick,Lennard Helmer,Benny Jörg Stein,Pavel Denisov,Qasid Saleem,Michael Fromm,Mehdi Ali,Richard Rutmann,Farzad Naderi,Mohamad Saif Agy,Alexander Schwirjow,Fabian Küch,Luzian Hahn,Malte Ostendorff,Pedro Ortiz Suarez,Georg Rehm,Dennis Wegener,Nicolas Flores-Herr,Joachim Köhler,Johannes Leveling
発行日 2025-04-28 08:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Data Processing for the OpenGPT-X Model Family はコメントを受け付けていません

Arabic Metaphor Sentiment Classification Using Semantic Information

要約

この論文では、セマンティックタグに基づいたAMCのセンチメント分類のために新しく設計された自動ツールを使用して、アラビア語のメタファーコーパス(AMC)[1]のテストについて説明します。
このツールには、感情分類のためのセマンティックな感情タグが組み込まれています。
Fスコア、リコール、および精度である標準的な方法を使用してツールを評価します。
この方法は、新しく設計されたツールを介した感情に対するアラビア語のオンラインメタファーの影響を示すことです。
私たちの知る限り、これは、メタファーの影響を見つけるためにセマンティックタグを使用してアラビア語のメタファーの感情分類を実施する最初のアプローチです。

要約(オリジナル)

In this paper, I discuss the testing of the Arabic Metaphor Corpus (AMC) [1] using newly designed automatic tools for sentiment classification for AMC based on semantic tags. The tool incorporates semantic emotional tags for sentiment classification. I evaluate the tool using standard methods, which are F-score, recall, and precision. The method is to show the impact of Arabic online metaphors on sentiment through the newly designed tools. To the best of our knowledge, this is the first approach to conduct sentiment classification for Arabic metaphors using semantic tags to find the impact of the metaphor.

arxiv情報

著者 Israa Alsiyat
発行日 2025-04-28 08:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Arabic Metaphor Sentiment Classification Using Semantic Information はコメントを受け付けていません