Is LLM the Silver Bullet to Low-Resource Languages Machine Translation?

要約

低リソース言語(LRL)は、限られた言語リソースと標準的なデータセットでの過小評価により、自然言語処理に大きな課題を提示します。
大規模な言語モデル(LLMS)と神経機械翻訳(NMT)の最近の進歩は、高リソース言語の翻訳能力を大幅に改善していますが、LRLのパフォーマンス格差は持続し、特にプライバシーに敏感でリソースに制約のあるシナリオに影響を与えます。
このペーパーでは、Flores-200などのベンチマークを使用して、200の言語にわたる現在のLLMの制限を体系的に評価します。
また、ニュース記事やバイリンガル辞書を含む代替データソースを探求し、大規模な事前訓練モデルからの知識の蒸留がより小さなLRL翻訳を大幅に改善する方法を示します。
さらに、さまざまな微調整戦略を調査し、より小さなLLMのパフォーマンスギャップを著しく削減することを明らかにします。

要約(オリジナル)

Low-Resource Languages (LRLs) present significant challenges in natural language processing due to their limited linguistic resources and underrepresentation in standard datasets. While recent advancements in Large Language Models (LLMs) and Neural Machine Translation (NMT) have substantially improved translation capabilities for high-resource languages, performance disparities persist for LRLs, particularly impacting privacy-sensitive and resource-constrained scenarios. This paper systematically evaluates the limitations of current LLMs across 200 languages using benchmarks such as FLORES-200. We also explore alternative data sources, including news articles and bilingual dictionaries, and demonstrate how knowledge distillation from large pre-trained models can significantly improve smaller LRL translations. Additionally, we investigate various fine-tuning strategies, revealing that incremental enhancements markedly reduce performance gaps on smaller LLMs.

arxiv情報

著者 Yewei Song,Lujun Li,Cedric Lothritz,Saad Ezzini,Lama Sleem,Niccolo Gentile,Radu State,Tegawendé F. Bissyandé,Jacques Klein
発行日 2025-03-31 13:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Is LLM the Silver Bullet to Low-Resource Languages Machine Translation? はコメントを受け付けていません

Continuous Speech Tokenizer in Text To Speech

要約

大規模な言語モデルの時代における言語と言語の融合は、大きな注目を集めています。
個別の音声トークンは、多くの場合、テキストとの共同トレーニングに便利で、優れた圧縮効率を持つ音声圧縮と移植性のためのテキストからスピーチのタスクで利用されます。
しかし、個別の音声トークネイザーは依然として情報の損失に苦しんでいることがわかりました。
したがって、Cont-SPTという名前のシンプルで効果的な連続音声トークネイザーと、連続した音声トークンに基づくテキストからスピーチモデルを提案します。
我々の結果は、連続音声トークネイザーに基づく音声言語モデルは、より良い連続性と推定平均意見スコア(MO)が高いことを示しています。
この強化は、周波数領域内の低周波数と高周波数の両方にわたる連続音声トークネイザーの情報保存率の向上に起因します。
cont-sptのコードとリソースは、https://github.com/yixing-li/continuous-sepeech-tokenizerにあります

要約(オリジナル)

The fusion of speech and language in the era of large language models has garnered significant attention. Discrete speech token is often utilized in text-to-speech tasks for speech compression and portability, which is convenient for joint training with text and have good compression efficiency. However, we found that the discrete speech tokenizer still suffers from information loss. Therefore, we propose a simple yet effective continuous speech tokenizer named Cont-SPT, and a text-to-speech model based on continuous speech tokens. Our results show that the speech language model based on the continuous speech tokenizer has better continuity and higher estimated Mean Opinion Scores (MoS). This enhancement is attributed to better information preservation rate of the continuous speech tokenizer across both low and high frequencies in the frequency domain. The code and resources for Cont-SPT can be found in https://github.com/Yixing-Li/Continuous-Speech-Tokenizer

arxiv情報

著者 Yixing Li,Ruobing Xie,Xingwu Sun,Yu Cheng,Zhanhui Kang
発行日 2025-03-31 13:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Continuous Speech Tokenizer in Text To Speech はコメントを受け付けていません

TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

要約

通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質のマルチモーダルトレーニングデータがないため、重大な課題に直面しています。
このギャップに対処するために、自動化されたテレコム詐欺分析のために特別に設計された最初のオープンソースオーディオテキストスローチンキングデータセットであるTeleantifraud-28Kを提示します。
データセットは、3つの戦略を通じて構築されています。(1)プライバシーに保存されたテキストトゥルースサンプル生成自動的に音声認識(ASR)通話録音(匿名化された元のオーディオを使用)を使用し、テキストツースピーチ(TTS)モデル再生を通じて実世界の一貫性を確保します。
(2)シナリオカバレッジを拡大するための本物のASR出力に関する大規模な言語モデル(LLM)ベースの自己計算サンプリングを介したセマンティック強化。
(3)事前に定義されたコミュニケーションシナリオと詐欺の類型を通じて、新たな詐欺戦術をシミュレートするマルチエージェント敵対的統合。
生成されたデータセットには、28,511が厳密に処理された音声テキストペアが含まれており、詐欺の推論のための詳細な注釈が付いています。
データセットは、シナリオ分類、詐欺検出、詐欺タイプ分類の3つのタスクに分けられます。
さらに、テレコム詐欺検出タスクのモデルパフォーマンスの体系的なテストを容易にするために、データセットから比例してサンプリングされたインスタンスを含む標準化された評価ベンチマークであるTeleantifraud-benchを構築します。
また、ハイブリッドの実質/合成データで訓練された生産最適化された監視された微調整(SFT)モデルを貢献し、データ処理フレームワークをオープンソーシングして、コミュニティ駆動型のデータセット拡張を可能にします。
この作業は、データのプライバシーとシナリオの多様性における重要な課題に対処しながら、マルチモーダル反燃焼研究の基礎フレームワークを確立します。
このプロジェクトは、https://github.com/jimmyma99/teleantifraudでリリースされます。

要約(オリジナル)

The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.

arxiv情報

著者 Zhiming Ma,Peidong Wang,Minhua Huang,Jingpeng Wang,Kai Wu,Xiangzhao Lv,Yachun Pang,Yin Yang,Wenjie Tang,Yuchen Kang
発行日 2025-03-31 14:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM | TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection はコメントを受け付けていません

Multi-Task Learning for Extracting Menstrual Characteristics from Clinical Notes

要約

月経健康は、女性のヘルスケアの重要なものですが、見落とされがちな側面です。
その臨床的関連性にもかかわらず、月経特性に関する詳細なデータは、構造化された医療記録ではめったに利用できません。
このギャップに対処するために、重要な月経周期の属性、つまり死傷症、規則性、流量、および臨床出血を抽出するための新しい自然言語処理パイプラインを提案します。
当社のアプローチは、ハイブリッド検索前処理ステップによって強化されたマルチタスクプロンプトベースの学習を備えたGatortronモデルを利用して、関連するテキストセグメントを識別します。
100未満の注釈付き臨床ノートで訓練されているにもかかわらず、すべての月経特性で平均F1スコアが90%の平均F1スコアを達成し、ベースライン方法を実行します。
検索ステップは、すべてのアプローチのパフォーマンスを一貫して改善し、モデルが長い臨床ノートの最も関連性の高いセグメントに集中できるようにします。
これらの結果は、マルチタスク学習と検索を組み合わせることで、月経特性全体の一般化とパフォーマンスが向上し、臨床ノートからの自動抽出を進め、女性の健康研究をサポートすることを示しています。

要約(オリジナル)

Menstrual health is a critical yet often overlooked aspect of women’s healthcare. Despite its clinical relevance, detailed data on menstrual characteristics is rarely available in structured medical records. To address this gap, we propose a novel Natural Language Processing pipeline to extract key menstrual cycle attributes — dysmenorrhea, regularity, flow volume, and intermenstrual bleeding. Our approach utilizes the GatorTron model with Multi-Task Prompt-based Learning, enhanced by a hybrid retrieval preprocessing step to identify relevant text segments. It out- performs baseline methods, achieving an average F1-score of 90% across all menstrual characteristics, despite being trained on fewer than 100 annotated clinical notes. The retrieval step consistently improves performance across all approaches, allowing the model to focus on the most relevant segments of lengthy clinical notes. These results show that combining multi-task learning with retrieval improves generalization and performance across menstrual charac- teristics, advancing automated extraction from clinical notes and supporting women’s health research.

arxiv情報

著者 Anna Shopova,Cristoph Lippert,Leslee J. Shaw,Eugenia Alleva
発行日 2025-03-31 14:07:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-Task Learning for Extracting Menstrual Characteristics from Clinical Notes はコメントを受け付けていません

Implicit In-Context Learning: Evidence from Artificial Language Experiments

要約

人間は暗黙の学習を通じて言語を獲得し、明示的な認識なしに複雑なパターンを吸収します。
LLMは印象的な言語能力を示していますが、推測レベルでのコンテキスト学習中に人間のようなパターン認識を示すかどうかは不明のままです。
形態、morphosyntax、および構文にまたがる3つの古典的な人工言語学習実験を適応させ、2つの最先端のOpenaiモデルであるGPT-4OとO3-MINIの推測レベルで暗黙学習を体系的に評価しました。
私たちの結果は、モデルと人間の行動の間の言語ドメイン固有のアライメントを明らかにし、O3-MINIは形態においてより良く整列し、両方のモデルは構文に整列します。

要約(オリジナル)

Humans acquire language through implicit learning, absorbing complex patterns without explicit awareness. While LLMs demonstrate impressive linguistic capabilities, it remains unclear whether they exhibit human-like pattern recognition during in-context learning at inferencing level. We adapted three classic artificial language learning experiments spanning morphology, morphosyntax, and syntax to systematically evaluate implicit learning at inferencing level in two state-of-the-art OpenAI models: gpt-4o and o3-mini. Our results reveal linguistic domain-specific alignment between models and human behaviors, o3-mini aligns better in morphology while both models align in syntax.

arxiv情報

著者 Xiaomeng Ma,Qihui Xu
発行日 2025-03-31 15:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Implicit In-Context Learning: Evidence from Artificial Language Experiments はコメントを受け付けていません

Cascade Reward Sampling for Efficient Decoding-Time Alignment

要約

大規模な言語モデル(LLMS)を人間の好みに合わせて、アプリケーションには不可欠です。
最近、デコード時間アライメントは、微調整モデルパラメーターを回避する効果的なプラグアンドプレイ手法として浮上しています。
このアプローチは、前処理されたLLMの一般的なユーティリティを保持しますが、主に無駄なトークン生成と過度の報酬評価により、デコード中に重大な非効率性に苦しむことがよくあります。
これらの課題に対処するために、カスケード報酬サンプリング(カード)を導入して、デコード時のアライメントの両方の効率ボトルネックを解決します。
具体的には、LLMと報酬モデル(RMS)の両方の冗長計算を最小化するセグメントレベルの拒否サンプリングアルゴリズムを開発します。
カードの中心は不確実性に基づいたセグメンテーションメカニズムであり、不完全なセグメントでのRMS評価の精度を保証します。
さらに、セグメントの報酬スコアの詳細な分析を提供して、改善されたアライメントパフォーマンスを解明します。
実験結果は、カードが既存のデコード時間アライメント方法と比較してデコード効率、アライメントの品質、一般的なユーティリティを大幅に改善し、デコード時間の約70%の短縮、ユーティリティおよび安全ベンチマークの90%を超えるウィンタイを達成することを示しています。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences is essential for their applications. Recently, decoding-time alignment has emerged as an effective plug-and-play technique that avoids fine-tuning model parameters. This approach retains the general utility of pretrained LLMs but often suffers from significant inefficiencies during decoding, primarily due to wasted token generation and excessive reward evaluations. To address these challenges, we introduce Cascade Reward Sampling (CARDS) to resolve both efficiency bottlenecks in decoding-time alignment. Specifically, we develop a segment-level rejection sampling algorithm that minimizes redundant computations of both LLMs and reward models (RMs). Central to CARDS is an uncertainty-based segmentation mechanism, which ensures the accuracy of RMs evaluations on incomplete segments. Furthermore, we provide a detailed analysis of reward scores on segments to elucidate the improved alignment performance. Experimental results demonstrate that CARDS significantly improves decoding efficiency, alignment quality, and general utility compared to existing decoding-time alignment methods, achieving approximately a 70% reduction in decoding time and over 90% win-ties in utility and safety benchmarks.

arxiv情報

著者 Bolian Li,Yifan Wang,Anamika Lochab,Ananth Grama,Ruqi Zhang
発行日 2025-03-31 15:07:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | Cascade Reward Sampling for Efficient Decoding-Time Alignment はコメントを受け付けていません

TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers’ Guidance

要約

大規模な言語モデル(LLM)は、推論プロセスを組み込むことにより、問題解決に大きな進歩を遂げました。
ただし、この推論機能が強化されたため、推論中の出力トークンの数が増え、計算コストが高くなります。
この課題に対処するために、高性能を維持しながら、マルチ教師のガイダンスとの習慣的な推論蒸留を通じて推論時間コストを削減する方法であるTWT(トークンなしで考えている)を提案します。
私たちのアプローチでは、習慣的な推論蒸留方法を紹介します。これは、人間の認知に触発された教師が誘導する圧縮戦略を通じて、明示的な推論をモデルの習慣的な行動に内面化することです。
さらに、複数の教師モデルを使用して高品質で多様な蒸留データセットを生成する手法であるデュアル基準拒絶サンプリング(DCR)を提案し、監視されていないシナリオに適しています。
実験結果は、TWTが優れたパフォーマンスを維持しながら推論コストを効果的に削減し、他の蒸留方法と比較して出力トークンが少ないと精度が最大13.6%改善され、効率的なLLM展開のための非常に実用的なソリューションを提供することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have made significant strides in problem-solving by incorporating reasoning processes. However, this enhanced reasoning capability results in an increased number of output tokens during inference, leading to higher computational costs. To address this challenge, we propose TwT (Thinking without Tokens), a method that reduces inference-time costs through habitual reasoning distillation with multi-teachers’ guidance, while maintaining high performance. Our approach introduces a Habitual Reasoning Distillation method, which internalizes explicit reasoning into the model’s habitual behavior through a Teacher-Guided compression strategy inspired by human cognition. Additionally, we propose Dual-Criteria Rejection Sampling (DCRS), a technique that generates a high-quality and diverse distillation dataset using multiple teacher models, making our method suitable for unsupervised scenarios. Experimental results demonstrate that TwT effectively reduces inference costs while preserving superior performance, achieving up to a 13.6% improvement in accuracy with fewer output tokens compared to other distillation methods, offering a highly practical solution for efficient LLM deployment.

arxiv情報

著者 Jingxian Xu,Mengyu Zhou,Weichang Liu,Hanbing Liu,Shi Han,Dongmei Zhang
発行日 2025-03-31 15:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers’ Guidance はコメントを受け付けていません

Synthetic News Generation for Fake News Classification

要約

この研究では、大規模な言語モデル(LLM)を使用した事実ベースの操作を通じて、合成偽ニュースの生成と評価を調査します。
実際の記事から重要な事実を抽出し、それらを変更し、コンテンツを再生して一貫性を維持しながら偽のニュースをシミュレートする新しい方法論を紹介します。
生成されたコンテンツの品質を評価するために、一連の評価メトリックの一貫性、非類似性、および正確性を提案します。
この研究では、偽のニュース分類における合成データの適用も調査し、従来の機械学習モデルとBertなどの変圧器ベースのモデルを比較しています。
私たちの実験は、変圧器モデル、特にBertが偽のニュース検出のために合成データを効果的に活用し、合成データの割合が少ない改善を示すことを示しています。
さらに、事実の矛盾を特定することに焦点を当てた事実検証機能は、合成偽のニュースを区別する最も有望な結果を提供します。
この研究は、偽のニュース検出システムを強化する合成データの可能性を強調し、将来の研究のための貴重な洞察を提供し、合成データ生成のターゲットを絞った改善が検出モデルをさらに強化できることを示唆しています。

要約(オリジナル)

This study explores the generation and evaluation of synthetic fake news through fact based manipulations using large language models (LLMs). We introduce a novel methodology that extracts key facts from real articles, modifies them, and regenerates content to simulate fake news while maintaining coherence. To assess the quality of the generated content, we propose a set of evaluation metrics coherence, dissimilarity, and correctness. The research also investigates the application of synthetic data in fake news classification, comparing traditional machine learning models with transformer based models such as BERT. Our experiments demonstrate that transformer models, especially BERT, effectively leverage synthetic data for fake news detection, showing improvements with smaller proportions of synthetic data. Additionally, we find that fact verification features, which focus on identifying factual inconsistencies, provide the most promising results in distinguishing synthetic fake news. The study highlights the potential of synthetic data to enhance fake news detection systems, offering valuable insights for future research and suggesting that targeted improvements in synthetic data generation can further strengthen detection models.

arxiv情報

著者 Abdul Sittar,Luka Golob,Mateja Smiljanic
発行日 2025-03-31 15:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Synthetic News Generation for Fake News Classification はコメントを受け付けていません

Surgical Action Planning with Large Language Models

要約

ロボット支援の低侵襲手術では、現在のインテリジェントアプリケーションで術中予測計画の欠如に対処するために視覚入力から将来の行動計画を生成する外科的行動計画(SAP)タスクを導入します。
SAPは、術中のガイダンスと自動化手順を強化する大きな可能性を示しています。
ただし、機器と行動の関係を理解し​​たり、外科的進歩を追跡するなど、課題に直面しています。
大規模な言語モデル(LLMS)は、外科的ビデオ内容を理解することで有望ですが、主にレトロスペクティブ分析に焦点を当てているため、SAPでの予測的意思決定については目立たないままです。
データプライバシー、計算需要、モダリティ固有の制約などの課題は、重要な研究ギャップをさらに強調しています。
これらの課題に取り組むために、外科的目標の自然言語プロンプトを解釈することにより、将来の行動を予測し、テキスト応答を生成する大規模な言語モデルベースの外科的行動計画フレームワークであるLLM-SAPを紹介します。
テキストの回答は、外科教育、術中の意思決定、手順の文書化、およびスキル分析をサポートする可能性があります。
LLM-SAPは、2つの新しいモジュールを統合します。歴史的状態をモデル化するための歴史近くのフォーカスメモリモジュール(NHF-MM)と、アクションプランニングのためのプロンプトファクトリーです。
QWEN2.5やQWEN2-VLなどのモデルを使用して、構築されたChoLect50-SAPデータセットのLLM-SAPを評価し、次のアクション予測における有効性を示しています。
事前に訓練されたLLMはゼロショット設定でテストされ、LORAを使用した監視付き微調整(SFT)が実装されています。
私たちの実験は、QWEN2.5-72B-SFTがQWEN2.5-72Bを超えて19.3%高い精度で上回ることを示しています。

要約(オリジナル)

In robot-assisted minimally invasive surgery, we introduce the Surgical Action Planning (SAP) task, which generates future action plans from visual inputs to address the absence of intraoperative predictive planning in current intelligent applications. SAP shows great potential for enhancing intraoperative guidance and automating procedures. However, it faces challenges such as understanding instrument-action relationships and tracking surgical progress. Large Language Models (LLMs) show promise in understanding surgical video content but remain underexplored for predictive decision-making in SAP, as they focus mainly on retrospective analysis. Challenges like data privacy, computational demands, and modality-specific constraints further highlight significant research gaps. To tackle these challenges, we introduce LLM-SAP, a Large Language Models-based Surgical Action Planning framework that predicts future actions and generates text responses by interpreting natural language prompts of surgical goals. The text responses potentially support surgical education, intraoperative decision-making, procedure documentation, and skill analysis. LLM-SAP integrates two novel modules: the Near-History Focus Memory Module (NHF-MM) for modeling historical states and the prompts factory for action planning. We evaluate LLM-SAP on our constructed CholecT50-SAP dataset using models like Qwen2.5 and Qwen2-VL, demonstrating its effectiveness in next-action prediction. Pre-trained LLMs are tested in a zero-shot setting, and supervised fine-tuning (SFT) with LoRA is implemented. Our experiments show that Qwen2.5-72B-SFT surpasses Qwen2.5-72B with a 19.3% higher accuracy.

arxiv情報

著者 Mengya Xu,Zhongzhen Huang,Jie Zhang,Xiaofan Zhang,Qi Dou
発行日 2025-03-31 15:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Surgical Action Planning with Large Language Models はコメントを受け付けていません

BAR-Analytics: A Web-based Platform for Analyzing Information Spreading Barriers in News: Comparative Analysis Across Multiple Barriers and Events

要約

このペーパーでは、地理的、経済的、政治的、文化的境界を越えてニュース普及を分析するために設計されたWebベースのオープンソースプラットフォームであるBar-analyticsを紹介します。
プラットフォームは、ロシア – ウクライナ人とイスラエルとパレスチナの紛争をケーススタディとして使用して、伝播分析、トレンド分析、感情分析、および時間的トピックモデリングの4つの分析方法を統合します。
350,000を超える記事が収集および分析され、メタデータ濃縮を使用した経済的格差と地理的影響に焦点を当てました。
キーメトリックとして、コヒーレンス、感情極性、トピック頻度、トレンドシフトを使用してケーススタディを評価します。
私たちの結果は、ニュース報道における明確なパターンを示しています。イスラエルとパレスチナの紛争は、人権に焦点を当てた否定的な感情を抱く傾向がありますが、ロシアとウクレインの紛争はより前向きで、選挙の干渉を強調しています。
これらの調査結果は、さまざまな紛争にわたるメディアの物語を形作る際の政治的、経済的、地域的要因の影響を強調しています。

要約(オリジナル)

This paper presents BAR-Analytics, a web-based, open-source platform designed to analyze news dissemination across geographical, economic, political, and cultural boundaries. Using the Russian-Ukrainian and Israeli-Palestinian conflicts as case studies, the platform integrates four analytical methods: propagation analysis, trend analysis, sentiment analysis, and temporal topic modeling. Over 350,000 articles were collected and analyzed, with a focus on economic disparities and geographical influences using metadata enrichment. We evaluate the case studies using coherence, sentiment polarity, topic frequency, and trend shifts as key metrics. Our results show distinct patterns in news coverage: the Israeli-Palestinian conflict tends to have more negative sentiment with a focus on human rights, while the Russia-Ukraine conflict is more positive, emphasizing election interference. These findings highlight the influence of political, economic, and regional factors in shaping media narratives across different conflicts.

arxiv情報

著者 Abdul Sittar,Dunja Mladenic,Alenka Gucek,Marko Grobelnik
発行日 2025-03-31 15:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BAR-Analytics: A Web-based Platform for Analyzing Information Spreading Barriers in News: Comparative Analysis Across Multiple Barriers and Events はコメントを受け付けていません