Scholar Inbox: Personalized Paper Recommendations for Scientists

要約

Scholar Inboxは、急速に拡大する科学文献で、研究者が直面する課題に対処するために設計された新しいオープンアクセスプラットフォームです。
パーソナライズされた推奨事項、オープンアクセスアーカイブ(ARXIV、Biorxivなど)からの継続的な更新、視覚紙の要約、セマンティック検索、および研究ワークフローを合理化し、オープンリサーチアクセスを促進するためのさまざまなツールを提供します。
プラットフォームのパーソナライズされた推奨システムは、ユーザーの評価に関してトレーニングされており、推奨が個々の研究者の関心に合わせて調整されるようにします。
ユーザーエクスペリエンスをさらに強化するために、Scholar Inboxは、ドメイン全体の研究の概要を提供する科学のマップも提供し、ユーザーが特定のトピックを簡単に探索できるようにします。
このマップを使用して、推奨システムで一般的なコールドスタートの問題に対処し、ユーザーにペーパーの選択を評価するように促し、システムがユーザーの好みを迅速に学習できるようにするアクティブな学習戦略に対処します。
800kユーザー評価の新しいデータセットで推奨システムの品質を評価します。これは、広範なユーザー調査を通じて公開されています。
https://www.scholar-inbox.com/

要約(オリジナル)

Scholar Inbox is a new open-access platform designed to address the challenges researchers face in staying current with the rapidly expanding volume of scientific literature. We provide personalized recommendations, continuous updates from open-access archives (arXiv, bioRxiv, etc.), visual paper summaries, semantic search, and a range of tools to streamline research workflows and promote open research access. The platform’s personalized recommendation system is trained on user ratings, ensuring that recommendations are tailored to individual researchers’ interests. To further enhance the user experience, Scholar Inbox also offers a map of science that provides an overview of research across domains, enabling users to easily explore specific topics. We use this map to address the cold start problem common in recommender systems, as well as an active learning strategy that iteratively prompts users to rate a selection of papers, allowing the system to learn user preferences quickly. We evaluate the quality of our recommendation system on a novel dataset of 800k user ratings, which we make publicly available, as well as via an extensive user study. https://www.scholar-inbox.com/

arxiv情報

著者 Markus Flicke,Glenn Angrabeit,Madhav Iyengar,Vitalii Protsenko,Illia Shakun,Jovan Cicvaric,Bora Kargi,Haoyu He,Lukas Schuler,Lewin Scholz,Kavyanjali Agnihotri,Yong Cao,Andreas Geiger
発行日 2025-04-11 09:37:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Scholar Inbox: Personalized Paper Recommendations for Scientists はコメントを受け付けていません

Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models

要約

大規模な言語モデル(LLMS)の性格特性を評価することに関心が高まっています。
ただし、自己報告アンケートに基づく従来の人格評価は、固有のバイアスとメタ知識の汚染のために、真の行動ニュアンスを捉えることができない場合があります。
このペーパーでは、心理学における情報提供者レポート法からインスピレーションを引き出すLLMパーソナリティ評価のための新しいマルチオーバーバーフレームワークを紹介します。
自己評価のみに依存する代わりに、私たちのアプローチでは、特定の関係コンテキスト(家族、友人、職場など)で構成された複数のオブザーバーエージェントを使用して、対象のLLMを使用してインタラクティブなシナリオをシミュレートします。
これらのオブザーバーは対話に従事し、その後、ビッグファイブパーソナリティディメンション全体で評価を提供します。
私たちの実験では、LLMが自己報告の性格評価に系統的なバイアスを持っていることが明らかになりました。
さらに、観測者の評価を集約すると、非体系的なバイアスが効果的に減少し、5〜7人のオブザーバーと最適な信頼性が得られます。
調査結果は、人格の知覚に対する関係のコンテキストの重要な影響を強調し、マルチオーバーバーパラダイムがLLMパーソナリティ特性のより堅牢でコンテキストに敏感な評価をもたらすことを示しています。

要約(オリジナル)

There is a growing interest in assessing the personality traits of Large language models (LLMs). However, traditional personality assessments based on self-report questionnaires may fail to capture their true behavioral nuances due to inherent biases and meta-knowledge contamination. This paper introduces a novel multi-observer framework for LLM personality assessment that draws inspiration from informant-report methods in psychology. Instead of relying solely on self-assessments, our approach employs multiple observer agents configured with a specific relationship context (e.g., family, friend, or workplace) to simulate interactive scenarios with a subject LLM. These observers engage in dialogues and subsequently provide ratings across the Big Five personality dimensions. Our experiments reveal that LLMs possess systematic biases in self-report personality ratings. Moreover, aggregating observer ratings effectively reduces non-systematic biases and achieves optimal reliability with 5-7 observers. The findings highlight the significant impact of relationship context on personality perception and demonstrate that a multi-observer paradigm yields a more robust and context-sensitive evaluation of LLM personality traits.

arxiv情報

著者 Yin Jou Huang,Rafik Hadfi
発行日 2025-04-11 10:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models はコメントを受け付けていません

SemEval-2025 Task 5: LLMs4Subjects — LLM-based Automated Subject Tagging for a National Technical Library’s Open-Access Catalog

要約

GND分類法を使用して、英語とドイツ語の科学的およびドイツ語の科学的および技術記録の自動化されたサブジェクトタグ付けの共有タスクであるLLMS4Subjectsは、SEMVAL-2025タスク5:LLMS4Subjectsを提示します。
参加者は、定量的メトリック(精度、リコール、F1スコア)および被験者の専門家による定性的評価を通じて評価されるTOP-K被験者を推奨するLLMベースのシステムを開発しました。
結果は、LLMアンサンブル、合成データ生成、多言語処理の有効性を強調し、デジタルライブラリ分類にLLMを適用する洞察を提供します。

要約(オリジナル)

We present SemEval-2025 Task 5: LLMs4Subjects, a shared task on automated subject tagging for scientific and technical records in English and German using the GND taxonomy. Participants developed LLM-based systems to recommend top-k subjects, evaluated through quantitative metrics (precision, recall, F1-score) and qualitative assessments by subject specialists. Results highlight the effectiveness of LLM ensembles, synthetic data generation, and multilingual processing, offering insights into applying LLMs for digital library classification.

arxiv情報

著者 Jennifer D’Souza,Sameer Sadruddin,Holger Israel,Mathias Begoin,Diana Slawig
発行日 2025-04-11 10:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, cs.LG | SemEval-2025 Task 5: LLMs4Subjects — LLM-based Automated Subject Tagging for a National Technical Library’s Open-Access Catalog はコメントを受け付けていません

BOISHOMMO: Holistic Approach for Bangla Hate Speech

要約

デジタル社会で最も警戒する問題の1つは、ソーシャルメディアでのヘイトスピーチ(HS)です。
重症度は非常に高いため、世界中の研究者がこのドメインに魅了されています。
識別とアラームシステムに対処するために、顕著な量の作業が実施されています。
ただし、特に低リソース言語の場合、顕著なギャップが存在します。
包括的なデータセットは、バングラなどの制約されたリソース言語の主な問題です。
興味深いことに、ヘイトスピーチや特定のスピーチには単一の次元はありません。
同様に、憎悪コンポーネントには複数の虐待的な属性を同時に持つことができます。これは既存のデータセットで見逃されているようです。
したがって、Boishommoという名前のマルチラベルバングラヘイトスピーチデータセットがこの作業で編集され、評価されています。
それには、人種、性別、宗教、政治などのHSのカテゴリが含まれます。
Boishommoは、2000以上の注釈付きの例で、バングラでのヘイトスピーチについての微妙な理解を提供し、非ラチンスクリプトの処理の複雑さを強調しています。
複数のアルゴリズムアプローチでの評価とは別に、バングラテキストの処理の複雑さも強調し、モデルのパフォーマンスを評価します。
このユニークなマルチラベルアプローチは、より微妙で多様なデータセットを提供することにより、低リソース言語の将来のヘイトスピーチ検出と分析研究を豊かにします。

要約(オリジナル)

One of the most alarming issues in digital society is hate speech (HS) on social media. The severity is so high that researchers across the globe are captivated by this domain. A notable amount of work has been conducted to address the identification and alarm system. However, a noticeable gap exists, especially for low-resource languages. Comprehensive datasets are the main problem among the constrained resource languages, such as Bangla. Interestingly, hate speech or any particular speech has no single dimensionality. Similarly, the hate component can simultaneously have multiple abusive attributes, which seems to be missed in the existing datasets. Thus, a multi-label Bangla hate speech dataset named BOISHOMMO has been compiled and evaluated in this work. That includes categories of HS across race, gender, religion, politics, and more. With over two thousand annotated examples, BOISHOMMO provides a nuanced understanding of hate speech in Bangla and highlights the complexities of processing non-Latin scripts. Apart from evaluating with multiple algorithmic approaches, it also highlights the complexities of processing Bangla text and assesses model performance. This unique multi-label approach enriches future hate speech detection and analysis studies for low-resource languages by providing a more nuanced, diverse dataset.

arxiv情報

著者 Md Abdullah Al Kafi,Sumit Kumar Banshal,Md Sadman Shakib,Showrov Azam,Tamanna Alam Tabashom
発行日 2025-04-11 10:14:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BOISHOMMO: Holistic Approach for Bangla Hate Speech はコメントを受け付けていません

A Federated Approach to Few-Shot Hate Speech Detection for Marginalized Communities

要約

ヘイトスピーチオンラインは、特にインターネットの浸透が増加する社会の発展を含む、疎外されたコミュニティ、特にグローバルな南部では研究されていない問題のままです。
この論文では、母国語で攻撃的なコンテンツをフィルタリングすることにより、オンラインヘイトスピーチから身を守るためのプライバシー推定ツールを使用して、支配的な言語が低リソースである社会で疎外されたコミュニティを提供することを目指しています。
私たちの貢献は2つあります。1)私たちは、経験豊富なデータコレクターによってキュレーションされた複数のターゲットグループと低リソース言語で構成される高品質で文化固有のヘイトスピーチ検出データセットのコレクションである、リリース(コンテキスト間で応答性のあるヘイトスピーチデータセット)をリリースします。
2)Federated Learning(FL)に基づいたいくつかのショットのヘイトスピーチ検出アプローチを提案します。これは、さまざまなターゲットグループや言語に取り組むときに堅牢性を示す中央モデルを共同でトレーニングするためのプライバシーを提供する方法です。
トレーニングをユーザーデバイスからローカルに保持することにより、FLの集合学習メリットを活用しながら、データプライバシーを確​​保します。
さらに、特定のターゲットグループに合わせたパーソナライズされたクライアントモデルを探索し、パフォーマンスを評価します。
私たちの調査結果は、異なるターゲットグループにわたるFLの全体的な有効性を示しており、パーソナライズを有望な方向として示しています。

要約(オリジナル)

Hate speech online remains an understudied issue for marginalized communities, particularly in the Global South, which includes developing societies with increasing internet penetration. In this paper, we aim to provide marginalized communities in societies where the dominant language is low-resource with a privacy-preserving tool to protect themselves from online hate speech by filtering offensive content in their native languages. Our contributions are twofold: 1) we release REACT (REsponsive hate speech datasets Across ConTexts), a collection of high-quality, culture-specific hate speech detection datasets comprising multiple target groups and low-resource languages, curated by experienced data collectors; 2) we propose a few-shot hate speech detection approach based on federated learning (FL), a privacy-preserving method for collaboratively training a central model that exhibits robustness when tackling different target groups and languages. By keeping training local to user devices, we ensure data privacy while leveraging the collective learning benefits of FL. Furthermore, we explore personalized client models tailored to specific target groups and evaluate their performance. Our findings indicate the overall effectiveness of FL across different target groups, and point to personalization as a promising direction.

arxiv情報

著者 Haotian Ye,Axel Wisiorek,Antonis Maronikolakis,Özge Alaçam,Hinrich Schütze
発行日 2025-04-11 11:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Federated Approach to Few-Shot Hate Speech Detection for Marginalized Communities はコメントを受け付けていません

UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical Entity Recognition

要約

事前に訓練されたトランス語モデル(LMS)は、近年、応用NLPの支配的なパラダイムになりました。
これらのモデルは、情報抽出、質問回答、センチメント分析、文書分類など、情報抽出、質問の回答、文書分類などのタスクで最先端のパフォーマンスを達成しています。
生物医学ドメインでは、このパラダイムをドメイン固有の知識の統合と言語の統計モデリングを必要とするNLPタスクに適応することにおいて、かなりの進歩が遂げられています。
特に、この分野の研究は、医療テキストのトークン分布のパターンだけでなく、UMLSなどの用語リソースに含まれる構造化された情報の豊富な情報も考慮に入れるLMSを構築する最善の方法の問題に焦点を当てています。
この作業は、UMLSからテキストシーケンスを抽出することにより、生物医学トランスエンコーダーLMSの言語表現を豊かにするためのデータ中心のパラダイムに寄与します。
これにより、グラフベースの学習目標をマスクされた言語の事前トレーニングと組み合わせることができます。
事前に訓練されたLMSの拡張における実験の予備的な結果とゼロからのトレーニングは、このフレームワークが複数の生物医学的および臨床指定されたエンティティ認識(NER)タスクの下流のパフォーマンスを改善することを示しています。

要約(オリジナル)

Pre-trained transformer language models (LMs) have in recent years become the dominant paradigm in applied NLP. These models have achieved state-of-the-art performance on tasks such as information extraction, question answering, sentiment analysis, document classification and many others. In the biomedical domain, significant progress has been made in adapting this paradigm to NLP tasks that require the integration of domain-specific knowledge as well as statistical modelling of language. In particular, research in this area has focused on the question of how best to construct LMs that take into account not only the patterns of token distribution in medical text, but also the wealth of structured information contained in terminology resources such as the UMLS. This work contributes a data-centric paradigm for enriching the language representations of biomedical transformer-encoder LMs by extracting text sequences from the UMLS. This allows for graph-based learning objectives to be combined with masked-language pre-training. Preliminary results from experiments in the extension of pre-trained LMs as well as training from scratch show that this framework improves downstream performance on multiple biomedical and clinical Named Entity Recognition (NER) tasks.

arxiv情報

著者 Aidan Mannion,Thierry Chevalier,Didier Schwab,Lorraine Geouriot
発行日 2025-04-11 11:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical Entity Recognition はコメントを受け付けていません

Integrated ensemble of BERT- and features-based models for authorship attribution in Japanese literary works

要約

従来、著者の帰属(AA)タスクは、テキストから抽出されたスタイルの特徴に基づいた統計データ分析と分類に依存していました。
近年、事前に訓練された言語モデル(PLMS)は、テキスト分類タスクに大きな注目を集めています。
ただし、大規模なショートテキストデータセットで優れたパフォーマンスを示していますが、その有効性は、特にAAタスクでは、小さなサンプルでは採点されていないままです。
さらに、重要な課題は、従来の機能ベースの方法と組み合わせてPLMSを効果的に活用してAA研究を進める方法です。
この研究では、小さなサンプルのAAタスク上の従来の機能ベースおよび最新のPLMベースの方法の統合された統合アンサンブルを使用して、パフォーマンスを大幅に改善することを目指しました。
実験では、2つの文学作品を使用して、それぞれ10人の著者を分類しました。
結果は、小規模のAAタスクであっても、Bertが効果的であることを示しています。
Bertベースの両方のアンサンブルは、それぞれのスタンドアロンモデルよりも優れており、統合されたアンサンブルアプローチによりスコアが大幅に改善されました。
トレーニング前のデータに含まれていないコーパスの場合、統合されたアンサンブルは、最高のパフォーマンスのシングルモデルと比較して、F1スコアを約14ポイント改善しました。
当社の方法論は、近い将来に拡大し続ける一連のデータ処理ツールを効率的に使用するための実行可能なソリューションを提供します。

要約(オリジナル)

Traditionally, authorship attribution (AA) tasks relied on statistical data analysis and classification based on stylistic features extracted from texts. In recent years, pre-trained language models (PLMs) have attracted significant attention in text classification tasks. However, although they demonstrate excellent performance on large-scale short-text datasets, their effectiveness remains under-explored for small samples, particularly in AA tasks. Additionally, a key challenge is how to effectively leverage PLMs in conjunction with traditional feature-based methods to advance AA research. In this study, we aimed to significantly improve performance using an integrated integrative ensemble of traditional feature-based and modern PLM-based methods on an AA task in a small sample. For the experiment, we used two corpora of literary works to classify 10 authors each. The results indicate that BERT is effective, even for small-sample AA tasks. Both BERT-based and classifier ensembles outperformed their respective stand-alone models, and the integrated ensemble approach further improved the scores significantly. For the corpus that was not included in the pre-training data, the integrated ensemble improved the F1 score by approximately 14 points, compared to the best-performing single model. Our methodology provides a viable solution for the efficient use of the ever-expanding array of data processing tools in the foreseeable future.

arxiv情報

著者 Taisei Kanda,Mingzhe Jin,Wataru Zaitsu
発行日 2025-04-11 13:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Integrated ensemble of BERT- and features-based models for authorship attribution in Japanese literary works はコメントを受け付けていません

On The Landscape of Spoken Language Models: A Comprehensive Survey

要約

音声言語処理の分野は、普遍的な音声処理システムとして機能するカスタム構築のタスク固有のモデル(SLM)の使用と最適化へのシフトを受けています。
この傾向は、(テキスト)自然言語処理の分野で行われたユニバーサル言語モデルへの進行に似ています。
SLMには、音声の「純粋な」言語モデル(トークン化された音声シーケンスの分布モデル)と、音声エンコーダーとテキスト言語モデルを組み合わせたモデルの両方が含まれます。
この分野での作業は非常に多様であり、用語と評価設定の範囲があります。
このペーパーは、分野の進化の文脈における最近の研究に関する統一文献調査を通じて、SLMの理解の向上に貢献することを目的としています。
私たちの調査では、モデルアーキテクチャ、トレーニング、評価の選択肢によってこの分野の作業を分類し、将来の作業のためのいくつかの重要な課題と方向性について説明します。

要約(オリジナル)

The field of spoken language processing is undergoing a shift from training custom-built, task-specific models toward using and optimizing spoken language models (SLMs) which act as universal speech processing systems. This trend is similar to the progression toward universal language models that has taken place in the field of (text) natural language processing. SLMs include both ‘pure’ language models of speech — models of the distribution of tokenized speech sequences — and models that combine speech encoders with text language models, often including both spoken and written input or output. Work in this area is very diverse, with a range of terminology and evaluation settings. This paper aims to contribute an improved understanding of SLMs via a unifying literature survey of recent work in the context of the evolution of the field. Our survey categorizes the work in this area by model architecture, training, and evaluation choices, and describes some key challenges and directions for future work.

arxiv情報

著者 Siddhant Arora,Kai-Wei Chang,Chung-Ming Chien,Yifan Peng,Haibin Wu,Yossi Adi,Emmanuel Dupoux,Hung-Yi Lee,Karen Livescu,Shinji Watanabe
発行日 2025-04-11 13:40:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | On The Landscape of Spoken Language Models: A Comprehensive Survey はコメントを受け付けていません

Lexical Bundle Frequency as a Construct-Relevant Candidate Feature in Automated Scoring of L2 Academic Writing

要約

自動スコアリング(AS)システムは、L2ライティングの評価にますます使用されていますが、コンストラクトの妥当性のために継続的な改良が必要です。
以前の研究では、語彙バンドル(LBS) – 特定の周波数基準を満たす再発性マルチワードシーケンス – が評価に情報を提供することを提案しましたが、モデルへの経験的統合はさらなる調査が必要です。
この研究では、LB周波数の特徴をTOEFL独立執筆タスクのASモデルに組み込むことの影響をテストしました。
ETEFL11コーパスからサンプルされたサブコルパス(n = 1,225エッセイ、9 L1S)を分析し、ETS訓練を受けた評価者(低、中、高)、3〜9ワードLBSによって採点され、非プロムプトタイプから迅速な特異的を区別しました。
確立された言語特徴(メカニック、凝集、洗練度など)を使用したベースラインサポートベクターマシン(SVM)スコアモデルを、3つの凝集LB周波数機能(合計プロンプト、総非営利、全体的な合計)を含む拡張モデルと比較しました。
結果は、一般的に小さいが、LB頻度(特に非普及バンドル)と習熟度(p <.05)の間の関係があるが、有意な有意なことを明らかにしました。 平均頻度では、より低い習熟度エッセイが全体でより多くのLBを使用したことを示唆しました。 重大なことに、LB強化モデルは、人間の評価者との一致を改善しました(第四紀のコーエンのカッパ +2.05%、全体的なコーエンのカッパ +5.63%)。 これらの調査結果は、積分LB周波数を統合すると、特に開発中のL2ライターを区別するために、より言語的に情報に基づいた正確なシステムを開発する可能性があることを示しています。

要約(オリジナル)

Automated scoring (AS) systems are increasingly used for evaluating L2 writing, but require ongoing refinement for construct validity. While prior work suggested lexical bundles (LBs) – recurrent multi-word sequences satisfying certain frequency criteria – could inform assessment, their empirical integration into AS models needs further investigation. This study tested the impact of incorporating LB frequency features into an AS model for TOEFL independent writing tasks. Analyzing a sampled subcorpus (N=1,225 essays, 9 L1s) from the TOEFL11 corpus, scored by ETS-trained raters (Low, Medium, High), 3- to 9-word LBs were extracted, distinguishing prompt-specific from non-prompt types. A baseline Support Vector Machine (SVM) scoring model using established linguistic features (e.g., mechanics, cohesion, sophistication) was compared against an extended model including three aggregate LB frequency features (total prompt, total non-prompt, overall total). Results revealed significant, though generally small-effect, relationships between LB frequency (especially non-prompt bundles) and proficiency (p < .05). Mean frequencies suggested lower proficiency essays used more LBs overall. Critically, the LB-enhanced model improved agreement with human raters (Quadratic Cohen's Kappa +2.05%, overall Cohen's Kappa +5.63%), with notable gains for low (+10.1% exact agreement) and medium (+14.3% Cohen's Kappa) proficiency essays. These findings demonstrate that integrating aggregate LB frequency offers potential for developing more linguistically informed and accurate AS systems, particularly for differentiating developing L2 writers.

arxiv情報

著者 Burak Senel
発行日 2025-04-11 13:47:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Lexical Bundle Frequency as a Construct-Relevant Candidate Feature in Automated Scoring of L2 Academic Writing はコメントを受け付けていません

UoB-NLP at SemEval-2025 Task 11: Leveraging Adapters for Multilingual and Cross-Lingual Emotion Detection

要約

自然言語処理における感情検出は、人間の感情と言語の多様性の複雑さのために、困難な作業です。
高リソース言語では大きな進歩がありましたが、低リソース言語での感情検出は未定のままです。
この作業では、アダプターベースの微調整を多言語の事前訓練モデルと活用することにより、多言語および言語間の感情検出に対処します。
アダプターは、事前に訓練されたモデルの重みを固定しながら、少数のトレーニング可能なパラメーターを導入し、適応に対するパラメーター効率の高いアプローチを提供します。
タスクのみのアダプター、ターゲット言語対応タスクアダプター、言語ファミリーベースのアダプターなど、さまざまなアダプターチューニング戦略を実験します。
我々の結果は、ターゲット言語対応タスクアダプターが最高の全体的なパフォーマンスを達成することを示しています。特に、リソースの低いアフリカの言語では、チームがティグリニャで7位、トラックCでキニャルワンダで8位にランクされていることが示されています。
私たちのアプローチは、11の言語で大きな言語モデルよりも優れており、パラメーターが大幅に少ないにもかかわらず、他の4つの言語でのパフォーマンスと一致します。
さらに、アダプターベースのモデルは、言語間転送機能を保持しながら、各言語の完全な微調整と比較して計算リソースが少ないことがわかります。

要約(オリジナル)

Emotion detection in natural language processing is a challenging task due to the complexity of human emotions and linguistic diversity. While significant progress has been made in high-resource languages, emotion detection in low-resource languages remains underexplored. In this work, we address multilingual and cross-lingual emotion detection by leveraging adapter-based fine-tuning with multilingual pre-trained language models. Adapters introduce a small number of trainable parameters while keeping the pre-trained model weights fixed, offering a parameter-efficient approach to adaptation. We experiment with different adapter tuning strategies, including task-only adapters, target-language-ready task adapters, and language-family-based adapters. Our results show that target-language-ready task adapters achieve the best overall performance, particularly for low-resource African languages with our team ranking 7th for Tigrinya, and 8th for Kinyarwanda in Track A. In Track C, our system ranked 3rd for Amharic, and 4th for Oromo, Tigrinya, Kinyarwanda, Hausa, and Igbo. Our approach outperforms large language models in 11 languages and matches their performance in four others, despite our models having significantly fewer parameters. Furthermore, we find that adapter-based models retain cross-linguistic transfer capabilities while requiring fewer computational resources compared to full fine-tuning for each language.

arxiv情報

著者 Frances Laureano De Leon,Yixiao Wang,Yue Feng,Mark G. Lee
発行日 2025-04-11 13:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UoB-NLP at SemEval-2025 Task 11: Leveraging Adapters for Multilingual and Cross-Lingual Emotion Detection はコメントを受け付けていません