Applying LLMs to Active Learning: Towards Cost-Efficient Cross-Task Text Classification without Manually Labeled Data

要約

機械学習ベースの分類器は、感情分析、ニュース分類、有毒なコメント分類など、テキスト分類に使用されています。
ただし、監視された機械学習モデルには、トレーニングのために大量のラベル付きデータが必要であることが多く、手動注釈は労働集約的であり、ドメイン固有の知識が必要であり、比較的高い注釈コストにつながります。
この問題に対処するために、手動でラベル付けされたデータを必要とせずに、大規模な言語モデル(LLMS)をアクティブな学習フレームワークに統合し、高いクロスタスクテキスト分類パフォーマンスを実現するアプローチを提案します。
さらに、分類タスクにGPTを直接適用するのと比較して、当社のアプローチでは、分類パフォーマンスの93%以上を保持し、計算時間と金銭的コストの約6%しか必要とされず、パフォーマンスとリソース効率のバランスをとります。
これらの調査結果は、テキスト分類タスクにおけるLLMSおよびアクティブ学習アルゴリズムの効率的な利用に関する新しい洞察を提供し、より広範なアプリケーションへの道を開きます。

要約(オリジナル)

Machine learning-based classifiers have been used for text classification, such as sentiment analysis, news classification, and toxic comment classification. However, supervised machine learning models often require large amounts of labeled data for training, and manual annotation is both labor-intensive and requires domain-specific knowledge, leading to relatively high annotation costs. To address this issue, we propose an approach that integrates large language models (LLMs) into an active learning framework, achieving high cross-task text classification performance without the need for any manually labeled data. Furthermore, compared to directly applying GPT for classification tasks, our approach retains over 93% of its classification performance while requiring only approximately 6% of the computational time and monetary cost, effectively balancing performance and resource efficiency. These findings provide new insights into the efficient utilization of LLMs and active learning algorithms in text classification tasks, paving the way for their broader application.

arxiv情報

著者 Yejian Zhang,Shingo Takada
発行日 2025-05-05 12:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Applying LLMs to Active Learning: Towards Cost-Efficient Cross-Task Text Classification without Manually Labeled Data はコメントを受け付けていません

MONOVAB : An Annotated Corpus for Bangla Multi-label Emotion Detection

要約

近年、センチメント分析(SA)と感情認識(ER)は、全世界で7番目に話されている言語であるバングラ語でますます人気があります。
ただし、言語は構造的に複雑であるため、この分野は正確な方法で感情を抽出するために困難になります。
この研究分野では、肯定的および否定的な感情の抽出やマルチクラス感情の抽出などのいくつかの異なるアプローチが実装されています。
それにもかかわらず、複数の感情の抽出は、この言語ではほとんど手つかずの領域です。
これには、単一のテキストに基づいていくつかの感情を識別することが含まれます。
したがって、この研究は、Facebookからの廃棄されたデータに基づいて注釈付きコーパスを構築するための徹底的な方法を示しており、この主題領域のギャップを埋めて課題を克服します。
この注釈をより実り多いものにするために、コンテキストベースのアプローチが使用されています。
トランスのよく知られた方法論であるトランス(BERT)からの双方向エンコーダー表現は、実装されたすべての方法の最良の結果を示しています。
最後に、バングラのマルチラベルER向けの事前訓練を受けたトップパフォーマーモデル(BERT)のパフォーマンスを実証するために、Webアプリケーションが開発されました。

要約(オリジナル)

In recent years, Sentiment Analysis (SA) and Emotion Recognition (ER) have been increasingly popular in the Bangla language, which is the seventh most spoken language throughout the entire world. However, the language is structurally complicated, which makes this field arduous to extract emotions in an accurate manner. Several distinct approaches such as the extraction of positive and negative sentiments as well as multiclass emotions, have been implemented in this field of study. Nevertheless, the extraction of multiple sentiments is an almost untouched area in this language. Which involves identifying several feelings based on a single piece of text. Therefore, this study demonstrates a thorough method for constructing an annotated corpus based on scrapped data from Facebook to bridge the gaps in this subject area to overcome the challenges. To make this annotation more fruitful, the context-based approach has been used. Bidirectional Encoder Representations from Transformers (BERT), a well-known methodology of transformers, have been shown the best results of all methods implemented. Finally, a web application has been developed to demonstrate the performance of the pre-trained top-performer model (BERT) for multi-label ER in Bangla.

arxiv情報

著者 Sumit Kumar Banshal,Sajal Das,Shumaiya Akter Shammi,Narayan Ranjan Chakraborty,Aulia Luqman Aziz,Mohammed Aljuaid,Fazla Rabby,Rohit Bansal
発行日 2025-05-05 13:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | MONOVAB : An Annotated Corpus for Bangla Multi-label Emotion Detection はコメントを受け付けていません

How do Humans and Language Models Reason About Creativity? A Comparative Analysis

要約

科学と工学の創造性評価は、人間とAIの両方の判断にますます基づいていますが、これらの評価の背後にある認知プロセスとバイアスは、あまり理解されていません。
評価を持つソリューションの例を含む方法を調べる2つの実験を実施しました。これは、評価者がオリジナリティスコアを説明し、遠隔のファセットの評価(日常のアイデアから「遠く」であるかどうか)、commmonness(反応がまれであるかどうか)、および巧妙さを説明する微細にグレインの注釈プロトコルを使用して、創造性評価に影響を与える方法を調べました。
研究1では、正式な科学またはエンジニアリングトレーニングを受けた72人の専門家からの創造性評価を分析し、評価を受けたソリューションを受けた人(例)を受けた人を比較しなかった人と比較しました(例なし)。
計算テキスト分析により、例を持つ専門家と比較して、例のない専門家はより多くの比較言語(「より良い/悪い」)を使用し、ソリューションの珍しいものを強調し、比較のためにメモリの検索にもっと依存している可能性があることが明らかになりました。
研究2では、最先端のLLMSを使用した並行分析により、モデルは独創性を評価するときにアイデアの不明確性と遠隔性に優先され、アイデアの意味的な類似性に根ざした評価プロセスを示唆していることが明らかになりました。
例の条件では、真の独創性スコアを予測するLLM精度が改善されましたが、リモート性、まれ、独創性との賢さの相関は、個々のファセットのLLMS評価の均質化を示唆する0.99ドル以上に大幅に増加しました。
これらの発見は、人間とAIが創造性についてどのように推論しているかについての重要な意味を強調し、評価時に異なる集団が優先するものに対する分岐の好みを示唆しています。

要約(オリジナル)

Creativity assessment in science and engineering is increasingly based on both human and AI judgment, but the cognitive processes and biases behind these evaluations remain poorly understood. We conducted two experiments examining how including example solutions with ratings impact creativity evaluation, using a finegrained annotation protocol where raters were tasked with explaining their originality scores and rating for the facets of remoteness (whether the response is ‘far’ from everyday ideas), uncommonness (whether the response is rare), and cleverness. In Study 1, we analyzed creativity ratings from 72 experts with formal science or engineering training, comparing those who received example solutions with ratings (example) to those who did not (no example). Computational text analysis revealed that, compared to experts with examples, no-example experts used more comparative language (e.g., ‘better/worse’) and emphasized solution uncommonness, suggesting they may have relied more on memory retrieval for comparisons. In Study 2, parallel analyses with state-of-the-art LLMs revealed that models prioritized uncommonness and remoteness of ideas when rating originality, suggesting an evaluative process rooted around the semantic similarity of ideas. In the example condition, while LLM accuracy in predicting the true originality scores improved, the correlations of remoteness, uncommonness, and cleverness with originality also increased substantially — to upwards of $0.99$ — suggesting a homogenization in the LLMs evaluation of the individual facets. These findings highlight important implications for how humans and AI reason about creativity and suggest diverging preferences for what different populations prioritize when rating.

arxiv情報

著者 Antonio Laverghetta Jr.,Tuhin Chakrabarty,Tom Hope,Jimmy Pronchick,Krupa Bhawsar,Roger E. Beaty
発行日 2025-05-05 13:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How do Humans and Language Models Reason About Creativity? A Comparative Analysis はコメントを受け付けていません

Proper Name Diacritization for Arabic Wikipedia: A Benchmark Dataset

要約

アラビア語のウィキペディアの適切な名前はしばしば触覚化されており、特に外国起源の音訳された指定されたエンティティの発音と解釈に曖昧さを生み出します。
音訳と二項化はアラビア語のNLPで別々に研究されていますが、それらの交差点は露出していないままです。
この論文では、英語のウィキペディアに相当する光沢を備えたさまざまな起源のアラビア語の固有名詞の新しい手動での異なるデータセットを紹介し、それを作成するために従った課題とガイドラインを提示します。
GPT-4Oは、アラビア語と英語の未積型とそのパフォーマンスを考慮して、完全な二項化を回復するタスクに基づいています。
73%の精度を達成した結果、私たちの結果は、タスクの難易度と改善されたモデルとリソースの必要性の両方を強調しています。
データセットをリリースして、アラビア語のウィキペディアの適切な名前ディクリット化に関するさらなる研究を容易にします。

要約(オリジナル)

Proper names in Arabic Wikipedia are frequently undiacritized, creating ambiguity in pronunciation and interpretation, especially for transliterated named entities of foreign origin. While transliteration and diacritization have been well-studied separately in Arabic NLP,their intersection remains underexplored. In this paper, we introduce a new manually diacritized dataset of Arabic proper names of various origins with their English Wikipedia equivalent glosses, and present the challenges and guidelines we followed to create it. We benchmark GPT-4o on the task of recovering full diacritization given the undiacritized Arabic and English forms, and analyze its performance. Achieving 73% accuracy, our results underscore both the difficulty of the task and the need for improved models and resources. We release our dataset to facilitate further research on Arabic Wikipedia proper name diacritization.

arxiv情報

著者 Rawan Bondok,Mayar Nassar,Salam Khalifa,Kurt Micallaf,Nizar Habash
発行日 2025-05-05 14:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Proper Name Diacritization for Arabic Wikipedia: A Benchmark Dataset はコメントを受け付けていません

A Survey on Progress in LLM Alignment from the Perspective of Reward Design

要約

人間の価値と意図との大規模な言語モデル(LLM)の整合性は、報酬メカニズムの設計がモデルの動作を形成する上で重要な要因となっている現在のAI研究の中心的な課題を表しています。
この研究は、体系的な理論的枠組みを介したLLMアライメントにおける報酬メカニズムの包括的な調査を実施し、その開発を3つの重要なフェーズに分類します:(1)フィードバック(診断)、(2)報酬設計(処方)、および(3)最適化(治療)。
この研究は、建設基準、形式、表現、および粒度を含む4次元分析を通じて、報酬モデリングの進化的傾向を明らかにする体系的な分類フレームワークを確立します。
LLMアライメントの分野はいくつかの永続的な課題に直面していますが、報酬設計の最近の進歩は大きなパラダイムシフトを促進しています。
注目すべき開発には、補強学習ベースのフレームワークから新しい最適化パラダイムへの移行、およびマルチモーダル統合と同時タスク調整を含む複雑なアライメントシナリオに対処するための強化された機能が含まれます。
最後に、この調査では、革新的な報酬設計戦略を通じて、LLMの調整に関する将来の研究の方向性を有望で概説しています。

要約(オリジナル)

The alignment of large language models (LLMs) with human values and intentions represents a core challenge in current AI research, where reward mechanism design has become a critical factor in shaping model behavior. This study conducts a comprehensive investigation of reward mechanisms in LLM alignment through a systematic theoretical framework, categorizing their development into three key phases: (1) feedback (diagnosis), (2) reward design (prescription), and (3) optimization (treatment). Through a four-dimensional analysis encompassing construction basis, format, expression, and granularity, this research establishes a systematic classification framework that reveals evolutionary trends in reward modeling. The field of LLM alignment faces several persistent challenges, while recent advances in reward design are driving significant paradigm shifts. Notable developments include the transition from reinforcement learning-based frameworks to novel optimization paradigms, as well as enhanced capabilities to address complex alignment scenarios involving multimodal integration and concurrent task coordination. Finally, this survey outlines promising future research directions for LLM alignment through innovative reward design strategies.

arxiv情報

著者 Miaomiao Ji,Yanqiu Wu,Zhibin Wu,Shoujin Wang,Jian Yang,Mark Dras,Usman Naseem
発行日 2025-05-05 14:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Progress in LLM Alignment from the Perspective of Reward Design はコメントを受け付けていません

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

要約

大規模な言語モデル(LLMS)の最近の開発は、トレーニング前のスケーリングからトレーニング後およびテスト時間のスケーリングに移行しました。
これらの開発全体で、主要な統一されたパラダイムが生じています。報酬信号がLLMの動作を導くためのガイドスターとして機能する報酬から学ぶことです。
補強学習(RLHF、DPO、GRPO)、報酬誘導デコード、および事後修正など、幅広い一般的な技術を支えています。
重要なことに、このパラダイムにより、静的データからのパッシブ学習から動的フィードバックからのアクティブな学習への移行が可能になります。
これは、LLMSに整合した好みと深い推論機能を備えています。
この調査では、報酬から学習のパラダイムの包括的な概要を示します。
トレーニング、推論、および推論後の段階にわたって、このパラダイムの下で戦略を分類および分析します。
さらに、報酬モデルのベンチマークと主要なアプリケーションについて説明します。
最後に、課題と将来の方向性を強調します。
https://github.com/bobxwu/learning-from-rewards-llm-papersで紙コレクションを維持しています。

要約(オリジナル)

Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

arxiv情報

著者 Xiaobao Wu
発行日 2025-05-05 14:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models はコメントを受け付けていません

fastabx: A library for efficient computation of ABX discriminability

要約

ABX差別タスクを構築するための高性能PythonライブラリであるFastAbxを紹介します。
ABXは、関心のある一般的なカテゴリ間の分離の尺度です。
それは、自己教師の音声表現における音声識別性を評価するために広く使用されてきました。
ただし、その幅広い採用は、適切なツールがないために制限されています。
FASTABXは、タスクの作成と表現間の距離の計算の両方で、迅速な開発サイクルに必要な効率を提供しながら、あらゆるタイプのABXタスクを構築できるフレームワークを提供することにより、このギャップに対処します。
FastABXは、より広範な表現学習コミュニティにとって貴重なリソースとして機能し、研究者が音声処理以外のいくつかのドメインで学習した表現から直接抽出できる情報を体系的に調査できるようにすると考えています。
ソースコードは、https://github.com/bootphon/fastabxで入手できます。

要約(オリジナル)

We introduce fastabx, a high-performance Python library for building ABX discrimination tasks. ABX is a measure of the separation between generic categories of interest. It has been used extensively to evaluate phonetic discriminability in self-supervised speech representations. However, its broader adoption has been limited by the absence of adequate tools. fastabx addresses this gap by providing a framework capable of constructing any type of ABX task while delivering the efficiency necessary for rapid development cycles, both in task creation and in calculating distances between representations. We believe that fastabx will serve as a valuable resource for the broader representation learning community, enabling researchers to systematically investigate what information can be directly extracted from learned representations across several domains beyond speech processing. The source code is available at https://github.com/bootphon/fastabx.

arxiv情報

著者 Maxime Poli,Emmanuel Chemla,Emmanuel Dupoux
発行日 2025-05-05 14:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | fastabx: A library for efficient computation of ABX discriminability はコメントを受け付けていません

Predicting Movie Hits Before They Happen with LLMs

要約

コンテンツ推薦におけるコールドスタート問題への取り組みは、現在進行中の重要な課題である。本研究では、大規模なエンターテイメントプラットフォームにおける映画のコールドスタート問題に取り組むことに焦点を当てる。我々の主な目標は、映画のメタデータを活用した大規模言語モデル(LLM)を用いて、コールドスタート映画の人気を予測することである。この方法は、パーソナライゼーションパイプライン内の検索システムに統合されたり、従来の解決策やアルゴリズムによる解決策では見落とされる可能性のある映画の公正なプロモーションを保証するための編集チームのツールとして採用される可能性がある。我々の研究は、確立されたベースラインと我々が開発したベースラインと比較して、このアプローチの有効性を検証している。

要約(オリジナル)

Addressing the cold-start issue in content recommendation remains a critical ongoing challenge. In this work, we focus on tackling the cold-start problem for movies on a large entertainment platform. Our primary goal is to forecast the popularity of cold-start movies using Large Language Models (LLMs) leveraging movie metadata. This method could be integrated into retrieval systems within the personalization pipeline or could be adopted as a tool for editorial teams to ensure fair promotion of potentially overlooked movies that may be missed by traditional or algorithmic solutions. Our study validates the effectiveness of this approach compared to established baselines and those we developed.

arxiv情報

著者 Shaghayegh Agah,Yejin Kim,Neeraj Sharma,Mayur Nankani,Kevin Foley,H. Howie Huang,Sardar Hamidian
発行日 2025-05-05 14:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR | Predicting Movie Hits Before They Happen with LLMs はコメントを受け付けていません

LLMs for Extremely Low-Resource Finno-Ugric Languages

要約

大規模言語モデル(LLM)の進歩は、主に高リソース言語に焦点を当てており、フィン・ウゴル語族のような低リソース言語が大きく取り上げられていない。本稿では、このギャップを解消するために、Vii~Oro語、Livonian語、Komi語に焦点を当てる。データ収集からインストラクションのチューニング、評価まで、LLM作成のほぼ全サイクルをカバーする。私たちの貢献には、多言語ベースモデルと命令チューニングモデルの開発、smugri-MT-benchマルチターン会話ベンチマークを含む評価ベンチマークの作成、人間による評価の実施などが含まれる。私たちは、この研究が言語の多様性を促進し、よりリソースの少ない言語がNLPの進歩の恩恵を受けられるようにすることを意図しています。

要約(オリジナル)

The advancement of large language models (LLMs) has predominantly focused on high-resource languages, leaving low-resource languages, such as those in the Finno-Ugric family, significantly underrepresented. This paper addresses this gap by focusing on V\~oro, Livonian, and Komi. We cover almost the entire cycle of LLM creation, from data collection to instruction tuning and evaluation. Our contributions include developing multilingual base and instruction-tuned models; creating evaluation benchmarks, including the smugri-MT-bench multi-turn conversational benchmark; and conducting human evaluation. We intend for this work to promote linguistic diversity, ensuring that lesser-resourced languages can benefit from advancements in NLP.

arxiv情報

著者 Taido Purason,Hele-Andra Kuulmets,Mark Fishel
発行日 2025-05-05 15:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | LLMs for Extremely Low-Resource Finno-Ugric Languages はコメントを受け付けていません

Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs

要約

大規模言語モデル(LLM)は、膨大な量の事実知識を符号化することで、様々なタスクにおいて目覚ましい性能を発揮してきた。しかし、LLMは依然として幻覚を起こしやすく、しばしば高い不確実性を伴う誤った情報や誤解を招く情報を生成する。幻覚検出のための既存の手法は、主にモデル内の知識の欠落や矛盾から生じる内部不確実性の定量化に焦点を当てている。しかし、幻覚は、曖昧なユーザクエリが複数の解釈の可能性を導くような、外部の不確実性にも起因することがある。本研究では、LLMにおける外部および内部の不確実性を定量化するための新しい数学的尺度であるセマンティックボリュームを導入する。我々のアプローチは、クエリと応答を変化させ、それらを意味空間に埋め込み、埋め込みベクトルのグラム行列の行列式を計算し、不確実性の尺度としてそれらの分散を捉える。我々のフレームワークは、LLMへの内部アクセスを必要とせず、一般化可能で教師なし不確実性検出法を提供する。我々は、外部および内部の不確実性検出に関する広範な実験を行い、我々のセマンティックボリューム法が、両方のタスクにおいて既存のベースラインを常に上回ることを実証する。さらに、セマンティックエントロピーのような従来のサンプリングに基づく不確かさ尺度を統一し拡張することで、我々の尺度と微分エントロピーを結びつける理論的洞察を提供する。セマンティックボリュームは、ユーザクエリとモデル応答の両方における不確実性を系統的に検出することで、LLMの信頼性を向上させるロバストで解釈可能なアプローチであることが示された。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance across diverse tasks by encoding vast amounts of factual knowledge. However, they are still prone to hallucinations, generating incorrect or misleading information, often accompanied by high uncertainty. Existing methods for hallucination detection primarily focus on quantifying internal uncertainty, which arises from missing or conflicting knowledge within the model. However, hallucinations can also stem from external uncertainty, where ambiguous user queries lead to multiple possible interpretations. In this work, we introduce Semantic Volume, a novel mathematical measure for quantifying both external and internal uncertainty in LLMs. Our approach perturbs queries and responses, embeds them in a semantic space, and computes the determinant of the Gram matrix of the embedding vectors, capturing their dispersion as a measure of uncertainty. Our framework provides a generalizable and unsupervised uncertainty detection method without requiring internal access to LLMs. We conduct extensive experiments on both external and internal uncertainty detection, demonstrating that our Semantic Volume method consistently outperforms existing baselines in both tasks. Additionally, we provide theoretical insights linking our measure to differential entropy, unifying and extending previous sampling-based uncertainty measures such as the semantic entropy. Semantic Volume is shown to be a robust and interpretable approach to improving the reliability of LLMs by systematically detecting uncertainty in both user queries and model responses.

arxiv情報

著者 Xiaomin Li,Zhou Yu,Ziji Zhang,Yingying Zhuang,Swair Shah,Narayanan Sadagopan,Anurag Beniwal
発行日 2025-05-05 16:13:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs はコメントを受け付けていません