It’s All in The [MASK]: Simple Instruction-Tuning Enables BERT-like Masked Language Models As Generative Classifiers

要約

BertやModernbertなどのエンコーダーのみのモデルは、実際のNLPアプリケーションで遍在していますが、タスク固有の分類ヘッドへの従来の依存は、デコーダーベースの大手言語モデル(LLMS)と比較して適用性を制限できます。
この作業では、生成分類のためにマスクされた言語モデリング(MLM)ヘッドを活用する0.4BパラメーターエンコーダーモデルであるModernBert-Large-Instructを紹介します。
私たちのアプローチでは、意図的にシンプルなトレーニングループと推論メカニズムを採用しています。これらのメカニズムは、重度の前処理、重度の設計プロンプト、またはアーキテクチャの変更を必要としません。
ModernBert-Large-Instructは、分類と知識ベースのタスクの両方で強力なゼロショットパフォーマンスを示し、MMLUで同様にサイズのLLMを上回り、Llama3-1BのMMLUパフォーマンスの93%を達成し、パラメーターを60%少なくします。
また、微調整された場合、MLMヘッドを使用した生成アプローチは、多様なNLUタスクにわたって従来の分類ヘッドメソッドを上回っていることを実証します。
ボリューム、より少ないダイバーデータは、パフォーマンスがかなり弱くなります。
予備的ではありますが、これらの結果は、下流タスクのために、従来のタスク固有のヘッドの上に元の生成マスク言語モデリングヘッドを使用する可能性を示しています。
私たちの仕事は、この分野へのさらなる調査が保証されており、将来の改善のために多くの道を強調していることを示唆しています。

要約(オリジナル)

While encoder-only models such as BERT and ModernBERT are ubiquitous in real-world NLP applications, their conventional reliance on task-specific classification heads can limit their applicability compared to decoder-based large language models (LLMs). In this work, we introduce ModernBERT-Large-Instruct, a 0.4B-parameter encoder model that leverages its masked language modelling (MLM) head for generative classification. Our approach employs an intentionally simple training loop and inference mechanism that requires no heavy pre-processing, heavily engineered prompting, or architectural modifications. ModernBERT-Large-Instruct exhibits strong zero-shot performance on both classification and knowledge-based tasks, outperforming similarly sized LLMs on MMLU and achieving 93% of Llama3-1B’s MMLU performance with 60% less parameters. We also demonstrate that, when fine-tuned, the generative approach using the MLM head matches or even surpasses traditional classification-head methods across diverse NLU tasks.This capability emerges specifically in models trained on contemporary, diverse data mixes, with models trained on lower volume, less-diverse data yielding considerably weaker performance. Although preliminary, these results demonstrate the potential of using the original generative masked language modelling head over traditional task-specific heads for downstream tasks. Our work suggests that further exploration into this area is warranted, highlighting many avenues for future improvements.

arxiv情報

著者 Benjamin Clavié,Nathan Cooper,Benjamin Warner
発行日 2025-02-10 14:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | It’s All in The [MASK]: Simple Instruction-Tuning Enables BERT-like Masked Language Models As Generative Classifiers はコメントを受け付けていません

Teaching Models to Balance Resisting and Accepting Persuasion

要約

大規模な言語モデル(LLM)は説得の影響を受けやすく、モデルが敵対的な対談者に直面している場合にリスクをもたらす可能性があります。
私たちは、説得に対するモデルを擁護するための第一歩を踏み出し、敵対的な(つまり否定的な)説得に対する防御は方程式の半分にすぎないと主張します。モデルは、答えを改善するために有益な(すなわち肯定的な)説得を受け入れることができるはずです。
一方の側のみのモデルを最適化すると、他方のパフォーマンスが低下することが示されます。
肯定的な説得と否定的な説得のバランスをとるために、マルチエージェントの再帰的ダイアログツリーを活用して、必要に応じて説得を受け入れるように設定最適化を介してデータとトレーニングモデルを作成する説得訓練(またはPBT)を導入します。
PBTを使用すると、はるかに大きな70Bモデルをトレーニングするために、より小さな7-8Bモデル間でダイアログから生成されたデータを使用できます。
さらに、PBTは、誤った情報に対する抵抗と挑戦への回復力に対する抵抗を一貫して改善し、その結果、肯定的および否定的な説得の両方を含む全体的なデータの全体的なパフォーマンスが最も得られます。
重要なことに、PBTモデルは、2つのドメイン(TriviaとCommonsense QA)にわたるマルチエージェントの議論の中でより優れたチームメイトであることを示しています。
PBTがなければ、より強力なモデルと弱いモデルのペアが不安定なパフォーマンスを持っていることがわかり、モデルが回答を提示して、チームがより強いモデルのパフォーマンスを取得するか弱いモデルのパフォーマンスを取得するかを決定します。
PBTは、より良いモデルを一貫してより弱いモデルを引き上げることで、より良く、より安定した結果と秩序の依存度が低くなります。

要約(オリジナル)

Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT allows us to use data generated from dialogues between smaller 7-8B models for training much larger 70B models. Moreover, PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates across two domains (trivia and commonsense QA). We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model’s performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.

arxiv情報

著者 Elias Stengel-Eskin,Peter Hase,Mohit Bansal
発行日 2025-02-10 14:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Teaching Models to Balance Resisting and Accepting Persuasion はコメントを受け付けていません

GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing

要約

大規模な言語モデル(LLM)は、指示のフォローや質問への回答などの人間のガイド付き会話で成功していますが、LLMガイド付き会話の可能性 – LLMが談話を指示し、会話の目標を操作します。
この研究では、最初にLLMガイド付き会話を3つの基本的なコンポーネントに特徴付けます。(i)目標ナビゲーション。
(ii)コンテキスト管理。
(iii)共感的な関与、およびguidellmをインストールとして提案します。
次に、LLM誘導会話の評価のためにインタビュー環境を実装します。
具体的には、包括的なインタビュー評価のためにこの環境にさまざまなトピックが関与しており、各チャットボット評価のインタビュー中に発言、184kトークン、および200を超えるイベントが約1.4kターン、184Kトークン、および200を超えるイベントが発生します。
Guidellmを、GPT-4OやLlama-3-70B-Instructなどの最先端のLLMと比較して、インタビューの品質と自伝生成品質の観点から比較します。
自動評価のために、複数の自伝からユーザープロキシを導き出し、LLM-A-A-A-Judgeを使用してLLMの動作を獲得します。
さらに、45人の人間の参加者を採用してGuidellmやベースラインとチャットすることにより、人間が関与した実験を実施します。
次に、会話と自伝の質に関する人間のフィードバック、好み、評価を収集します。
実験結果は、Guidellmが自動評価でベースラインLLMを大幅に上回り、人間の評価で一貫した主要なパフォーマンスを達成することを示しています。

要約(オリジナル)

Although Large Language Models (LLMs) succeed in human-guided conversations such as instruction following and question answering, the potential of LLM-guided conversations-where LLMs direct the discourse and steer the conversation’s objectives-remains under-explored. In this study, we first characterize LLM-guided conversation into three fundamental components: (i) Goal Navigation; (ii) Context Management; (iii) Empathetic Engagement, and propose GuideLLM as an installation. We then implement an interviewing environment for the evaluation of LLM-guided conversation. Specifically, various topics are involved in this environment for comprehensive interviewing evaluation, resulting in around 1.4k turns of utterances, 184k tokens, and over 200 events mentioned during the interviewing for each chatbot evaluation. We compare GuideLLM with 6 state-of-the-art LLMs such as GPT-4o and Llama-3-70b-Instruct, from the perspective of interviewing quality, and autobiography generation quality. For automatic evaluation, we derive user proxies from multiple autobiographies and employ LLM-as-a-judge to score LLM behaviors. We further conduct a human-involved experiment by employing 45 human participants to chat with GuideLLM and baselines. We then collect human feedback, preferences, and ratings regarding the qualities of conversation and autobiography. Experimental results indicate that GuideLLM significantly outperforms baseline LLMs in automatic evaluation and achieves consistent leading performances in human ratings.

arxiv情報

著者 Jinhao Duan,Xinyu Zhao,Zhuoxuan Zhang,Eunhye Ko,Lily Boddy,Chenan Wang,Tianhao Li,Alexander Rasgon,Junyuan Hong,Min Kyung Lee,Chenxi Yuan,Qi Long,Ying Ding,Tianlong Chen,Kaidi Xu
発行日 2025-02-10 14:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing はコメントを受け付けていません

SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning

要約

三段論法の推論は、自然言語推論(NLI)にとって重要です。
この能力は、自動証拠の解釈や科学的発見をサポートできるバイオメディシンなどの特殊なドメインで特に重要です。
このペーパーでは、シロビオンリを紹介します。これは、外部オントロジーを活用して生物医学NLIの多様な三段論法の議論を体系的にインスタンス化する新しいフレームワークです。
Syllobio-nliを採用して、有効な結論を特定し、ヒトゲノム経路に具体化された28の三段論法スキームにわたってサポートエビデンスを抽出することについて、大規模な言語モデル(LLMS)を評価します。
広範な実験により、生物医学的な三段論法の推論は、一般化されたモダムのポネンで70%、分離派の三段論法で23%の間の平均精度を達成するゼロショットLLMにとって特に困難であることが明らかになりました。
同時に、少数のショットプロンプトがGemma(+14%)やLlama-3(+43%)を含むさまざまなLLMのパフォーマンスを高めることができることがわかりました。
ただし、より深い分析では、両方の技術が表面的な語彙の変動に対して高い感度を示すことを示しており、信頼性、モデルのアーキテクチャ、およびトレーニング前の体制との依存関係を強調しています。
全体として、我々の結果は、コンテキスト内の例がLLMSで三段論法の推論を引き出す可能性があるが、既存のモデルは、安全な生物医学的NLIアプリケーションに必要な堅牢性と一貫性を達成することから依然としてほど遠いことを示しています。

要約(オリジナル)

Syllogistic reasoning is crucial for Natural Language Inference (NLI). This capability is particularly significant in specialized domains such as biomedicine, where it can support automatic evidence interpretation and scientific discovery. This paper presents SylloBio-NLI, a novel framework that leverages external ontologies to systematically instantiate diverse syllogistic arguments for biomedical NLI. We employ SylloBio-NLI to evaluate Large Language Models (LLMs) on identifying valid conclusions and extracting supporting evidence across 28 syllogistic schemes instantiated with human genome pathways. Extensive experiments reveal that biomedical syllogistic reasoning is particularly challenging for zero-shot LLMs, which achieve an average accuracy between 70% on generalized modus ponens and 23% on disjunctive syllogism. At the same time, we found that few-shot prompting can boost the performance of different LLMs, including Gemma (+14%) and LLama-3 (+43%). However, a deeper analysis shows that both techniques exhibit high sensitivity to superficial lexical variations, highlighting a dependency between reliability, models’ architecture, and pre-training regime. Overall, our results indicate that, while in-context examples have the potential to elicit syllogistic reasoning in LLMs, existing models are still far from achieving the robustness and consistency required for safe biomedical NLI applications.

arxiv情報

著者 Magdalena Wysocka,Danilo Carvalho,Oskar Wysocki,Marco Valentino,Andre Freitas
発行日 2025-02-10 14:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning はコメントを受け付けていません

Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning

要約

長期的な目標を達成する能力は、大規模な言語モデル(LLMS)の現在の開発における重要な課題です。
これに対処するために、事前に訓練されたLLMを強化学習(RL)で微調整して、特定の目標を最適化するソリューションを探索できます。
ただし、基本的な能力を分解しないように、新しいソリューションを発見することと事前に訓練されたモデルに十分近くにとどまることとの間でバランスをとる必要があるため、LLMSによる探索は困難です。
これは通常、Kullback-Leibler(KL)ペナルティで制御されます。
この論文では、単純な算術タスクに関する小さな言語モデルの探索ダイナミクスを調査します。
トレーニング前の程度の影響がどのようにさまざまな影響を与えるかを示し、最終結果に劇的な影響を与える「重要なトークン」の重要性を示しています。
その結果、重要なトークンでの探査を支持するKLペナルティの簡単な変更を導入し、RL微調整段階の効率を高めます。

要約(オリジナル)

The ability to achieve long-term goals is a key challenge in the current development of large language models (LLMs). To address this, pre-trained LLMs can be fine-tuned with reinforcement learning (RL) to explore solutions that optimize a given goal. However, exploration with LLMs is difficult, as a balance has to be struck between discovering new solutions and staying close enough to the pre-trained model, so as not to degrade basic capabilities. This is typically controlled with a Kullback-Leibler (KL) penalty. In this paper, we investigate the exploration dynamics of a small language model on a simple arithmetic task. We show how varying degrees of pre-training influence exploration and demonstrate the importance of ‘critical tokens’ which have a dramatic impact on the final outcome. Consequently, we introduce a simple modification to the KL penalty that favors exploration on critical tokens, increasing the efficiency of the RL fine-tuning stage.

arxiv情報

著者 Jean Vassoyan,Nathanaël Beau,Roman Plaud
発行日 2025-02-10 14:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning はコメントを受け付けていません

LCQ: Low-Rank Codebook based Quantization for Large Language Models

要約

大規模な言語モデル〜(LLMS)は最近、多くのタスクで有望なパフォーマンスを実証しています。
ただし、LLMSの高いストレージおよび計算コストは​​、LLMを展開するための課題となっています。
重量量子化は、モデル圧縮に広く使用されており、ストレージと計算コストの両方を削減できます。
LLMの既存の体重量子化方法のほとんどは、量子化にランク1コードブックを使用します。これにより、圧縮率が高い場合に実質的な精度損失が生じます。
この論文では、LLMS用の低ランクコードブックベースの量子化〜(LCQ)と呼ばれる新しい重量量子化法を提案します。
LCQは低ランクのコードブックを採用していますが、そのランクは量子化のために1より大きくなる可能性があります。
実験では、LCQが既存のメソッドよりも優れた精度を達成できることを示しています。

要約(オリジナル)

Large language models~(LLMs) have recently demonstrated promising performance in many tasks. However, the high storage and computational cost of LLMs has become a challenge for deploying LLMs. Weight quantization has been widely used for model compression, which can reduce both storage and computational cost. Most existing weight quantization methods for LLMs use a rank-one codebook for quantization, which results in substantial accuracy loss when the compression ratio is high. In this paper, we propose a novel weight quantization method, called low-rank codebook based quantization~(LCQ), for LLMs. LCQ adopts a low-rank codebook, the rank of which can be larger than one, for quantization. Experiments show that LCQ can achieve better accuracy than existing methods with a negligibly extra storage cost.

arxiv情報

著者 Wen-Pu Cai,Ming-Yang Li,Wu-Jun Li
発行日 2025-02-10 15:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | LCQ: Low-Rank Codebook based Quantization for Large Language Models はコメントを受け付けていません

Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant

要約

強力なオープンソースの大型言語モデル(LLMS)の可用性は、個人データを使用してこれらのモデルを微調整してユーザーのユニークなライティングスタイルを模倣するなど、エキサイティングなユースケースを開きます。
このようなアシスタントの2つの重要な要件は、アシスタントがユーザー自身の執筆スタイルを認識できるように認識できるようにする必要があるという意味で、ユーザーは、電子メールアーカイブなどの非常に個人的なデータをサードパーティサービスにアップロードすることに正当に警戒することができる場合があります。

この論文では、Panzaと呼ばれる電子メール生成の特定のユースケースのために、このような自動化されたアシスタントの新しい設計と評価を紹介します。
Panzaのパーソナライゼーション機能は、逆命令技術のバリアントと検索の高等世代(RAG)を使用した微調整の組み合わせに基づいています。
この組み合わせにより、LLMを微調整して、限られたデータを使用してユーザーのライティングスタイルを反映できることを実証します。
無料のGoogle Colabインスタンス。
私たちの主要な方法論的貢献は、このパーソナライズされたライティングタスクの評価指標の最初の詳細な研究であり、システムコンポーネントのさまざまな選択、つまりRAGの使用とさまざまな微調整アプローチ、システムのパフォーマンスを影響する方法です。
さらに、100未満の電子メールサンプルが非常に少ないデータであり、人間を説得力のある模倣を模倣するモデルを作成するのに十分であることを実証します。
この発見は、言語モデルの以前に知られていない攻撃ベクトルを紹介します – 少数のライティングサンプルにアクセスすると、悪いアクターがターゲットのライティングスタイルを模倣する生成モデルを安く作成できるようになります。
完全なPanzaコードと、https://github.com/ist-daslab/panzamailで調査のためにライセンスされた3つの新しい電子メールデータセットをリリースしています。

要約(オリジナル)

The availability of powerful open-source large language models (LLMs) opens exciting use-cases, such as using personal data to fine-tune these models to imitate a user’s unique writing style. Two key requirements for such assistants are personalization – in the sense that the assistant should recognizably reflect the user’s own writing style – and privacy – users may justifiably be wary of uploading extremely personal data, such as their email archive, to a third-party service. In this paper, we present a new design and evaluation for such an automated assistant, for the specific use case of email generation, which we call Panza. Panza’s personalization features are based on a combination of fine-tuning using a variant of the Reverse Instructions technique together with Retrieval-Augmented Generation (RAG). We demonstrate that this combination allows us to fine-tune an LLM to reflect a user’s writing style using limited data, while executing on extremely limited resources, e.g. on a free Google Colab instance. Our key methodological contribution is the first detailed study of evaluation metrics for this personalized writing task, and of how different choices of system components–the use of RAG and of different fine-tuning approaches-impact the system’s performance. Additionally, we demonstrate that very little data – under 100 email samples – are sufficient to create models that convincingly imitate humans. This finding showcases a previously-unknown attack vector in language models – that access to a small number of writing samples can allow a bad actor to cheaply create generative models that imitate a target’s writing style. We are releasing the full Panza code as well as three new email datasets licensed for research use at https://github.com/IST-DASLab/PanzaMail.

arxiv情報

著者 Armand Nicolicioiu,Eugenia Iofinova,Andrej Jovanovic,Eldar Kurtic,Mahdi Nikdan,Andrei Panferov,Ilia Markov,Nir Shavit,Dan Alistarh
発行日 2025-02-10 15:08:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant はコメントを受け付けていません

Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs

要約

ナイジェリアは、500以上の言語を持つ多言語の国です。
ナイジャは、約1億2,000万人のスピーカーが話しているナイジェリアのピジンであり、混合言語(英語、ポルトガル語、ヨルバ、ハウサ、イボなど)です。
主に最近まで話し言葉でしたが、いくつかのオンラインプラットフォーム(Wikipediaなど)があり、Naijaにも公開されています。
西アフリカのピジン英語(WAPE)もナイジェリアで話されており、BBCはナイジェリアだけでなく、他の西アフリカ諸国(カメルーンやガーナなど)でもインターネット上のニュースをより多くの聴衆に放送するために使用されています。
統計分析と機械翻訳実験を通じて、我々の論文は、これらの2つのピジン品種が互いに表現していないことを示しています(つまり、語順と語彙に言語の違いがあります)。
言い換えれば、ナイジャは生成AIで過小評価されており、LLMSにいくつかの例を教えることは困難です。
統計分析に加えて、ピジンの両方に関する歴史的情報と、ナイジャのボランティアウィキペディアの寄稿者とのインタビューからの洞察も提供します。

要約(オリジナル)

Nigeria is a multilingual country with 500+ languages. Naija is a Nigerian Pidgin spoken by approximately 120M speakers and it is a mixed language (e.g., English, Portuguese, Yoruba, Hausa and Igbo). Although it has mainly been a spoken language until recently, there are some online platforms (e.g., Wikipedia), publishing in written Naija as well. West African Pidgin English (WAPE) is also spoken in Nigeria and it is used by BBC to broadcast news on the internet to a wider audience not only in Nigeria but also in other West African countries (e.g., Cameroon and Ghana). Through statistical analyses and Machine Translation experiments, our paper shows that these two pidgin varieties do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on WAPE. In other words, Naija is underrepresented in Generative AI, and it is hard to teach LLMs with few examples. In addition to the statistical analyses, we also provide historical information on both pidgins as well as insights from the interviews conducted with volunteer Wikipedia contributors in Naija.

arxiv情報

著者 David Ifeoluwa Adelani,A. Seza Doğruöz,Iyanuoluwa Shode,Anuoluwapo Aremu
発行日 2025-02-10 15:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs はコメントを受け付けていません

Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs)

要約

脳の活動を理解できる形で解読して表現することは、AIの挑戦的なフロンティアです。
このホワイトペーパーでは、この目標を達成するためにEEGデータで微調整された命令チューニングされた大手言語モデル(LLMS)を使用するThought2Textを提示します。
このアプローチには、3つの段階が含まれます。(1)視覚機能抽出のためのEEGエンコーダーのトレーニング、(2)画像とテキストデータのLLMSの微調整、マルチモーダルの説明生成の有効化、および(3)EEG埋め込みのさらに微調整をテキスト生成する
推論中のEEGから直接。
画像刺激とテキストキャプションを持つ6人の被験者に対して収集された公開EEGデータセットの実験は、従来の言語生成評価指標を使用して検証されたマルチモーダルLLMS(LLAMA-V3、Mistral-V0.3、QWEN2.5)の有効性を示しています。
および妥当性測定。
このアプローチは、神経科学と自然言語処理の両方で潜在的なアプリケーションを備えた、ポータブルで低コストの「思考からテキストへの」テクノロジーに対する大きな進歩を示しています。

要約(オリジナル)

Decoding and expressing brain activity in a comprehensible form is a challenging frontier in AI. This paper presents Thought2Text, which uses instruction-tuned Large Language Models (LLMs) fine-tuned with EEG data to achieve this goal. The approach involves three stages: (1) training an EEG encoder for visual feature extraction, (2) fine-tuning LLMs on image and text data, enabling multimodal description generation, and (3) further fine-tuning on EEG embeddings to generate text directly from EEG during inference. Experiments on a public EEG dataset collected for six subjects with image stimuli and text captions demonstrate the efficacy of multimodal LLMs (LLaMA-v3, Mistral-v0.3, Qwen2.5), validated using traditional language generation evaluation metrics, as well as fluency and adequacy measures. This approach marks a significant advancement towards portable, low-cost ‘thoughts-to-text’ technology with potential applications in both neuroscience and natural language processing.

arxiv情報

著者 Abhijit Mishra,Shreya Shukla,Jose Torres,Jacek Gwizdka,Shounak Roychowdhury
発行日 2025-02-10 15:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs) はコメントを受け付けていません

Efficient Scientific Full Text Classification: The Case of EICAT Impact Assessments

要約

この研究では、小規模でBERTベースのモデルとLlama-3.18bなどのローカルな大規模な言語モデルの両方を使用して、科学的フルテキストを効率的に分類するための戦略を探ります。
入力文のサブセットを選択して、入力サイズを削減しながら、同時に分類パフォーマンスを向上させる方法の開発に焦点を当てます。
この目的のために、侵略生物学の分野からのフルテキストの科学論文で構成される新しいデータセットを編集し、侵入種の影響に特に対処します。
これらの論文は、国際自然保護連合(IUCN)の研究者によって作成された公的に利用可能な影響評価と一致しています。
広範な実験を通じて、人間の証拠アノテーション、LLM生成注釈、または説明可能性スコアなどのさまざまなソースを使用して、エンコーダーベースの言語モデルとデコーダーベースの両方の言語モデルのパフォーマンスを改善しながら、効率を最適化しながら、選択モデルの選択モデルをトレーニングできることを実証します。
入力長は、完全なテキストを入力として処理できるModernBertのようなモデルと比較しても、結果が改善されます。
さらに、より短い入力のサンプリングを繰り返しサンプリングは、わずかに増加したコストで、分類パフォーマンスをさらに改善できる非常に効果的な戦略であることがわかります。

要約(オリジナル)

This study explores strategies for efficiently classifying scientific full texts using both small, BERT-based models and local large language models like Llama-3.1 8B. We focus on developing methods for selecting subsets of input sentences to reduce input size while simultaneously enhancing classification performance. To this end, we compile a novel dataset consisting of full-text scientific papers from the field of invasion biology, specifically addressing the impacts of invasive species. These papers are aligned with publicly available impact assessments created by researchers for the International Union for Conservation of Nature (IUCN). Through extensive experimentation, we demonstrate that various sources like human evidence annotations, LLM-generated annotations or explainability scores can be used to train sentence selection models that improve the performance of both encoder- and decoder-based language models while optimizing efficiency through the reduction in input length, leading to improved results even if compared to models like ModernBERT that are able to handle the complete text as input. Additionally, we find that repeated sampling of shorter inputs proves to be a very effective strategy that, at a slightly increased cost, can further improve classification performance.

arxiv情報

著者 Marc Felix Brinner,Sina Zarrieß
発行日 2025-02-10 15:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Scientific Full Text Classification: The Case of EICAT Impact Assessments はコメントを受け付けていません