Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish

要約

この研究では、19世紀のラテンアメリカの新聞でのデータセットを強化し、皮肉の検出を改善するために、大規模な言語モデル(LLMS)の使用を調査します。
マルチクラスとバイナリ分類タスクの両方を通じて、皮肉の微妙なニュアンスの性質をキャプチャする際に、BERTおよびGPT-4Oモデルの有効性を評価するために2つの戦略が採用されました。
最初に、感情的および文脈的な手がかりを豊かにすることに焦点を当てたデータセットの強化を実装しました。
ただし、これらは歴史的な言語分析に限られた影響を示しました。
2番目の戦略である半自動注釈プロセスは、クラスの不均衡に効果的に対処し、高品質の注釈でデータセットを増強しました。
皮肉の複雑さによってもたらされる課題にもかかわらず、この作業は、2つの重要な貢献を通じて感情分析の進歩に貢献します。センチメント分析と皮肉検出のためにタグ付けされた新しい歴史的なスペインのデータセットの導入と、人間の専門知識がLLMSを洗練するために重要である半自動注釈方法を提案し、歴史的文脈を補充し、COREとCOREの導入と文化的な文脈を豊かにします。

要約(オリジナル)

This study explores the use of large language models (LLMs) to enhance datasets and improve irony detection in 19th-century Latin American newspapers. Two strategies were employed to evaluate the efficacy of BERT and GPT-4o models in capturing the subtle nuances nature of irony, through both multi-class and binary classification tasks. First, we implemented dataset enhancements focused on enriching emotional and contextual cues; however, these showed limited impact on historical language analysis. The second strategy, a semi-automated annotation process, effectively addressed class imbalance and augmented the dataset with high-quality annotations. Despite the challenges posed by the complexity of irony, this work contributes to the advancement of sentiment analysis through two key contributions: introducing a new historical Spanish dataset tagged for sentiment analysis and irony detection, and proposing a semi-automated annotation methodology where human expertise is crucial for refining LLMs results, enriched by incorporating historical and cultural contexts as core features.

arxiv情報

著者 Kevin Cohen,Laura Manrique-Gómez,Rubén Manrique
発行日 2025-03-28 16:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, I.2.7 | Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish はコメントを受け付けていません

Generative Latent Neural PDE Solver using Flow Matching

要約

自動脱着次のステップ予測モデルは、データ駆動型ニューラルソルバーを構築して、時間依存の部分微分方程式(PDE)を予測するための事実上の標準となっています。
拡散確率モデルに密接に関連するデノワーズトレーニングは、神経ソルバーの時間的安定性を高めることが示されていますが、その確率的推論メカニズムにより、アンサンブルの予測と不確実性の定量化が可能になります。
原則として、このようなトレーニングには、トレーニングと推論の両方で一連の離散化された拡散タイムステップをサンプリングし、必然的に計算オーバーヘッドを増加させます。
さらに、ほとんどの拡散モデルは、構造化された均一なグリッドに等方性ガウスノイズを適用し、不規則なドメインへの適応性を制限します。
PDEシミュレーションの潜在的な拡散モデルを提案し、PDE状態を低次元潜在空間に埋め込み、計算コストを大幅に削減します。
私たちのフレームワークでは、自動エンコーダーを使用して、さまざまな種類のメッシュを統合された構造化された潜在網にマッピングし、複雑なジオメトリをキャプチャします。
一般的な拡散パスを分析することにより、トレーニングとテストの両方でフローマッチングから粗くサンプリングされたノイズスケジュールを使用することを提案します。
数値実験は、提案されたモデルが精度と長期の安定性の両方におけるいくつかの決定論的ベースラインよりも優れていることを示しており、堅牢なデータ駆動型PDE学習のための拡散ベースのアプローチの可能性を強調しています。

要約(オリジナル)

Autoregressive next-step prediction models have become the de-facto standard for building data-driven neural solvers to forecast time-dependent partial differential equations (PDEs). Denoise training that is closely related to diffusion probabilistic model has been shown to enhance the temporal stability of neural solvers, while its stochastic inference mechanism enables ensemble predictions and uncertainty quantification. In principle, such training involves sampling a series of discretized diffusion timesteps during both training and inference, inevitably increasing computational overhead. In addition, most diffusion models apply isotropic Gaussian noise on structured, uniform grids, limiting their adaptability to irregular domains. We propose a latent diffusion model for PDE simulation that embeds the PDE state in a lower-dimensional latent space, which significantly reduces computational costs. Our framework uses an autoencoder to map different types of meshes onto a unified structured latent grid, capturing complex geometries. By analyzing common diffusion paths, we propose to use a coarsely sampled noise schedule from flow matching for both training and testing. Numerical experiments show that the proposed model outperforms several deterministic baselines in both accuracy and long-term stability, highlighting the potential of diffusion-based approaches for robust data-driven PDE learning.

arxiv情報

著者 Zijie Li,Anthony Zhou,Amir Barati Farimani
発行日 2025-03-28 16:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Generative Latent Neural PDE Solver using Flow Matching はコメントを受け付けていません

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users

要約

このペーパーでは、視覚障害のある個人の支援技術としてのマルチモーダル大手言語モデル(MLLMS)の有効性を探ります。
ユーザー調査を実施して、採用パターンとユーザーが直面する重要な課題を特定します。
これらのモデルの採用率が高いにもかかわらず、我々の調査結果は、特に視覚的解釈のためだけに頼ることができる個人にとって、文脈的理解、文化的感受性、複雑なシーンの理解に関連する懸念を強調しています。
これらの結果から通知されて、光字点字認識に関する新しいタスクを含む、画像とビデオの入力を含む5つのユーザー中心のタスクを照合します。
12のMLLMの体系的な評価は、文化的文脈、多言語サポート、点字読解力、支援オブジェクト認識、幻覚に関連する制限を克服するためにさらなる進歩が必要であることを明らかにしています。
この作業は、アクセシビリティのためのマルチモーダルAIの将来の方向性に関する重要な洞察を提供し、より包括的で堅牢で信頼できる視覚援助技術の必要性を強調しています。

要約(オリジナル)

This paper explores the effectiveness of Multimodal Large Language models (MLLMs) as assistive technologies for visually impaired individuals. We conduct a user survey to identify adoption patterns and key challenges users face with such technologies. Despite a high adoption rate of these models, our findings highlight concerns related to contextual understanding, cultural sensitivity, and complex scene understanding, particularly for individuals who may rely solely on them for visual interpretation. Informed by these results, we collate five user-centred tasks with image and video inputs, including a novel task on Optical Braille Recognition. Our systematic evaluation of twelve MLLMs reveals that further advancements are necessary to overcome limitations related to cultural context, multilingual support, Braille reading comprehension, assistive object recognition, and hallucinations. This work provides critical insights into the future direction of multimodal AI for accessibility, underscoring the need for more inclusive, robust, and trustworthy visual assistance technologies.

arxiv情報

著者 Antonia Karamolegkou,Malvina Nikandrou,Georgios Pantazopoulos,Danae Sanchez Villegas,Phillip Rust,Ruchira Dhar,Daniel Hershcovich,Anders Søgaard
発行日 2025-03-28 16:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users はコメントを受け付けていません

AI Literacy in K-12 and Higher Education in the Wake of Generative AI: An Integrative Review

要約

AIリテラシーは、生成的AIをきっかけに著名な教育トピックとして浮上しましたが、その定義は曖昧なままです。
研究者と実践者の間で、AIリテラシーの介入について議論し、設計する方法についてはほとんどコンセンサスがありません。
この用語は、学部生を訓練してChatGPTを効果的に使用するように訓練する学習活動の両方を説明するために使用されており、幼稚園の子供がソーシャルロボットと交流することです。
このホワイトペーパーでは、2020年以降に公開された経験的および理論的なAIリテラシー研究を調べるための統合レビュー方法を適用します。124のレビューされた研究、リテラシー機能、批判的、および間接的な有益、および3つの視点を概念化する3つの方法と、AI技術的な詳細、ツール、ツール、および社会学的幅の概要を反映する方法を反映する方法を反映する方法についての特定の3つの視点を適用します。
このフレームワークは、AIリテラシーの談話内でより専門的な用語の必要性を強調し、特定のAIリテラシーの目的の研究ギャップを示しています。

要約(オリジナル)

Even though AI literacy has emerged as a prominent education topic in the wake of generative AI, its definition remains vague. There is little consensus among researchers and practitioners on how to discuss and design AI literacy interventions. The term has been used to describe both learning activities that train undergraduate students to use ChatGPT effectively and having kindergarten children interact with social robots. This paper applies an integrative review method to examine empirical and theoretical AI literacy studies published since 2020. In synthesizing the 124 reviewed studies, three ways to conceptualize literacy-functional, critical, and indirectly beneficial-and three perspectives on AI-technical detail, tool, and sociocultural-were identified, forming a framework that reflects the spectrum of how AI literacy is approached in practice. The framework highlights the need for more specialized terms within AI literacy discourse and indicates research gaps in certain AI literacy objectives.

arxiv情報

著者 Xingjian Gu,Barbara J. Ericson
発行日 2025-03-28 16:54:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, I.2.0 | AI Literacy in K-12 and Higher Education in the Wake of Generative AI: An Integrative Review はコメントを受け付けていません

A RAG-Based Multi-Agent LLM System for Natural Hazard Resilience and Adaptation

要約

大規模な言語モデル(LLMS)は、人工知能と機械学習のフロンティアでの変革能力であり、極端な自然災害イベントなどの差し迫った社会的課題に対処する際に意思決定者をサポートできます。
一般化されたモデルとして、LLMはしばしば、特に特別な知識を必要とする分野で、コンテキスト固有の情報を提供するのに苦労しています。
この作業では、自然災害と極端な気象現象のコンテキストでの分析と意思決定をサポートするために、検索された生成(RAG)ベースのマルチエージェントLLMシステムを提案します。
概念実証として、山火事シナリオに焦点を当てた専門システムであるWildFiregptを提示します。
このアーキテクチャは、ユーザー中心のマルチエージェント設計を採用して、多様な利害関係者グループ全体でテーラードリスクの洞察を提供します。
ドメイン固有の投影データ、観測データセット、および科学文献をRAGフレームワークを通じて統合することにより、システムは、提供する情報の精度とコンテキストの関連性の両方を保証します。
10の専門家主導のケーススタディにわたる評価は、WildFiregptが自然災害および極端な天候の文脈での意思決定支援のための既存のLLMベースのソリューションを大幅に上回ることを示しています。

要約(オリジナル)

Large language models (LLMs) are a transformational capability at the frontier of artificial intelligence and machine learning that can support decision-makers in addressing pressing societal challenges such as extreme natural hazard events. As generalized models, LLMs often struggle to provide context-specific information, particularly in areas requiring specialized knowledge. In this work, we propose a Retrieval-Augmented Generation (RAG)-based multi-agent LLM system to support analysis and decision-making in the context of natural hazards and extreme weather events. As a proof of concept, we present WildfireGPT, a specialized system focused on wildfire scenarios. The architecture employs a user-centered, multi-agent design to deliver tailored risk insights across diverse stakeholder groups. By integrating domain-specific projection data, observational datasets, and scientific literature through a RAG framework, the system ensures both accuracy and contextual relevance of the information it provides. Evaluation across ten expert-led case studies demonstrates that WildfireGPT significantly outperforms existing LLM-based solutions for decision support in natural hazard and extreme weather contexts.

arxiv情報

著者 Yangxinyu Xie,Bowen Jiang,Tanwi Mallick,Joshua David Bergerson,John K. Hutchison,Duane R. Verner,Jordan Branham,M. Ross Alexander,Robert B. Ross,Yan Feng,Leslie-Anne Levy,Weijie Su,Camillo J. Taylor
発行日 2025-03-28 17:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A RAG-Based Multi-Agent LLM System for Natural Hazard Resilience and Adaptation はコメントを受け付けていません

Can Language Models Follow Multiple Turns of Entangled Instructions?

要約

大規模な言語モデル(LLMS)の指導能力を改善する上での重要な成果にもかかわらず、複数の潜在的に絡み合ったまたは矛盾する指示を処理する能力は依然としてかなりの課題です。
実際のシナリオは、秘密のプライバシー、個人的な好み、優先順位付けなど、時間の経過とともに複数の指示にわたって一貫性を必要とすることがよくあります。これは、複数のターンを統合する洗練された能力を要求し、命令が交差または競合するときに競合する目標のバランスを慎重にバランスさせます。
この作業は、複数のターンの命令を処理する際のLLMSの機能の体系的な調査を提示し、3つのレベルの難易度をカバーします。(1)命令から情報を取得し、(2)ターン全体の追跡と推論、および(3)指示間の競合を解決する。
人間のループアプローチを通じて約1.1kの高品質のマルチターン会話を備えたマルチハーヒント構造を構築し、静的とダイナミクス、推論、マルチタスクなどの9つの機能カテゴリを作成します。
私たちの発見は、異なる機能間の興味深いトレードオフを明らかにしています。
GPTモデルは優れた暗記を示していますが、選択的な情報源泉徴収を必要とするプライバシー保護タスクの有効性の低下を示しています。
より大きなモデルは、より強い推論能力を示しますが、矛盾する指示の解決に依然として苦労しています。
重要なことに、これらのパフォーマンスのギャップは、記憶のタスクに関する強力なBLEUスコアを示しているため、これらのパフォーマンスのギャップは情報の損失のみに起因することはできませんが、その注意メカニズムは複数の関連命令を効果的に統合できません。
これらの調査結果は、マルチターン命令を含む複雑な現実世界のタスクの改善のための重要な領域を強調しています。

要約(オリジナル)

Despite significant achievements in improving the instruction-following capabilities of large language models (LLMs), the ability to process multiple potentially entangled or conflicting instructions remains a considerable challenge. Real-world scenarios often require consistency across multiple instructions over time, such as secret privacy, personal preferences, and prioritization, which demand sophisticated abilities to integrate multiple turns and carefully balance competing objectives when instructions intersect or conflict. This work presents a systematic investigation of LLMs’ capabilities in handling multiple turns of instructions, covering three levels of difficulty: (1) retrieving information from instructions, (2) tracking and reasoning across turns, and (3) resolving conflicts among instructions. We construct MultiTurnInstruct with around 1.1K high-quality multi-turn conversations through the human-in-the-loop approach and result in nine capability categories, including statics and dynamics, reasoning, and multitasking. Our finding reveals an intriguing trade-off between different capabilities. While GPT models demonstrate superior memorization, they show reduced effectiveness in privacy-protection tasks requiring selective information withholding. Larger models exhibit stronger reasoning capabilities but still struggle with resolving conflicting instructions. Importantly, these performance gaps cannot be attributed solely to information loss, as models demonstrate strong BLEU scores on memorization tasks but their attention mechanisms fail to integrate multiple related instructions effectively. These findings highlight critical areas for improvement in complex real-world tasks involving multi-turn instructions.

arxiv情報

著者 Chi Han
発行日 2025-03-28 17:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can Language Models Follow Multiple Turns of Entangled Instructions? はコメントを受け付けていません

Challenges and Paths Towards AI for Software Engineering

要約

ソフトウェアエンジニアリングのAIは最近顕著な進歩を遂げ、生成AIで顕著な成功を収めました。
それにもかかわらず、自動化されたソフトウェアエンジニアリングがその潜在能力を最大限に発揮する前に、対処する必要がある多くの課題がまだあります。
ほとんどの日常的な開発努力が自動化されている間、人間が何を構築するか、どのように困難なトレードオフのバランスをとるかの重要な決定に集中できる高レベルの自動化に到達することが可能であるべきです。
このレベルの自動化に到達するには、学界と産業全体で実質的な研究と工学の取り組みが必要です。
この論文では、これに向けた進捗について3つの方法で議論することを目指しています。
まず、ソフトウェアエンジニアリングのAIでコンクリートタスクの構造化された分類法を提供し、コード生成と完了を超えてソフトウェアエンジニアリングの他の多くのタスクを強調します。
第二に、現在のアプローチを制限するいくつかの重要なボトルネックの概要を説明します。
最後に、この急速に成熟した分野での将来の研究を促すことを望んで、これらのボトルネックの進歩を遂げるための有望な研究の方向性に関する意見のあるリストを提供します。

要約(オリジナル)

AI for software engineering has made remarkable progress recently, becoming a notable success within generative AI. Despite this, there are still many challenges that need to be addressed before automated software engineering reaches its full potential. It should be possible to reach high levels of automation where humans can focus on the critical decisions of what to build and how to balance difficult tradeoffs while most routine development effort is automated away. Reaching this level of automation will require substantial research and engineering efforts across academia and industry. In this paper, we aim to discuss progress towards this in a threefold manner. First, we provide a structured taxonomy of concrete tasks in AI for software engineering, emphasizing the many other tasks in software engineering beyond code generation and completion. Second, we outline several key bottlenecks that limit current approaches. Finally, we provide an opinionated list of promising research directions toward making progress on these bottlenecks, hoping to inspire future research in this rapidly maturing field.

arxiv情報

著者 Alex Gu,Naman Jain,Wen-Ding Li,Manish Shetty,Yijia Shao,Ziyang Li,Diyi Yang,Kevin Ellis,Koushik Sen,Armando Solar-Lezama
発行日 2025-03-28 17:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | Challenges and Paths Towards AI for Software Engineering はコメントを受け付けていません

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

要約

特定の主張をサポートするために意図的にデータ表現を操作する誤解を招くチャートの視覚化は、認識を歪め、誤った結論につながる可能性があります。
数十年にわたる研究にもかかわらず、誤解を招く視覚化は、広範で差し迫った問題のままです。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、強力なチャート理解能力を実証していますが、誤解を招くチャートを検出および解釈する能力を体系的に評価した既存の作業はありません。
このペーパーでは、誤解を招くチャートの質問応答(誤解を招くChartqa)ベンチマークを紹介します。これは、誤解を招くチャートの特定と推論においてMLLMを評価するために設計された大規模なマルチモーダルデータセットです。
3,000を超えるキュレーションされた例が含まれており、21種類の誤ったリーダーと10種類のチャートタイプをカバーしています。
各例には、標準化されたチャートコード、CSVデータ、およびマルチラウンドMLLMチェックと使い果たされた専門家のヒューマンレビューを通じて検証された、ラベル付き説明を含む複数選択の質問が含まれます。
データセットに16の最先端のMLLMをベンチマークし、視覚的に欺cept的な慣行を特定する際の制限を明らかにします。
また、誤解を招く誤解を招くために、誤解を招くチャートの解釈におけるMLLMの精度を高める新しいパイプラインを提案します。
私たちの仕事は、MLLM主導の誤解を招くチャートの理解を進めるための基盤を確立しています。
サンプルデータセットを公開して、この重要な領域でのさらなる研究をサポートします。

要約(オリジナル)

Misleading chart visualizations, which intentionally manipulate data representations to support specific claims, can distort perceptions and lead to incorrect conclusions. Despite decades of research, misleading visualizations remain a widespread and pressing issue. Recent advances in multimodal large language models (MLLMs) have demonstrated strong chart comprehension capabilities, yet no existing work has systematically evaluated their ability to detect and interpret misleading charts. This paper introduces the Misleading Chart Question Answering (Misleading ChartQA) Benchmark, a large-scale multimodal dataset designed to assess MLLMs in identifying and reasoning about misleading charts. It contains over 3,000 curated examples, covering 21 types of misleaders and 10 chart types. Each example includes standardized chart code, CSV data, and multiple-choice questions with labeled explanations, validated through multi-round MLLM checks and exhausted expert human review. We benchmark 16 state-of-the-art MLLMs on our dataset, revealing their limitations in identifying visually deceptive practices. We also propose a novel pipeline that detects and localizes misleaders, enhancing MLLMs’ accuracy in misleading chart interpretation. Our work establishes a foundation for advancing MLLM-driven misleading chart comprehension. We publicly release the sample dataset to support further research in this critical area.

arxiv情報

著者 Zixin Chen,Sicheng Song,Kashun Shum,Yanna Lin,Rui Sheng,Huamin Qu
発行日 2025-03-28 17:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering はコメントを受け付けていません

Empirical Analysis of Sim-and-Real Cotraining Of Diffusion Policies For Planar Pushing from Pixels

要約

ロボット工学の模倣学習では、シミュレーションと実際のハードウェアの両方で生成されたデモデータを共有することが、SIM2realギャップを克服するための強力なレシピとして浮上しています。
この作業は、シミュレーションの設計、SIMとリアルのデータセット作成、およびポリシートレーニングの情報を提供するために、このSim-and-Real Cotrainingの基本原則を解明しようとしています。
カメラの入力からプラングする平面の標準的なタスクに狭く焦点を当てることにより、私たちは私たちの研究で徹底的になることができました。
これらの実験では、特に実際のデータが制限されている場合、シミュレートされたデータを使用した共同\ emph {can}が実際のパフォーマンスを劇的に改善することが確認されています。
パフォーマンスはシミュレートされたデータを使用してスケールを獲得しますが、最終的にはプラトーになります。
実際のデータは、このパフォーマンスの上限を増やします。
また、結果は、物理学のドメインギャップを減らすことが、非摂取操作タスクの視覚的忠実度よりも重要である可能性があることを示唆しています。
おそらく驚くべきことに、いくつかの視覚的なドメインギャップを持つことは、実際には同時化されたポリシーに役立ちます。バイナリプローブは、高性能のポリシーがシミュレートされたドメインを実際と区別することを学ぶことを明らかにしています。
私たちは、SIMとリアルの間の肯定的な移動を促進するこのニュアンスとメカニズムを調査することで結論付けます。
合計で、私たちの実験は、40を超える実世界のポリシー(800以上の試験で評価)と200のシミュレートされたポリシー(40,000以上の試験で評価)に及びます。

要約(オリジナル)

In imitation learning for robotics, cotraining with demonstration data generated both in simulation and on real hardware has emerged as a powerful recipe to overcome the sim2real gap. This work seeks to elucidate basic principles of this sim-and-real cotraining to help inform simulation design, sim-and-real dataset creation, and policy training. Focusing narrowly on the canonical task of planar pushing from camera inputs enabled us to be thorough in our study. These experiments confirm that cotraining with simulated data \emph{can} dramatically improve performance in real, especially when real data is limited. Performance gains scale with simulated data, but eventually plateau; real-world data increases this performance ceiling. The results also suggest that reducing the domain gap in physics may be more important than visual fidelity for non-prehensile manipulation tasks. Perhaps surprisingly, having some visual domain gap actually helps the cotrained policy — binary probes reveal that high-performing policies learn to distinguish simulated domains from real. We conclude by investigating this nuance and mechanisms that facilitate positive transfer between sim-and-real. In total, our experiments span over 40 real-world policies (evaluated on 800+ trials) and 200 simulated policies (evaluated on 40,000+ trials).

arxiv情報

著者 Adam Wei,Abhinav Agarwal,Boyuan Chen,Rohan Bosworth,Nicholas Pfaff,Russ Tedrake
発行日 2025-03-28 17:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Empirical Analysis of Sim-and-Real Cotraining Of Diffusion Policies For Planar Pushing from Pixels はコメントを受け付けていません

Exploring the Effectiveness of Multi-stage Fine-tuning for Cross-encoder Re-rankers

要約

最先端のクロスエンコーダーは、パッセージの再ランクに非常に効果的であるように微調整できます。
再ランカーとしてのクロスエンコーダーの典型的な微調整プロセスには、手動でラベル付けされたデータ、対照的な学習目標、およびヒューリスト的にサンプリングされたネガのセットが必要です。
代わりに、微調整のための別の最近のアプローチでは、蒸留目標を使用して非常に効果的な大きな言語モデルのランキングを模倣するためにモデルを教えることが含まれます。
これらの微調整戦略は、個別に、または順番に適用できます。
この作業では、単一の段階で独立して微調整されたとき、または2つの段階で順次微調整されたときに、ポイントごとのクロスエンコーダーの有効性を体系的に調査します。
私たちの実験は、コントラシティブ学習を使用して微調整されたポイントごとのクロスエンコーダーの有効性は、マルチステージアプローチで微調整されたモデルと同等であることを示しています。
コードは、https://github.com/fpezzuti/multistage-finetuningで複製に利用できます。

要約(オリジナル)

State-of-the-art cross-encoders can be fine-tuned to be highly effective in passage re-ranking. The typical fine-tuning process of cross-encoders as re-rankers requires large amounts of manually labelled data, a contrastive learning objective, and a set of heuristically sampled negatives. An alternative recent approach for fine-tuning instead involves teaching the model to mimic the rankings of a highly effective large language model using a distillation objective. These fine-tuning strategies can be applied either individually, or in sequence. In this work, we systematically investigate the effectiveness of point-wise cross-encoders when fine-tuned independently in a single stage, or sequentially in two stages. Our experiments show that the effectiveness of point-wise cross-encoders fine-tuned using contrastive learning is indeed on par with that of models fine-tuned with multi-stage approaches. Code is available for reproduction at https://github.com/fpezzuti/multistage-finetuning.

arxiv情報

著者 Francesca Pezzuti,Sean MacAvaney,Nicola Tonellotto
発行日 2025-03-28 17:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Exploring the Effectiveness of Multi-stage Fine-tuning for Cross-encoder Re-rankers はコメントを受け付けていません