SaRoHead: A Dataset for Satire Detection in Romanian Multi-Domain News Headlines

要約

見出しはニュース記事の重要な部分であり、表現力と暴露された主題へのつながりの影響を受けます。
ほとんどのニュースアウトレットは、現実を客観的に提示することを目指していますが、一部の出版物は、風刺、皮肉、皮肉のスタイルの要素が特定のトピックをカバーするためにブレンドするユーモラスなアプローチを好みます。
見出しがニュース記事の背後にある主なアイデアを公開することを目的としているため、風刺検出は難しい場合があります。
この論文では、ルーマニアのマルチドメインニュースヘッドラインでの風刺検出の最初のコーパスであるサロヘッドを提案します。
私たちの調査結果は、いくつかの非飽和の見出しで使用されているクリックベイトがモデルに大きく影響することを示しています。

要約(オリジナル)

The headline is an important part of a news article, influenced by expressiveness and connection to the exposed subject. Although most news outlets aim to present reality objectively, some publications prefer a humorous approach in which stylistic elements of satire, irony, and sarcasm blend to cover specific topics. Satire detection can be difficult because a headline aims to expose the main idea behind a news article. In this paper, we propose SaRoHead, the first corpus for satire detection in Romanian multi-domain news headlines. Our findings show that the clickbait used in some non-satirical headlines significantly influences the model.

arxiv情報

著者 Mihnea-Alexandru Vîrlan,Răzvan-Alexandru Smădu,Dumitru-Clementin Cercel
発行日 2025-04-10 10:03:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SaRoHead: A Dataset for Satire Detection in Romanian Multi-Domain News Headlines はコメントを受け付けていません

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

要約

最近、Deepseek R1は、補強学習(RL)が、シンプルで効果的なデザインを通じて、大規模な言語モデル(LLMS)の推論能力を大幅に改善できることを示しています。
R1のコアは、そのルールベースの報酬の定式化にあります。これは、正確で安定した報酬計算を可能にするために、決定論的な根本的な回答でタスクを活用します。
視覚領域では、同様に、幅広い視覚的理解タスクには、明確に定義された根真根の注釈が本質的に装備されていることがわかります。
このプロパティにより、ルールベースの報酬メカニズムと自然に互換性があります。
この観察に動機付けられて、R1スタイルの強化学習の視覚的推論能力の強化を目指して、R1スタイルの強化学習(VLM)への拡張を調査します。
この目的のために、一般的なビジョン言語タスクでVLMSのパフォーマンスを向上させるためにRLを活用するために設計された専用のフレームワークであるVLM-R1を開発します。
このフレームワークを使用して、RLを視覚ドメインに適用する可能性をさらに調査します。
実験結果は、RLベースのモデルが視覚的理解タスクに関する競争力のあるパフォーマンスを提供するだけでなく、一般化能力の監視された微調整(SFT)を上回ることを示しています。
さらに、オブジェクトの検出における報酬ハッキングの存在、「OD AHAモーメント」の出現、データ品質のトレーニングの影響、異なるモデルサイズにわたるRLのスケーリング動作など、一連の注目すべき洞察を明らかにする包括的なアブレーション研究を実施します。
これらの分析を通じて、強化学習がビジョン言語モデルの能力を強化する方法の理解を深めることを目指しており、私たちの調査結果とオープンソースの貢献がビジョン言語RLコミュニティの継続的な進歩をサポートすることを願っています。
コードとモデルはhttps://github.com/om-ai-lab/vlm-r1で入手できます

要約(オリジナル)

Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs’ performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the ‘OD aha moment’, the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1

arxiv情報

著者 Haozhan Shen,Peng Liu,Jingcheng Li,Chunxin Fang,Yibo Ma,Jiajia Liao,Qiaoli Shen,Zilun Zhang,Kangjia Zhao,Qianqian Zhang,Ruochen Xu,Tiancheng Zhao
発行日 2025-04-10 10:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model はコメントを受け付けていません

ConceptFormer: Towards Efficient Use of Knowledge-Graph Embeddings in Large Language Models

要約

検索拡張生成(RAG)は最近の過去に注目を集めており、最近の大規模な言語モデル(LLMS)は、これらのシステムに世界の知識を統合することの重要性を強調しています。
現在のRAG方法論は、多くの場合、事前に訓練された言語モデル(PLM)の内部アーキテクチャを変更したり、テキストの知識グラフ(KG)に依存したりします。これは、トークンの使用に関しては非効率的です。
このペーパーでは、内部構造を変更したり、KGSのテキスト入力に依存したりすることなく、WikidataなどのKGSからの構造化された知識を持つLLMを強化するための新しいアプローチであるConceptformerを紹介します。
Conceptformerは、LLM埋め込みベクトル空間で動作し、KGノードの情報を直接カプセル化する\ emphectors {concept vectors}を作成および注入します。
Frozen LLMと組み合わせて訓練されたConceptFormerは、KGノードをそれぞれの概念ベクトルにマッピングする包括的なルックアップテーブルを生成します。
このアプローチの目的は、これらの概念ベクトルをネイティブに処理できるようにすることにより、LLMSの事実のリコール能力を強化することを目的としており、したがって、構造化された世界知識で効率的でスケーラブルな方法でそれらを豊かにします。
私たちの実験は、GPT-2 0.1bに概念ベクトルを追加することで、ウィキペディアからの文でテストされた場合、合成的に生成された文で最大348 \%でテストされた場合、その事実上のリコール能力(@10)を最大272 \%増加させることを示しています。
単一の概念ベクトルのみをプロンプトに注入することで、ウィキペディア文の事実上のリコール能力(@10)を最大213 \%増加させ、130倍少ない入力トークンを消費しながら、グラフテキスタンスでラグを大幅に上回ります。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has enjoyed increased attention in the recent past and recent advancements in Large Language Models (LLMs) have highlighted the importance of integrating world knowledge into these systems. Current RAG methodologies often modify the internal architecture of pre-trained language models (PLMs) or rely on textifying knowledge graphs (KGs), which is inefficient in terms of token usage. This paper introduces ConceptFormer, a new approach to augment LLMs with structured knowledge from KGs, such as Wikidata, without altering their internal structure or relying on textual input of KGs. ConceptFormer operates in the LLM embedding vector space, creating and injecting \emph{concept vectors} that encapsulate the information of the KG nodes directly. Trained in conjunction with a frozen LLM, ConceptFormer generates a comprehensive lookup table that maps KG nodes to their respective concept vectors. The approach aims to enhance the factual recall capabilities of LLMs by enabling them to process these concept vectors natively, thus enriching them with structured world knowledge in an efficient and scalable manner. Our experiments demonstrate that the addition of concept vectors to GPT-2 0.1B substantially increases its factual recall ability (Hit@10) by up to 272\% when tested on sentences from Wikipedia and up to 348\% on synthetically generated sentences. Even injecting only a single concept vector into the prompt increases factual recall ability (Hit@10) by up to 213\% on Wikipedia sentences, significantly outperforming RAG with graph textification while consuming 130x fewer input tokens.

arxiv情報

著者 Joel Barmettler,Abraham Bernstein,Luca Rossetto
発行日 2025-04-10 10:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | ConceptFormer: Towards Efficient Use of Knowledge-Graph Embeddings in Large Language Models はコメントを受け付けていません

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

要約

VideoCompは、微調整された時間的アライメントでビジョン言語モデル(VLM)を改善することを目的としたビデオテキストの構成性理解を進めるためのベンチマークおよび学習フレームワークを紹介します。
静的な画像テキストの構成性や孤立した単一イベントビデオに焦点を当てた既存のベンチマークとは異なり、ベンチマークターゲットは連続的なマルチイベントビデオでアライメントします。
一時的にローカライズされたイベントキャプション(ActivityNet-Captions、YouCook2など)を使用してビデオテキストデータセットを活用して、ActivityNet-CompとYouCook2-Compの2つの構成ベンチマークを構築します。
並べ替え、アクションワードの交換、部分的なキャプション、および組み合わせた混乱など、微妙な時間的破壊を伴う挑戦的な負のサンプルを作成します。
これらのベンチマークは、拡張されたまとまりのあるビデオテキストシーケンス全体で、モデルの組成感度を包括的にテストします。
モデルのパフォーマンスを向上させるために、一時的に正確なペアとの整合性を強化し、ますます混乱しているペアと徐々に罰則を科す階層的なペアワイズ優先損失を提案し、きめ細かい組成学習を促進します。
密集した注釈付きビデオデータの限られた可用性を軽減するために、短いビデオキャプションペアを連結してマルチイベントシーケンスをシミュレートする前提条件戦略を導入します。
ベンチマークでビデオテキストの基礎モデルと大規模なマルチモーダルモデル(LMM)を評価し、構成性の改善のために強みと領域の両方を特定します。
全体として、私たちの研究は、細粒の一時的に一貫性のあるビデオテキストアライメントを達成する際のモデル機能を評価および強化するための包括的なフレームワークを提供します。

要約(オリジナル)

We introduce VideoComp, a benchmark and learning framework for advancing video-text compositionality understanding, aimed at improving vision-language models (VLMs) in fine-grained temporal alignment. Unlike existing benchmarks focused on static image-text compositionality or isolated single-event videos, our benchmark targets alignment in continuous multi-event videos. Leveraging video-text datasets with temporally localized event captions (e.g. ActivityNet-Captions, YouCook2), we construct two compositional benchmarks, ActivityNet-Comp and YouCook2-Comp. We create challenging negative samples with subtle temporal disruptions such as reordering, action word replacement, partial captioning, and combined disruptions. These benchmarks comprehensively test models’ compositional sensitivity across extended, cohesive video-text sequences. To improve model performance, we propose a hierarchical pairwise preference loss that strengthens alignment with temporally accurate pairs and gradually penalizes increasingly disrupted ones, encouraging fine-grained compositional learning. To mitigate the limited availability of densely annotated video data, we introduce a pretraining strategy that concatenates short video-caption pairs to simulate multi-event sequences. We evaluate video-text foundational models and large multimodal models (LMMs) on our benchmark, identifying both strengths and areas for improvement in compositionality. Overall, our work provides a comprehensive framework for evaluating and enhancing model capabilities in achieving fine-grained, temporally coherent video-text alignment.

arxiv情報

著者 Dahun Kim,AJ Piergiovanni,Ganesh Mallya,Anelia Angelova
発行日 2025-04-10 10:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models はコメントを受け付けていません

CollEX — A Multimodal Agentic RAG System Enabling Interactive Exploration of Scientific Collections

要約

このペーパーでは、広範な科学コレクションのインタラクティブな探索を強化するために設計された革新的なマルチモーダルエージェント検索熟成(RAG)システムであるCollexを紹介します。
科学的コレクションの圧倒的なボリュームと固有の複雑さを考えると、従来の検索システムは、学習者、教育者、研究者にかなりの障壁を提示し、必要な直感性と相互作用性を欠くことがよくあります。
Collexは、直感的なチャットインターフェイスを介してアクセスできるマルチモーダルエージェントとして、最先端の大型ビジョンモデル(LVLMS)を採用することにより、これらの制限に対処します。
高度なツールを装備した専門エージェントを介して複雑な相互作用を抽象化することにより、Collexは好奇心駆動型の探索を促進し、そこにある多様な科学的コレクションと記録へのアクセスを大幅に簡素化します。
当社のシステムは、テキストと視覚のモダリティを統合し、教師、生徒、学生、研究者に役立つ教育シナリオをサポートし、独立した探査と科学的興奮と好奇心を促進します。
さらに、Collexは、学際的なつながりを発見し、視覚データを補完することにより、研究コミュニティにサービスを提供しています。
公立大学の地元の科学コレクションからの32のコレクションにわたって64,000を超えるユニークな記録を含む概念実証アプリケーションを通じて、システムの有効性を説明します。

要約(オリジナル)

In this paper, we introduce CollEx, an innovative multimodal agentic Retrieval-Augmented Generation (RAG) system designed to enhance interactive exploration of extensive scientific collections. Given the overwhelming volume and inherent complexity of scientific collections, conventional search systems often lack necessary intuitiveness and interactivity, presenting substantial barriers for learners, educators, and researchers. CollEx addresses these limitations by employing state-of-the-art Large Vision-Language Models (LVLMs) as multimodal agents accessible through an intuitive chat interface. By abstracting complex interactions via specialized agents equipped with advanced tools, CollEx facilitates curiosity-driven exploration, significantly simplifying access to diverse scientific collections and records therein. Our system integrates textual and visual modalities, supporting educational scenarios that are helpful for teachers, pupils, students, and researchers by fostering independent exploration as well as scientific excitement and curiosity. Furthermore, CollEx serves the research community by discovering interdisciplinary connections and complementing visual data. We illustrate the effectiveness of our system through a proof-of-concept application containing over 64,000 unique records across 32 collections from a local scientific collection from a public university.

arxiv情報

著者 Florian Schneider,Narges Baba Ahmadi,Niloufar Baba Ahmadi,Iris Vogel,Martin Semmann,Chris Biemann
発行日 2025-04-10 10:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR | CollEX — A Multimodal Agentic RAG System Enabling Interactive Exploration of Scientific Collections はコメントを受け付けていません

A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions

要約

継続的なトレーニングのための高品質の推論データの合成は、大規模な言語モデル(LLM)のパフォーマンスを向上させるのに効果的であることが証明されています。
ただし、以前の合成アプローチは、データを簡単にスケールアップし、高品質を追求するために高いコストを負担するのに苦労しています。
この論文では、高品質の推論データ合成のための経済的でスケーラブルなフレームワークであるグラフベースの合成データパイプライン(GSDP)を提案します。
ナレッジグラフに触発されて、シードデータから知識ポイントを抽出し、知識ポイント関係グラフを構築して相互接続を調査しました。
知識間の暗黙の関係を調査することにより、私たちの方法は$ 255のデータ拡張を達成します。
さらに、オープンソースモデルが率いるGSDPは、GPT-4-0613に匹敵する合成品質を達成し、100ドルの低コストを維持します。
最も挑戦的な数学的推論タスクに取り組むために、191万ペアを超える数学の問題と回答で構成されるGSDP-Mathデータセットを提示します。
GSDP-MATHで微調整した後、Mistral-7Bに基づくGSDP-7Bは、数学で37.7%の精度、GSM8Kで78.4%を達成し、方法の有効性を実証します。
データセットとモデルは、https://github.com/jayce1kk/gsdpでリリースされます。

要約(オリジナル)

Synthesizing high-quality reasoning data for continual training has been proven to be effective in enhancing the performance of Large Language Models (LLMs). However, previous synthetic approaches struggle to easily scale up data and incur high costs in the pursuit of high quality. In this paper, we propose the Graph-based Synthetic Data Pipeline (GSDP), an economical and scalable framework for high-quality reasoning data synthesis. Inspired by knowledge graphs, we extracted knowledge points from seed data and constructed a knowledge point relationships graph to explore their interconnections. By exploring the implicit relationships among knowledge, our method achieves $\times$255 data expansion. Furthermore, GSDP led by open-source models, achieves synthesis quality comparable to GPT-4-0613 while maintaining $\times$100 lower costs. To tackle the most challenging mathematical reasoning task, we present the GSDP-MATH dataset comprising over 1.91 million pairs of math problems and answers. After fine-tuning on GSDP-MATH, GSDP-7B based on Mistral-7B achieves 37.7% accuracy on MATH and 78.4% on GSM8K, demonstrating the effectiveness of our method. The dataset and models will be released in https://github.com/Jayce1kk/GSDP.

arxiv情報

著者 Jiankang Wang,Jianjun Xu,Xiaorui Wang,Yuxin Wang,Mengting Xing,Shancheng Fang,Zhineng Chen,Hongtao Xie,Yongdong Zhang
発行日 2025-04-10 10:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions はコメントを受け付けていません

On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data

要約

トレーニング中に存在しないデータに対する一時的な推論タスクにおける大規模な言語モデル(LLM)の適用性は、まだ調査されていない分野です。
この論文では、このトピックに取り組み、構造化された半構造化された匿名化されたデータに焦点を当てています。
直接LLMパイプラインを開発するだけでなく、さまざまな方法論を比較し、詳細な分析を実施します。
アルゴリズムコンポーネントに焦点を当てて、自然言語で17の一般的な時間的推論タスクを特定して検討しました。
LLMのパフォーマンスを評価するために、\ textit {推論と回答時間能力}データセット(RATA)を作成しました。
このシナリオ用に特別に調整された、思考のツリー、自己反射、コード実行などのSOTA技術を含むいくつかの方法論を比較しました。
私たちの結果は、スケーラブルで信頼性の高いソリューションを達成するには、単なるスタンドアロンLLM以上のものが必要であり、統合されたアプローチの必要性を強調することを示唆しています。

要約(オリジナル)

The applicability of Large Language Models (LLMs) in temporal reasoning tasks over data that is not present during training is still a field that remains to be explored. In this paper we work on this topic, focusing on structured and semi-structured anonymized data. We not only develop a direct LLM pipeline, but also compare various methodologies and conduct an in-depth analysis. We identified and examined seventeen common temporal reasoning tasks in natural language, focusing on their algorithmic components. To assess LLM performance, we created the \textit{Reasoning and Answering Temporal Ability} dataset (RATA), featuring semi-structured anonymized data to ensure reliance on reasoning rather than on prior knowledge. We compared several methodologies, involving SoTA techniques such as Tree-of-Thought, self-reflexion and code execution, tuned specifically for this scenario. Our results suggest that achieving scalable and reliable solutions requires more than just standalone LLMs, highlighting the need for integrated approaches.

arxiv情報

著者 Alfredo Garrachón Ruiz,Tomás de la Rosa,Daniel Borrajo
発行日 2025-04-10 10:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data はコメントを受け付けていません

CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections

要約

基礎モデルの時代では、Clipは、テキストと視覚モダリティを共通の埋め込み空間に整列させるための強力なツールとして浮上しています。
ただし、クリップをトレーニングするために使用されるアラインメントの目的は、しばしばきめ細かいタスクの視覚的な特徴を下すことになります。
対照的に、Dino ExcelのようなSSL定められたモデルは、特殊なトレーニングパラダイムのために豊富な視覚的特徴を抽出することに拡張されています。
しかし、これらのSSLモデルには、追加のラベル付きデータに依存する追加の監視された線形プロービングステップが必要です。
このペーパーでは、自己監視学習モデル(DINO)の豊富な視覚的特徴を活用するラベルフリーのプロンプトチューニング方法と、無効な画像を使用してクリップベースの画像分類パフォーマンスを大幅に強化するために、大規模な言語モデル(LLM)の幅広いテキスト知識を提案します。
私たちのアプローチは、3つの重要なステップで展開されます。(1)LLMSからのクラス固有の説明を活用することにより、オブジェクトクラスをより正確に表す堅牢なテキスト機能の埋め込みを生成し、Clipのデフォルトの名前固有のプロンプトと比較して、より効果的なゼロショット分類を可能にします。
(2)次に、これらのテキスト埋め込みを使用して、擬似ラベルを生成して、LLM説明ベースのテキストエンベッディングとディノの視覚機能の補完的な強さを統合するアライメントモジュールをトレーニングします。
(3)最後に、訓練されたアライメントモジュールを使用して、Dino支援監督を介してClipのビジョンエンコーダーをプロンプトチューニングします。
この3段階のプロセスにより、視覚的およびテキストの最高の基礎モデルを活用できるため、最先端のラベルのない分類方法を上回る強力で効率的なアプローチが得られます。
特に、私たちのフレームワークであるNOLA(ラベルは添付されていません)は、11の多様な画像分類データセットで最先端のLafterよりも3.6%の平均絶対ゲインを達成しています。
私たちのコードとモデルは、https://github.com/fazliimam/nolaで見つけることができます。

要約(オリジナル)

In the era of foundation models, CLIP has emerged as a powerful tool for aligning text & visual modalities into a common embedding space. However, the alignment objective used to train CLIP often results in subpar visual features for fine-grained tasks. In contrast, SSL-pretrained models like DINO excel at extracting rich visual features due to their specialized training paradigm. Yet, these SSL models require an additional supervised linear probing step, which relies on fully labeled data which is often expensive and difficult to obtain at scale. In this paper, we propose a label-free prompt-tuning method that leverages the rich visual features of self-supervised learning models (DINO) and the broad textual knowledge of large language models (LLMs) to largely enhance CLIP-based image classification performance using unlabeled images. Our approach unfolds in three key steps: (1) We generate robust textual feature embeddings that more accurately represent object classes by leveraging class-specific descriptions from LLMs, enabling more effective zero-shot classification compared to CLIP’s default name-specific prompts. (2) These textual embeddings are then used to produce pseudo-labels to train an alignment module that integrates the complementary strengths of LLM description-based textual embeddings & DINO’s visual features. (3) Finally, we prompt-tune CLIP’s vision encoder through DINO-assisted supervision using the trained alignment module. This three-step process allows us to harness the best of visual & textual foundation models, resulting in a powerful and efficient approach that surpasses state-of-the-art label-free classification methods. Notably, our framework, NoLA (No Labels Attached), achieves an average absolute gain of 3.6% over the state-of-the-art LaFTer across 11 diverse image classification datasets. Our code & models can be found at https://github.com/fazliimam/NoLA.

arxiv情報

著者 Mohamed Fazli Imam,Rufael Fedaku Marew,Jameel Hassan,Mustansar Fiaz,Alham Fikri Aji,Hisham Cholakkal
発行日 2025-04-10 11:09:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections はコメントを受け付けていません

Unveiling the Impact of Multimodal Features on Chinese Spelling Correction: From Analysis to Design

要約

中国の綴り補正(CSC)タスクは、文のスペルエラーの検出と修正に焦点を当てています。
現在の研究では、主に2つのアプローチを調査しています。従来のマルチモーダル事前訓練モデルと大規模な言語モデル(LLM)です。
ただし、LLMSはCSCの制限、特に過補正に直面しているため、このタスクの最適です。
既存の研究では、マルチモーダルCSCモデルでの音声およびグラフェミック情報の使用を調査しましたが、これらの機能を効果的に活用して修正パフォーマンスを強化することは依然として課題です。
これに対処するために、マルチモーダル修正の潜在的な改善を特定して、文字使用(\ textBf {macu})実験のマルチモーダル分析を提案します。
経験的調査結果に基づいて、中国のスペル補正のための新しいマルチモーダルモデルである\ textBf {nambert}を紹介します。
ベンチマークデータセットの実験は、SOTAメソッドに対するNambertの優位性を示しています。
また、NambertとLLMSの包括的な比較を実施し、CSCの強みと制限を体系的に評価します。
私たちのコードとモデルは、https://github.com/iiosnail/nambertで入手できます。

要約(オリジナル)

The Chinese Spelling Correction (CSC) task focuses on detecting and correcting spelling errors in sentences. Current research primarily explores two approaches: traditional multimodal pre-trained models and large language models (LLMs). However, LLMs face limitations in CSC, particularly over-correction, making them suboptimal for this task. While existing studies have investigated the use of phonetic and graphemic information in multimodal CSC models, effectively leveraging these features to enhance correction performance remains a challenge. To address this, we propose the Multimodal Analysis for Character Usage (\textbf{MACU}) experiment, identifying potential improvements for multimodal correctison. Based on empirical findings, we introduce \textbf{NamBert}, a novel multimodal model for Chinese spelling correction. Experiments on benchmark datasets demonstrate NamBert’s superiority over SOTA methods. We also conduct a comprehensive comparison between NamBert and LLMs, systematically evaluating their strengths and limitations in CSC. Our code and model are available at https://github.com/iioSnail/NamBert.

arxiv情報

著者 Xiaowu Zhang,Hongfei Zhao,Jingyi Hou,Zhijie Liu
発行日 2025-04-10 11:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unveiling the Impact of Multimodal Features on Chinese Spelling Correction: From Analysis to Design はコメントを受け付けていません

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

要約

スピーチの自己監視学習(SSL)におけるデータ駆動型ユニットの発見は、音声言語処理の新しい時代に着手しました。
しかし、発見されたユニットはしばしば音声空間に残り、音素を超えたユニットはほとんど露出していません。
ここでは、音声レベルの表現を学習することに音節組織が現れることを実証します。
特に、文章全体を要約するアグリゲータートークンで、事前に守られたヒューバートを微調整するという「自己抵抗」の目的を採用します。
監督がなければ、結果のモデルは音声に明確な境界を引き出し、フレーム全体の表現は顕著な音節構造を示します。
この緊急構造は、主にグラウンドトゥルースの音節に対応していることを実証します。
さらに、スピーチの文レベルの表現を評価するための新しいベンチマークタスク、音声音声ABXを提案します。
以前のモデルと比較すると、我々のモデルは、教師のない音節の発見と学習文レベルの表現の両方で優れています。
一緒に、ヒューバートの自己抵抗が、外部ラベルやモダリティに依存せずに音節組織を生み出し、話し言葉モデリングのための新しいデータ駆動型ユニットを潜在的に提供することを実証します。

要約(オリジナル)

Data-driven unit discovery in self-supervised learning (SSL) of speech has embarked on a new era of spoken language processing. Yet, the discovered units often remain in phonetic space and the units beyond phonemes are largely underexplored. Here, we demonstrate that a syllabic organization emerges in learning sentence-level representation of speech. In particular, we adopt ‘self-distillation’ objective to fine-tune the pretrained HuBERT with an aggregator token that summarizes the entire sentence. Without any supervision, the resulting model draws definite boundaries in speech, and the representations across frames exhibit salient syllabic structures. We demonstrate that this emergent structure largely corresponds to the ground truth syllables. Furthermore, we propose a new benchmark task, Spoken Speech ABX, for evaluating sentence-level representation of speech. When compared to previous models, our model outperforms in both unsupervised syllable discovery and learning sentence-level representation. Together, we demonstrate that the self-distillation of HuBERT gives rise to syllabic organization without relying on external labels or modalities, and potentially provides novel data-driven units for spoken language modeling.

arxiv情報

著者 Cheol Jun Cho,Abdelrahman Mohamed,Shang-Wen Li,Alan W Black,Gopala K. Anumanchipalli
発行日 2025-04-10 11:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT はコメントを受け付けていません