Swiss Parliaments Corpus Re-Imagined (SPC_R): Enhanced Transcription with RAG-based Correction and Predicted BLEU

要約

このペーパーでは、スイスの議員コーパスの新しい長期のリリースを紹介し、複数時間のスイスドイツの議論セッション(それぞれが公式セッションプロトコルと並んでいる)全体を高品質の音声テキストペアに変換します。
私たちのパイプラインは、すべてのセッションオーディオを高計量設定の下でWhisper Large-V3を使用して標準のドイツ語に転写することから始まります。
次に、2段階のGPT-4O補正プロセスを適用します。まず、GPT-4Oは、主に名前が付けられたエンティティ(主に名前が付けられた誤認識)を改良するために、公式プロトコルと一緒に生のウィスパー出力を摂取します。
第二に、別のGPT-4Oパスは、セマンティックの完全性について各洗練されたセグメントを評価します。
予測されたBLEUスコア(Whisperの平均トークンログパロビーズ性に由来する)およびGPT-4O評価スコアが特定のしきい値を下回るセグメントを除外します。
最後のコーパスには801時間のオーディオが含まれており、そのうち751時間は品質管理を通過します。
元の文レベルのSPCリリースと比較して、当社の長型データセットは6ポイントのBLEUの改善を実現し、低リソース、ドメイン固有の音声コーパスのための堅牢なASR、LLMベースの修正、およびデータ駆動型フィルタリングを組み合わせる力を実証します。

要約(オリジナル)

This paper presents a new long-form release of the Swiss Parliaments Corpus, converting entire multi-hour Swiss German debate sessions (each aligned with the official session protocols) into high-quality speech-text pairs. Our pipeline starts by transcribing all session audio into Standard German using Whisper Large-v3 under high-compute settings. We then apply a two-step GPT-4o correction process: first, GPT-4o ingests the raw Whisper output alongside the official protocols to refine misrecognitions, mainly named entities. Second, a separate GPT-4o pass evaluates each refined segment for semantic completeness. We filter out any segments whose Predicted BLEU score (derived from Whisper’s average token log-probability) and GPT-4o evaluation score fall below a certain threshold. The final corpus contains 801 hours of audio, of which 751 hours pass our quality control. Compared to the original sentence-level SPC release, our long-form dataset achieves a 6-point BLEU improvement, demonstrating the power of combining robust ASR, LLM-based correction, and data-driven filtering for low-resource, domain-specific speech corpora.

arxiv情報

著者 Vincenzo Timmel,Manfred Vogel,Daniel Perruchoud,Reza Kakooee
発行日 2025-06-09 13:11:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Swiss Parliaments Corpus Re-Imagined (SPC_R): Enhanced Transcription with RAG-based Correction and Predicted BLEU はコメントを受け付けていません

Augmenting LLMs’ Reasoning by Reinforcing Abstract Thinking

要約

最近の研究では、大規模な言語モデル(LLM)、特に小さな言語モデルは、多くの場合、推論に堅牢性を欠いていることが示されています。
つまり、数値変数や名目変数の変化や気晴らし条項の挿入など、分布シフトに直面した場合、パフォーマンスの低下を経験する傾向があります。
これに対処するための可能な戦略には、合成データを生成して、潜在的なバリエーションに関する推論の問題をさらに「インスタンス」することが含まれます。
対照的に、私たちのアプローチは、推論の問題を「抽象化」することに焦点を当てています。
これは、分布のシフトに対抗するだけでなく、ソリューションを導出するためのシンボリックツールとの接続を促進するのにも役立ちます。
この抽象化プロセスは、監視された微調整よりも強化学習(RL)を通じてよりよく獲得されることがわかります。
私たちの方法は、粒状抽象データでRLを使用してLLMSの抽象的な推論を促進する抽象化 – 最近のGSM摂動ベンチマークでのパフォーマンスの劣化を大幅に軽減します。

要約(オリジナル)

Recent studies have shown that large language models (LLMs), especially smaller ones, often lack robustness in their reasoning. I.e., they tend to experience performance drops when faced with distribution shifts, such as changes to numerical or nominal variables, or insertions of distracting clauses. A possible strategy to address this involves generating synthetic data to further ‘instantiate’ reasoning problems on potential variations. In contrast, our approach focuses on ‘abstracting’ reasoning problems. This not only helps counteract distribution shifts but also facilitates the connection to symbolic tools for deriving solutions. We find that this abstraction process is better acquired through reinforcement learning (RL) than just supervised fine-tuning, which often fails to produce faithful abstractions. Our method, AbstraL — which promotes abstract reasoning in LLMs using RL on granular abstraction data — significantly mitigates performance degradation on recent GSM perturbation benchmarks.

arxiv情報

著者 Silin Gao,Antoine Bosselut,Samy Bengio,Emmanuel Abbe
発行日 2025-06-09 13:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SC | Augmenting LLMs’ Reasoning by Reinforcing Abstract Thinking はコメントを受け付けていません

Is poisoning a real threat to LLM alignment? Maybe more so than you think

要約

人間のフィードバック(RLHF)による強化学習の最近の進歩は、大規模な言語モデル(LLM)の整合に大きな影響を与えました。
近位政策最適化(PPO)などの強化学習アルゴリズムの感度は、監視された学習フレームワークでRLHFを扱う直接政策最適化(DPO)に関する新しいライン作業につながりました。
これらのRLHFメソッドの実際の使用の増加は、それらの脆弱性の分析を必要とします。
この作業では、さまざまなシナリオの下での中毒攻撃に対するDPOの脆弱性を調査し、その種の優先順位中毒の有効性を比較します。
さまざまな種類の攻撃、すなわちバックドア攻撃や非バックドア攻撃、つまり幅広い言語モデル、つまりLlama 7B、Mistral 7B、およびGemma 7bにわたるさまざまな中毒方法の下でのDPOの脆弱性を包括的に分析します。
バックドア攻撃に関しては、有害な行動を引き出すためにデータの少なくとも4 \%を毒する必要があるPPOベースの方法とは異なり、DPOの真の脆弱性をより簡単に活用して、データの0.5%だけでモデルを毒することができます。
さらに、脆弱性の背後にある潜在的な理由と、この脆弱性がバックドア対バックドア攻撃にどれだけつながるかを調査します。

要約(オリジナル)

Recent advancements in Reinforcement Learning with Human Feedback (RLHF) have significantly impacted the alignment of Large Language Models (LLMs). The sensitivity of reinforcement learning algorithms such as Proximal Policy Optimization (PPO) has led to new line work on Direct Policy Optimization (DPO), which treats RLHF in a supervised learning framework. The increased practical use of these RLHF methods warrants an analysis of their vulnerabilities. In this work, we investigate the vulnerabilities of DPO to poisoning attacks under different scenarios and compare the effectiveness of preference poisoning, a first of its kind. We comprehensively analyze DPO’s vulnerabilities under different types of attacks, i.e., backdoor and non-backdoor attacks, and different poisoning methods across a wide array of language models, i.e., LLama 7B, Mistral 7B, and Gemma 7B. We find that unlike PPO-based methods, which, when it comes to backdoor attacks, require at least 4\% of the data to be poisoned to elicit harmful behavior, we exploit the true vulnerabilities of DPO more simply so we can poison the model with only as much as 0.5\% of the data. We further investigate the potential reasons behind the vulnerability and how well this vulnerability translates into backdoor vs non-backdoor attacks.

arxiv情報

著者 Pankayaraj Pathmanathan,Souradip Chakraborty,Xiangyu Liu,Yongyuan Liang,Furong Huang
発行日 2025-06-09 14:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Is poisoning a real threat to LLM alignment? Maybe more so than you think はコメントを受け付けていません

LLM Unlearning Should Be Form-Independent

要約

大規模な言語モデル(LLM)は、モデル内の望ましくない知識を消去または抑制することを目的としており、誤用を防ぐために有害または個人情報を制御するための約束を提供します。
ただし、最近の研究では、実際のシナリオでの有効性が限られていることを強調し、実際的な採用を妨げています。
この研究では、多くの下流の障害の根底にある広範な問題を特定します。既存の未学習方法の有効性は、トレーニングサンプルの形式に大きく依存し、同じ知識の代替表現に一般化することができません。
この問題をフォーム依存のバイアスとして正式に特徴付け、さまざまな下流タスクにわたる特定の症状パターンを体系的に調査します。
その有病率を定量化し、将来の研究をサポートするために、知識表現のバリエーションに対する学習方法の堅牢性を評価するために設計された新しいベンチマークであるORTを紹介します。
結果は、フォーム依存のバイアスが現在の技術の中で広範囲で深刻であることを明らかにしています。
LLMの学習は、現実世界のセキュリティクリティカルなシナリオで遭遇するダウンストリームタスクの無限の形式に対処するために、形式に依存するべきであると主張します。
この目標に向けて、有望なソリューションパスとして、新しいトレーニングのない方法であるRank-One Concept Redirection(ROCR)を紹介します。
ROCRは、下流タスク、特にアクティブ化された危険な概念で不変剤をターゲットにすることにより、学習を実行します。
モデルのパラメーターを数秒以内に変更して、特定の未学習ターゲット概念のモデルの認識を別の無害な概念にリダイレクトすることができます。
広範な実験では、ROCRが従来の方法と比較して有効性が大幅に改善し、非常に自然な出力を生成することが示されています。

要約(オリジナル)

Large Language Model (LLM) unlearning aims to erase or suppress undesirable knowledge within the model, offering promise for controlling harmful or private information to prevent misuse. However, recent studies highlight its limited efficacy in real-world scenarios, hindering practical adoption. In this study, we identify a pervasive issue underlying many downstream failures: the effectiveness of existing unlearning methods heavily depends on the form of training samples and frequently fails to generalize to alternate expressions of the same knowledge. We formally characterize this problem as Form-Dependent Bias and systematically investigate its specific manifestation patterns across various downstream tasks. To quantify its prevalence and support future research, we introduce ORT, a novel benchmark designed to evaluate the robustness of unlearning methods against variations in knowledge expression. Results reveal that Form-Dependent Bias is both widespread and severe among current techniques. We argue that LLM unlearning should be form-independent to address the endless forms of downstream tasks encountered in real-world security-critical scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR), a novel training-free method, as a promising solution path. ROCR performs unlearning by targeting the invariants in downstream tasks, specifically the activated dangerous concepts. It is capable of modifying model parameters within seconds to redirect the model’s perception of a specific unlearning target concept to another harmless concept. Extensive experiments demonstrate that ROCR significantly improves unlearning effectiveness compared to traditional methods while generating highly natural outputs.

arxiv情報

著者 Xiaotian Ye,Mengqi Zhang,Shu Wu
発行日 2025-06-09 14:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | LLM Unlearning Should Be Form-Independent はコメントを受け付けていません

Generalized Interpolating Discrete Diffusion

要約

最先端の言語モデルは次のトークン予測を通じて印象的な結果を達成しますが、すでに生成されたトークンを修正できないなど、固有の制限があります。
これにより、離散拡散などの代替アプローチの調査が促されました。
しかし、マスクされた拡散は、そのシンプルさと有効性のために人気のある選択肢として浮上しているため、この言葉を修正できないことを再導入します。
これを克服するために、私たちはマスクされた拡散を一般化し、騒音プロセスの設計においてより大きな柔軟性を提供する一般的な補間別の離散拡散(GIDD)の新しいファミリーを導き出します。
新規拡散エルボを活用して、拡散言語モデリングにおけるコンピューティングマッチの最先端のパフォーマンスを実現します。
GIDDの柔軟性を活用して、マスキングと均一なノイズを組み合わせたハイブリッドアプローチを探り、サンプルの品質を改善し、モデルが独自のミスを修正する能力を解き放ちます。
コード:https://github.com/dvruette/gidd/

要約(オリジナル)

While state-of-the-art language models achieve impressive results through next-token prediction, they have inherent limitations such as the inability to revise already generated tokens. This has prompted exploration of alternative approaches such as discrete diffusion. However, masked diffusion, which has emerged as a popular choice due to its simplicity and effectiveness, reintroduces this inability to revise words. To overcome this, we generalize masked diffusion, deriving a new family of general interpolating discrete diffusion (GIDD) which offers greater flexibility in the design of the noising processes. Leveraging a novel diffusion ELBO, we achieve compute-matched state-of-the-art performance in diffusion language modeling. Exploiting GIDD’s flexibility, we explore a hybrid approach combining masking and uniform noise, leading to improved sample quality and unlocking the ability for the model to correct its own mistakes, an area where autoregressive models notoriously have struggled. Code: https://github.com/dvruette/gidd/

arxiv情報

著者 Dimitri von Rütte,Janis Fluri,Yuhui Ding,Antonio Orvieto,Bernhard Schölkopf,Thomas Hofmann
発行日 2025-06-09 14:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Generalized Interpolating Discrete Diffusion はコメントを受け付けていません

MultiMatch: Multihead Consistency Regularization Matching for Semi-Supervised Text Classification

要約

擬似標識との共同トレーニングと一貫性の正規化のパラダイムを組み合わせた新しい半監視学習(SSL)アルゴリズムであるMultimatchを紹介します。
そのコアでは、3つの重要な目的で設計された3倍の擬似ラベル重み付けモジュールを備えています。頭部の合意とモデルの信頼に基づいて擬似適応のフィルタリングと、知覚された分類の難易度に応じて重み付けします。
この新しいモジュールは、3つの既存の手法を強化および統合します – マルチヘッド共同トレーニングからのヘッズ契約、フライメッチからの自己適応しきい値、およびマージンマッチからの平均擬似マージン – は、SSL設定の堅牢性とパフォーマンスを改善する全体的なアプローチをもたらします。
ベンチマークデータセットでの実験結果は、マルチマッチの優れたパフォーマンスを強調し、5つの自然言語処理データセットから10のセットアップのうち9つで最先端の結果を達成し、19の方法でフリードマンテストに従って最初にランキングします。
さらに、Multimatchは、非常に不均衡な設定で例外的な堅牢性を示し、2番目に良いアプローチを3.26%上回ります。データの不均衡は、多くのテキスト分類タスクの重要な要素です。

要約(オリジナル)

We introduce MultiMatch, a novel semi-supervised learning (SSL) algorithm combining the paradigms of co-training and consistency regularization with pseudo-labeling. At its core, MultiMatch features a three-fold pseudo-label weighting module designed for three key purposes: selecting and filtering pseudo-labels based on head agreement and model confidence, and weighting them according to the perceived classification difficulty. This novel module enhances and unifies three existing techniques — heads agreement from Multihead Co-training, self-adaptive thresholds from FreeMatch, and Average Pseudo-Margins from MarginMatch — resulting in a holistic approach that improves robustness and performance in SSL settings. Experimental results on benchmark datasets highlight the superior performance of MultiMatch, achieving state-of-the-art results on 9 out of 10 setups from 5 natural language processing datasets and ranking first according to the Friedman test among 19 methods. Furthermore, MultiMatch demonstrates exceptional robustness in highly imbalanced settings, outperforming the second-best approach by 3.26% — and data imbalance is a key factor for many text classification tasks.

arxiv情報

著者 Iustin Sirbu,Robert-Adrian Popovici,Cornelia Caragea,Stefan Trausan-Matu,Traian Rebedea
発行日 2025-06-09 14:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | MultiMatch: Multihead Consistency Regularization Matching for Semi-Supervised Text Classification はコメントを受け付けていません

Minerva: A Programmable Memory Test Benchmark for Language Models

要約

LLMベースのAIアシスタントは、メモリ(コンテキスト)をどの程度効果的に利用してさまざまなタスクを実行できますか?
しばしば手動で作られている従来のデータベンチマークは、いくつかの制限に苦しんでいます。それらは静的で、過剰適合の影響を受けやすく、解釈が困難であり、実用的な洞察を欠いています。
このペーパーでは、モデルのメモリを効果的に使用する能力を評価するための包括的なテストセットを自動的に生成するためのフレームワークを提示します。
私たちのフレームワークは、一般的に検討されている(PassKey、Key-Value、Haystackの針)検索を超えて、能力テストの範囲を拡張します。これは、文献の支配的な焦点です。
具体的には、検索、リコール、編集、マッチング、コンテキストメモリの情報の比較、入力が異なるブロックに構造化されたときの基本操作の実行、メモリ上での動作中の状態の維持、実際のデータのシミュレーションなどの原子タスクのモデルを評価します。
さらに、複合テストを設計して、より複雑で統合されたタスクを実行するモデルの能力を調査します。
当社のベンチマークにより、LLMSのメモリ能力の解釈可能で詳細な評価が可能になります。

要約(オリジナル)

How effectively can LLM-based AI assistants utilize their memory (context) to perform various tasks? Traditional data benchmarks, which are often manually crafted, suffer from several limitations: they are static, susceptible to overfitting, difficult to interpret, and lack actionable insights–failing to pinpoint the specific capabilities a model lacks when it does not pass a test. In this paper, we present a framework for automatically generating a comprehensive set of tests to evaluate models’ abilities to use their memory effectively. Our framework extends the range of capability tests beyond the commonly explored (passkey, key-value, needle in the haystack) search, a dominant focus in the literature. Specifically, we evaluate models on atomic tasks such as searching, recalling, editing, matching, comparing information in context memory, performing basic operations when inputs are structured into distinct blocks, and maintaining state while operating on memory, simulating real-world data. Additionally, we design composite tests to investigate the models’ ability to perform more complex, integrated tasks. Our benchmark enables an interpretable, detailed assessment of memory capabilities of LLMs.

arxiv情報

著者 Menglin Xia,Victor Ruehle,Saravan Rajmohan,Reza Shokri
発行日 2025-06-09 14:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Minerva: A Programmable Memory Test Benchmark for Language Models はコメントを受け付けていません

WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain

要約

Wind Energy Project Assessmentは、意思決定者に重要な課題を提示します。意思決定者は、環境および科学的文書の数百ページをナビゲートおよび統合する必要があります。
これらのドキュメントは、多くの場合、異なる地域とプロジェクトスケールにまたがって、専門知識の複数のドメインをカバーしています。
このプロセスは、伝統的に、意思決定者からの計り知れない時間と専門知識を要求しています。
大規模な言語モデル(LLM)と検索拡張生成(RAG)アプローチの出現は、迅速で正確なクロスドキュメント情報の検索と合成を可能にする変革的ソリューションを提供します。
自然言語処理(NLP)とテキスト生成の状況が進化し続けるにつれて、ベンチマークが異なるRAGベースのLLMのパフォーマンスを評価および比較するために不可欠になります。
この論文では、ドメインに関連するラグベンチマークを生成するための包括的なフレームワークを紹介します。
私たちのフレームワークは、人間(ドメインの専門家)-AI(LLM)チームとの自動質問回答生成に基づいています。
ケーススタディとして、風力エネルギープロジェクトの環境面に関連する複数の科学文書/レポートで構成される風力エネルギードメインの最初のベンチマークであるWeqAを導入することにより、フレームワークを実証します。
私たちのフレームワークは、さまざまな複雑さレベルの多様なメトリックと複数の質問タイプを使用してRAGパフォーマンスを体系的に評価し、複雑な科学ドメインにおけるRAGベースのシステムの厳密な評価の基礎を提供し、研究者がドメイン固有のアプリケーションの改善の領域を特定できるようにします。

要約(オリジナル)

Wind energy project assessments present significant challenges for decision-makers, who must navigate and synthesize hundreds of pages of environmental and scientific documentation. These documents often span different regions and project scales, covering multiple domains of expertise. This process traditionally demands immense time and specialized knowledge from decision-makers. The advent of Large Language Models (LLM) and Retrieval Augmented Generation (RAG) approaches offer a transformative solution, enabling rapid, accurate cross-document information retrieval and synthesis. As the landscape of Natural Language Processing (NLP) and text generation continues to evolve, benchmarking becomes essential to evaluate and compare the performance of different RAG-based LLMs. In this paper, we present a comprehensive framework to generate a domain relevant RAG benchmark. Our framework is based on automatic question-answer generation with Human (domain experts)-AI (LLM) teaming. As a case study, we demonstrate the framework by introducing WeQA, a first-of-its-kind benchmark on the wind energy domain which comprises of multiple scientific documents/reports related to environmental aspects of wind energy projects. Our framework systematically evaluates RAG performance using diverse metrics and multiple question types with varying complexity level, providing a foundation for rigorous assessment of RAG-based systems in complex scientific domains and enabling researchers to identify areas for improvement in domain-specific applications.

arxiv情報

著者 Rounak Meyur,Hung Phan,Sridevi Wagle,Jan Strube,Mahantesh Halappanavar,Sameera Horawalavithana,Anurag Acharya,Sai Munikoti
発行日 2025-06-09 14:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain はコメントを受け付けていません

ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MT

要約

ニューラルマシン翻訳(NMT)は、変圧器ベースのモデルを使用することで翻訳を改善しましたが、それでも単語のあいまいさとコンテキストに苦労しています。
この問題は、ドメイン固有のアプリケーションで特に重要です。ドメイン固有のアプリケーションは、不明確な文やデータ品質の低さに問題があることがよくあります。
私たちの研究では、モデルに情報を追加することで、eコマースデータのコンテキストで翻訳を改善する方法を探ります。
この目的のために、コネクトを作成します。これは、11,400ペアからなる画像と製品メタデータと組み合わせた新しいチェコからポリッシュな電子商取引製品翻訳データセットです。
次に、コンテキスト認識翻訳に適用できるさまざまな方法を調査および比較します。
ビジョン言語モデル(VLM)をテストし、視覚的なコンテキストが翻訳の品質を支援することを確認します。
さらに、製品のカテゴリパスや画像の説明など、テキストからテキストモデルへのコンテキスト情報の組み込みを検討します。
私たちの研究の結果は、コンテキスト情報の組み込みが機械翻訳の品質の改善につながることを示しています。
新しいデータセットを公開します。

要約(オリジナル)

Neural Machine Translation (NMT) has improved translation by using Transformer-based models, but it still struggles with word ambiguity and context. This problem is especially important in domain-specific applications, which often have problems with unclear sentences or poor data quality. Our research explores how adding information to models can improve translations in the context of e-commerce data. To this end we create ConECT — a new Czech-to-Polish e-commerce product translation dataset coupled with images and product metadata consisting of 11,400 sentence pairs. We then investigate and compare different methods that are applicable to context-aware translation. We test a vision-language model (VLM), finding that visual context aids translation quality. Additionally, we explore the incorporation of contextual information into text-to-text models, such as the product’s category path or image descriptions. The results of our study demonstrate that the incorporation of contextual information leads to an improvement in the quality of machine translation. We make the new dataset publicly available.

arxiv情報

著者 Mikołaj Pokrywka,Wojciech Kusa,Mieszko Rutkowski,Mikołaj Koszowski
発行日 2025-06-09 14:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MT はコメントを受け付けていません

WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code

要約

生成AIテクノロジーの急速な進歩により、マルチモーダルラージランゲージモデル(MLLM)は、複雑なWebアプリケーション開発を実行できるAIソフトウェアエンジニアとして機能する可能性があります。
このモデルには、さまざまな開発フェーズの課題に対処するために多次元サブ資本の合流が必要であることを考慮すると、マルチビュー評価フレームワークを構築することは、開発効率の強化を正確に導くために重要です。
ただし、既存のベンチマークは通常、サブ能力の評価を提供することができず、Webページの生成の結果のみに焦点を当てています。
この作業では、ソフトウェアエンジニアリングの原則からインスピレーションを得て、さらにWebUibenchをさらに提案します。WebUIは、WebUI認識、HTMLプログラミング、WebUI-HTML理解、WebUI-to-Codeの4つの重要な分野でMLLMを評価するために体系的に設計されています。
WebUibenchは、0.7Kを超える現実世界のWebサイトから派生した21kの高品質の質問回答ペアで構成されています。
29の主流MLLMの広範な評価は、開発プロセス中にモデルが遭遇したスキル特性とさまざまな弱点を明らかにします。

要約(オリジナル)

With the rapid advancement of Generative AI technology, Multimodal Large Language Models(MLLMs) have the potential to act as AI software engineers capable of executing complex web application development. Considering that the model requires a confluence of multidimensional sub-capabilities to address the challenges of various development phases, constructing a multi-view evaluation framework is crucial for accurately guiding the enhancement of development efficiency. However, existing benchmarks usually fail to provide an assessment of sub-capabilities and focus solely on webpage generation outcomes. In this work, we draw inspiration from the principles of software engineering and further propose WebUIBench, a benchmark systematically designed to evaluate MLLMs in four key areas: WebUI Perception, HTML Programming,WebUI-HTML Understanding, and WebUI-to-Code. WebUIBench comprises 21K high-quality question-answer pairs derived from over 0.7K real-world websites. The extensive evaluation of 29 mainstream MLLMs uncovers the skill characteristics and various weakness that models encountered during the development process.

arxiv情報

著者 Zhiyu Lin,Zhengda Zhou,Zhiyuan Zhao,Tianrui Wan,Yilun Ma,Junyu Gao,Xuelong Li
発行日 2025-06-09 14:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code はコメントを受け付けていません