RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

要約

大規模な言語モデル(LLM)は顕著な能力を示しますが、安全でないまたは偏った出力を生成するために脆弱性を活用する敵対的なプロンプトの影響を受けやすいです。
既存のレッドチームの方法は、多くの場合、スケーラビリティの課題、リソース集約型の要件、または攻撃戦略における限られた多様性に直面しています。
進化的計算に根ざした新規のレッドチーミングフレームワークであるRainbowPlusを提案し、言語モデルに合わせた革新を備えたMAP-ELITEのような古典的な進化アルゴリズムを拡張する適応的品質 – 多様性(QD)検索を通じて敵対的な迅速な生成を強化します。
多様な高品質のプロンプトと包括的なフィットネス関数を保存するためのマルチエレメントアーカイブを使用して、複数のプロンプトを同時に評価することにより、RainbowPlusは、Rainbowチームのような以前のQDメソッドのシングルプロムプトアーカイブの制約とペアワイズ比較を克服します。
6つのベンチマークデータセットと4つのオープンソースLLMのQDメソッドとQDメソッドを比較した実験は、優れた攻撃成功率(ASR)と多様性(Diverse-Score $ \約0.84 $)を示し、最大100倍のユニークなプロンプトを生成します(例:Ministral-8B-instruct-2410の場合は10,418 Vs. 100)。
Rainbowplusは、12のLLMS(10のオープンソース、2つのクローズドソース)を備えた9つの最先端のメソッドに対して、12のLLMS(10のオープンソース、2つのクローズドソース)を備えた9つの最先端のデータに対して、81.1%の平均ASRを達成し、Autodan-Turboを3.9%上回り、9倍高速(1.45対13.50時間)です。
当社のオープンソースの実装は、LLM安全性のさらなる進歩を促進し、脆弱性評価のためのスケーラブルなツールを提供します。
コードとリソースは、https://github.com/knoveleng/rainbowplusで公開されており、LLM Red-Teamingの再現性と将来の研究をサポートしています。

要約(オリジナル)

Large Language Models (LLMs) exhibit remarkable capabilities but are susceptible to adversarial prompts that exploit vulnerabilities to produce unsafe or biased outputs. Existing red-teaming methods often face scalability challenges, resource-intensive requirements, or limited diversity in attack strategies. We propose RainbowPlus, a novel red-teaming framework rooted in evolutionary computation, enhancing adversarial prompt generation through an adaptive quality-diversity (QD) search that extends classical evolutionary algorithms like MAP-Elites with innovations tailored for language models. By employing a multi-element archive to store diverse high-quality prompts and a comprehensive fitness function to evaluate multiple prompts concurrently, RainbowPlus overcomes the constraints of single-prompt archives and pairwise comparisons in prior QD methods like Rainbow Teaming. Experiments comparing RainbowPlus to QD methods across six benchmark datasets and four open-source LLMs demonstrate superior attack success rate (ASR) and diversity (Diverse-Score $\approx 0.84$), generating up to 100 times more unique prompts (e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%, surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours). Our open-source implementation fosters further advancements in LLM safety, offering a scalable tool for vulnerability assessment. Code and resources are publicly available at https://github.com/knoveleng/rainbowplus, supporting reproducibility and future research in LLM red-teaming.

arxiv情報

著者 Quy-Anh Dang,Chris Ngo,Truong-Son Hy
発行日 2025-04-21 12:04:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search はコメントを受け付けていません

Testing LLMs’ Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT

要約

この研究では、エラーの類型に基づいてMT出力に注釈を付ける際に、大規模な言語モデル(LLMS)、特にChatGptの機能を調査しています。
主に一般的な言語に焦点を当てた以前の作業とは対照的に、特殊な翻訳でエラーを特定して分類するChatGPTの能力を探ります。
2つの異なるプロンプトをテストし、カスタマイズされたエラーの類型に基づいて、ChatGPTアノテーションをDeeplとChatGpt自体によって生成された翻訳の人間の専門家評価と比較します。
結果は、Deeplによって生成された翻訳の場合、リコールと精度が非常に高いことを示しています。
ただし、エラー分類の精度の程度は、プロンプトの特定の機能とその詳細レベルに依存し、ChatGPTは詳細なプロンプトで非常にうまく機能します。
独自の翻訳を評価するとき、ChatGPTは大幅に低い結果を達成し、自己評価による制限を明らかにします。
これらの結果は、特に特殊なドメインにおける翻訳評価のためのLLMの潜在能力と制限の両方を強調しています。
私たちの実験は、オープンソースLLMの将来の研究への道を開き、同等またはさらに高品質の注釈を生成する可能性があります。
将来的には、特に教師による人間の評価のプロセスを最適化し、学生の編集後の学習と翻訳学習に対するLLMによる注釈の影響を調査することにより、翻訳トレーニングのコンテキストでこの自動評価の実用的な有効性をテストすることも目指しています。

要約(オリジナル)

This study investigates the capabilities of large language models (LLMs), specifically ChatGPT, in annotating MT outputs based on an error typology. In contrast to previous work focusing mainly on general language, we explore ChatGPT’s ability to identify and categorise errors in specialised translations. By testing two different prompts and based on a customised error typology, we compare ChatGPT annotations with human expert evaluations of translations produced by DeepL and ChatGPT itself. The results show that, for translations generated by DeepL, recall and precision are quite high. However, the degree of accuracy in error categorisation depends on the prompt’s specific features and its level of detail, ChatGPT performing very well with a detailed prompt. When evaluating its own translations, ChatGPT achieves significantly poorer results, revealing limitations with self-assessment. These results highlight both the potential and the limitations of LLMs for translation evaluation, particularly in specialised domains. Our experiments pave the way for future research on open-source LLMs, which could produce annotations of comparable or even higher quality. In the future, we also aim to test the practical effectiveness of this automated evaluation in the context of translation training, particularly by optimising the process of human evaluation by teachers and by exploring the impact of annotations by LLMs on students’ post-editing and translation learning.

arxiv情報

著者 Joachim Minder,Guillaume Wisniewski,Natalie Kübler
発行日 2025-04-21 12:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Testing LLMs’ Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT はコメントを受け付けていません

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models

要約

大規模な言語モデル(LLM)は多言語機能を実証していますが、不均衡なトレーニングコーパスのためにほとんど英語中心です。
以前の作品はこのバイアスを活用して翻訳を通じて多言語のパフォーマンスを向上させましたが、それらは主に自然言語処理(NLP)タスクに限定されています。
この作業では、評価を実際のユーザークエリと非英語中心のLLMSに拡張し、多言語のパフォーマンスをより広く検査します。
私たちの重要な貢献は、英語への翻訳がNLPタスクでの英語中心のLLMのパフォーマンスを高めることができるが、それは普遍的に最適ではないことを実証することにあります。
深い言語の理解を必要とする文化関連のタスクの場合、母国語で促すことは、文化と言語のニュアンスをよりよく捉えるため、より効果的であることがわかります。
私たちの実験は、多言語のコンテキストでLLMSおよびタスク全体でさまざまな動作を暴露し、多言語評価に対するより包括的なアプローチの必要性を強調しています。
したがって、英語中心のパラダイムを超えるLLMの開発と評価におけるより大きな努力を求めています。

要約(オリジナル)

Large language models (LLMs) have demonstrated multilingual capabilities, yet they are mostly English-centric due to the imbalanced training corpora. While prior works have leveraged this bias to enhance multilingual performance through translation, they have been largely limited to natural language processing (NLP) tasks. In this work, we extend the evaluation to real-world user queries and non-English-centric LLMs, offering a broader examination of multilingual performance. Our key contribution lies in demonstrating that while translation into English can boost the performance of English-centric LLMs on NLP tasks, it is not universally optimal. For culture-related tasks that need deep language understanding, prompting in the native language proves more effective as it better captures the nuances of culture and language. Our experiments expose varied behaviors across LLMs and tasks in the multilingual context, underscoring the need for a more comprehensive approach to multilingual evaluation. Therefore, we call for greater efforts in developing and evaluating LLMs that go beyond English-centric paradigms.

arxiv情報

著者 Chaoqun Liu,Wenxuan Zhang,Yiran Zhao,Anh Tuan Luu,Lidong Bing
発行日 2025-04-21 12:52:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models はコメントを受け付けていません

The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models

要約

大規模な言語モデル(LLMS)は、特に検索された生成(RAG)で、情報アクセスシステムの機能を大幅に強化しました。
それにもかかわらず、RAGシステムの評価は、継続的な進歩に対する障壁のままです。これは、人間の注釈に対して検証された自動評価フレームワークを提案することにより、この作業で取り組む課題です。
ナゲット評価方法は、RAGシステムを評価するための強固な基盤を提供すると考えています。
2003年にTREC質問応答(QA)トラック用に開発されたこのアプローチは、良好な答えに存在する原子の事実に基づいたシステムを評価します。
私たちの取り組みは、この方法論を「リファクタリング」することに焦点を当てています。この方法では、LLMを特別に適用する自動装置のフレームワークを自動的に作成し、ナゲットをシステムの回答に自動的に割り当てることに焦点を当てています。
TREC 2024 RAGトラックのコンテキストでは、ナゲットが人間の評価者によって手動または半人によって作成され、システムの回答に手動で割り当てられる戦略に対して完全に自動的なアプローチを較正します。
コミュニティ全体の評価の結果に基づいて、完全に自動ナゲット評価と人間ベースのバリアントから導き出されたスコア間の実行レベルで強力な一致を観察します。
Nuggetの割り当てなどの個々のフレームワークコンポーネントが独立して自動化されると、契約はより強くなります。
これは、当社の評価フレームワークが、将来のRAGシステムの開発を導くために使用できる努力と品質のトレードオフを提供することを示唆しています。
ただし、特にシステムの障害を効果的に診断するための堅牢なトピックごとの合意を確立する際には、アプローチを改善するにはさらなる研究が必要です。

要約(オリジナル)

Large Language Models (LLMs) have significantly enhanced the capabilities of information access systems, especially with retrieval-augmented generation (RAG). Nevertheless, the evaluation of RAG systems remains a barrier to continued progress, a challenge we tackle in this work by proposing an automatic evaluation framework that is validated against human annotations. We believe that the nugget evaluation methodology provides a solid foundation for evaluating RAG systems. This approach, originally developed for the TREC Question Answering (QA) Track in 2003, evaluates systems based on atomic facts that should be present in good answers. Our efforts focus on ‘refactoring’ this methodology, where we describe the AutoNuggetizer framework that specifically applies LLMs to both automatically create nuggets and automatically assign nuggets to system answers. In the context of the TREC 2024 RAG Track, we calibrate a fully automatic approach against strategies where nuggets are created manually or semi-manually by human assessors and then assigned manually to system answers. Based on results from a community-wide evaluation, we observe strong agreement at the run level between scores derived from fully automatic nugget evaluation and human-based variants. The agreement is stronger when individual framework components such as nugget assignment are automated independently. This suggests that our evaluation framework provides tradeoffs between effort and quality that can be used to guide the development of future RAG systems. However, further research is necessary to refine our approach, particularly in establishing robust per-topic agreement to diagnose system failures effectively.

arxiv情報

著者 Ronak Pradeep,Nandan Thakur,Shivani Upadhyay,Daniel Campos,Nick Craswell,Jimmy Lin
発行日 2025-04-21 12:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models はコメントを受け付けていません

Rhythm of Opinion: A Hawkes-Graph Framework for Dynamic Propagation Analysis

要約

ソーシャルメディアの急速な発展は、世論のダイナミクスを大幅に再形成し、従来のモデルが効果的にキャプチャできないという複雑な相互作用をもたらしました。
この課題に対処するために、コメント間の複雑な階層的な関係を考慮しながら、ソーシャルネットワーク内のノード間の意見の伝播ダイナミクスをモデリングするマルチエメンションホーク​​スプロセスをグラフニューラルネットワークと統合する革新的なアプローチを提案します。
拡張された多次元ホークスプロセスは、さまざまなトピックにわたる階層構造、多次元相互作用、および相互の影響をキャプチャし、複雑な伝播ネットワークを形成します。
さらに、世論のダイナミクスの進化を包括的にキャプチャできる高品質のデータセットの欠如を認識して、新しいデータセットであるVistaを紹介します。
これには、47,207の投稿、327,015の第2レベルのコメント、および29,578の第3レベルのコメントに対応する159のトレンドトピックが含まれており、政治、エンターテイメント、スポーツ、健康、医学などの多様なドメインをカバーしています。
データセットには、11のカテゴリにわたって詳細なセンチメントラベルが注釈が付けられ、明確に定義された階層的な関係が注釈されています。
私たちの方法と組み合わせると、センチメントの伝播をコメントの階層と時間的進化にリンクすることにより、強い解釈可能性を提供します。
私たちのアプローチは、将来の研究のための堅牢なベースラインを提供します。

要約(オリジナル)

The rapid development of social media has significantly reshaped the dynamics of public opinion, resulting in complex interactions that traditional models fail to effectively capture. To address this challenge, we propose an innovative approach that integrates multi-dimensional Hawkes processes with Graph Neural Network, modeling opinion propagation dynamics among nodes in a social network while considering the intricate hierarchical relationships between comments. The extended multi-dimensional Hawkes process captures the hierarchical structure, multi-dimensional interactions, and mutual influences across different topics, forming a complex propagation network. Moreover, recognizing the lack of high-quality datasets capable of comprehensively capturing the evolution of public opinion dynamics, we introduce a new dataset, VISTA. It includes 159 trending topics, corresponding to 47,207 posts, 327,015 second-level comments, and 29,578 third-level comments, covering diverse domains such as politics, entertainment, sports, health, and medicine. The dataset is annotated with detailed sentiment labels across 11 categories and clearly defined hierarchical relationships. When combined with our method, it offers strong interpretability by linking sentiment propagation to the comment hierarchy and temporal evolution. Our approach provides a robust baseline for future research.

arxiv情報

著者 Yulong Li,Zhixiang Lu,Feilong Tang,Simin Lai,Ming Hu,Yuxuan Zhang,Haochen Xue,Zhaodong Wu,Imran Razzak,Qingxia Li,Jionglong Su
発行日 2025-04-21 13:02:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI | Rhythm of Opinion: A Hawkes-Graph Framework for Dynamic Propagation Analysis はコメントを受け付けていません

Semantic Wave Functions: Exploring Meaning in Large Language Models Through Quantum Formalism

要約

大規模な言語モデル(LLM)は、高次元ベクトル埋め込みでセマンティック関係をエンコードします。
このホワイトペーパーでは、LLMの埋め込みスペースと量子力学との類推を調査し、LLMが単語やフレーズが量子状態として振る舞う量子化されたセマンティック空間内で動作すると仮定しています。
微妙なセマンティック干渉効果をキャプチャするために、標準の実質値の埋め込みスペースを複雑なドメインに拡張し、ダブルスリットの実験に類似しています。
この量子由来の表現を正式に形式化し、二重ウェルの可能性などの潜在的な景観をモデル化するために、「セマンティック波関数」を導入します。
さらに、マグニチュード情報と位相情報の両方を組み込んだ複雑な値の類似性尺度を提案し、セマンティック表現のより敏感な比較を可能にします。
LLMの動的進化をモデル化するために、ゲージフィールドとメキシコの帽子の可能性を備えた非線形Schr \ ‘Odinger方程式に基づいて、パス積分形式を開発します。
この学際的なアプローチは、人工言語と自然言語の両方の理解を進めることを目標に、LLMを理解し、潜在的に操作するための新しい理論的枠組みを提供します。

要約(オリジナル)

Large Language Models (LLMs) encode semantic relationships in high-dimensional vector embeddings. This paper explores the analogy between LLM embedding spaces and quantum mechanics, positing that LLMs operate within a quantized semantic space where words and phrases behave as quantum states. To capture nuanced semantic interference effects, we extend the standard real-valued embedding space to the complex domain, drawing parallels to the double-slit experiment. We introduce a ‘semantic wave function’ to formalize this quantum-derived representation and utilize potential landscapes, such as the double-well potential, to model semantic ambiguity. Furthermore, we propose a complex-valued similarity measure that incorporates both magnitude and phase information, enabling a more sensitive comparison of semantic representations. We develop a path integral formalism, based on a nonlinear Schr\’odinger equation with a gauge field and Mexican hat potential, to model the dynamic evolution of LLM behavior. This interdisciplinary approach offers a new theoretical framework for understanding and potentially manipulating LLMs, with the goal of advancing both artificial and natural language understanding.

arxiv情報

著者 Timo Aukusti Laine
発行日 2025-04-21 13:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, quant-ph | Semantic Wave Functions: Exploring Meaning in Large Language Models Through Quantum Formalism はコメントを受け付けていません

LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation

要約

ロングコンテキスト言語モデル(LCLM)を評価するための既存のベンチマークは、主に長いコンテキストリコールに焦点を当てており、数千の無関係なトークンを処理しながら、いくつかの重要なスニペットに基づいて短い応答を生成する必要があります。
LongProc(Long Procedural Generation)を紹介します。これは、高度に分散した情報と長期生成の統合の両方を必要とする新しいベンチマークです。
LongProcは、HTMLページから構造化された情報をTSV形式に抽出し、複雑な検索手順を実行して旅行計画を作成するなど、6つの多様な手続き上の生成タスクで構成されています。
これらのタスクは、詳細な手続き上の命令に従い、分散した情報よりも合成および推論を行い、構造化された長型の出力(最大8Kトークン)を生成する能力をテストすることにより、LCLMSに挑戦します。
さらに、これらのタスクは決定論的手順に順守し、構造化された出力を生成するため、信頼できるルールベースの評価を可能にします。
3つの難易度レベルでLongProcで、命令チューニングモデルと最近の推論モデルを含む23のLCLMを評価しました。
特に、テストされたすべてのモデルは、32Kトークンを超えるコンテキストウィンドウサイズを主張していますが、通常、オープンウェイトモデルは2Kトークンタスクで動き、GPT-4Oのようなクローズドソースモデルは8Kトークンタスクで有意な分解を示します。
推論モデルは、長いコットのトレーニングの恩恵を受けて、長期の生成における全体的なパフォーマンスを強化します。
さらなる分析により、LCLMSは長期の世代の長距離一貫性を維持するのに苦労していることが明らかになりました。
これらの調査結果は、現在のLCLMSの重大な制限を強調し、改善の余地を示唆しています。
データとコードは、https://princeton-pli.github.io/longprocで利用可能です。

要約(オリジナル)

Existing benchmarks for evaluating long-context language models (LCLMs) primarily focus on long-context recall, requiring models to produce short responses based on a few critical snippets while processing thousands of irrelevant tokens. We introduce LongProc (Long Procedural Generation), a new benchmark that requires both the integration of highly dispersed information and long-form generation. LongProc consists of six diverse procedural generation tasks, such as extracting structured information from HTML pages into a TSV format and executing complex search procedures to create travel plans. These tasks challenge LCLMs by testing their ability to follow detailed procedural instructions, synthesize and reason over dispersed information, and generate structured, long-form outputs (up to 8K tokens). Furthermore, as these tasks adhere to deterministic procedures and yield structured outputs, they enable reliable rule-based evaluation. We evaluated 23 LCLMs, including instruction-tuned models and recent reasoning models, on LongProc at three difficulty levels, with the maximum number of output tokens set at 500, 2K, and 8K. Notably, while all tested models claim a context window size above 32K tokens, open-weight models typically falter on 2K-token tasks, and closed-source models like GPT-4o show significant degradation on 8K-token tasks. Reasoning models achieve stronger overall performance in long-form generation, benefiting from long CoT training. Further analysis reveals that LCLMs struggle to maintain long-range coherence in long-form generations. These findings highlight critical limitations in current LCLMs and suggest substantial room for improvement. Data and code available at: https://princeton-pli.github.io/LongProc.

arxiv情報

著者 Xi Ye,Fangcong Yin,Yinghui He,Joie Zhang,Howard Yen,Tianyu Gao,Greg Durrett,Danqi Chen
発行日 2025-04-21 13:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation はコメントを受け付けていません

The Synthetic Imputation Approach: Generating Optimal Synthetic Texts For Underrepresented Categories In Supervised Classification Tasks

要約

BertやRobertaなどのエンコーダーデコーダーの大手言語モデル(LLMS)では、注釈タスク内のすべてのカテゴリをトレーニングデータに十分に表現して、最適なパフォーマンスを提供する必要があります。
ただし、高品質のトレーニングセットを構築する際には、タスク内のすべてのカテゴリに十分な例を見つけることは困難なことがよくあります。
この記事では、この問題について説明し、解決策、合成代入アプローチを提案します。
生成LLM(GPT-4O)を活用して、このアプローチは、慎重なプロンプトとサンプルからの置換とランダムに描かれた5つの元の例に基づいて合成テキストを生成します。
このアプローチにより、新しい合成テキストが元のテキストとは十分に異なるため、過剰に適合しますが、サンプル外のパフォーマンスを最大化するために、例の根本的な実質的な意味を保持します。
75のオリジナルの例を使用すると、合成代入のパフォーマンスは元のテキストの完全なサンプルと同等であり、50個の元のサンプルで過剰フィッティングが低く、予測可能で、修正可能です。
合成代入アプローチは、研究における生成LLMの新しい役割を提供し、応用研究者が最良のパフォーマンスのためにデータセットのバランスをとることができます。

要約(オリジナル)

Encoder-decoder Large Language Models (LLMs), such as BERT and RoBERTa, require that all categories in an annotation task be sufficiently represented in the training data for optimal performance. However, it is often difficult to find sufficient examples for all categories in a task when building a high-quality training set. In this article, I describe this problem and propose a solution, the synthetic imputation approach. Leveraging a generative LLM (GPT-4o), this approach generates synthetic texts based on careful prompting and five original examples drawn randomly with replacement from the sample. This approach ensures that new synthetic texts are sufficiently different from the original texts to reduce overfitting, but retain the underlying substantive meaning of the examples to maximize out-of-sample performance. With 75 original examples or more, synthetic imputation’s performance is on par with a full sample of original texts, and overfitting remains low, predictable and correctable with 50 original samples. The synthetic imputation approach provides a novel role for generative LLMs in research and allows applied researchers to balance their datasets for best performance.

arxiv情報

著者 Joan C. Timoneda
発行日 2025-04-21 15:07:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Synthetic Imputation Approach: Generating Optimal Synthetic Texts For Underrepresented Categories In Supervised Classification Tasks はコメントを受け付けていません

On true empty category

要約

Chomsky(1981、1986)によると、空のカテゴリはPro、Pro、Trace、および変数で構成されています。
ただし、一部の空のオブジェクト位置は、現存する空のカテゴリと互換性がないようです。
これを考えると、Li(2007a、2007b、2014)とLi&Wei(2014)は、真の空のカテゴリは、空のカテゴリがカテゴリとケースの特徴を備えた空の位置にすぎないことを保持しています。
最後のリゾートオプションとして、主に動詞のサブカトゴリゼーションを満たすために使用されます。
この仮定は独創的であり、真実であることが証明された場合、それはUGの研究に大きな影響を及ぼします。
この論文では、局所化からの証拠を評価し、真の空のカテゴリを呼び出すことなく説明できることを実証します。

要約(オリジナル)

According to Chomsky (1981, 1986), empty categories consist of PRO, pro, trace, and variable. However, some empty object positions seem to be incompatible with extant empty categories. Given this, Li (2007a, 2007b, 2014) and Li & Wei (2014) raise the true empty category hypothesis, which holds that true empty category is only an empty position with category and Case features. As a last resort option, it is used mainly to meet the subcatgorization of a verb. This assumption is ingenious, and if proved to be true, it will exert a great impact on the study of UG. In this paper, we evaluate their evidence from topicalization and demonstrate that it can be accounted for without invoking true empty category.

arxiv情報

著者 Qilin Tian
発行日 2025-04-21 15:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On true empty category はコメントを受け付けていません

HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States

要約

追加のモダリティを統合すると、言語のみの対応物と比較して、脱獄攻撃などの安全リスクに対する大きな視覚言語モデル(LVLM)の感受性が高まります。
既存の研究は主に事後のアライメント技術に焦点を当てていますが、LVLM内の基礎となる安全メカニズムはほとんど未調査のままです。
この作業では、LVLMSが推論中に内部アクティベーション内で安全関連信号を本質的にエンコードするかどうかを調査します。
私たちの調査結果は、LVLMSが危険なプロンプトを処理するときに異なる活性化パターンを示すことを明らかにしています。これは、広範な微調整を必要とせずに敵対的な入力を検出および軽減するために活用できます。
この洞察に基づいて、安全性を高めるために内部モデルのアクティベーションを活用する新しいチューニングフリーのフレームワークであるHiddendEtectを紹介します。
実験結果は、{hiddendetect}がLVLMSに対する脱獄攻撃を検出する際に最先端の方法を上回ることを示しています。
本質的な安全性パターンを利用することにより、この方法は、マルチモーダルの脅威に対するLVLMの堅牢性を強化するための効率的でスケーラブルなソリューションを提供します。
私たちのコードは、https://github.com/leigest519/hiddendetectで公開されます。

要約(オリジナル)

The integration of additional modalities increases the susceptibility of large vision-language models (LVLMs) to safety risks, such as jailbreak attacks, compared to their language-only counterparts. While existing research primarily focuses on post-hoc alignment techniques, the underlying safety mechanisms within LVLMs remain largely unexplored. In this work , we investigate whether LVLMs inherently encode safety-relevant signals within their internal activations during inference. Our findings reveal that LVLMs exhibit distinct activation patterns when processing unsafe prompts, which can be leveraged to detect and mitigate adversarial inputs without requiring extensive fine-tuning. Building on this insight, we introduce HiddenDetect, a novel tuning-free framework that harnesses internal model activations to enhance safety. Experimental results show that {HiddenDetect} surpasses state-of-the-art methods in detecting jailbreak attacks against LVLMs. By utilizing intrinsic safety-aware patterns, our method provides an efficient and scalable solution for strengthening LVLM robustness against multimodal threats. Our code will be released publicly at https://github.com/leigest519/HiddenDetect.

arxiv情報

著者 Yilei Jiang,Xinyan Gao,Tianshuo Peng,Yingshui Tan,Xiaoyong Zhu,Bo Zheng,Xiangyu Yue
発行日 2025-04-21 16:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States はコメントを受け付けていません