LLM-Cure: LLM-based Competitor User Review Analysis for Feature Enhancement

要約

モバイルアプリ市場の指数関数的な成長は、絶え間ない革新の重要性とユーザーの要求に対する迅速な対応を強調しています。
ユーザーの満足度はモバイルアプリケーション(APP)の成功に最重要であるため、開発者は通常、ユーザーレビューに依存しています。これは、改善のための領域を特定するための評価やコメントを含むユーザーのフィードバックを表します。
ただし、ユーザーレビューの膨大な量は、手動分析で課題をもたらし、自動化されたアプローチを必要とします。
既存の自動化されたアプローチは、ターゲットアプリのレビューのみを分析し、競合他社と同様の機能の比較を無視するか、機能強化の提案を提供できません。
これらのギャップに対処するために、LLMを搭載したアプローチでモバイルアプリ機能の改善のための提案を自動的に生成するアプローチである大規模な言語モデル(LLM)ベースの競合ユーザーレビュー分析)を提案します。
より具体的には、LLM-Cureは、LLMを適用することにより、レビュー内の機能を識別および分類します。
ユーザーレビューで苦情が提供されると、LLM-Cureは苦情に関連する競合するアプリで高評価(4星および5つ星)レビューをキュレートし、ターゲットアプリケーションに合わせた潜在的な改善を提案します。
70の人気Androidアプリの1,056,739のレビューでLLM-Cureを評価します。
私たちの評価は、LLM-CureがF1スコアで最大13%、リコールで最大16%、最大11%の精度でレビューに機能を割り当てる際の最先端のアプローチを大幅に上回ることを示しています。
さらに、LLM-Cureは、ユーザーの苦情を解決するための提案を提供する能力を示しています。
ターゲットモバイルアプリの機能の変更を反映するリリースノートを使用して、提案を検証します。
LLM-Cureは、提供された提案の実装の73%の有望な平均を達成しています。

要約(オリジナル)

The exponential growth of the mobile app market underscores the importance of constant innovation and rapid response to user demands. As user satisfaction is paramount to the success of a mobile application (app), developers typically rely on user reviews, which represent user feedback that includes ratings and comments to identify areas for improvement. However, the sheer volume of user reviews poses challenges in manual analysis, necessitating automated approaches. Existing automated approaches either analyze only the target apps reviews, neglecting the comparison of similar features to competitors or fail to provide suggestions for feature enhancement. To address these gaps, we propose a Large Language Model (LLM)-based Competitive User Review Analysis for Feature Enhancement) (LLM-Cure), an approach powered by LLMs to automatically generate suggestion s for mobile app feature improvements. More specifically, LLM-Cure identifies and categorizes features within reviews by applying LLMs. When provided with a complaint in a user review, LLM-Cure curates highly rated (4 and 5 stars) reviews in competing apps related to the complaint and proposes potential improvements tailored to the target application. We evaluate LLM-Cure on 1,056,739 reviews of 70 popular Android apps. Our evaluation demonstrates that LLM-Cure significantly outperforms the state-of-the-art approaches in assigning features to reviews by up to 13% in F1-score, up to 16% in recall and up to 11% in precision. Additionally, LLM-Cure demonstrates its capability to provide suggestions for resolving user complaints. We verify the suggestions using the release notes that reflect the changes of features in the target mobile app. LLM-Cure achieves a promising average of 73% of the implementation of the provided suggestions.

arxiv情報

著者 Maram Assi,Safwat Hassan,Ying Zou
発行日 2025-06-12 17:40:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.SE | LLM-Cure: LLM-based Competitor User Review Analysis for Feature Enhancement はコメントを受け付けていません

GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models

要約

大規模な言語モデル(LLMS)での学習は、規制のコンプライアンス、著作権保護、プライバシーの懸念により、ますます重要になっています。
ただし、LLMの未学習の重要な課題は意図しない忘却です。特定のデータの削除は、モデルの有用性と貴重な望ましい情報の保持を不注意に損なうことです。
以前の作業は主に建築革新に焦点を当てていますが、データレベルの要因が学習のパフォーマンスを解き放つことに及ぼす影響は依然として存在していません。
その結果、既存の方法は、衝撃的なデータを忘れたときに劣化した保持に苦しむことがよくあります。
これに対処するために、Guard-a Data Attributionを介したガイド付きの維持と保持のためのGuard-A新しいフレームワークを提案します。
その中心で、ガードは、LLMの学習に合わせて調整された軽量プロキシデータ属性メトリックを導入します。
これに基づいて、私たちは、プロキシ属性スコアに逆に比例して、適応的で不均一な不均一な未発表の重みをサンプルに割り当てる新しい未学習目標を設計します。
このような学習力の再割り当てを通じて、ガードは保持における意図しない損失を軽減します。
ガードは、以前の方法に匹敵する忘れたメトリックを維持しながら、保持を大幅に強化する厳格な理論的保証を提供します。
複数のLLMアーキテクチャにわたる豆腐ベンチマークに関する広範な実験は、効果的な学習を確保しながら、有用性の保存を大幅に改善することを示しています。
特に、Guardは、トレーニングデータの10%を忘れた場合、真実の比率で最大194.92%の保持セットでユーティリティの犠牲を減らします。

要約(オリジナル)

Unlearning in large language models (LLMs) is becoming increasingly important due to regulatory compliance, copyright protection, and privacy concerns. However, a key challenge in LLM unlearning is unintended forgetting, where the removal of specific data inadvertently impairs the utility of the model and its retention of valuable, desired information. While prior work has primarily focused on architectural innovations, the influence of data-level factors on unlearning performance remains underexplored. As a result, existing methods often suffer from degraded retention when forgetting high-impact data. To address this, we propose GUARD-a novel framework for Guided Unlearning And Retention via Data attribution. At its core, GUARD introduces a lightweight proxy data attribution metric tailored for LLM unlearning, which quantifies the ‘alignment’ between the forget and retain sets while remaining computationally efficient. Building on this, we design a novel unlearning objective that assigns adaptive, nonuniform unlearning weights to samples, inversely proportional to their proxy attribution scores. Through such a reallocation of unlearning power, GUARD mitigates unintended losses in retention. We provide rigorous theoretical guarantees that GUARD significantly enhances retention while maintaining forgetting metrics comparable to prior methods. Extensive experiments on the TOFU benchmark across multiple LLM architectures demonstrate that GUARD substantially improves utility preservation while ensuring effective unlearning. Notably, GUARD reduces utility sacrifice on the Retain Set by up to 194.92% in terms of Truth Ratio when forgetting 10% of the training data.

arxiv情報

著者 Evelyn Ma,Duo Zhou,Peizhi Niu,Huiting Zhou,Huan Zhang,Olgica Milenkovic,S. Rasoul Etesami
発行日 2025-06-12 17:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models はコメントを受け付けていません

Spurious Rewards: Rethinking Training Signals in RLVR

要約

検証可能な報酬(RLVR)による補強学習は、正解とほとんど、否定的、または否定的な相関を持つ偽の報酬がある場合でも、特定のモデルで強い数学的推論を引き出すことができることを示しています。
たとえば、RLVRは、絶対ポイントでのQWEN2.5-MATH-7BのMATH-500パフォーマンスを21.4%(ランダム報酬)、13.8%(フォーマット報酬)、24.1%(誤ったラベル)、26.0%(1ショットRL)、27.1%(多数票)を改善します。
ただし、Qwenで機能する偽の報酬は、Llama3やOlmo2などの他のモデルファミリと利益をもたらさないことがよくあります。
特に、実際のコード実行なしでコードで考えているコード推論 – は、RLVR後に65%から90%以上の頻繁になる特徴的なQWEN2.5-MATH動作であると考えています。
全体として、有用な報酬シグナルがないことを考えると、RLVRは、事前に取引中に学んだ有用な推論表現を何らかの形で浮上させる必要があると仮定しますが、正確なメカニズムは将来の仕事のトピックのままです。
将来のRLVRの研究は、完全に偽りの報酬信号でさえQwenモデルで大幅なパフォーマンスの向上を獲得することが容易であることを示すため、将来のRLVR研究は単一の事実上の選択ではなく、多様なモデルで検証されるべきであることをお勧めします。

要約(オリジナル)

We show that reinforcement learning with verifiable rewards (RLVR) can elicit strong mathematical reasoning in certain models even with spurious rewards that have little, no, or even negative correlation with the correct answer. For example, RLVR improves MATH-500 performance for Qwen2.5-Math-7B in absolute points by 21.4% (random reward), 13.8% (format reward), 24.1% (incorrect label), 26.0% (1-shot RL), and 27.1% (majority voting) — nearly matching the 29.1% gained with ground truth rewards. However, the spurious rewards that work for Qwen often fail to yield gains with other model families like Llama3 or OLMo2. In particular, we find code reasoning — thinking in code without actual code execution — to be a distinctive Qwen2.5-Math behavior that becomes significantly more frequent after RLVR, from 65% to over 90%, even with spurious rewards. Overall, we hypothesize that, given the lack of useful reward signal, RLVR must somehow be surfacing useful reasoning representations learned during pretraining, although the exact mechanism remains a topic for future work. We suggest that future RLVR research should possibly be validated on diverse models rather than a single de facto choice, as we show that it is easy to get significant performance gains on Qwen models even with completely spurious reward signals.

arxiv情報

著者 Rulin Shao,Shuyue Stella Li,Rui Xin,Scott Geng,Yiping Wang,Sewoong Oh,Simon Shaolei Du,Nathan Lambert,Sewon Min,Ranjay Krishna,Yulia Tsvetkov,Hannaneh Hajishirzi,Pang Wei Koh,Luke Zettlemoyer
発行日 2025-06-12 17:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Spurious Rewards: Rethinking Training Signals in RLVR はコメントを受け付けていません

Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors

要約

現在のLLM安全防御は、拒否を回避する悪意のある目標が良性サブタスクに分解される分解攻撃で失敗します。
課題は、既存の浅い安全性アライメント手法にあります。彼らは、即時のプロンプトでの害を検出するだけであり、長距離の意図について推論しないでください。
したがって、より高い粒度で会話を観察する外部モニターを追加することを提案します。
監視分解攻撃の研究を容易にするために、質問、テキストから画像、エージェントタスクなど、これまでで最大かつ最も多様なデータセットをキュレートします。
Frontier LLMSでそれらをテストしてデータセットを検証し、GPT-4oで平均して87%の攻撃成功率を示します。
これは、分解攻撃が広く効果的であることを確認します。
さらに、ランダムなタスクを分解されたサブタスクに注入して、悪意をさらに難読化できることがわかります。
リアルタイムで防御するために、各サブタスクを累積的に評価する軽量シーケンシャル監視フレームワークを提案します。
慎重に迅速に設計された軽量モニターが93%の防衛成功率を達成し、O3 Miniのようなモニターとしての推論モデルを破ることを示します。
さらに、ランダムなタスクインジェクションに対して堅牢なままであり、コストを90%、レイテンシを50%削減します。
私たちの調査結果は、軽量のシーケンシャルモニターが分解攻撃の緩和に非常に効果的であり、展開において実行可能であることを示唆しています。

要約(オリジナル)

Current LLM safety defenses fail under decomposition attacks, where a malicious goal is decomposed into benign subtasks that circumvent refusals. The challenge lies in the existing shallow safety alignment techniques: they only detect harm in the immediate prompt and do not reason about long-range intent, leaving them blind to malicious intent that emerges over a sequence of seemingly benign instructions. We therefore propose adding an external monitor that observes the conversation at a higher granularity. To facilitate our study of monitoring decomposition attacks, we curate the largest and most diverse dataset to date, including question-answering, text-to-image, and agentic tasks. We verify our datasets by testing them on frontier LLMs and show an 87% attack success rate on average on GPT-4o. This confirms that decomposition attack is broadly effective. Additionally, we find that random tasks can be injected into the decomposed subtasks to further obfuscate malicious intents. To defend in real time, we propose a lightweight sequential monitoring framework that cumulatively evaluates each subtask. We show that a carefully prompt engineered lightweight monitor achieves a 93% defense success rate, beating reasoning models like o3 mini as a monitor. Moreover, it remains robust against random task injection and cuts cost by 90% and latency by 50%. Our findings suggest that lightweight sequential monitors are highly effective in mitigating decomposition attacks and are viable in deployment.

arxiv情報

著者 Chen Yueh-Han,Nitish Joshi,Yulin Chen,Maksym Andriushchenko,Rico Angell,He He
発行日 2025-06-12 17:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors はコメントを受け付けていません

Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training

要約

〜\ textsc {domain2vec}を紹介します。これは、データセットの重要な基礎機能をキャプチャするために設計された新しい概念であるいくつかの\ emph {meta-domains}の線形組み合わせに任意のデータセットを分解する新しいアプローチです。
\ textsc {domain2vec}は、メタドメインの語彙を維持し、分類子を使用して、特定のデータセットをこの語彙の分布に対応するドメインベクトルに分解します。
これらのドメインベクトルは、言語モデル(LM)の最適なデータ混合物の識別を、\ emphed {\ textbf {d} istribution \ textbf {a} lignment \ textbf {a} ssumption}(da $^{2} $ {2} $)を把握したことを示唆する\ textbf {a} ssumption}(da $ sumptionbf {a} ssumption} lignment \ textbf {a} ssumption \ textbf {a} ssumption})の識別を可能にします。
調整されて、より低い検証損失が達成されます。
さらに、\ textSc {domain2vec}は、以前の作品にシームレスに統合されて、ドメインベクターとLMパフォーマンスの関係をモデル化し、以前の方法の効率とスケーラビリティを大幅に向上させることができます。
広範な実験では、\ textsc {domain2vec}が、最小限の計算オーバーヘッドで下流のタスクのパフォーマンスを向上させるデータ混合物を見つけるのに役立つことを示しています。
具体的には、\ textsc {domain2vec}は、Pileデータセットの元の混合物でトレーニングするときに必要な計算の51.5ドル\%$のみを使用して、Pile-CCで同じ検証損失を達成します。
同等の計算予算では、\ textsc {domain2vec}は、平均2.83ドル\%$だけダウンストリームパフォーマンスを向上させます。

要約(オリジナル)

We introduce~\textsc{Domain2Vec}, a novel approach that decomposes any dataset into a linear combination of several \emph{meta-domains}, a new concept designed to capture the key underlying features of datasets. \textsc{Domain2Vec} maintains a vocabulary of meta-domains and uses a classifier to decompose any given dataset into a domain vector that corresponds to a distribution over this vocabulary. These domain vectors enable the identification of the optimal data mixture for language model (LM) pretraining in a training-free manner under the \emph{\textbf{D}istribution \textbf{A}lignment \textbf{A}ssumption} (DA$^{2}$), which suggests that when the data distributions of the training set and the validation set are better aligned, a lower validation loss is achieved. Moreover, \textsc{Domain2vec} can be seamlessly integrated into previous works to model the relationship between domain vectors and LM performance, greatly enhancing the efficiency and scalability of previous methods. Extensive experiments demonstrate that \textsc{Domain2Vec} helps find the data mixture that enhances downstream task performance with minimal computational overhead. Specifically, \textsc{Domain2Vec} achieves the same validation loss on Pile-CC using only $51.5\%$ of the computation required when training on the original mixture of The Pile dataset. Under equivalent compute budget, \textsc{Domain2Vec} improves downstream performance by an average of $2.83\%$.

arxiv情報

著者 Mozhi Zhang,Howe Tissue,Lu Wang,Xipeng Qiu
発行日 2025-06-12 17:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training はコメントを受け付けていません

SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks

要約

GitHubの問題解決タスクのために大規模なデータセットを構築することは、大規模な言語モデル(LLM)のソフトウェアエンジニアリング機能のトレーニングと評価の両方に重要です。
ただし、このようなベンチマークを作成するための従来のプロセスは、特に評価環境のセットアップ、テストの結果の採点、およびタスクインスタンスの検証の段階で、挑戦的で労働集約的であることで有名です。
この論文では、これらの課題に対処するために設計された自動化されたパイプラインであるSWEファクトリーを提案します。
これらの問題に取り組むために、パイプラインは3つのコア自動化されたコンポーネントを統合します。
まず、評価環境構造を自動化するマルチエージェントシステムであるSwe-Builderを紹介します。これは、共同の反復ループで機能し、環境メモリプールを活用して効率を高めるために環境メモリプールを活用します。
第二に、手動でカスタムパーサーを書く必要性を排除する標準化された出口コードベースのグレーディング方法を導入します。
最後に、これらの信頼できる出口コード信号を使用して、Fail2Pass検証プロセスを自動化します。
4つのプログラミング言語にわたる671の問題に関する実験は、パイプラインが有効なタスクインスタンスを効果的に構築できることを示しています。
たとえば、GPT-4.1-MINIでは、SWEビルダーがインスタンスあたり0.045ドルで269の有効なインスタンスを構築しますが、Gemini-2.5-Flashでは、インスタンスあたり0.024ドルの最低コストで同等のパフォーマンスを達成します。
また、出口コードベースのグレーディングは、手動検査と比較して100%の精度を達成し、自動化されたFail2Pass検証が0.92の精度と1.00のリコールに達することを実証します。
自動化されたパイプラインが、トレーニングと評価の両方のために、大規模で高品質のGitHub発行解決データセットのコレクションを加速することを願っています。
コードとデータセットはhttps://github.com/deepsoftwareanalytics/swefactoryでリリースされます。

要約(オリジナル)

Constructing large-scale datasets for the GitHub issue resolution task is crucial for both training and evaluating the software engineering capabilities of Large Language Models (LLMs). However, the traditional process for creating such benchmarks is notoriously challenging and labor-intensive, particularly in the stages of setting up evaluation environments, grading test outcomes, and validating task instances. In this paper, we propose SWE-Factory, an automated pipeline designed to address these challenges. To tackle these issues, our pipeline integrates three core automated components. First, we introduce SWE-Builder, a multi-agent system that automates evaluation environment construction, which employs four specialized agents that work in a collaborative, iterative loop and leverages an environment memory pool to enhance efficiency. Second, we introduce a standardized, exit-code-based grading method that eliminates the need for manually writing custom parsers. Finally, we automate the fail2pass validation process using these reliable exit code signals. Experiments on 671 issues across four programming languages show that our pipeline can effectively construct valid task instances; for example, with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at $0.045 per instance, while with Gemini-2.5-flash, it achieves comparable performance at the lowest cost of $0.024 per instance. We also demonstrate that our exit-code-based grading achieves 100% accuracy compared to manual inspection, and our automated fail2pass validation reaches a precision of 0.92 and a recall of 1.00. We hope our automated pipeline will accelerate the collection of large-scale, high-quality GitHub issue resolution datasets for both training and evaluation. Our code and datasets are released at https://github.com/DeepSoftwareAnalytics/swe-factory.

arxiv情報

著者 Lianghong Guo,Yanlin Wang,Caihua Li,Pengyu Yang,Jiachi Chen,Wei Tao,Yingtian Zou,Duyu Tang,Zibin Zheng
発行日 2025-06-12 17:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks はコメントを受け付けていません

AssistanceZero: Scalably Solving Assistance Games

要約

支援ゲームは、AIアシスタントのトレーニングのための人間のフィードバック(RLHF)からの強化学習の有望な代替手段です。
アシスタンスゲームは、アシスタントとユーザーの間の相互作用を2プレイヤーゲームとして共有する目標を観察できない2人のゲームとして明示的にモデル化することにより、欺ceptiveな行動のインセンティブなど、RLHFの重要な欠点を解決します。
その可能性にもかかわらず、アシスタンスゲームは簡単な設定でのみ調査されています。
不確実性の下で扱いにくい意思決定の問題を解決することと、人間のユーザーの行動を正確にモデル化する必要があるため、より複雑な環境にそれらをスケーリングすることは困難です。
支援ゲームを解決するための最初のスケーラブルなアプローチを提示し、10ドル以上の目標を達成した新しい、挑戦的なMinecraftベースの支援ゲームに適用します。
私たちのアプローチであるAssistanceZeroは、人間の行動と報酬を予測するニューラルネットワークでAlphazeroを拡張し、不確実性の下で計画できるようにします。
AssistanceZeroは、Minecraftベースの支援ゲームでモデルのないRLアルゴリズムと模倣学習を上回ることを示しています。
人間の研究では、私たちの支援訓練を受けたアシスタントは、参加者がMinecraftの構築タスクを完了するために取るアクションの数を大幅に削減します。
私たちの結果は、アシスタンスゲームが複雑な環境で効果的なAIアシスタントをトレーニングするための扱いやすいフレームワークであることを示唆しています。
当社のコードとモデルは、https://github.com/cassidylaidlaw/minecraft-building-assistanceゲームで入手できます。

要約(オリジナル)

Assistance games are a promising alternative to reinforcement learning from human feedback (RLHF) for training AI assistants. Assistance games resolve key drawbacks of RLHF, such as incentives for deceptive behavior, by explicitly modeling the interaction between assistant and user as a two-player game where the assistant cannot observe their shared goal. Despite their potential, assistance games have only been explored in simple settings. Scaling them to more complex environments is difficult because it requires both solving intractable decision-making problems under uncertainty and accurately modeling human users’ behavior. We present the first scalable approach to solving assistance games and apply it to a new, challenging Minecraft-based assistance game with over $10^{400}$ possible goals. Our approach, AssistanceZero, extends AlphaZero with a neural network that predicts human actions and rewards, enabling it to plan under uncertainty. We show that AssistanceZero outperforms model-free RL algorithms and imitation learning in the Minecraft-based assistance game. In a human study, our AssistanceZero-trained assistant significantly reduces the number of actions participants take to complete building tasks in Minecraft. Our results suggest that assistance games are a tractable framework for training effective AI assistants in complex environments. Our code and models are available at https://github.com/cassidylaidlaw/minecraft-building-assistance-game.

arxiv情報

著者 Cassidy Laidlaw,Eli Bronstein,Timothy Guo,Dylan Feng,Lukas Berglund,Justin Svegliato,Stuart Russell,Anca Dragan
発行日 2025-06-12 17:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AssistanceZero: Scalably Solving Assistance Games はコメントを受け付けていません

Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods

要約

コンテキスト学習(ICL)は自然言語と視覚の領域で顕著な成功を収めていますが、その理論的理解 – 特に構造化された幾何学データのコンテキストでは、解放されていません。
この作業では、マニホールド上のh \ ‘より古い関数の回帰のためのICLの理論的研究を開始します。
注意メカニズムと古典的なカーネル法との間に新しいつながりを確立することにより、迅速な長さとトレーニングタスクの数の観点から一般化エラー境界を導き出します。
十分な数のトレーニングタスクが観察されると、変圧器はマニホールド上のh \ ‘古い関数のミニマックス回帰速度を引き起こします。これは、周囲空間の次元ではなく、マニホールドの本質的な次元で指数関数的に拡大します。
また、私たちの結果は、一般化エラーがトレーニングタスクの数とどのようにスケーリングされ、コンテキスト内のアルゴリズム学習者としての変圧器の複雑さに光を当てていることを特徴づけています。
私たちの調査結果は、非線形モデルのICLを研究するためのICLおよび小説ツールにおけるジオメトリの役割に関する基礎的な洞察を提供します。

要約(オリジナル)

While in-context learning (ICL) has achieved remarkable success in natural language and vision domains, its theoretical understanding–particularly in the context of structured geometric data–remains unexplored. In this work, we initiate a theoretical study of ICL for regression of H\’older functions on manifolds. By establishing a novel connection between the attention mechanism and classical kernel methods, we derive generalization error bounds in terms of the prompt length and the number of training tasks. When a sufficient number of training tasks are observed, transformers give rise to the minimax regression rate of H\’older functions on manifolds, which scales exponentially with the intrinsic dimension of the manifold, rather than the ambient space dimension. Our result also characterizes how the generalization error scales with the number of training tasks, shedding light on the complexity of transformers as in-context algorithm learners. Our findings provide foundational insights into the role of geometry in ICL and novels tools to study ICL of nonlinear models.

arxiv情報

著者 Zhaiming Shen,Alexander Hsu,Rongjie Lai,Wenjing Liao
発行日 2025-06-12 17:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.TH | Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods はコメントを受け付けていません

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

要約

大規模な言語モデル(LLM)は、自動化された有害なコンテンツ検出タスクにますます適用されており、モデレーターがポリシー違反を特定し、コンテンツレビューの全体的な効率と精度を改善するのを支援しています。
ただし、有害なコンテンツ検出のための既存のリソースは、主に英語に焦点を当てており、中国のデータセットは不足しており、範囲が限られていることがよくあります。
中国のコンテンツハーム検出のための包括的な、専門的に注釈付きのベンチマークを提示します。これは、6つの代表的なカテゴリをカバーし、完全に実際のデータから構築されています。
私たちの注釈プロセスは、中国の有害なコンテンツ検出におけるLLMSを支援する明示的な専門知識を提供する知識ルールベースをさらに生成します。
さらに、人間が注目した知識ルールと大規模な言語モデルからの暗黙の知識の両方を統合する知識が熟成したベースラインを提案し、小さなモデルが最先端のLLMに匹敵するパフォーマンスを実現できるようにします。
コードとデータは、https://github.com/zjunlp/chineseharm-benchで入手できます。

要約(オリジナル)

Large language models (LLMs) have been increasingly applied to automated harmful content detection tasks, assisting moderators in identifying policy violations and improving the overall efficiency and accuracy of content review. However, existing resources for harmful content detection are predominantly focused on English, with Chinese datasets remaining scarce and often limited in scope. We present a comprehensive, professionally annotated benchmark for Chinese content harm detection, which covers six representative categories and is constructed entirely from real-world data. Our annotation process further yields a knowledge rule base that provides explicit expert knowledge to assist LLMs in Chinese harmful content detection. In addition, we propose a knowledge-augmented baseline that integrates both human-annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs. Code and data are available at https://github.com/zjunlp/ChineseHarm-bench.

arxiv情報

著者 Kangwei Liu,Siyuan Cheng,Bozhong Tian,Xiaozhuan Liang,Yuyang Yin,Meng Han,Ningyu Zhang,Bryan Hooi,Xi Chen,Shumin Deng
発行日 2025-06-12 17:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.IR, cs.LG | ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark はコメントを受け付けていません

SoK: Watermarking for AI-Generated Content

要約

生成AI(genai)技術の出力が品質が向上するにつれて、それらを人間が作成したコンテンツと区別することがますます難しくなります。
透かしスキームは、AIとヒト生成コンテンツを区別する問題に対処するための有望なアプローチです。
これらのスキームは、信頼できる検出を可能にするために、AIに生成されたコンテンツ内に隠された信号を埋め込みました。
透かしは、gena​​iに関連するすべてのリスクに対処するための銀の弾丸ではありませんが、誤った情報と欺ceptionと闘うことにより、AIの安全性と信頼性を高める上で重要な役割を果たすことができます。
このペーパーでは、歴史的および規制上の観点からの透かしの必要性から始まる、gena​​iの透かし技術の包括的な概要を紹介します。
透かしスキームの定義と望ましい特性を正式に形式化し、既存のアプローチの重要な目的と脅威モデルを調べます。
実践的な評価戦略も調査されており、さまざまな攻撃に抵抗できる堅牢な透かし技術の開発に関する洞察を提供します。
さらに、最近の代表的な作品をレビューし、オープンな課題を強調し、この新興分野の潜在的な方向性について議論します。
genaiでの透かしを完全に理解することにより、この研究は、透かしの方法とアプリケーションを進めるための研究者を導き、Genaiのより広い意味に対処するための政策立案者を支援することを目的としています。

要約(オリジナル)

As the outputs of generative AI (GenAI) techniques improve in quality, it becomes increasingly challenging to distinguish them from human-created content. Watermarking schemes are a promising approach to address the problem of distinguishing between AI and human-generated content. These schemes embed hidden signals within AI-generated content to enable reliable detection. While watermarking is not a silver bullet for addressing all risks associated with GenAI, it can play a crucial role in enhancing AI safety and trustworthiness by combating misinformation and deception. This paper presents a comprehensive overview of watermarking techniques for GenAI, beginning with the need for watermarking from historical and regulatory perspectives. We formalize the definitions and desired properties of watermarking schemes and examine the key objectives and threat models for existing approaches. Practical evaluation strategies are also explored, providing insights into the development of robust watermarking techniques capable of resisting various attacks. Additionally, we review recent representative works, highlight open challenges, and discuss potential directions for this emerging field. By offering a thorough understanding of watermarking in GenAI, this work aims to guide researchers in advancing watermarking methods and applications, and support policymakers in addressing the broader implications of GenAI.

arxiv情報

著者 Xuandong Zhao,Sam Gunn,Miranda Christ,Jaiden Fairoze,Andres Fabrega,Nicholas Carlini,Sanjam Garg,Sanghyun Hong,Milad Nasr,Florian Tramer,Somesh Jha,Lei Li,Yu-Xiang Wang,Dawn Song
発行日 2025-06-12 17:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | SoK: Watermarking for AI-Generated Content はコメントを受け付けていません