Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing

要約

大規模な言語モデル(LLM)は、誤用を防ぐために安全フィルターを組み込んでいる一方で、さまざまなドメインでタスクの自動化とコンテンツ生成を変換しました。
特に悪意のあるコードの生成において、これらの安全対策をバイパスするために、反復的な改良と組み合わせた分散迅速な処理を採用する新しい脱獄フレームワークを紹介します。
私たちのアーキテクチャは、迅速なセグメンテーション、並列処理、応答集約、LLMベースのju審の評価の4つの重要なモジュールで構成されています。
10のサイバーセキュリティカテゴリで500の悪意のあるプロンプトでテストされたフレームワークは、悪意のあるコードの生成において73.2%の成功率(SR)を達成します。
特に、我々の比較分析により、従来の単一LLMジャッジ評価は、LLM審査員制(73.2%)と比較してSRS(93.8%)を過大評価していることが明らかになり、単一裁判官の評価が不完全な実装を受け入れることが多いことが確認されています。
さらに、分散アーキテクチャは、アブレーション研究で分散していないアプローチよりもSRSを12%改善し、分布の迅速な処理の有効性と、脱獄の試みを評価する際の堅牢な評価方法論の重要性の両方を強調することを実証します。

要約(オリジナル)

Large Language Models (LLMs) have transformed task automation and content generation across various domains while incorporating safety filters to prevent misuse. We introduce a novel jailbreaking framework that employs distributed prompt processing combined with iterative refinements to bypass these safety measures, particularly in generating malicious code. Our architecture consists of four key modules: prompt segmentation, parallel processing, response aggregation, and LLM-based jury evaluation. Tested on 500 malicious prompts across 10 cybersecurity categories, the framework achieves a 73.2% Success Rate (SR) in generating malicious code. Notably, our comparative analysis reveals that traditional single-LLM judge evaluation overestimates SRs (93.8%) compared to our LLM jury system (73.2%), with manual verification confirming that single-judge assessments often accept incomplete implementations. Moreover, we demonstrate that our distributed architecture improves SRs by 12% over the non-distributed approach in an ablation study, highlighting both the effectiveness of distributed prompt processing and the importance of robust evaluation methodologies in assessing jailbreak attempts.

arxiv情報

著者 Johan Wahréus,Ahmed Hussain,Panos Papadimitratos
発行日 2025-03-27 15:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing はコメントを受け付けていません

GenEdit: Compounding Operators and Continuous Improvement to Tackle Text-to-SQL in the Enterprise

要約

大規模な言語モデルによって推進されるテキストからSQLの最近の進歩は、データアクセスを民主化しています。
これらの進歩にもかかわらず、企業固有の知識を把握し、複雑なクエリを処理し、継続的な改善の期待を満たす必要があるため、エンタープライズの展開は依然として困難です。
これらの問題に対処するために、Genedit:ユーザーフィードバックで改善するテキストからSQLの生成システムを設計および実装しました。
Geneditは、企業固有の知識セットを構築および維持し、SQL生成を分解するオペレーターのパイプラインを採用し、フィードバックを使用して知識セットを更新して将来のSQL世代を改善します。
2つのコアモジュールで作成されたGeneditのアーキテクチャについて説明します。(i)分解されたSQL生成。
(ii)ユーザーフィードバックに基づいて知識セットの編集。
ジェネレーションのために、Geneditは、知識の検索を改善し、世代を導く考え方のステップとして計画を作成するために、オペレーターを複利を活用します。
Geneditは、元のSQLクエリがサブステートメント、条項、またはサブQuerieに分解される初期検索段階で、関連する例を最初に取得します。
また、指示とスキーマ要素も取得します。
取得したコンテキスト情報を使用して、Geneditはクエリの作成方法について自然言語で段階的な計画を生成します。
最後に、Geneditは計画を使用してSQLを生成し、モデル推論の必要性を最小限に抑え、複雑なSQL生成を強化します。
必要に応じて、Geneditは構文エラーとセマンティックエラーに基づいてクエリを再生します。
ナレッジセットの編集は、インタラクティブな副操縦士を介して推奨され、ユーザーがフィードバックを反復し、必要に応じてSQLクエリを再生できます。
各世代は、生成プロンプトを更新する段階的な編集を使用します。
フィードバックが送信されると、回帰テストに合格して承認を取得した後にマージされ、将来の世代が改善されます。

要約(オリジナル)

Recent advancements in Text-to-SQL, driven by large language models, are democratizing data access. Despite these advancements, enterprise deployments remain challenging due to the need to capture business-specific knowledge, handle complex queries, and meet expectations of continuous improvements. To address these issues, we designed and implemented GenEdit: our Text-to-SQL generation system that improves with user feedback. GenEdit builds and maintains a company-specific knowledge set, employs a pipeline of operators decomposing SQL generation, and uses feedback to update its knowledge set to improve future SQL generations. We describe GenEdit’s architecture made of two core modules: (i) decomposed SQL generation; and (ii) knowledge set edits based on user feedback. For generation, GenEdit leverages compounding operators to improve knowledge retrieval and to create a plan as chain-of-thought steps that guides generation. GenEdit first retrieves relevant examples in an initial retrieval stage where original SQL queries are decomposed into sub-statements, clauses or sub-queries. It then also retrieves instructions and schema elements. Using the retrieved contextual information, GenEdit then generates step-by-step plan in natural language on how to produce the query. Finally, GenEdit uses the plan to generate SQL, minimizing the need for model reasoning, which enhances complex SQL generation. If necessary, GenEdit regenerates the query based on syntactic and semantic errors. The knowledge set edits are recommended through an interactive copilot, allowing users to iterate on their feedback and to regenerate SQL queries as needed. Each generation uses staged edits which update the generation prompt. Once the feedback is submitted, it gets merged after passing regression testing and obtaining an approval, improving future generations.

arxiv情報

著者 Karime Maamari,Connor Landy,Amine Mhedhbi
発行日 2025-03-27 15:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | GenEdit: Compounding Operators and Continuous Improvement to Tackle Text-to-SQL in the Enterprise はコメントを受け付けていません

A Measure Based Generalizable Approach to Understandability

要約

エージェントと人間のパートナーシップを成功させるには、すべてのエージェントが生成した情報が人間にとって理解可能であり、人間がエージェントを目標に向けて簡単に誘導できることを要求しています。
このような効果的なコミュニケーションには、エージェントが人間にとって理解できるもののより細かいレベルの概念を開発する必要があります。
LLMを含む最先端のエージェントには、トレーニングデータから平均人間の感性を捉えているため、操縦性が限られているため(例えば、些細な迅速なエンジニアリングを必要とする)、理解可能性のこの詳細な概念が欠けています。
この論文では、データのみに依存するのではなく、これらのエージェントの指示として使用できる理解可能性の一般化可能なドメインに依存しない測定を開発することを主張します。
理解可能性の測定に関する既存の研究は断片化されており、ドメイン全体でさまざまな努力を調査し、将来のよりコヒーレントおよびドメインに依存しない研究調査のために認知科学的に根ざした基礎を築きます。

要約(オリジナル)

Successful agent-human partnerships require that any agent generated information is understandable to the human, and that the human can easily steer the agent towards a goal. Such effective communication requires the agent to develop a finer-level notion of what is understandable to the human. State-of-the-art agents, including LLMs, lack this detailed notion of understandability because they only capture average human sensibilities from the training data, and therefore afford limited steerability (e.g., requiring non-trivial prompt engineering). In this paper, instead of only relying on data, we argue for developing generalizable, domain-agnostic measures of understandability that can be used as directives for these agents. Existing research on understandability measures is fragmented, we survey various such efforts across domains, and lay a cognitive-science-rooted groundwork for more coherent and domain-agnostic research investigations in future.

arxiv情報

著者 Vikas Kushwaha,Sruti Srinivasa Ragavan,Subhajit Roy
発行日 2025-03-27 15:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SE | A Measure Based Generalizable Approach to Understandability はコメントを受け付けていません

Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures

要約

外科的コンピュータービジョンアプリケーションの最近の進歩は、視覚のみのモデルによって推進されており、言語の豊富なセマンティクスを設計に明示的に統合していません。
これらの方法は、手動で注釈された外科ビデオに依存して、オブジェクトカテゴリの固定セットを予測し、目に見えない外科的処置と下流のタスクにそれらの一般化を制限します。
この作業では、手動注釈に頼らずにマルチモーダル表現学習のための効果的なビジョンと言語監督のシグナルを提供できるオープン外科用eラーニングプラットフォームを通じて利用可能な外科ビデオ講義が提供できるという考えを提案しました。
複数の補完的な自動音声認識システムを採用してテキストの転写を生成することにより、手術ビデオ講義に存在する手術固有の言語的課題に対処します。
次に、マルチモーダル表現学習のための新しい方法であるSurgVLP-外科的視力言語の事前トレーニングを提示します。
多様な外科的処置とタスクにわたる広範な実験は、surgVLPによって学んだマルチモーダル表現が、外科的ビデオ分析において強力な移動性と適応性を示すことを示しています。
さらに、私たちのゼロショット評価は、外科的ワークフロー分析のための汎用基礎モデルとしてのSurgVLPの可能性を強調し、ダウンストリームタスクの広範な手動注釈への依存を減らし、さまざまな下流の外科的応用のためのスケーラブルでデータ効率の高いソリューションを構築するための少数のショット学習などの適応方法を促進します。
[トレーニングコード](https://github.com/camma-public/surgvlp)および[weights](https://github.com/camma-public/peskavlp)は公開されています。

要約(オリジナル)

Recent advancements in surgical computer vision applications have been driven by vision-only models, which do not explicitly integrate the rich semantics of language into their design. These methods rely on manually annotated surgical videos to predict a fixed set of object categories, limiting their generalizability to unseen surgical procedures and downstream tasks. In this work, we put forward the idea that the surgical video lectures available through open surgical e-learning platforms can provide effective vision and language supervisory signals for multi-modal representation learning without relying on manual annotations. We address the surgery-specific linguistic challenges present in surgical video lectures by employing multiple complementary automatic speech recognition systems to generate text transcriptions. We then present a novel method, SurgVLP – Surgical Vision Language Pre-training, for multi-modal representation learning. Extensive experiments across diverse surgical procedures and tasks demonstrate that the multi-modal representations learned by SurgVLP exhibit strong transferability and adaptability in surgical video analysis. Furthermore, our zero-shot evaluations highlight SurgVLP’s potential as a general-purpose foundation model for surgical workflow analysis, reducing the reliance on extensive manual annotations for downstream tasks, and facilitating adaptation methods such as few-shot learning to build a scalable and data-efficient solution for various downstream surgical applications. The [training code](https://github.com/CAMMA-public/SurgVLP) and [weights](https://github.com/CAMMA-public/PeskaVLP) are public.

arxiv情報

著者 Kun Yuan,Vinkle Srivastav,Tong Yu,Joel L. Lavanchy,Jacques Marescaux,Pietro Mascagni,Nassir Navab,Nicolas Padoy
発行日 2025-03-27 15:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures はコメントを受け付けていません

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

要約

最近のDeepSeek-R1は、ルールベースの報酬を備えた強化学習(RL)を通じてLLMSの推論能力の出現を紹介しています。
このアイデアに基づいて、ルールベースのRLがグラフィックユーザーインターフェイス(GUI)アクション予測タスクのマルチモーダル大手言語モデル(MLLMS)の推論機能をどのように強化できるかを調査しました。
この目的のために、モバイルデバイスで5つの共通アクションタイプを含む、136の挑戦的なタスクの小規模で高品質のデータセットをキュレートします。
また、統一されたルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)などのポリシーベースのアルゴリズムを介してモデルの最適化を可能にします。
実験結果は、提案されているデータ効率の良いモデルであるUI-R1-3Bが、ドメイン内(ID)とドメイン外(OOD)タスクの両方で大幅な改善を達成することを示しています。
具体的には、IDベンチマークAndroidControlでは、アクションタイプの精度は15%向上し、基本モデル(つまりQWEN2.5-VL-3B)と比較して、接地精度は10.3%増加します。
OOD GUIグラウンドベンチマークスクリーンズポット-Proでは、モデルはベースモデルを6.0%上回り、76Kデータで監視された微調整(SFT)を介してトレーニングされる、より大きなモデル(例:OS-ATLAS-7B)で競争力のあるパフォーマンスを達成します。
これらの結果は、GUIの理解と制御を進めるためのルールベースの強化学習の可能性を強調し、このドメインでの将来の研究への道を開いています。

要約(オリジナル)

The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.

arxiv情報

著者 Zhengxi Lu,Yuxiang Chai,Yaxuan Guo,Xi Yin,Liang Liu,Hao Wang,Guanjing Xiong,Hongsheng Li
発行日 2025-03-27 15:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning はコメントを受け付けていません

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers

要約

拡散変圧器(DITS)は、最先端の(SOTA)画像生成の品質を達成しましたが、高遅延とメモリの非効率性に悩まされているため、リソース制約のデバイスに展開することは困難です。
1つの主要な効率ボトルネックは、既存のDITが画像のすべての領域に等しい計算を適用することです。
ただし、すべての画像トークンが等しく重要であるわけではなく、特定のローカライズされた領域にはオブジェクトなどのより多くの計算が必要です。
これに対処するために、微分可能な圧縮比を持つ動的なDIT推論フレームワークであるDIFFCRを提案します。これは、各画像トークンのレイヤーとタイムステップ間の計算を動的にルーティングすることを自動的に学習し、効率的なDITになります。
具体的には、DIFFCRは3つの機能を統合します。(1)各DITレイヤーには、モデル重量と共同で微調整されてトークンの重要性スコアを予測するトークンレベルのルーティングスキームが含まれています。
このようにして、重要でないトークンはレイヤー全体の計算をバイパスします。
(2)異なるDITレイヤーがゼロ初期化から変化する圧縮比を自動的に学習する層ごとの微分比メカニズムで、冗長層で大きな圧縮比が大きくなり、他のものは圧縮されないか、非圧縮さえありません。
(3)各除去タイムステップが独自の圧縮比を学習するタイムステップごとの微分比機構。
結果として得られるパターンは、画像がより明確になるにつれて、ノイズの多いタイムステップの比率が高いことを示し、比率は低くなります。
テキストから画像への広範な実験と取り付けタスクは、DIFFCRがトークン、レイヤー、およびタイムステップ軸全体でダイナミズムを効果的にキャプチャし、以前の作品と比較して生成品質と効率性の間の優れたトレードオフを達成することを示しています。
プロジェクトWebサイトは、https://www.haoranyou.com/diffcrで入手できます。

要約(オリジナル)

Diffusion Transformers (DiTs) have achieved state-of-the-art (SOTA) image generation quality but suffer from high latency and memory inefficiency, making them difficult to deploy on resource-constrained devices. One major efficiency bottleneck is that existing DiTs apply equal computation across all regions of an image. However, not all image tokens are equally important, and certain localized areas require more computation, such as objects. To address this, we propose DiffCR, a dynamic DiT inference framework with differentiable compression ratios, which automatically learns to dynamically route computation across layers and timesteps for each image token, resulting in efficient DiTs. Specifically, DiffCR integrates three features: (1) A token-level routing scheme where each DiT layer includes a router that is fine-tuned jointly with model weights to predict token importance scores. In this way, unimportant tokens bypass the entire layer’s computation; (2) A layer-wise differentiable ratio mechanism where different DiT layers automatically learn varying compression ratios from a zero initialization, resulting in large compression ratios in redundant layers while others remain less compressed or even uncompressed; (3) A timestep-wise differentiable ratio mechanism where each denoising timestep learns its own compression ratio. The resulting pattern shows higher ratios for noisier timesteps and lower ratios as the image becomes clearer. Extensive experiments on text-to-image and inpainting tasks show that DiffCR effectively captures dynamism across token, layer, and timestep axes, achieving superior trade-offs between generation quality and efficiency compared to prior works. The project website is available at https://www.haoranyou.com/diffcr.

arxiv情報

著者 Haoran You,Connelly Barnes,Yuqian Zhou,Yan Kang,Zhenbang Du,Wei Zhou,Lingzhi Zhang,Yotam Nitzan,Xiaoyang Liu,Zhe Lin,Eli Shechtman,Sohrab Amirghodsi,Yingyan Celine Lin
発行日 2025-03-27 15:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers はコメントを受け付けていません

When Astronomy Meets AI: Manazel For Crescent Visibility Prediction in Morocco

要約

各ヒジュリ月の初めの正確な決定は、宗教的、文化的、および行政目的に不可欠です。
Manazel(コードとデータセットはhttps://github.com/lairgiyassir/manazelで入手できます)は、13年間の三日月形の可視性データを活用して、月輪の視認性予測に広く使用されている標準であるOdeh Criterionを改善することにより、モロッコでこの課題に対処します。
この研究では、2つの重要な特徴、視力弧(ARCV)と三日月の総幅(W)を統合して、月の視認性評価の精度を高めます。
ロジスティック回帰アルゴリズムを利用する機械学習アプローチが採用され、三日月の可視性条件を分類し、98.83%の予測精度を達成します。
このデータ駆動型の方法論は、Hijri月の開始を決定し、さまざまなデータ分類ツールを比較し、モロッコでの月カレンダー計算の一貫性を改善するための堅牢で信頼できるフレームワークを提供します。
調査結果は、天文学的な用途における機械学習の有効性を示し、三日月の視界のモデリングのさらなる強化の可能性を強調しています。

要約(オリジナル)

The accurate determination of the beginning of each Hijri month is essential for religious, cultural, and administrative purposes. Manazel (The code and datasets are available at https://github.com/lairgiyassir/manazel) addresses this challenge in Morocco by leveraging 13 years of crescent visibility data to refine the ODEH criterion, a widely used standard for lunar crescent visibility prediction. The study integrates two key features, the Arc of Vision (ARCV) and the total width of the crescent (W), to enhance the accuracy of lunar visibility assessments. A machine learning approach utilizing the Logistic Regression algorithm is employed to classify crescent visibility conditions, achieving a predictive accuracy of 98.83%. This data-driven methodology offers a robust and reliable framework for determining the start of the Hijri month, comparing different data classification tools, and improving the consistency of lunar calendar calculations in Morocco. The findings demonstrate the effectiveness of machine learning in astronomical applications and highlight the potential for further enhancements in the modeling of crescent visibility.

arxiv情報

著者 Yassir Lairgi
発行日 2025-03-27 15:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | When Astronomy Meets AI: Manazel For Crescent Visibility Prediction in Morocco はコメントを受け付けていません

Towards Fully Automated Decision-Making Systems for Greenhouse Control: Challenges and Opportunities

要約

機械学習は、複雑なシステムをさまざまなアプリケーション(ゲーム、ロボットなど)で望ましい状態に促進するための制御ポリシーを構築することに成功しています。
具体的には、多くのポリシーのパラメーターを環境の観察から自動的に最適化して、最高のパフォーマンスにつながる一連の決定を生成できるようにすることができます。
この調査論文では、特に、別のユニークで実用的なユースケースシナリオ(ファーミング)のためのこのような政策学習手法を探求します。このように、リスクを最小限に抑えながら、収益を最小限に抑えながら(例:植物、健康な作物など)、タイムリーに行わなければなりません。
最初に、ドメイン固有の課題だけでなく、潜在的なソリューションを備えた機会を特定するために、それに関する最新の研究の幅広い概要を提供します。その一部は、将来の研究の有望な方向として示唆されています。
また、「第3回自律温室チャレンジ」で46チームの中で2番目にランクされるという成功したアプローチを紹介し、この特定の例を使用して、自律的な農場管理システムを作成するために設計の重要な考慮事項について学んだ教訓を議論します。

要約(オリジナル)

Machine learning has been successful in building control policies to drive a complex system to desired states in various applications (e.g. games, robotics, etc.). To be specific, a number of parameters of policy can be automatically optimized from the observations of environment to be able to generate a sequence of decisions leading to the best performance. In this survey paper, we particularly explore such policy-learning techniques for another unique, practical use-case scenario–farming, in which critical decisions (e.g., water supply, heating, etc.) must be made in a timely manner to minimize risks (e.g., damage to plants) while maximizing the revenue (e.g., healthy crops) in the end. We first provide a broad overview of latest studies on it to identify not only domain-specific challenges but opportunities with potential solutions, some of which are suggested as promising directions for future research. Also, we then introduce our successful approach to being ranked second among 46 teams at the ”3rd Autonomous Greenhouse Challenge” to use this specific example to discuss the lessons learned about important considerations for design to create autonomous farm-management systems.

arxiv情報

著者 Yongshuai Liu,Taeyeong Choi,Xin Liu
発行日 2025-03-27 16:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards Fully Automated Decision-Making Systems for Greenhouse Control: Challenges and Opportunities はコメントを受け付けていません

Enhancing LLM Character-Level Manipulation via Divide and Conquer

要約

大規模な言語モデル(LLMS)は、幅広い自然言語処理(NLP)タスクにわたって強力な一般化能力を実証しています。
ただし、キャラクターレベルの文字列操作に顕著な弱点を示し、文字の削除、挿入、代替などの基本的な操作に苦労しています。
これらの課題は、データの前処理とコード生成におけるそのような操作の重要な役割にもかかわらず、主にトークン化の制約に起因します。
体系的な分析を通じて、2つの重要な洞察を導き出します。(1)LLMSは、キャラクターレベルの推論のために固有のトークン知識を活用することに重大な困難に直面し、(2)霧化された単語構造は、トークンレベルの構造情報を処理するLLMSの能力を大幅に高めることができます。
これらの洞察に基づいて、トークンレベルの処理とキャラクターレベルの操作のギャップを埋めるために設計された斬新なアプローチであるDivid and Conquerを介して、キャラクターレベルの操作を提案します。
私たちの方法は、複雑な操作を制御されたトークン再構成フェーズと組み合わせた明示的な文字レベルのサブタスクに分解し、精度の大幅な改善をもたらします。
追加のトレーニングがなければ、この方法は、$ \ texttt {deletion} $、$ \ texttt {insertion} $、および$ \ texttt {autrition} $タスクの精度を大幅に改善します。
さらなる調査をサポートするために、実装とベンチマークをオープンソースします。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong generalization capabilities across a wide range of natural language processing (NLP) tasks. However, they exhibit notable weaknesses in character-level string manipulation, struggling with fundamental operations such as character deletion, insertion, and substitution. These challenges stem primarily from tokenization constraints, despite the critical role of such operations in data preprocessing and code generation. Through systematic analysis, we derive two key insights: (1) LLMs face significant difficulties in leveraging intrinsic token knowledge for character-level reasoning, and (2) atomized word structures can substantially enhance LLMs’ ability to process token-level structural information. Building on these insights, we propose Character-Level Manipulation via Divide and Conquer, a novel approach designed to bridge the gap between token-level processing and character-level manipulation. Our method decomposes complex operations into explicit character-level subtasks coupled with controlled token reconstruction phases, leading to significant improvements in accuracy. Without additional training, our method significantly improves accuracies on the $\texttt{Deletion}$, $\texttt{Insertion}$, and $\texttt{Substitution}$ tasks. To support further research, we open-source our implementation and benchmarks.

arxiv情報

著者 Zhen Xiong,Yujun Cai,Bryan Hooi,Nanyun Peng,Zhecheng Li,Yiwei Wang
発行日 2025-03-27 16:07:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Enhancing LLM Character-Level Manipulation via Divide and Conquer はコメントを受け付けていません

Unlocking the Potential of Past Research: Using Generative AI to Reconstruct Healthcare Simulation Models

要約

離散イベントシミュレーション(DES)は、ヘルスケア運用研究で広く使用されていますが、モデル自体が共有されることはめったにありません。
これにより、モデリングコミュニティとヘルスケアコミュニティにおける再利用と長期的な影響の可能性が制限されます。
この研究では、生成人工知能(AI)を使用して、アカデミックジャーナルで提供されている説明に基づいて、無料およびオープンソースソフトウェア(FOSS)を使用して公開されたモデルを再作成する可能性を調査します。
構造化された方法論を使用して、ユーザーインターフェイスを含む2つのDESモデルを生成、テスト、および内部で再現しました。
報告された結果は、分布に関する情報が欠落しているため、おそらく1つのモデルでは再現されていません。
これらのモデルは、これまでに公開されたAI生成されたDESモデルよりも大幅に複雑です。
迅速なエンジニアリング、コード生成、モデルテストで直面した課題を考えると、モデル開発、体系的な比較、テストへの反復アプローチ、およびチームの専門知識が再現されたシミュレーションモデルの成功に必要であると結論付けます。

要約(オリジナル)

Discrete-event simulation (DES) is widely used in healthcare Operations Research, but the models themselves are rarely shared. This limits their potential for reuse and long-term impact in the modelling and healthcare communities. This study explores the feasibility of using generative artificial intelligence (AI) to recreate published models using Free and Open Source Software (FOSS), based on the descriptions provided in an academic journal. Using a structured methodology, we successfully generated, tested and internally reproduced two DES models, including user interfaces. The reported results were replicated for one model, but not the other, likely due to missing information on distributions. These models are substantially more complex than AI-generated DES models published to date. Given the challenges we faced in prompt engineering, code generation, and model testing, we conclude that our iterative approach to model development, systematic comparison and testing, and the expertise of our team were necessary to the success of our recreated simulation models.

arxiv情報

著者 Thomas Monks,Alison Harper,Amy Heather
発行日 2025-03-27 16:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.AP | Unlocking the Potential of Past Research: Using Generative AI to Reconstruct Healthcare Simulation Models はコメントを受け付けていません