Modern Hopfield Networks with Continuous-Time Memories

要約

最近の研究により、近代的なホップフィールドネットワーク(HNS)とトランスの注意ヘッドとの関係が確立され、指数ストレージ容量が保証されています。
ただし、これらのモデルは依然としてストレージのスケーリングを効率的にスケーリングする課題に直面しています。
ワーキングメモリにおける継続的な神経資源の割り当ての心理的理論に触発されて、私たちは、大きな個別のホップフィールドの記憶を小さく連続した時間の記憶に圧縮するアプローチを提案します。
連続的な注意を引く新しいエネルギー関数は、HNSの更新ルールを変更し、従来のソフトマックスベースの確率質量関数を連続メモリ上の確率密度に置き換えます。
この定式化は、人間の実行機能に関する最新の視点と一致し、作業メモリのアトラクタダイナミクスとリソース効率の高いメモリ割り当ての間の原則的なリンクを提供します。
私たちのフレームワークは、圧縮されたメモリを活用しながら、HNSでの競争力のあるパフォーマンスを維持し、合成およびビデオデータセット全体の計算コストを削減します。

要約(オリジナル)

Recent research has established a connection between modern Hopfield networks (HNs) and transformer attention heads, with guarantees of exponential storage capacity. However, these models still face challenges scaling storage efficiently. Inspired by psychological theories of continuous neural resource allocation in working memory, we propose an approach that compresses large discrete Hopfield memories into smaller, continuous-time memories. Leveraging continuous attention, our new energy function modifies the update rule of HNs, replacing the traditional softmax-based probability mass function with a probability density, over the continuous memory. This formulation aligns with modern perspectives on human executive function, offering a principled link between attractor dynamics in working memory and resource-efficient memory allocation. Our framework maintains competitive performance with HNs while leveraging a compressed memory, reducing computational costs across synthetic and video datasets.

arxiv情報

著者 Saul Santos,António Farinhas,Daniel C. McNamee,André F. T. Martins
発行日 2025-03-24 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Modern Hopfield Networks with Continuous-Time Memories はコメントを受け付けていません

ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain

要約

公開されている情報には、サイバー脅威インテリジェンス(CTI)の貴重な情報が含まれています。
これは、他のシステムですでに行われている攻撃を防ぐために使用できます。
理想的には、最初の攻撃のみが成功し、その後のすべての攻撃が検出され停止します。
しかし、この情報を交換するにはさまざまな基準がありますが、その多くは標準化されていない方法で記事やブログ投稿で共有されています。
複数のオンラインポータルやニュースページを手動でスキャンして新しい脅威を発見し、それらを抽出することは時間のかかる作業です。
このスキャンプロセスの一部を自動化するために、複数の論文では、自然言語処理(NLP)を使用してドキュメントから妥協(IOC)の指標を抽出する抽出器を提案します。
ただし、これはすでにドキュメントから情報を抽出する問題を解決していますが、これらのドキュメントの検索はめったに考慮されません。
このホワイトペーパーでは、ThreatCrawlと呼ばれる新しい焦点のクローラーが提案されています。これは、変圧器(BERT)ベースのモデルからの双方向エンコーダー表現を使用してドキュメントを分類し、そのクロールパスを動的に適応させます。
ThreatCrawlには、IOCコンテンツなどのテキストに名前が付けられた特定のタイプのオープンソースインテリジェンス(OSINT)を分類するのが困難ですが、関連するドキュメントを正常に見つけて、そのパスを適合させることができます。
それは最大52%の収穫率をもたらします。これは、私たちの知る限り、現在の芸術よりも優れています。
結果とソースコードは、受け入れられると公開されます。

要約(オリジナル)

Publicly available information contains valuable information for Cyber Threat Intelligence (CTI). This can be used to prevent attacks that have already taken place on other systems. Ideally, only the initial attack succeeds and all subsequent ones are detected and stopped. But while there are different standards to exchange this information, a lot of it is shared in articles or blog posts in non-standardized ways. Manually scanning through multiple online portals and news pages to discover new threats and extracting them is a time-consuming task. To automize parts of this scanning process, multiple papers propose extractors that use Natural Language Processing (NLP) to extract Indicators of Compromise (IOCs) from documents. However, while this already solves the problem of extracting the information out of documents, the search for these documents is rarely considered. In this paper, a new focused crawler is proposed called ThreatCrawl, which uses Bidirectional Encoder Representations from Transformers (BERT)-based models to classify documents and adapt its crawling path dynamically. While ThreatCrawl has difficulties to classify the specific type of Open Source Intelligence (OSINT) named in texts, e.g., IOC content, it can successfully find relevant documents and modify its path accord ingly. It yields harvest rates of up to 52%, which are, to the best of our knowledge, better than the current state of the art. The results and source code will be made publicly available upon acceptance.

arxiv情報

著者 Philipp Kuehn,Mike Schmidt,Markus Bayer,Christian Reuter
発行日 2025-03-24 09:14:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain はコメントを受け付けていません

Words as Bridges: Exploring Computational Support for Cross-Disciplinary Translation Work

要約

学者はしばしば、故郷の研究コミュニティ以外の文学を探求します。
この探索プロセスは、畑固有の専門用語によって頻繁に妨げられます。
過去の計算作業は、多くの場合、単純化と要約を通じて専門用語を削除することにより、翻訳作業のサポートに焦点を当てています。
ここでは、専門用語を新しい概念スペースに役立つ橋として保存する別のアプローチを探ります。
具体的には、さまざまな学術ドメインをさまざまな言語使用コミュニティとしてキャストし、単語編集スペースの間の概念的なアラインメントを探求するために、監視されていない単語編集のクロスリンガルアラインメントからテクニックを適応させる方法を探ります。
翻訳作業に対するこのアプローチの約束と落とし穴に関する定性的洞察について説明し、ドメインクロスの情報探索の計算サポートを提供する将来のインターフェースの設計洞察を提案します。

要約(オリジナル)

Scholars often explore literature outside of their home community of study. This exploration process is frequently hampered by field-specific jargon. Past computational work often focuses on supporting translation work by removing jargon through simplification and summarization; here, we explore a different approach that preserves jargon as useful bridges to new conceptual spaces. Specifically, we cast different scholarly domains as different language-using communities, and explore how to adapt techniques from unsupervised cross-lingual alignment of word embeddings to explore conceptual alignments between domain-specific word embedding spaces.We developed a prototype cross-domain search engine that uses aligned domain-specific embeddings to support conceptual exploration, and tested this prototype in two case studies. We discuss qualitative insights into the promises and pitfalls of this approach to translation work, and suggest design insights for future interfaces that provide computational support for cross-domain information seeking.

arxiv情報

著者 Calvin Bao,Yow-Ting Shiue,Marine Carpuat,Joel Chan
発行日 2025-03-24 09:19:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Words as Bridges: Exploring Computational Support for Cross-Disciplinary Translation Work はコメントを受け付けていません

Global-Local Tree Search for Language Guided 3D Scene Generation

要約

GPT-4などの大きなビジョン言語モデル(VLM)は、さまざまな分野で顕著な成功を収めています。
ただし、VLMSを使用した3D屋内シーン生成に関する研究はほとんどありません。
この論文は、このタスクを空間的およびレイアウト常識の制約の対象とする計画問題と見なしています。
VLMで問題を解決するために、新しいグローバルローカルツリー検索アルゴリズムを提案します。
グローバルに、このメソッドは各オブジェクトを順番に配置し、各配置プロセス中に複数の配置を調査します。ここでは、問題スペースがツリーとして表されます。
ツリーの深さを減らすために、シーン構造を階層的に分解します。つまり、部屋レベル、領域レベル、床オブジェクトレベル、サポートされているオブジェクトレベルを分解します。
このアルゴリズムは、異なる領域のフロアオブジェクトを個別に生成し、異なる床オブジェクトに配置されたサポートされているオブジェクトを生成します。
地元では、各オブジェクトの配置であるサブタスクを複数のステップに分解します。
アルゴリズムは、問題のあるツリーを検索します。
VLMモデルを活用してオブジェクトの位置を生成するために、トップダウンビュースペースを密なグリッドとして離散化し、各セルを多様な絵文字で満たして細胞に違います。
絵文字グリッドでVLMを促し、VLMは絵文字の名前で位置を記述することにより、オブジェクトの合理的な場所を生成します。
定量的および定性的な実験結果は、私たちのアプローチが最先端のアプローチよりももっともらしい3Dシーンを生成することを示しています。
ソースコードは、https://github.com/dw-dengwei/treesearchgenで入手できます。

要約(オリジナル)

Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable success across various fields. However, there are few studies on 3D indoor scene generation with VLMs. This paper considers this task as a planning problem subject to spatial and layout common sense constraints. To solve the problem with a VLM, we propose a new global-local tree search algorithm. Globally, the method places each object sequentially and explores multiple placements during each placement process, where the problem space is represented as a tree. To reduce the depth of the tree, we decompose the scene structure hierarchically, i.e. room level, region level, floor object level, and supported object level. The algorithm independently generates the floor objects in different regions and supported objects placed on different floor objects. Locally, we also decompose the sub-task, the placement of each object, into multiple steps. The algorithm searches the tree of problem space. To leverage the VLM model to produce positions of objects, we discretize the top-down view space as a dense grid and fill each cell with diverse emojis to make to cells distinct. We prompt the VLM with the emoji grid and the VLM produces a reasonable location for the object by describing the position with the name of emojis. The quantitative and qualitative experimental results illustrate our approach generates more plausible 3D scenes than state-of-the-art approaches. Our source code is available at https://github.com/dw-dengwei/TreeSearchGen .

arxiv情報

著者 Wei Deng,Mengshi Qi,Huadong Ma
発行日 2025-03-24 09:21:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Global-Local Tree Search for Language Guided 3D Scene Generation はコメントを受け付けていません

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

要約

大規模な言語モデル(LLM)は、自然言語処理環境を変え、多様なアプリケーションを実現しました。
膨大なウェブスケールのデータを事前に削除して、これらのモデルの基盤が築かれていますが、研究コミュニティは、さらなるブレークスルーを達成するために、トレーニング後のテクニックにますます焦点を移しています。
事前トレーニングは幅広い言語基盤を提供しますが、トレーニング後の方法により、LLMは知識を改善し、推論を改善し、事実上の正確性を高め、ユーザーの意図と倫理的考慮事項とより効果的に調整できます。
微調整、強化学習、およびテスト時間スケーリングは、LLMSパフォーマンスを最適化し、堅牢性を確保し、さまざまな現実世界のタスクにわたる適応性を改善するための重要な戦略として浮上しています。
この調査では、トレーニング後の方法論の体系的な調査を提供し、壊滅的な忘却、報酬のハッキング、推論時間のトレードオフなどの重要な課題に対処することを超えて、LLMを改良する役割を分析します。
モデルアライメント、スケーラブルな適応、および推論時間推論における新しい方向性を強調し、将来の研究方向の概要を説明します。
また、この急速に進化する分野の開発を継続的に追跡するためのパブリックリポジトリを提供します:https://github.com/mbzuai-oryx/awesome-llm-post-training。

要約(オリジナル)

Large Language Models (LLMs) have transformed the natural language processing landscape and brought to life diverse applications. Pretraining on vast web-scale data has laid the foundation for these models, yet the research community is now increasingly shifting focus toward post-training techniques to achieve further breakthroughs. While pretraining provides a broad linguistic foundation, post-training methods enable LLMs to refine their knowledge, improve reasoning, enhance factual accuracy, and align more effectively with user intents and ethical considerations. Fine-tuning, reinforcement learning, and test-time scaling have emerged as critical strategies for optimizing LLMs performance, ensuring robustness, and improving adaptability across various real-world tasks. This survey provides a systematic exploration of post-training methodologies, analyzing their role in refining LLMs beyond pretraining, addressing key challenges such as catastrophic forgetting, reward hacking, and inference-time trade-offs. We highlight emerging directions in model alignment, scalable adaptation, and inference-time reasoning, and outline future research directions. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/mbzuai-oryx/Awesome-LLM-Post-training.

arxiv情報

著者 Komal Kumar,Tajamul Ashraf,Omkar Thawakar,Rao Muhammad Anwer,Hisham Cholakkal,Mubarak Shah,Ming-Hsuan Yang,Phillip H. S. Torr,Fahad Shahbaz Khan,Salman Khan
発行日 2025-03-24 09:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LLM Post-Training: A Deep Dive into Reasoning Large Language Models はコメントを受け付けていません

PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model

要約

大規模なビジョン言語モデル(LVLMS)の既存の多言語ベンチマークは、言語固有のコンテンツバイアス、ばらばらのマルチモーダル入力形式、安全評価の欠如などの制限に悩まされています。
これらのギャップに対処するために、LVLMSの最初の並行多言語マルチモーダルマルチタスクベンチマークであるPM4Benchを提案します。
PM4Benchは、10の言語にわたって並列コーパス設計を備えており、公正かつ正確な横断的比較を可能にします。
これには、テキストとクエリが画像に組み込まれているビジョン設定が含まれ、LVLMが同時に「表示」、「読み取り」、および「Think」を必要とし、実際のアプリケーションと整合します。
さらに、PM \ TextSuperScript {4}ベンチには、安全評価が組み込まれており、既存の多言語ベンチマークの重要な監視に対処します。
PM4ベンチを使用して、11の主流LVLMSを評価し、特に視覚設定で重要な言語間パフォーマンスの格差を明らかにし、OCR能力をこれらの不均衡の重要な決定要因として特定します。
https://github.com/opendatalab/pm4benchでPM4Benchをリリースします。

要約(オリジナル)

Existing multilingual benchmarks for Large Vision Language Models (LVLMs) suffer from limitations including language-specific content biases, disjointed multimodal input formats, and a lack of safety evaluation. To address these gaps, we propose PM4Bench, the first Parallel Multilingual Multi-Modal Multi-task Benchmark for LVLMs. PM4Bench features a parallel corpus design across 10 languages, enabling fair and accurate cross-lingual comparisons. It includes the vision setting where text and queries are embedded in images, requiring LVLMs to simultaneously ‘see’, ‘read’, and ‘think’, aligning with real-world applications. Additionally, PM\textsuperscript{4}Bench incorporates safety evaluations, addressing critical oversight in existing multilingual benchmarks. Using PM4Bench, we evaluate 11 mainstream LVLMs, revealing significant cross-linguistic performance disparities, particularly in vision settings, and identifying OCR capability as a key determinant of these imbalances. We will release PM4Bench at https://github.com/opendatalab/PM4Bench .

arxiv情報

著者 Junyuan Gao,Jiahe Song,Jiang Wu,Runchuan Zhu,Guanlin Shen,Shasha Wang,Xingjian Wei,Haote Yang,Songyang Zhang,Weijia Li,Bin Wang,Dahua Lin,Lijun Wu,Conghui He
発行日 2025-03-24 09:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model はコメントを受け付けていません

Whispering in Amharic: Fine-tuning Whisper for Low-resource Language

要約

この作業では、転写の精度を向上させるために、低リソース言語であるAmharicの微調整Openaiのささやき自動音声認識(ASR)モデルを探ります。
基本的なささやきモデルは、トレーニングデータの表現が限られているためAmharicと闘っていますが、Mozilla Common Voice、Fleurs、BDU-Speech Datasetなどのデータセットを使用して微調整します。
最高のパフォーマンスモデルであるWhispersmall-Amは、既存のFleursデータと新しい目に見えないAmharicデータセットの組み合わせで微調整されると大幅に改善されます。
新しいデータのみでのトレーニングはパフォーマンスの低下につながりますが、それをFleursデータと組み合わせることでモデルが強化され、AMHARICのより良い専門化が可能になります。
また、AMHARICの正規化により、単語エラー率(WER)およびバイリンガル評価アンダースタディ(BLE)スコアが大幅に向上することも実証しています。
この研究では、低リソース言語でASRを改善するための微調整戦略とデータセット構成の重要性を強調し、将来のAMHARIC音声認識研究の洞察を提供します。

要約(オリジナル)

This work explores fine-tuning OpenAI’s Whisper automatic speech recognition (ASR) model for Amharic, a low-resource language, to improve transcription accuracy. While the foundational Whisper model struggles with Amharic due to limited representation in its training data, we fine-tune it using datasets like Mozilla Common Voice, FLEURS, and the BDU-speech dataset. The best-performing model, Whispersmall-am, significantly improves when finetuned on a mix of existing FLEURS data and new, unseen Amharic datasets. Training solely on new data leads to poor performance, but combining it with FLEURS data reinforces the model, enabling better specialization in Amharic. We also demonstrate that normalizing Amharic homophones significantly enhances Word Error Rate (WER) and Bilingual Evaluation Understudy (BLEU) scores. This study underscores the importance of fine-tuning strategies and dataset composition for improving ASR in low-resource languages, providing insights for future Amharic speech recognition research.

arxiv情報

著者 Dawit Ketema Gete,Bedru Yimam Ahamed,Tadesse Destaw Belay,Yohannes Ayana Ejigu,Sukairaj Hafiz Imam,Alemu Belay Tessema,Mohammed Oumer Adem,Tadesse Amare Belay,Robert Geislinger,Umma Aliyu Musa,Martin Semmann,Shamsuddeen Hassan Muhammad,Henning Schreiber,Seid Muhie Yimam
発行日 2025-03-24 09:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Whispering in Amharic: Fine-tuning Whisper for Low-resource Language はコメントを受け付けていません

MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering

要約

視覚的な質問応答(VQA)には視覚的およびテキストのモダリティ全体の推論が必要ですが、大きなビジョン言語モデル(LVLM)が統合された常識的な知識を欠いていることが多く、現実世界のシナリオでの堅牢性を制限します。
これに対処するために、Commonsenseの知識をLVLMSと体系的に統合することにより、VQAを強化する新しいフレームワークであるMagic-VQAを紹介します。
Magic-VQAは、3段階のプロセスを採用しています。(1)外部ソースからの明示的な知識統合、(2)コンテキストの洗練のためのバイタイプのポストプロセッシング、および(3)構造化された推論のためのグラフニューラルネットワーク(GNN)を使用した暗黙の知識増強。
GNNSは構造化された推論により深みを帯びますが、LVLMを超えて優れたリレーショナル推論を可能にします。
Magic-VQAは、LVLM駆動型の推論でCommonsensseの知識を統合することにより、重要なギャップを橋渡しし、広範なトレーニングまたは複雑な迅速なチューニングの必要性を排除します。
私たちのフレームワークは、ベンチマークデータセットで最先端のパフォーマンスを実現し、VQAの常識的な推論を大幅に改善します。

要約(オリジナル)

Visual Question Answering (VQA) requires reasoning across visual and textual modalities, yet Large Vision-Language Models (LVLMs) often lack integrated commonsense knowledge, limiting their robustness in real-world scenarios. To address this, we introduce MAGIC-VQA, a novel framework that enhances VQA by systematically integrating commonsense knowledge with LVLMs. MAGIC-VQA employs a three-stage process: (1) Explicit Knowledge Integration from external sources, (2) By-Type Post-Processing for contextual refinement, and (3) Implicit Knowledge Augmentation using a Graph Neural Network (GNN) for structured reasoning. While GNNs bring greater depth to structured inference, they enable superior relational inference beyond LVLMs. MAGIC-VQA bridges a key gap by unifying commonsensse knowledge with LVLM-driven reasoning, eliminating the need for extensive pre-training or complex prompt tuning. Our framework achieves state-of-the-art performance on benchmark datasets, significantly improving commonsense reasoning in VQA.

arxiv情報

著者 Shuo Yang,Siwen Luo,Soyeon Caren Han,Eduard Hovy
発行日 2025-03-24 09:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering はコメントを受け付けていません

Safeguarding Mobile GUI Agent via Logic-based Action Verification

要約

大規模な基礎モデル(LFM)は、特にGUIを解釈できるモバイルグラフィカルユーザーインターフェイス(GUI)エージェントの台頭により、人間コンピューターの相互作用の新しい可能性のロックを解除しました。
これらのエージェントは、ユーザーが単純な自然言語の指示を通じて複雑なモバイルタスクを自動化できるようにすることにより、モバイルコンピューティングに革命をもたらすことを約束します。
ただし、LFMの固有の確率的性質は、モバイルタスクの曖昧さとコンテキスト依存性と相まって、LFMベースの自動化を信頼性が低く、エラーを発生しやすくなります。
この重要な課題に対処するために、Verisafeエージェント(VSA)を紹介します。これは、モバイルGUIエージェントの論理的に根拠のある保護手段として機能する正式な検証システムです。
VSAは、アクションを実施する前に、エージェントのアクションがユーザーの意図と厳密に整合することを決定論的に保証するように設計されています。
その中心で、VSAは、ドメイン固有の言語(DSL)で表現された自然言語ユーザーの指示を正式に検証可能な仕様に変換する新しい自己形態化技術を導入します。
これにより、ランタイム、ルールベースの検証が可能になり、VSAは、是正フィードバックを提供するか危険な動作を停止することにより、アクションを実行する誤ったアクションを検出および防止できます。
私たちの知る限り、VSAは正式な検証の厳格さをGUIエージェントにもたらす最初の試みです。
LFM駆動型の自動化と正式なソフトウェア検証の間のギャップを効果的に埋める。
オフシェルフLLMサービス(GPT-4O)を使用してVSAを実装し、18の広く使用されているモバイルアプリで300のユーザー命令でそのパフォーマンスを評価します。
結果は、VSAがエージェントアクションの検証に94.3%-98.33%の精度を達成し、既存のLLMベースの検証方法よりも20.4%-25.6%の大幅な改善を表し、その結果、GUIエージェントのタスク完了率を90%-130%増加させることを示しています。

要約(オリジナル)

Large Foundation Models (LFMs) have unlocked new possibilities in human-computer interaction, particularly with the rise of mobile Graphical User Interface (GUI) Agents capable of interpreting GUIs. These agents promise to revolutionize mobile computing by allowing users to automate complex mobile tasks through simple natural language instructions. However, the inherent probabilistic nature of LFMs, coupled with the ambiguity and context-dependence of mobile tasks, makes LFM-based automation unreliable and prone to errors. To address this critical challenge, we introduce VeriSafe Agent (VSA): a formal verification system that serves as a logically grounded safeguard for Mobile GUI Agents. VSA is designed to deterministically ensure that an agent’s actions strictly align with user intent before conducting an action. At its core, VSA introduces a novel autoformalization technique that translates natural language user instructions into a formally verifiable specification, expressed in our domain-specific language (DSL). This enables runtime, rule-based verification, allowing VSA to detect and prevent erroneous actions executing an action, either by providing corrective feedback or halting unsafe behavior. To the best of our knowledge, VSA is the first attempt to bring the rigor of formal verification to GUI agent. effectively bridging the gap between LFM-driven automation and formal software verification. We implement VSA using off-the-shelf LLM services (GPT-4o) and evaluate its performance on 300 user instructions across 18 widely used mobile apps. The results demonstrate that VSA achieves 94.3%-98.33% accuracy in verifying agent actions, representing a significant 20.4%-25.6% improvement over existing LLM-based verification methods, and consequently increases the GUI agent’s task completion rate by 90%-130%.

arxiv情報

著者 Jungjae Lee,Dongjae Lee,Chihun Choi,Youngmin Im,Jaeyoung Wi,Kihong Heo,Sangeun Oh,Sunjae Lee,Insik Shin
発行日 2025-03-24 09:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Safeguarding Mobile GUI Agent via Logic-based Action Verification はコメントを受け付けていません

Verbal Process Supervision Elicits Better Coding Agents

要約

大規模な言語モデルの出現とAIエージェントとしてのアプリケーションは、最新のコード生成ベンチマークを大幅に進め、最新のソフトウェアエンジニアリングタスクを変換しました。
ただし、テスト時間計算された推論モデルがあっても、これらのシステムは依然として複雑なソフトウェアエンジニアリングの課題に苦労しています。
この作業では、口頭プロセス監督(VPS)で強化されたコードの理解と推論エージェントシステムであるCuraが紹介され、BigCodebenchなどの挑戦的なベンチマークに関するベースラインモデルよりも3.65 \%の改善を達成します。
さらに、Curaは、O3-MiniモデルとVPSテクニックとペアになった場合、最先端のパフォーマンスを達成します。
この作業は、推論主導のアーキテクチャとLLMベースのコード生成を統合する際の一歩を表しており、言語モデルのエージェントの推論が複雑なソフトウェアエンジニアリングタスクを解決できるようにします。

要約(オリジナル)

The emergence of large language models and their applications as AI agents have significantly advanced state-of-the-art code generation benchmarks, transforming modern software engineering tasks. However, even with test-time computed reasoning models, these systems still struggle with complex software engineering challenges. This work introduces CURA, a code understanding and reasoning agent system enhanced with verbal process supervision (VPS), achieving a 3.65\% improvement over baseline models on challenging benchmarks like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and VPS techniques, attains state-of-the-art performance. This work represents a step forward in integrating reasoning-driven architectures with LLM-based code generation, enabling agentic reasoning for language models to solve complex software engineering tasks.

arxiv情報

著者 Hao-Yuan Chen,Cheng-Pong Huang,Jui-Ming Yao
発行日 2025-03-24 09:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Verbal Process Supervision Elicits Better Coding Agents はコメントを受け付けていません