VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric

要約

Verilogモジュールを設計するには、正確性、効率、および設計仕様の順守に細心の注意が必要です。
ただし、Verilogコードを手動で書くことは、専門知識と反復改良の両方を要求する複雑で時間のかかるタスクのままです。
大規模な言語モデル(LLMS)とその構造化されたテキスト生成機能の最近の進歩を活用して、合成プロセスを大幅に自動化および最適化するVerilogコード生成のエージェントLLMフレームワークであるVerimindを提案します。
従来のLLMベースのコードジェネレーターとは異なり、Verimindは構造化された推論アプローチを採用しています。設計要件を説明するユーザーが提供するプロンプトを考えると、システムは最初に最終Verilogコードが生成される前に詳細な思考列を策定します。
このマルチステップの方法論は、ハードウェア設計における解釈可能性、精度、適応性を高めます。
さらに、従来のPass@Kメジャーと平均洗練サイクル(ARC)を組み合わせて、成功率と反復改良の効率の両方をキャプチャする新しい評価Metric-Pass@arc-arcを紹介します。
多様なハードウェア設計タスクの実験結果は、私たちのアプローチがPass@Kメトリックで最大$ 8.3 \%$の改善とPass@arcメトリックで$ 8.1 \%$を達成したことを実証しました。
これらの調査結果は、自動化されたハードウェア設計、RTL開発、デジタルシステムの合成におけるエージェントLLMの変革の可能性を強調しています。

要約(オリジナル)

Designing Verilog modules requires meticulous attention to correctness, efficiency, and adherence to design specifications. However, manually writing Verilog code remains a complex and time-consuming task that demands both expert knowledge and iterative refinement. Leveraging recent advancements in large language models (LLMs) and their structured text generation capabilities, we propose VeriMind, an agentic LLM framework for Verilog code generation that significantly automates and optimizes the synthesis process. Unlike traditional LLM-based code generators, VeriMind employs a structured reasoning approach: given a user-provided prompt describing design requirements, the system first formulates a detailed train of thought before the final Verilog code is generated. This multi-step methodology enhances interpretability, accuracy, and adaptability in hardware design. In addition, we introduce a novel evaluation metric-pass@ARC-which combines the conventional pass@k measure with Average Refinement Cycles (ARC) to capture both success rate and the efficiency of iterative refinement. Experimental results on diverse hardware design tasks demonstrated that our approach achieved up to $8.3\%$ improvement on pass@k metric and $8.1\%$ on pass@ARC metric. These findings underscore the transformative potential of agentic LLMs in automated hardware design, RTL development, and digital system synthesis.

arxiv情報

著者 Bardia Nadimi,Ghali Omar Boutaib,Hao Zheng
発行日 2025-03-24 15:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG, cs.PL | VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric はコメントを受け付けていません

MaRS: A Fast Sampler for Mean Reverting Diffusion based on ODE and SDE Solvers

要約

拡散モデルの用途では、制御可能な生成は実際的に重要ですが、困難です。
制御可能な生成の現在の方法は、主に拡散モデルのスコア関数の変更に焦点を当てていますが、平均戻り(MR)拡散は確率微分方程式(SDE)の構造を直接修正し、画像条件の組み込みをより単純で自然なものにします。
ただし、現在のトレーニングなしの高速サンプラーは、MR拡散に直接適用できません。
したがって、MR拡散には、高品質のサンプルを取得するために何百ものNFE(関数評価の数)が必要です。
このホワイトペーパーでは、MR(MRサンプラー)という名前の新しいアルゴリズムを提案して、MR DiffusionのサンプリングNFEを削減します。
逆時間SDEとMR拡散に関連する確率流微分方程式(PF-ODE)を解き、半分析ソリューションを導き出します。
ソリューションは、分析機能とニューラルネットワークによってパラメーター化された積分で構成されています。
このソリューションに基づいて、より少ないステップで高品質のサンプルを生成できます。
私たちのアプローチでは、トレーニングを必要とせず、ノイズ予測、データ予測、速度予測など、すべての主流のパラメーター化をサポートします。
広範な実験は、サンプラー氏が10の異なる画像修復タスクで10〜20倍のスピードアップで高いサンプリング品質を維持していることを示しています。
私たちのアルゴリズムは、MR拡散のサンプリング手順を加速し、制御可能な生成でより実用的にします。

要約(オリジナル)

In applications of diffusion models, controllable generation is of practical significance, but is also challenging. Current methods for controllable generation primarily focus on modifying the score function of diffusion models, while Mean Reverting (MR) Diffusion directly modifies the structure of the stochastic differential equation (SDE), making the incorporation of image conditions simpler and more natural. However, current training-free fast samplers are not directly applicable to MR Diffusion. And thus MR Diffusion requires hundreds of NFEs (number of function evaluations) to obtain high-quality samples. In this paper, we propose a new algorithm named MaRS (MR Sampler) to reduce the sampling NFEs of MR Diffusion. We solve the reverse-time SDE and the probability flow ordinary differential equation (PF-ODE) associated with MR Diffusion, and derive semi-analytical solutions. The solutions consist of an analytical function and an integral parameterized by a neural network. Based on this solution, we can generate high-quality samples in fewer steps. Our approach does not require training and supports all mainstream parameterizations, including noise prediction, data prediction and velocity prediction. Extensive experiments demonstrate that MR Sampler maintains high sampling quality with a speedup of 10 to 20 times across ten different image restoration tasks. Our algorithm accelerates the sampling procedure of MR Diffusion, making it more practical in controllable generation.

arxiv情報

著者 Ao Li,Wei Fang,Hongbo Zhao,Le Lu,Ge Yang,Minfeng Xu
発行日 2025-03-24 15:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MaRS: A Fast Sampler for Mean Reverting Diffusion based on ODE and SDE Solvers はコメントを受け付けていません

BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache

要約

長いコンテキストの大規模な言語モデル(LLMS)の採用の増大は、キー価値(kV)キャッシュの拡大により、自己回帰デコードに重要なメモリと計算上の課題をもたらしました。
KVキャッシュの量子化は有望なソリューションとして浮上しており、4ビットまたは2ビットの量子化でさえ、メモリコストを削減しながらモデルの精度を維持できることを示しています。
ただし、これらの利点にもかかわらず、低ビットKVキャッシュの予備的実装は、量子化と定量化オーバーヘッド、およびテンソルコアの利用の欠如による予想されるスピードアップを提供するのに苦労しています。
この作業では、低ビットKVキャッシュで効率的なデコードのためにテンソルコアのロックを解除するGPU最適化されたフレームワークであるBitDecodingを提案します。
低ビットKVキャッシュのテンソルコアを効率的に活用することは、各デコードステップでのKVキャッシュ生成の動的な性質のために困難です。
ビットデコードは、テンソルコアの高い利用を可能にするデータレイアウトの互換性を保証するテンソルコア中心のビットフュージョンスキームでこれらの課題に対処します。
さらに、BitDecodingには、ワープ効率の高い並列デコードカーネルと細粒の非同期パイプラインが組み込まれているため、脱量化のオーバーヘッドを最小限に抑え、計算効率が改善されます。
実験では、FP16 FlashDecoding-V2と比較して、BitDecodingがRTX 4090で最大7.5倍のスピードアップを達成し、H100で4.8x、H100で8.9xを達成することが示されています。
また、最先端の低ビットKVキャッシュ実装(QSERVE)を最大4.3倍上回ることも優れています。
128Kシーケンス長のllama-3.1-8bでは、ビットデコードはシングルバッチデコードレイテンシを3倍に減らし、長いコンテキスト生成シナリオでの有効性を示します。
このコードは、https://github.com/dd-duda/bitdecodingで入手できます。

要約(オリジナル)

The growing adoption of long-context Large Language Models (LLMs) has introduced significant memory and computational challenges in autoregressive decoding due to the expanding Key-Value (KV) cache. KV cache quantization has emerged as a promising solution, with prior work showing that 4-bit or even 2-bit quantization can maintain model accuracy while reducing memory costs. However, despite these benefits, preliminary implementations for the low-bit KV cache struggle to deliver the expected speedup due to quantization and dequantization overheads and the lack of Tensor Cores utilization. In this work, we propose BitDecoding, a GPU-optimized framework that unlocks Tensor Cores for efficient decoding with low-bit KV cache. Efficiently leveraging Tensor Cores for low-bit KV cache is challenging due to the dynamic nature of KV cache generation at each decoding step. BitDecoding addresses these challenges with a Tensor Cores-Centric BitFusion Scheme that ensures data layout compatibility to enable high utilization of Tensor Cores. Additionally, BitDecoding incorporates a warp-efficient parallel decoding kernel and a fine-grained asynchronous pipeline, minimizing dequantization overhead and improving computational efficiency. Experiments show that BitDecoding achieves up to 7.5x speedup on RTX 4090, 4.8x on A100, and 8.9x on H100, compared to FP16 FlashDecoding-v2. It also outperforms the state-of-the-art low-bit KV cache implementation (QServe) by up to 4.3x. On LLaMA-3.1-8B with a 128K sequence length, BitDecoding reduces single-batch decoding latency by 3x, demonstrating its effectiveness in long-context generation scenarios. The code is available at https://github.com/DD-DuDa/BitDecoding.

arxiv情報

著者 Dayou Du,Shijie Cao,Jianyi Cheng,Ting Cao,Mao Yang
発行日 2025-03-24 15:22:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CL, cs.PF | BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache はコメントを受け付けていません

The case for delegated AI autonomy for Human AI teaming in healthcare

要約

この論文では、人工知能(AI)をヘルスケアに統合するための高度なアプローチ:自律的な意思決定支援を提案します。
このアプローチにより、AIアルゴリズムは、定義された委任基準に基づいて、患者症例の他のサブセットで支持的な役割を果たしながら、患者症例のサブセットに対して自律的に行​​動することができます。
人間とAIの両方の補完的な強さを活用することにより、既存の人間とAIのチーム化モデルよりも全体的なパフォーマンスを提供することを目指しています。
AIツールの制限に留意しながら、患者の症例の安全な取り扱いを保証し、臨床医のレビュー時間を短縮する可能性があります。
現在のヒューマンAIチームモデルのコンテキスト内でアプローチを設定した後、委任基準の概要を説明し、組織病理学で使用される特定のAIベースのツールにそれらを適用します。
その後、そのアプローチの潜在的な影響と、その実装を成功させるための規制要件について説明します。

要約(オリジナル)

In this paper we propose an advanced approach to integrating artificial intelligence (AI) into healthcare: autonomous decision support. This approach allows the AI algorithm to act autonomously for a subset of patient cases whilst serving a supportive role in other subsets of patient cases based on defined delegation criteria. By leveraging the complementary strengths of both humans and AI, it aims to deliver greater overall performance than existing human-AI teaming models. It ensures safe handling of patient cases and potentially reduces clinician review time, whilst being mindful of AI tool limitations. After setting the approach within the context of current human-AI teaming models, we outline the delegation criteria and apply them to a specific AI-based tool used in histopathology. The potential impact of the approach and the regulatory requirements for its successful implementation are then discussed.

arxiv情報

著者 Yan Jia,Harriet Evans,Zoe Porter,Simon Graham,John McDermid,Tom Lawton,David Snead,Ibrahim Habli
発行日 2025-03-24 15:26:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | The case for delegated AI autonomy for Human AI teaming in healthcare はコメントを受け付けていません

MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks

要約

深いニューラルネットワーク(DNNS)の敵対的な攻撃に対する脆弱性は、安全性の高いアプリケーションでの展開に大きな課題をもたらします。
広範な研究ではさまざまな攻撃シナリオに対処していますが、ターゲットモデルのトレーニングデータへのアクセスを含む事前知識がない場合は、その実用的な関連性にもかかわらず、比較的目立たない依存しています。
この作業は、ノーボックス攻撃を実行するためのサロゲートモデルとして、大規模なビジョン言語モデル(VLMS)、特にクリップを活用するための体系的な調査を提示します。
私たちの理論的および経験的分析は、代理モデルとしてバニラクリップを直接適用するための不十分な識別能力に起因するNO-Box攻撃の実行における重要な制限を明らかにしています。
この制限に対処するために、MF-Clipを提案します。これは、マージンを認識する機能スペースの最適化を通じて、代理モデルとしてのクリップの有効性を高める新しいフレームワークです。
多様なアーキテクチャとデータセット全体の包括的な評価は、MFクリップがノーボックス攻撃で最先端の攻撃を大幅に進め、標準モデルで既存のベースラインを15.23%上回り、敵対的に訓練されたモデルで9.52%の改善を達成することを示しています。
私たちのコードは、この方向での再現性と将来の研究を促進するために公開されます。

要約(オリジナル)

The vulnerability of Deep Neural Networks (DNNs) to adversarial attacks poses a significant challenge to their deployment in safety-critical applications. While extensive research has addressed various attack scenarios, the no-box attack setting where adversaries have no prior knowledge, including access to training data of the target model, remains relatively underexplored despite its practical relevance. This work presents a systematic investigation into leveraging large-scale Vision-Language Models (VLMs), particularly CLIP, as surrogate models for executing no-box attacks. Our theoretical and empirical analyses reveal a key limitation in the execution of no-box attacks stemming from insufficient discriminative capabilities for direct application of vanilla CLIP as a surrogate model. To address this limitation, we propose MF-CLIP: a novel framework that enhances CLIP’s effectiveness as a surrogate model through margin-aware feature space optimization. Comprehensive evaluations across diverse architectures and datasets demonstrate that MF-CLIP substantially advances the state-of-the-art in no-box attacks, surpassing existing baselines by 15.23% on standard models and achieving a 9.52% improvement on adversarially trained models. Our code will be made publicly available to facilitate reproducibility and future research in this direction.

arxiv情報

著者 Jiaming Zhang,Lingyu Qiu,Qi Yi,Yige Li,Jitao Sang,Changsheng Xu,Dit-Yan Yeung
発行日 2025-03-24 15:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks はコメントを受け付けていません

HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

要約

トランスフォーマーは、特に大規模な言語モデル(LLM)で、幅広い機械学習タスクの事実上のアーキテクチャとなっています。
驚くべきパフォーマンスにもかかわらず、特に層の正規化の位置に関して、深い変圧器ネットワークのトレーニングに課題が残っています。
プレノーム構造は、より顕著なアイデンティティパスのために簡単なトレーニングを促進しますが、多くの場合、ポストノームと比較して最適ではないパフォーマンスをもたらします。
このホワイトペーパーでは、$ \ textBf {HybridNorm} $を提案します。これは、プリノームとノーム後のアプローチの両方の利点を統合する簡単でありながら効果的なハイブリッド正規化戦略です。
具体的には、ハイブリッドノームは、各トランスブロックのフィードフォワードネットワーク(FFN)で注意メカニズムとポストノーム内でQKV正規化を採用しています。
このデザインは、特にLLMSのコンテキストで、トレーニングを安定させるだけでなく、パフォーマンスを向上させます。
密集したアーキテクチャとスパースアーキテクチャの両方での包括的な実験は、ハイブリッドノームが一貫してノーム以前のアプローチとノーム後のアプローチの両方を上回り、さまざまなベンチマークで最新の結果を達成することを示しています。
これらの発見は、ディープトランスモデルのトレーニングとパフォーマンスを改善するためのより安定した効果的な手法としてのハイブリッドノームの可能性を強調しています。
コードはhttps://github.com/brycezhuo/hybridnormで入手できます。

要約(オリジナル)

Transformers have become the de facto architecture for a wide range of machine learning tasks, particularly in large language models (LLMs). Despite their remarkable performance, challenges remain in training deep transformer networks, especially regarding the location of layer normalization. While Pre-Norm structures facilitate easier training due to their more prominent identity path, they often yield suboptimal performance compared to Post-Norm. In this paper, we propose $\textbf{HybridNorm}$, a straightforward yet effective hybrid normalization strategy that integrates the advantages of both Pre-Norm and Post-Norm approaches. Specifically, HybridNorm employs QKV normalization within the attention mechanism and Post-Norm in the feed-forward network (FFN) of each transformer block. This design not only stabilizes training but also enhances performance, particularly in the context of LLMs. Comprehensive experiments in both dense and sparse architectures show that HybridNorm consistently outperforms both Pre-Norm and Post-Norm approaches, achieving state-of-the-art results across various benchmarks. These findings highlight the potential of HybridNorm as a more stable and effective technique for improving the training and performance of deep transformer models. Code is available at https://github.com/BryceZhuo/HybridNorm.

arxiv情報

著者 Zhijian Zhuo,Yutao Zeng,Ya Wang,Sijun Zhang,Jian Yang,Xiaoqing Li,Xun Zhou,Jinwen Ma
発行日 2025-03-24 15:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization はコメントを受け付けていません

Frequency Dynamic Convolution for Dense Image Prediction

要約

動的畳み込み(DY-CONV)は、注意メカニズムと組み合わせた複数の並列重量を介して適応体重選択を可能にすることにより有望なパフォーマンスを示していますが、これらの重量の周波数応答は高い類似性を示し、高いパラメーターコストをもたらしますが、適応性は限られています。
この作業では、Frequency Dynamic Convolution(FDCONV)を導入します。これは、Forierドメインで固定パラメーター予算を学習することでこれらの制限を軽減する新しいアプローチです。
FDCONVは、この予算を分離フーリエインデックスで周波数ベースのグループに分割し、パラメーターコストを増やすことなく周波数ダイバーウェイトの構築を可能にします。
適応性をさらに向上させるために、カーネル空間変調(KSM)と周波数帯域変調(FBM)を提案します。
KSMは、各フィルターの周波数応答を空間レベルで動的に調整し、FBMは周波数ドメインの異なる周波数帯域に重みを分解し、ローカルコンテンツに基づいて動的に変調します。
オブジェクトの検出、セグメンテーション、および分類に関する広範な実験により、FDCONVの有効性が検証されます。
ResNet-50に適用されると、FDCONVは +3.6mパラメーターの適度な増加で優れたパフォーマンスを達成し、パラメーター予算の大幅な増加を必要とする以前の方法(Condconv +90m、kw +76.5mなど)を上回ることを実証します。
さらに、FDCONVは、Convnext、Swin-Transformerなど、さまざまなアーキテクチャにシームレスに統合され、最新のビジョンタスクに柔軟で効率的なソリューションを提供します。
このコードは、https://github.com/linwei-chen/fdconvで公開されています。

要約(オリジナル)

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

arxiv情報

著者 Linwei Chen,Lin Gu,Liang Li,Chenggang Yan,Ying Fu
発行日 2025-03-24 15:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Frequency Dynamic Convolution for Dense Image Prediction はコメントを受け付けていません

CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling

要約

陸生炭素フラックスは、私たちの生物圏の健康と、人為的なCo $ _2 $排出量を吸収する能力に関する重要な情報を提供します。
炭素フラックスを予測することの重要性は、統計的手法を使用して生物物理学的データから炭素フラックスを予測するデータ駆動型炭素フラックスモデリング(DDCFM)の新興分野につながりました。
ただし、フィールドには、モデル間の比較を促進するための標準化されたデータセットがありません。
このギャップに対処するために、DDCFMの最初の機械学習対応データセットであるCarbonsenseを提示します。
Carbonsenseは、世界中の385の場所から測定された炭素フラックス、気象予測因子、衛星画像を統合し、包括的なカバレッジを提供し、堅牢なモデルトレーニングを促進します。
さらに、現在の最先端のDDCFMアプローチと新しいトランスベースのモデルを使用して、ベースラインモデルを提供します。
私たちの実験は、マルチモーダルの深い学習技術がこのドメインにもたらす潜在的な利益を示しています。
これらのリソースを提供することにより、私たちは、他の深い学習研究者が新しいモデルを開発し、炭素フラックスモデリングの新しい進歩を促進するための参入障壁を下げることを目指しています。

要約(オリジナル)

Terrestrial carbon fluxes provide vital information about our biosphere’s health and its capacity to absorb anthropogenic CO$_2$ emissions. The importance of predicting carbon fluxes has led to the emerging field of data-driven carbon flux modelling (DDCFM), which uses statistical techniques to predict carbon fluxes from biophysical data. However, the field lacks a standardized dataset to promote comparisons between models. To address this gap, we present CarbonSense, the first machine learning-ready dataset for DDCFM. CarbonSense integrates measured carbon fluxes, meteorological predictors, and satellite imagery from 385 locations across the globe, offering comprehensive coverage and facilitating robust model training. Additionally, we provide a baseline model using a current state-of-the-art DDCFM approach and a novel transformer based model. Our experiments illustrate the potential gains that multimodal deep learning techniques can bring to this domain. By providing these resources, we aim to lower the barrier to entry for other deep learning researchers to develop new models and drive new advances in carbon flux modelling.

arxiv情報

著者 Matthew Fortier,Mats L. Richter,Oliver Sonnentag,Chris Pal
発行日 2025-03-24 15:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling はコメントを受け付けていません

REALM: A Dataset of Real-World LLM Use Cases

要約

GPTシリーズなどの大規模な言語モデルは、重要な産業用途を推進しており、経済的および社会的変革につながりました。
ただし、実際のアプリケーションの包括的な理解は依然として限られています。
これに対処するために、Redditおよびニュース記事から収集された94,000を超えるLLMユースケースのデータセットであるRealmを紹介します。
Realmは、LLMSの多様なアプリケーションとユーザーの人口統計の2つの重要な側面を捉えています。
LLMアプリケーションを分類し、ユーザーの職業が使用するアプリケーションの種類にどのように関連しているかを調査します。
現実世界のデータを統合することにより、RealmはさまざまなドメインにわたるLLM採用に関する洞察を提供し、進化する社会的役割に関する将来の研究の基盤を提供します。
専用のダッシュボードhttps://realm-e7682.web.app/データを提示します。

要約(オリジナル)

Large Language Models, such as the GPT series, have driven significant industrial applications, leading to economic and societal transformations. However, a comprehensive understanding of their real-world applications remains limited. To address this, we introduce REALM, a dataset of over 94,000 LLM use cases collected from Reddit and news articles. REALM captures two key dimensions: the diverse applications of LLMs and the demographics of their users. It categorizes LLM applications and explores how users’ occupations relate to the types of applications they use. By integrating real-world data, REALM offers insights into LLM adoption across different domains, providing a foundation for future research on their evolving societal roles. A dedicated dashboard https://realm-e7682.web.app/ presents the data.

arxiv情報

著者 Jingwen Cheng,Kshitish Ghate,Wenyue Hua,William Yang Wang,Hong Shen,Fei Fang
発行日 2025-03-24 15:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | REALM: A Dataset of Real-World LLM Use Cases はコメントを受け付けていません

Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code

要約

近年、大規模な言語モデル(LLM)は、さまざまな人工知能の問題に顕著な能力を示しています。
ただし、計画タスクの詳細な定義でプロンプトされた場合でも、それらは確実に計画を立てていません。
考え方の促し、微調整、明示的な「推論」など、計画能力を改善しようとする試みは、依然として誤った計画をもたらし、通常はより大きなタスクに一般化することができません。
このホワイトペーパーでは、サイズの増加の分散型タスクであっても、LLMSを使用して正しい計画を生成する方法を示します。
特定の計画ドメインについては、LLMにPythonコードの形でいくつかのドメイン依存性ヒューリスティック関数を生成し、貪欲なベストファースト検索内の一連のトレーニングタスクでそれらを評価し、最強の検索を選択します。
結果として生成されるLLM生成ヒューリスティックは、古典的な計画のための最先端のドメインに依存しないヒューリスティックよりも、より多くの目に見えないテストタスクを解決します。
それらは、ドメイン依存の計画のための最も強力な学習アルゴリズムとさえ競争しています。
これらの調査結果は、概念実証の実装が最適化されていないPythonプランナーに基づいており、すべてが高度に最適化されたC ++コードに基づいて構築されていることを考えると、特に顕著です。
一部のドメインでは、LLMが生成したヒューリスティックは、ベースラインよりも少ない状態を拡張し、効率的に計算可能であるだけでなく、最先端のヒューリスティックよりもさらに有益であることが明らかになりました。
全体として、我々の結果は、一連の計画ヒューリスティック機能プログラムをサンプリングすることでLLMの計画能力を大幅に改善できることを示しています。

要約(オリジナル)

In recent years, large language models (LLMs) have shown remarkable capabilities in various artificial intelligence problems. However, they fail to plan reliably, even when prompted with a detailed definition of the planning task. Attempts to improve their planning capabilities, such as chain-of-thought prompting, fine-tuning, and explicit ‘reasoning’ still yield incorrect plans and usually fail to generalize to larger tasks. In this paper, we show how to use LLMs to generate correct plans, even for out-of-distribution tasks of increasing size. For a given planning domain, we ask an LLM to generate several domain-dependent heuristic functions in the form of Python code, evaluate them on a set of training tasks within a greedy best-first search, and choose the strongest one. The resulting LLM-generated heuristics solve many more unseen test tasks than state-of-the-art domain-independent heuristics for classical planning. They are even competitive with the strongest learning algorithm for domain-dependent planning. These findings are especially remarkable given that our proof-of-concept implementation is based on an unoptimized Python planner and the baselines all build upon highly optimized C++ code. In some domains, the LLM-generated heuristics expand fewer states than the baselines, revealing that they are not only efficiently computable, but sometimes even more informative than the state-of-the-art heuristics. Overall, our results show that sampling a set of planning heuristic function programs can significantly improve the planning capabilities of LLMs.

arxiv情報

著者 Augusto B. Corrêa,André G. Pereira,Jendrik Seipp
発行日 2025-03-24 15:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code はコメントを受け付けていません