BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering

要約

監視されていない常識推論(UCR)は、常識的な推論データセットの構築が高価であり、範囲が必然的に制限されているため、ますます人気が高まっています。
UCRへの一般的なアプローチは、外部の知識(知識グラフなど)で言語モデルを微調整することですが、これには通常、多数のトレーニングの例が必要です。
このホワイトペーパーでは、下流の多肢選択質問タスクを、合理性に応じてすべての候補者の回答をランク付けすることにより、より単純なバイナリ分類タスクに変換することを提案します。
この目的のために、モデルをトレーニングするために、知識グラフを合理的で不合理なテキストに変換します。
広範な実験結果は、さまざまな多肢選択質問に及ぼすアプローチの有効性を示しています。
さらに、KGSを使用した既存のUCRアプローチと比較して、私たちのアプローチは空腹のデータが少なくなります。
当社のコードは、https://github.com/probe2/bucaで入手できます。

要約(オリジナル)

Unsupervised commonsense reasoning (UCR) is becoming increasingly popular as the construction of commonsense reasoning datasets is expensive, and they are inevitably limited in their scope. A popular approach to UCR is to fine-tune language models with external knowledge (e.g., knowledge graphs), but this usually requires a large number of training examples. In this paper, we propose to transform the downstream multiple choice question answering task into a simpler binary classification task by ranking all candidate answers according to their reasonableness. To this end, for training the model, we convert the knowledge graph triples into reasonable and unreasonable texts. Extensive experimental results show the effectiveness of our approach on various multiple choice question answering benchmarks. Furthermore, compared with existing UCR approaches using KGs, ours is less data hungry. Our code is available at https://github.com/probe2/BUCA.

arxiv情報

著者 Jie He,Simon Chi Lok U,Víctor Gutiérrez-Basulto,Jeff Z. Pan
発行日 2025-04-11 14:36:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering はコメントを受け付けていません

Playpen: An Environment for Exploring Learning Through Conversational Interaction

要約

学習信号が不足していますか?
既存のテキストの次の単語を予測することは、少なくとも大規模な強力な信号であることが判明しました。
しかし、私たちがこのリソースを使い果たしている兆候があります。
ここ数か月で、学習者とフィードバック提供者の相互作用が焦点を合わせました。「アラインメント」(試みに続いて指導の質を判断する報酬モデル)と「推論」(プロセスおよび結果ベースの検証者が推論ステップを判断する)を改善するためです。
この論文では、私たちが対話ゲームと呼ぶもの(主に口頭での行動によって推進されたルール統制活動)と呼ばれる程度の合成相互作用が、学習信号を提供し、この信号をどのように使用できるかを探ります。
オフラインとオンラインの両方で、このような相互作用データを作成するための環境を紹介します(学習者モデルに対応する大き​​な言語モデルの助けを借りて)。
DPOやGRPOなどの補強学習セットアップと同様に、このデータに対する監視された微調整の影響を調査します。
これらのアプローチのすべてがドメイン内ゲームでいくつかの改善を達成していることを示していますが、GRPOのみがドメイン外のゲームに一般化し、参照ベースのタスクで競争力のあるパフォーマンスを保持する能力を示しています。
この有望な新しい方向の研究を促進できることを期待して、フレームワークとベースライントレーニングセットアップをリリースします。

要約(オリジナル)

Are we running out of learning signal? Predicting the next word in an existing text has turned out to be a powerful signal, at least at scale. But there are signs that we are running out of this resource. In recent months, interaction between learner and feedback-giver has come into focus, both for ‘alignment’ (with a reward model judging the quality of instruction following attempts) and for improving ‘reasoning’ (process- and outcome-based verifiers judging reasoning steps). In this paper, we explore to what extent synthetic interaction in what we call Dialogue Games — goal-directed and rule-governed activities driven predominantly by verbal actions — can provide a learning signal, and how this signal can be used. We introduce an environment for producing such interaction data (with the help of a Large Language Model as counterpart to the learner model), both offline and online. We investigate the effects of supervised fine-tuning on this data, as well as reinforcement learning setups such as DPO, and GRPO; showing that all of these approaches achieve some improvements in in-domain games, but only GRPO demonstrates the ability to generalise to out-of-domain games as well as retain competitive performance in reference-based tasks. We release the framework and the baseline training setups in the hope that this can foster research in this promising new direction.

arxiv情報

著者 Nicola Horst,Davide Mazzaccara,Antonia Schmidt,Michael Sullivan,Filippo Momentè,Luca Franceschetti,Philipp Sadler,Sherzod Hakimov,Alberto Testoni,Raffaella Bernardi,Raquel Fernández,Alexander Koller,Oliver Lemon,David Schlangen,Mario Giulianelli,Alessandro Suglia
発行日 2025-04-11 14:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Playpen: An Environment for Exploring Learning Through Conversational Interaction はコメントを受け付けていません

Analyzing 16,193 LLM Papers for Fun and Profits

要約

大規模な言語モデル(LLM)は、コンピューターサイエンスの研究の景観を再構築しており、多様な会議や分野で研究優先順位の大幅な変化を促進しています。
この研究は、過去6年間(2019-2024)における77の最高層コンピューターサイエンス会議でのLLM関連論文の出版傾向の包括的な分析を提供します。
この分析には、4つの異なる観点からアプローチします。(1)LLM研究が主要な会議内でトピックシフトをどのように促進しているかを調査します。
(2)トピックモデリングアプローチを採用して、LLM関連のトピック成長のさまざまな分野を特定し、さまざまな会議で懸念のトピックを明らかにします。
(3)学術および産業機関の明確な貢献パターンを探求します。
(4)LLM開発軌跡に対する国家起源の影響を研究します。
これらの多様な分析角からの調査結果を統合すると、LLM研究エコシステムのダイナミクスと進化を明らかにする10の重要な洞察を導き出します。

要約(オリジナル)

Large Language Models (LLMs) are reshaping the landscape of computer science research, driving significant shifts in research priorities across diverse conferences and fields. This study provides a comprehensive analysis of the publication trend of LLM-related papers in 77 top-tier computer science conferences over the past six years (2019-2024). We approach this analysis from four distinct perspectives: (1) We investigate how LLM research is driving topic shifts within major conferences. (2) We adopt a topic modeling approach to identify various areas of LLM-related topic growth and reveal the topics of concern at different conferences. (3) We explore distinct contribution patterns of academic and industrial institutions. (4) We study the influence of national origins on LLM development trajectories. Synthesizing the findings from these diverse analytical angles, we derive ten key insights that illuminate the dynamics and evolution of the LLM research ecosystem.

arxiv情報

著者 Zhiqiu Xia,Lang Zhu,Bingzhe Li,Feng Chen,Qiannan Li,Hang Liu
発行日 2025-04-11 15:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL | Analyzing 16,193 LLM Papers for Fun and Profits はコメントを受け付けていません

Localizing and Mitigating Errors in Long-form Question Answering

要約

長型の質問応答(LFQA)は、複雑な質問に対する徹底的かつ詳細な回答を提供し、理解を高めることを目指しています。
しかし、そのような詳細な反応は、幻覚と事実上の矛盾に起因しやすく、彼らの忠実な評価に挑戦します。
この作業では、人間が書かれたモデルで生成されたLFQA回答のローカライズされたエラー注釈を備えた最初の幻覚データセットであるHaluquestQAを紹介します。
HaluquestQAは、エキスパートアノテーターによる5つの異なるエラータイプの1.8Kスパンレベルエラーアノテーションを備えた698 QAペアで構成され、優先判断とともに。
収集されたデータを使用して、長型の回答の欠点を徹底的に分析し、包括性が欠けていることを発見し、役に立たない参照を提供します。
このデータセットで、エラースパンが不完全な情報を使用し、関連する説明を提供する自動フィードバックモデルをトレーニングします。
最後に、学習されたフィードバックモデルからの信号を使用して生成された回答を改善するプロンプトベースのアプローチ、エラーに基づいた改良を提案します。
さらに、人間は私たちのアプローチによって生成された答えを包括的に包括的に見つけ、ベースラインの回答よりもそれらを高く(84%)。

要約(オリジナル)

Long-form question answering (LFQA) aims to provide thorough and in-depth answers to complex questions, enhancing comprehension. However, such detailed responses are prone to hallucinations and factual inconsistencies, challenging their faithful evaluation. This work introduces HaluQuestQA, the first hallucination dataset with localized error annotations for human-written and model-generated LFQA answers. HaluQuestQA comprises 698 QA pairs with 1.8k span-level error annotations for five different error types by expert annotators, along with preference judgments. Using our collected data, we thoroughly analyze the shortcomings of long-form answers and find that they lack comprehensiveness and provide unhelpful references. We train an automatic feedback model on this dataset that predicts error spans with incomplete information and provides associated explanations. Finally, we propose a prompt-based approach, Error-informed refinement, that uses signals from the learned feedback model to refine generated answers, which we show reduces errors and improves answer quality across multiple models. Furthermore, humans find answers generated by our approach comprehensive and highly prefer them (84%) over the baseline answers.

arxiv情報

著者 Rachneet Sachdeva,Yixiao Song,Mohit Iyyer,Iryna Gurevych
発行日 2025-04-11 15:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Localizing and Mitigating Errors in Long-form Question Answering はコメントを受け付けていません

TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning

要約

大規模な言語モデル(LLM)は、旅行計画の自動化に有望を示していますが、微妙な時空の合理性に対処するのに不足していることがよくあります。
既存のベンチマークは基本的な計画の有効性に焦点を当てていますが、ルート効率、POIアピール、リアルタイムの適応性などの重要な側面を無視しています。
このペーパーでは、検索された空間的に認識された旅行計画に合わせた最初のベンチマークであるTP-RAGを紹介します。
当社のデータセットには、2,348の実世界の旅行クエリ、85,575のファイングレイン注釈付きPOI、および18,784の高品質の旅行軌跡参照がオンライン観光文書から供給され、動的およびコンテキスト対応の計画が可能になります。
広範な実験を通じて、参照軌道を統合することで旅行計画の空間効率と定量性が大幅に向上することが明らかになりますが、相反する参照と騒々しいデータにより、普遍性と堅牢性に課題が持続します。
これらの問題に対処するために、LLMSの本質的な推論で多様な検索された軌跡を強力に相乗する進化的枠組みであるEvoragを提案します。
Evoragは、最先端のパフォーマンスを達成し、時空間的コンプライアンスを改善し、ゼロと検索の高級ベースラインと比較して常識的な違反を減らします。
私たちの仕事は、LLM駆動型の最適化でWebの知識をハイブリダイズする可能性を強調し、より信頼性の高い適応性のある旅行計画エージェントへの道を開いています。

要約(オリジナル)

Large language models (LLMs) have shown promise in automating travel planning, yet they often fall short in addressing nuanced spatiotemporal rationality. While existing benchmarks focus on basic plan validity, they neglect critical aspects such as route efficiency, POI appeal, and real-time adaptability. This paper introduces TP-RAG, the first benchmark tailored for retrieval-augmented, spatiotemporal-aware travel planning. Our dataset includes 2,348 real-world travel queries, 85,575 fine-grain annotated POIs, and 18,784 high-quality travel trajectory references sourced from online tourist documents, enabling dynamic and context-aware planning. Through extensive experiments, we reveal that integrating reference trajectories significantly improves spatial efficiency and POI rationality of the travel plan, while challenges persist in universality and robustness due to conflicting references and noisy data. To address these issues, we propose EvoRAG, an evolutionary framework that potently synergizes diverse retrieved trajectories with LLMs’ intrinsic reasoning. EvoRAG achieves state-of-the-art performance, improving spatiotemporal compliance and reducing commonsense violation compared to ground-up and retrieval-augmented baselines. Our work underscores the potential of hybridizing Web knowledge with LLM-driven optimization, paving the way for more reliable and adaptive travel planning agents.

arxiv情報

著者 Hang Ni,Fan Liu,Xinyu Ma,Lixin Su,Shuaiqiang Wang,Dawei Yin,Hui Xiong,Hao Liu
発行日 2025-04-11 17:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning はコメントを受け付けていません

Not All Data Are Unlearned Equally

要約

Machine Ulearningは、訓練されたモデルから特定のデータポイントから学んだ知識を削除するタスクに関係しています。
大規模な言語モデル(LLMS)のコンテキストでは、特にプライバシー目的のためにモデルから指定されたエンティティに関する知識を削除するために、最近、学習が注目を集めています。
未学習の問題に対処するためにさまざまなアプローチが提案されていますが、既存のアプローチのほとんどは、すべてのデータポイントを均等に扱うように扱います。つまり、モントリオールがカナダの都市であることを学習することは、この論文の最初の著者の電話番号を学ぶこととまったく同じ扱いになっています。
この作業では、このすべてのデータが等しい仮定がLLMの学習には当てはまらないことを示しています。
私たちは、学習の成功が、モデルのトレーニング前のデータで学習したい知識の頻度にどのように依存し、頻度が学習を強く影響することを発見する方法を調べます。
さらに、確率と生成に基づく評価の不整合の不整合を明らかにし、モデルが大きくなるにつれてこの問題が悪化することを示します。
全体として、私たちの実験は、モデルのトレーニングデータを考慮に入れるためのLLM学習のためのより良い評価慣行と新しい方法の必要性を強調しています。

要約(オリジナル)

Machine unlearning is concerned with the task of removing knowledge learned from particular data points from a trained model. In the context of large language models (LLMs), unlearning has recently received increased attention, particularly for removing knowledge about named entities from models for privacy purposes. While various approaches have been proposed to address the unlearning problem, most existing approaches treat all data points to be unlearned equally, i.e., unlearning that Montreal is a city in Canada is treated exactly the same as unlearning the phone number of the first author of this paper. In this work, we show that this all data is equal assumption does not hold for LLM unlearning. We study how the success of unlearning depends on the frequency of the knowledge we want to unlearn in the pre-training data of a model and find that frequency strongly affects unlearning, i.e., more frequent knowledge is harder to unlearn. Additionally, we uncover a misalignment between probability and generation-based evaluations of unlearning and show that this problem worsens as models become larger. Overall, our experiments highlight the need for better evaluation practices and novel methods for LLM unlearning that take the training data of models into account.

arxiv情報

著者 Aravind Krishnan,Siva Reddy,Marius Mosbach
発行日 2025-04-11 17:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Not All Data Are Unlearned Equally はコメントを受け付けていません

Large Language Models as Span Annotators

要約

高品質のテキストの場合、シングルスコアメトリックは、実用的なフィードバックを提供することはめったにありません。
対照的に、Span Annotation-スパンを注釈することでテキストの問題を指摘する – は、改善を導き、洞察を提供することができます。
最近まで、SPANアノテーションは、ヒトアノテーターまたは微調整されたエンコーダーモデルに限定されていました。
この研究では、大規模な言語モデル(LLMS)でスパンアノテーションを自動化します。
専門家または熟練したクラウドワーカーのアノテーターを、3つのタスクでオープンおよび独自のLLMと比較します:データからテキストの生成評価、機械翻訳評価、および人間が作成したテキストでのプロパガンダ検出。
私たちの実験では、スパンアノテーターとしてのLLMが実装するのに簡単であり、特に人間のアノテーターよりも費用効率が高いことを示しています。
LLMSは、アノテーター自体の平均合意に匹敵するいくつかのシナリオで、熟練した人間のアノテーターとの中程度の合意を達成します。
定性分析は、推論モデルが命令チューニングされたカウンターパートを上回り、注釈のより有効な説明を提供することを示しています。
さらなる研究のために、40k以上のモデルと人間の注釈のデータセットをリリースします。

要約(オリジナル)

For high-quality texts, single-score metrics seldom provide actionable feedback. In contrast, span annotation – pointing out issues in the text by annotating their spans – can guide improvements and provide insights. Until recently, span annotation was limited to human annotators or fine-tuned encoder models. In this study, we automate span annotation with large language models (LLMs). We compare expert or skilled crowdworker annotators with open and proprietary LLMs on three tasks: data-to-text generation evaluation, machine translation evaluation, and propaganda detection in human-written texts. In our experiments, we show that LLMs as span annotators are straightforward to implement and notably more cost-efficient than human annotators. The LLMs achieve moderate agreement with skilled human annotators, in some scenarios comparable to the average agreement among the annotators themselves. Qualitative analysis shows that reasoning models outperform their instruction-tuned counterparts and provide more valid explanations for annotations. We release the dataset of more than 40k model and human annotations for further research.

arxiv情報

著者 Zdeněk Kasner,Vilém Zouhar,Patrícia Schmidtová,Ivan Kartáč,Kristýna Onderková,Ondřej Plátek,Dimitra Gkatzia,Saad Mahamood,Ondřej Dušek,Simone Balloccu
発行日 2025-04-11 17:04:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models as Span Annotators はコメントを受け付けていません

ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

要約

Debertav3やModernbertなどの事前に保護された変圧器エンコーダーモデルは、効率とパフォーマンスの向上を目的とした建築の進歩を紹介します。
Modernbert Reportの著者は、いくつかのベンチマークでDeBertAV3のパフォーマンスを改善しましたが、開示されたトレーニングデータの欠如と共有データセットを使用した比較の欠如により、これらの利益がアーキテクチャの改善またはトレーニングデータの違いによるものであるかどうかを判断することが困難です。
この作業では、モデル設計の効果を分離するDEBERTAV3フランスのモデルであるCamemberTav2と同じデータセットでModernbertを前提とすることにより、制御された研究を実施します。
私たちの結果は、以前のモデル生成がサンプルの効率と全体的なベンチマークパフォーマンスにおいて優れていることを示しており、ModernBertの主な利点は、トレーニングと推論の速度を高速化することです。
ただし、新しい提案されたモデルは、BertやRobertaなどの以前のモデルと比較して、依然として意味のあるアーキテクチャの改善を提供します。
さらに、高品質のトレーニング前データは収束を加速しますが、最終パフォーマンスを大幅に改善しないことを観察し、潜在的なベンチマーク飽和を示唆しています。
これらの調査結果は、変圧器モデルを評価する際に、建築革新からデータを事前に移動することの重要性を示しています。

要約(オリジナル)

Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT’s primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.

arxiv情報

著者 Wissam Antoun,Benoît Sagot,Djamé Seddah
発行日 2025-04-11 17:29:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance はコメントを受け付けていません

SWAN-GPT: An Efficient and Scalable Approach for Long-Context Language Modeling

要約

トレーニング中に見られるものよりも大幅に長いシーケンスの長さに堅牢に一般化するデコーダーのみの変圧器アーキテクチャを紹介します。
私たちのモデルであるSwan-Gptは、位置エンコーディング(NOPE)のない層と、ロータリー位置エンコーディング(SWAロープ)を備えたスライドウィンドウの注意層を挿入します。
実験は、追加の長いコンテキストトレーニングを必要とせずに、トレーニング長よりもかなり長いシーケンス長の強力なパフォーマンスを示しています。
この堅牢な長さの外挿は、推論中の注意スコアの直接的な動的スケーリングによって強化された、新しいアーキテクチャを通じて達成されます。
さらに、SWAN-GPTは標準のGPTアーキテクチャよりも計算効率が高く、より安価なトレーニングとより高いスループットをもたらします。
さらに、既存の事前に訓練されたデコーダーのみのモデルを最小限の継続的なトレーニングで効率的にSWANアーキテクチャに変換できることを実証し、より長いコンテキストを可能にします。
全体として、私たちの作品は、堅牢で効率的な方法で、言語モデルをより長いコンテキストにスケーリングするための効果的なアプローチを提示します。

要約(オリジナル)

We present a decoder-only Transformer architecture that robustly generalizes to sequence lengths substantially longer than those seen during training. Our model, SWAN-GPT, interleaves layers without positional encodings (NoPE) and sliding-window attention layers equipped with rotary positional encodings (SWA-RoPE). Experiments demonstrate strong performance on sequence lengths significantly longer than the training length without the need for additional long-context training. This robust length extrapolation is achieved through our novel architecture, enhanced by a straightforward dynamic scaling of attention scores during inference. In addition, SWAN-GPT is more computationally efficient than standard GPT architectures, resulting in cheaper training and higher throughput. Further, we demonstrate that existing pre-trained decoder-only models can be efficiently converted to the SWAN architecture with minimal continued training, enabling longer contexts. Overall, our work presents an effective approach for scaling language models to longer contexts in a robust and efficient manner.

arxiv情報

著者 Krishna C. Puvvada,Faisal Ladhak,Santiago Akle Serrano,Cheng-Ping Hsieh,Shantanu Acharya,Somshubra Majumdar,Fei Jia,Samuel Kriman,Simeng Sun,Dima Rekesh,Boris Ginsburg
発行日 2025-04-11 17:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SWAN-GPT: An Efficient and Scalable Approach for Long-Context Language Modeling はコメントを受け付けていません

Adopting Large Language Models to Automated System Integration

要約

Modern Enterprise Computing Systemsは、多数のサブシステムを統合して、緊急行動を生み出すことで共通のタスクを解決します。
広範なアプローチは、それぞれ相互作用メカニズムとサービスドキュメントの基準を提供するRestやOpenapiなどのWebテクノロジーで実装されたサービスを使用することです。
各サービスは特定のビジネス機能を表し、カプセル化とメンテナンスが容易になります。
個々のサービスレベルでのメンテナンスコストの削減にもかかわらず、統合の複雑さの増加が生じます。
その結果、この問題を軽減するために、自動化されたサービス構成アプローチが生じています。
それにもかかわらず、これらのアプローチは、複雑な正式なモデリングに依存しているため、実際に高い受け入れを達成していません。
この博士号内
論文では、自然言語の入力に基づいてサービスを自動的に統合するために、大規模な言語モデル(LLMS)の適用を分析します。
その結果、プログラムコードなど、再利用可能なサービス構成ができます。
常に完全に正しい結果を生成するわけではありませんが、統合エンジニアに適切なソリューションの密接な近似を提供することで結果が役立つ可能性があります。
私たちの研究には、(i)LLMSを使用した自動サービス構成のソフトウェアアーキテクチャの導入(ii)サービス発見のための検索拡張生成(RAG)、(iii)サービス発見のための新しい自然言語クエリベースのベンチマークを提案し、(iv)ベンチマークを完全なサービス構成シナリオに拡張することを提案します。
ソフトウェアアーキテクチャをCompositio Prompto、サービス発見のためのRAGの分析として提示し、サービスディスカバリーベンチマークの提案を提出しました。
オープントピックは、主にサービス構成シナリオへのサービスディスカバリーベンチマークの拡張と、たとえば、微調整またはLLMエージェントを使用するサービス構成生成の改善です。

要約(オリジナル)

Modern enterprise computing systems integrate numerous subsystems to resolve a common task by yielding emergent behavior. A widespread approach is using services implemented with Web technologies like REST or OpenAPI, which offer an interaction mechanism and service documentation standard, respectively. Each service represents a specific business functionality, allowing encapsulation and easier maintenance. Despite the reduced maintenance costs on an individual service level, increased integration complexity arises. Consequently, automated service composition approaches have arisen to mitigate this issue. Nevertheless, these approaches have not achieved high acceptance in practice due to their reliance on complex formal modeling. Within this Ph.D. thesis, we analyze the application of Large Language Models (LLMs) to automatically integrate the services based on a natural language input. The result is a reusable service composition, e.g., as program code. While not always generating entirely correct results, the result can still be helpful by providing integration engineers with a close approximation of a suitable solution, which requires little effort to become operational. Our research involves (i) introducing a software architecture for automated service composition using LLMs, (ii) analyzing Retrieval Augmented Generation (RAG) for service discovery, (iii) proposing a novel natural language query-based benchmark for service discovery, and (iv) extending the benchmark to complete service composition scenarios. We have presented our software architecture as Compositio Prompto, the analysis of RAG for service discovery, and submitted a proposal for the service discovery benchmark. Open topics are primarily the extension of the service discovery benchmark to service composition scenarios and the improvements of the service composition generation, e.g., using fine-tuning or LLM agents.

arxiv情報

著者 Robin D. Pesl
発行日 2025-04-11 12:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Adopting Large Language Models to Automated System Integration はコメントを受け付けていません