Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models

要約

機械学習(ML)システムの信頼性を確保することは、ハイステークスドメインにますます組み込まれるため、重要です。
この論文は、因果的方法を機械学習に統合して、公平性、プライバシー、堅牢性、正確性、説明可能性など、信頼できるMLの主要な原則の間でトレードオフをナビゲートすることを提唱しています。
これらの目的は理想的には同時に満たされるべきですが、しばしば孤立して対処され、競合や最適ではないソリューションにつながります。
このペーパーでは、公平性と正確性やプライバシー、堅牢性などの目標をうまく調整するMLの因果関係の既存のアプリケーションに基づいて、信頼できるMLモデルと基礎モデルの両方で複数の競合目標のバランスをとるには因果的アプローチが不可欠であると主張しています。
これらのトレードオフを強調するだけでなく、因果性をMLおよびFoundationモデルに実際に統合する方法を調べ、信頼性と解釈性を高めるソリューションを提供します。
最後に、因果フレームワークを採用する際の課題、制限、機会について説明し、より説明責任のある倫理的に健全なAIシステムへの道を開きます。

要約(オリジナル)

Ensuring trustworthiness in machine learning (ML) systems is crucial as they become increasingly embedded in high-stakes domains. This paper advocates for integrating causal methods into machine learning to navigate the trade-offs among key principles of trustworthy ML, including fairness, privacy, robustness, accuracy, and explainability. While these objectives should ideally be satisfied simultaneously, they are often addressed in isolation, leading to conflicts and suboptimal solutions. Drawing on existing applications of causality in ML that successfully align goals such as fairness and accuracy or privacy and robustness, this paper argues that a causal approach is essential for balancing multiple competing objectives in both trustworthy ML and foundation models. Beyond highlighting these trade-offs, we examine how causality can be practically integrated into ML and foundation models, offering solutions to enhance their reliability and interpretability. Finally, we discuss the challenges, limitations, and opportunities in adopting causal frameworks, paving the way for more accountable and ethically sound AI systems.

arxiv情報

著者 Ruta Binkyte,Ivaxi Sheth,Zhijing Jin,Mohammad Havaei,Bernhard Schölkopf,Mario Fritz
発行日 2025-03-21 14:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models はコメントを受け付けていません

Learning Robust Reward Machines from Noisy Labels

要約

この論文は、騒々しい実行トレースの強化学習(RL)エージェントのための堅牢な報酬機(RMS)を学習するアプローチであるProb-IRMを紹介します。
RM駆動型RLの重要な側面は、エージェントのタスクを異なるサブタスクに分解する有限状態マシンの活用です。
ProbIRMは、ベイジアン後方の信念を使用して騒々しい痕跡からRMSを学習するために、騒々しい例に堅牢に堅牢になっている最先端の帰納的論理プログラミングフレームワークを使用して、矛盾に対する堅牢性を確保します。
結果の極めて重要なのは、RM学習とポリシー学習の間のインターリービングです。RLエージェントが現在のRMに受け入れられないと考えられているトレースを生成するたびに、新しいRMが学習されます。
RLエージェントのトレーニングをスピードアップするために、Prob-Irmは、痕跡から派生した事後ベイジアンの信念を使用する報酬形状の確率的定式化を採用しています。
私たちの実験分析は、ProbIRMが騒々しい痕跡からRMSを(潜在的に不完全な)学習し、それらを悪用してRLエージェントを訓練してタスクをうまく解決できることを示しています。
騒々しいトレースからRMを学習することの複雑さにもかかわらず、Prob-IRMで訓練されたエージェントは、手作りのRMSを提供するエージェントに比較的パフォーマンスを発揮します。

要約(オリジナル)

This paper presents PROB-IRM, an approach that learns robust reward machines (RMs) for reinforcement learning (RL) agents from noisy execution traces. The key aspect of RM-driven RL is the exploitation of a finite-state machine that decomposes the agent’s task into different subtasks. PROB-IRM uses a state-of-the-art inductive logic programming framework robust to noisy examples to learn RMs from noisy traces using the Bayesian posterior degree of beliefs, thus ensuring robustness against inconsistencies. Pivotal for the results is the interleaving between RM learning and policy learning: a new RM is learned whenever the RL agent generates a trace that is believed not to be accepted by the current RM. To speed up the training of the RL agent, PROB-IRM employs a probabilistic formulation of reward shaping that uses the posterior Bayesian beliefs derived from the traces. Our experimental analysis shows that PROB-IRM can learn (potentially imperfect) RMs from noisy traces and exploit them to train an RL agent to solve its tasks successfully. Despite the complexity of learning the RM from noisy traces, agents trained with PROB-IRM perform comparably to agents provided with handcrafted RMs.

arxiv情報

著者 Roko Parac,Lorenzo Nodari,Leo Ardon,Daniel Furelos-Blanco,Federico Cerutti,Alessandra Russo
発行日 2025-03-21 14:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Learning Robust Reward Machines from Noisy Labels はコメントを受け付けていません

DiTEC-WDN: A Large-Scale Dataset of Water Distribution Network Scenarios under Diverse Hydraulic Conditions

要約

プライバシーの制限は、実際の配電式(WDN)モデルの共有を妨げ、一般的に広範な観測が必要な、新しいデータ駆動型の機械学習の適用を制限します。
この課題に対処するために、短期(24時間)または長期(1年)のいずれかでシミュレートされた36,000の一意のシナリオで構成されるデータセットDITEC-WDNを提案します。
重要なパラメーター(圧力、流量、需要パターンなど)を最適化する自動パイプラインを使用してこのデータセットを構築し、大規模なシミュレーションを容易にし、ルール検証と事後分析を介して標準条件下で個別の合成で合成が油圧的に現実的な状態を記録します。
合計2億2,800万人の生成されたグラフベースの状態により、DITEC-WDNは、グラフレベル、ノードレベル、リンクレベルの回帰、および時系列予測など、さまざまな機械学習タスクをサポートできます。
公開免許の下でリリースされたこの貢献は、重要な水セクターでのオープンな科学研究を促進し、機密データを公開するリスクを排除し、研究比較とシナリオ分析のために大規模な配水販売ネットワークベンチマークの必要性を満たします。

要約(オリジナル)

Privacy restrictions hinder the sharing of real-world Water Distribution Network (WDN) models, limiting the application of emerging data-driven machine learning, which typically requires extensive observations. To address this challenge, we propose the dataset DiTEC-WDN that comprises 36,000 unique scenarios simulated over either short-term (24 hours) or long-term (1 year) periods. We constructed this dataset using an automated pipeline that optimizes crucial parameters (e.g., pressure, flow rate, and demand patterns), facilitates large-scale simulations, and records discrete, synthetic but hydraulically realistic states under standard conditions via rule validation and post-hoc analysis. With a total of 228 million generated graph-based states, DiTEC-WDN can support a variety of machine-learning tasks, including graph-level, node-level, and link-level regression, as well as time-series forecasting. This contribution, released under a public license, encourages open scientific research in the critical water sector, eliminates the risk of exposing sensitive data, and fulfills the need for a large-scale water distribution network benchmark for study comparisons and scenario analysis.

arxiv情報

著者 Huy Truong,Andrés Tello,Alexander Lazovik,Victoria Degeler
発行日 2025-03-21 14:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DiTEC-WDN: A Large-Scale Dataset of Water Distribution Network Scenarios under Diverse Hydraulic Conditions はコメントを受け付けていません

LLMs Love Python: A Study of LLMs’ Bias for Programming Languages and Libraries

要約

プログラミング言語とライブラリの選択は、ソフトウェアの信頼性とセキュリティにとって重要です。
貧弱または一貫性のない選択は、安全性の高いシステムにおける技術的な負債の増加、セキュリティの脆弱性、さらには壊滅的な失敗にさえつながる可能性があります。
大規模な言語モデル(LLM)がコード生成において増加する役割を果たしているため、これらの決定をどのように行うかを理解することが不可欠です。
ただし、さまざまなコーディングタスクに対してプログラミング言語とライブラリを選択する際には、好みについてはほとんど知られていません。
このギャップを埋めるために、この研究は、コードを生成するときに使用されるプログラミング言語とライブラリのLLM設定に関する最初の詳細な調査を提供します。
広く研究されているベンチマークや、新しいプロジェクトの初期構造コードを生成するというより実用的なタスクを含むさまざまなコーディングタスクを完了するように促すことにより、8つの多様なLLMの好みを評価します(プロジェクトの言語またはライブラリの選択をしばしば決定する重要なステップ)。
私たちの調査結果は、LLMSが言語に依存しない問題を解決する際にPythonを大きく支持し、ベンチマークタスクに症例の90%〜97%で使用することを明らかにしています。
Pythonが適切な言語ではない最初のプロジェクトコードを生成する場合でも、インスタンスの58%で最もよく使用されている言語のままです。
さらに、LLMSは、プロジェクトの初期化タスクの83%で独自の言語の推奨事項と矛盾し、言語の選択における信頼性について懸念を引き起こします。
確立された図書館に対する同様のバイアスは、新しいオープンソースプロジェクトに深刻な発見可能性の課題をさらに生み出します。
これらの結果は、多様なプログラミングコンテキストに対するLLMの適応性を改善し、プログラミング言語とライブラリバイアスを緩和するためのメカニズムを開発する必要性を強調しています。

要約(オリジナル)

Programming language and library choices are crucial to software reliability and security. Poor or inconsistent choices can lead to increased technical debt, security vulnerabilities, and even catastrophic failures in safety-critical systems. As Large Language Models (LLMs) play an increasing role in code generation, it is essential to understand how they make these decisions. However, little is known about their preferences when selecting programming languages and libraries for different coding tasks. To fill this gap, this study provides the first in-depth investigation into LLM preferences for programming languages and libraries used when generating code. We assess the preferences of eight diverse LLMs by prompting them to complete various coding tasks, including widely-studied benchmarks and the more practical task of generating the initial structural code for new projects (a crucial step that often determines a project’s language or library choices). Our findings reveal that LLMs heavily favour Python when solving language-agnostic problems, using it in 90%-97% of cases for benchmark tasks. Even when generating initial project code where Python is not a suitable language, it remains the most-used language in 58% of instances. Moreover, LLMs contradict their own language recommendations in 83% of project initialisation tasks, raising concerns about their reliability in guiding language selection. Similar biases toward well-established libraries further create serious discoverability challenges for newer open-source projects. These results highlight the need to improve LLMs’ adaptability to diverse programming contexts and to develop mechanisms for mitigating programming language and library bias.

arxiv情報

著者 Lukas Twist,Jie M. Zhang,Mark Harman,Don Syme,Joost Noppen,Detlef Nauck
発行日 2025-03-21 14:29:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | LLMs Love Python: A Study of LLMs’ Bias for Programming Languages and Libraries はコメントを受け付けていません

D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection

要約

ディープフェイクの検出は、社会に引き起こす害を抑えるために重要です。
ただし、現在のディープフェイク検出方法は、本質的な相互作用が不十分なため、異なるドメインにわたってアーティファクト情報を徹底的に探索できません。
これらの相互作用は、異なるドメインにわたる特徴抽出プロセス後の融合と調整を指します。これは、複雑な偽造の手がかりを認識するために重要です。
この作業では、より一般化されたディープファーク検出に焦点を当てて、空間ドメインからのアーティファクトの手がかりのローカルな位置情報をキャプチャするための新しい双方向の注意モジュールを紹介します。
これにより、正確なアーティファクトローカリゼーションが可能になり、アーティファクト機能を備えた粗い処理に対処します。
提案された双方向の注意モジュールが、アーティファクト機能(テクスチャやエッジなど)でグローバルな微妙な偽造情報をキャプチャしない可能性があるという制限にさらに対処するために、周波数領域で微細粒度周波数注意モジュールを使用します。
そうすることで、グローバルで微妙な偽造情報を含む、きめ細かい機能で高周波情報を取得できます。
多様なドメインからのこれらの機能は効果的かつ独立して改善できますが、それらを直接融合させることは、検出パフォーマンスを効果的に改善しません。
したがって、空間ドメインと周波数ドメインからの情報を補完する機能の重ね合わせ戦略を提案します。
この戦略は、機能コンポーネントを波のようなトークンの形式に変えます。これは、フェーズに基づいて更新されるため、本物の機能とアーティファクト機能の区別を増幅できます。
私たちの方法は、さまざまな操作された運用と現実の異常にわたって異常をキャプチャする際に、5つの公開ディープファークデータセットの最先端(SOTA)メソッドに対する大幅な改善を示しています。

要約(オリジナル)

Deepfake detection is crucial for curbing the harm it causes to society. However, current Deepfake detection methods fail to thoroughly explore artifact information across different domains due to insufficient intrinsic interactions. These interactions refer to the fusion and coordination after feature extraction processes across different domains, which are crucial for recognizing complex forgery clues. Focusing on more generalized Deepfake detection, in this work, we introduce a novel bi-directional attention module to capture the local positional information of artifact clues from the spatial domain. This enables accurate artifact localization, thus addressing the coarse processing with artifact features. To further address the limitation that the proposed bi-directional attention module may not well capture global subtle forgery information in the artifact feature (e.g., textures or edges), we employ a fine-grained frequency attention module in the frequency domain. By doing so, we can obtain high-frequency information in the fine-grained features, which contains the global and subtle forgery information. Although these features from the diverse domains can be effectively and independently improved, fusing them directly does not effectively improve the detection performance. Therefore, we propose a feature superposition strategy that complements information from spatial and frequency domains. This strategy turns the feature components into the form of wave-like tokens, which are updated based on their phase, such that the distinctions between authentic and artifact features can be amplified. Our method demonstrates significant improvements over state-of-the-art (SOTA) methods on five public Deepfake datasets in capturing abnormalities across different manipulated operations and real-life.

arxiv情報

著者 Xueqi Qiu,Xingyu Miao,Fan Wan,Haoran Duan,Tejal Shah,Varun Ojhab,Yang Longa,Rajiv Ranjan
発行日 2025-03-21 14:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection はコメントを受け付けていません

GiVE: Guiding Visual Encoder to Perceive Overlooked Information

要約

マルチモーダルの大手言語モデルは、テキストからビデオへの生成や視覚的な質問応答などのアプリケーションでAIが高度になっています。
これらのモデルは、非テキストデータをベクトルに変換するために視覚エンコーダーに依存していますが、現在のエンコーダーはセマンティックアライメントを欠いているか、非適性オブジェクトを見落としています。
見過ごされている情報(与える)アプローチを知覚するために、ガイドの視覚エンコーダを提案します。
注意ガイド付きアダプター(Ag-Adapter)モジュールとオブジェクト中心の視覚セマンティック学習モジュールを使用して、視覚表現を強化します。
これらには、オブジェクトに焦点を当てた画像テキストコントラスト(OITC)損失、オブジェクト中心の画像イメージコントラスト(OIIC)損失、およびオブジェクト中心の画像識別(OIC)損失、オブジェクトの考慮の改善、検索精度、および包括性の3つの新しい損失項が組み込まれています。
私たちの貢献には、動的な視覚的焦点調整、オブジェクトの検索を強化するための新しい損失関数、およびマルチオブジェクト命令(MOINST)データセットが含まれます。
実験は、私たちのアプローチが最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Multimodal Large Language Models have advanced AI in applications like text-to-video generation and visual question answering. These models rely on visual encoders to convert non-text data into vectors, but current encoders either lack semantic alignment or overlook non-salient objects. We propose the Guiding Visual Encoder to Perceive Overlooked Information (GiVE) approach. GiVE enhances visual representation with an Attention-Guided Adapter (AG-Adapter) module and an Object-focused Visual Semantic Learning module. These incorporate three novel loss terms: Object-focused Image-Text Contrast (OITC) loss, Object-focused Image-Image Contrast (OIIC) loss, and Object-focused Image Discrimination (OID) loss, improving object consideration, retrieval accuracy, and comprehensiveness. Our contributions include dynamic visual focus adjustment, novel loss functions to enhance object retrieval, and the Multi-Object Instruction (MOInst) dataset. Experiments show our approach achieves state-of-the-art performance.

arxiv情報

著者 Junjie Li,Jianghong Ma,Xiaofeng Zhang,Yuhang Li,Jianyang Shi
発行日 2025-03-21 14:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | GiVE: Guiding Visual Encoder to Perceive Overlooked Information はコメントを受け付けていません

Zero-Shot Reinforcement Learning via Function Encoders

要約

強化学習(RL)は多くの挑戦的な順次意思決定の問題を解決することができますが、関連するタスク全体でゼロショット転送を達成することは依然として課題です。
エージェントが以前に見たタスクとどのように関係するかを理解するように、現在のタスクの適切な表現を見つけることが困難です。
ゼロショット転送を実現するために、関数エンコーダを導入します。これは、学習していない非線形基底関数の加重組み合わせとして関数を表す表現学習アルゴリズムです。
関数エンコーダーを使用して報酬機能または遷移関数を表すことにより、エージェントは、現在のタスクがコヒーレントベクトル表現を介して以前に見たタスクにどのように関連するかについての情報を持っています。
したがって、エージェントは、追加のトレーニングなしで、実行時に関連するタスク間の転送を達成することができます。
関数エンコーダータスク表現を使用して基本的なRLアルゴリズムを増強することにより、3つのRLフィールドで最先端のデータ効率、漸近パフォーマンス、およびトレーニングの安定性を示します。

要約(オリジナル)

Although reinforcement learning (RL) can solve many challenging sequential decision making problems, achieving zero-shot transfer across related tasks remains a challenge. The difficulty lies in finding a good representation for the current task so that the agent understands how it relates to previously seen tasks. To achieve zero-shot transfer, we introduce the function encoder, a representation learning algorithm which represents a function as a weighted combination of learned, non-linear basis functions. By using a function encoder to represent the reward function or the transition function, the agent has information on how the current task relates to previously seen tasks via a coherent vector representation. Thus, the agent is able to achieve transfer between related tasks at run time with no additional training. We demonstrate state-of-the-art data efficiency, asymptotic performance, and training stability in three RL fields by augmenting basic RL algorithms with a function encoder task representation.

arxiv情報

著者 Tyler Ingebrand,Amy Zhang,Ufuk Topcu
発行日 2025-03-21 14:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Zero-Shot Reinforcement Learning via Function Encoders はコメントを受け付けていません

TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning

要約

モデルのカスタマイズには、高品質で多様なデータセットが必要ですが、そのようなデータの取得は依然として挑戦的で費用がかかります。
大規模な言語モデル(LLM)はトレーニングデータを合成できますが、現在のアプローチは、限られた種子データ、モデルバイアス、および生成プロセスの不十分な制御によって制約され、データスケールの増加に伴う多様性が限られています。
この課題に取り組むために、データ統合の包括的かつ多様なスケーリングを可能にするデータ空間全体をHierar-Chicalサブスペースに再帰的に分割するツリーガイド下の部分空間ベースのデータ合成フレームワークであるThreasynthを提示します。
簡単に言えば、タスク固有の説明を考慮して、基準の決定と部分空間のカバレッジ手順を繰り返し実行することにより、データ空間分割ツリーを構築します。
これにより、空間全体(すなわち、ルートノード)を相互に排他的で補完的な原子サブスペース(つまり、リーフノード)に階層的に分割します。
各リーフノードの属性に従って合成データを収集することにより、データ空間を完全にカバーする多様なデータセットを取得します。
経験的に、私たちの広範な実験は、Treeynthが人間が設計したデータセットと最先端のデータ合成ベースラインの両方を上回り、データの多様性が45.2%、さまざまなモデルやタスクにわたってダウンストリームタスクパフォ​​ーマンスで17.6%の最大改善を達成することを示しています。
うまくいけば、Threasynthは、人間の介入なしに、多様で包括的なデータセットをゼロから合成するためのスケーラブルなソリューションを提供することを願っています。

要約(オリジナル)

Model customization requires high-quality and diverse datasets, but acquiring such data remains challenging and costly. Although large language models (LLMs) can synthesize training data, current approaches are constrained by limited seed data, model bias and insufficient control over the generation process, resulting in limited diversity and biased distribution with the increase of data scales. To tackle this challenge, we present TreeSynth, a tree-guided subspace-based data synthesis framework that recursively partitions the entire data space into hierar-chical subspaces, enabling comprehensive and diverse scaling of data synthesis. Briefly, given a task-specific description, we construct a data space partitioning tree by iteratively executing criteria determination and subspace coverage steps. This hierarchically divides the whole space (i.e., root node) into mutually exclusive and complementary atomic subspaces (i.e., leaf nodes). By collecting synthesized data according to the attributes of each leaf node, we obtain a diverse dataset that fully covers the data space. Empirically, our extensive experiments demonstrate that TreeSynth surpasses both human-designed datasets and the state-of-the-art data synthesis baselines, achieving maximum improvements of 45.2% in data diversity and 17.6% in downstream task performance across various models and tasks. Hopefully, TreeSynth provides a scalable solution to synthesize diverse and comprehensive datasets from scratch without human intervention.

arxiv情報

著者 Sheng Wang,Pengan Chen,Jingqi Zhou,Qintong Li,Jingwei Dong,Jiahui Gao,Boyang Xue,Jiyue Jiang,Lingpeng Kong,Chuan Wu
発行日 2025-03-21 14:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning はコメントを受け付けていません

Generation of Geodesics with Actor-Critic Reinforcement Learning to Predict Midpoints

要約

無限に定義されたメトリックを備えたマニホールド上のすべてのペアのすべてのペアの最短パスを見つけるために、中間点を再帰的に予測することにより、それらを生成するフレームワークを紹介します。
Midpointの予測を学ぶために、俳優と批判的なアプローチを提案します。
私たちはアプローチの健全性を証明し、提案された方法が複雑な運動学を持つエージェントのパス計画や、複数のフリードムロボットアームのモーション計画など、いくつかの計画タスクの既存の方法よりも優れていることを実験的に示します。

要約(オリジナル)

To find the shortest paths for all pairs on manifolds with infinitesimally defined metrics, we introduce a framework to generate them by predicting midpoints recursively. To learn midpoint prediction, we propose an actor-critic approach. We prove the soundness of our approach and show experimentally that the proposed method outperforms existing methods on several planning tasks, including path planning for agents with complex kinematics and motion planning for multi-degree-of-freedom robot arms.

arxiv情報

著者 Kazumi Kasaura
発行日 2025-03-21 14:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Generation of Geodesics with Actor-Critic Reinforcement Learning to Predict Midpoints はコメントを受け付けていません

LitLLM: A Toolkit for Scientific Literature Review

要約

科学論文のために文献レビューを実施することは、研究、その制限、および既存の作業に基づいて構築するために不可欠です。
これは、自動文献レビュージェネレーターを魅力的にする退屈な作業です。
残念ながら、大規模な言語モデル(LLM)を使用してこのようなレビューを生成する多くの既存の作品には、大きな制限があります。
彼らは非致命的な情報を幻覚化する傾向があり、彼らが訓練されていない最新の研究を無視します。
これらの制限に対処するために、LLMSの助けを借りて、検索拡張生成(RAG)の原則、専門的なプロンプト、指導テクニックで動作するツールキットを提案します。
当社のシステムは、最初に、オフシェルフLLMを使用してユーザーが提供するアブストラクトをキーワードにまとめることにより、関連する論文を取得するためにWeb検索を開始します。
著者は、関連する論文やキーワードを補充することにより、検索を強化し、調整された検索プロセスに貢献できます。
第二に、システムは、ユーザーが提供する要約に基づいて、取得した論文を再ランクします。
最後に、関連する作業セクションは、再ランクの結果と要約に基づいて生成されます。
従来の方法と比較して、文献レビューのために時間と労力が大幅に削減され、効率的な代替手段としてツールキットを確立しています。
デモやツールキットを含むプロジェクトページには、https://litllm.github.ioにアクセスできます。

要約(オリジナル)

Conducting literature reviews for scientific papers is essential for understanding research, its limitations, and building on existing work. It is a tedious task which makes an automatic literature review generator appealing. Unfortunately, many existing works that generate such reviews using Large Language Models (LLMs) have significant limitations. They tend to hallucinate-generate non-factual information-and ignore the latest research they have not been trained on. To address these limitations, we propose a toolkit that operates on Retrieval Augmented Generation (RAG) principles, specialized prompting and instructing techniques with the help of LLMs. Our system first initiates a web search to retrieve relevant papers by summarizing user-provided abstracts into keywords using an off-the-shelf LLM. Authors can enhance the search by supplementing it with relevant papers or keywords, contributing to a tailored retrieval process. Second, the system re-ranks the retrieved papers based on the user-provided abstract. Finally, the related work section is generated based on the re-ranked results and the abstract. There is a substantial reduction in time and effort for literature review compared to traditional methods, establishing our toolkit as an efficient alternative. Our project page including the demo and toolkit can be accessed here: https://litllm.github.io

arxiv情報

著者 Shubham Agarwal,Gaurav Sahu,Abhay Puri,Issam H. Laradji,Krishnamurthy DJ Dvijotham,Jason Stanley,Laurent Charlin,Christopher Pal
発行日 2025-03-21 14:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | LitLLM: A Toolkit for Scientific Literature Review はコメントを受け付けていません