Making Universal Policies Universal

要約

幅広い連続した意思決定タスクを解決できるジェネラリストのエージェントの開発は、依然として大きな課題です。
エージェントが同じ観測スペースを共有しているが、アクションスペースが異なるクロスエージェントセットアップでこの問題に対処します。
私たちのアプローチは、ポリシー学習を2つの段階に切り離すユニバーサルポリシーフレームワークに基づいています。観測シーケンスを生成する拡散ベースのプランナーと、これらの計画にアクションを割り当てる逆ダイナミクスモデルです。
すべてのエージェントからの軌跡で構成される共同データセットでプランナーをトレーニングする方法を提案します。
この方法は、さまざまなエージェントからのデータをプールすることにより肯定的な転送の利点を提供しますが、主な課題は、共有計画を各エージェントの独自の制約に適応させることにあります。
babyai環境でのアプローチを評価し、さまざまな複雑さのタスクをカバーし、エージェント間の肯定的な転送を示します。
さらに、目に見えないエージェントに対するプランナーの一般化能力を調べ、私たちの方法を従来の模倣学習アプローチと比較します。
複数のエージェントからのプールされたデータセットでトレーニングすることにより、当社のユニバーサルポリシーは、単一のエージェントからのデータセットでトレーニングされたポリシーと比較して、タスク完了の精度で最大42.20ドル\%$の改善を達成します。

要約(オリジナル)

The development of a generalist agent capable of solving a wide range of sequential decision-making tasks remains a significant challenge. We address this problem in a cross-agent setup where agents share the same observation space but differ in their action spaces. Our approach builds on the universal policy framework, which decouples policy learning into two stages: a diffusion-based planner that generates observation sequences and an inverse dynamics model that assigns actions to these plans. We propose a method for training the planner on a joint dataset composed of trajectories from all agents. This method offers the benefit of positive transfer by pooling data from different agents, while the primary challenge lies in adapting shared plans to each agent’s unique constraints. We evaluate our approach on the BabyAI environment, covering tasks of varying complexity, and demonstrate positive transfer across agents. Additionally, we examine the planner’s generalisation ability to unseen agents and compare our method to traditional imitation learning approaches. By training on a pooled dataset from multiple agents, our universal policy achieves an improvement of up to $42.20\%$ in task completion accuracy compared to a policy trained on a dataset from a single agent.

arxiv情報

著者 Niklas Höpner,David Kuric,Herke van Hoof
発行日 2025-02-20 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Making Universal Policies Universal はコメントを受け付けていません

Real-Time Device Reach Forecasting Using HLL and MinHash Data Sketches

要約

ユーザーが指定したターゲティング属性に基づいて、適切な数のテレビ(デバイスリーチ)をリアルタイムで予測することは、数百万ドルの広告ビジネスを実行するために不可欠です。
複数のターゲティングディメンションにわたって数十億のレコードに参加するためのSQLクエリの従来のアプローチは非常に遅いです。
回避策として、多くのアプリケーションには、これらの数値を計算し、何時間も後に結果を提示するオフラインプロセスがあります。
私たちの場合、解決策はオフラインプロセスで、24時間かかり、顧客に搭載され、潜在的なビジネスの損失が発生しました。
この問題を解決するために、MinhashとHyperLoglog(HLL)データスケッチを使用して新しいリアルタイム予測システムを構築して、ユーザーがリクエストを行う実行時にデバイスリーチを計算しました。
ただし、既存のMinhashの実装では、マルチレベルの集約と交差点の複雑な問題を解決しません。
この作業では、この問題をどのように解決したかを示します。さらに、単一命令マルチデータ(SIMD)ベクトル化された操作を使用して、数十億のレコードを処理するための一定のスペースで高速と精度を使用して、Minhashアルゴリズムを4倍高速に実行するように改善されました。
最後に、実験により、結果が5%の許容可能なエラー率を持つ従来のオフライン予測システムと同じくらい正確であることを証明します。

要約(オリジナル)

Predicting the right number of TVs (Device Reach) in real-time based on a user-specified targeting attributes is imperative for running multi-million dollar ADs business. The traditional approach of SQL queries to join billions of records across multiple targeting dimensions is extremely slow. As a workaround, many applications will have an offline process to crunch these numbers and present the results after many hours. In our case, the solution was an offline process taking 24 hours to onboard a customer resulting in a potential loss of business. To solve this problem, we have built a new real-time prediction system using MinHash and HyperLogLog (HLL) data sketches to compute the device reach at runtime when a user makes a request. However, existing MinHash implementations do not solve the complex problem of multilevel aggregation and intersection. This work will show how we have solved this problem, in addition, we have improved MinHash algorithm to run 4 times faster using Single Instruction Multiple Data (SIMD) vectorized operations for high speed and accuracy with constant space to process billions of records. Finally, by experiments, we prove that the results are as accurate as traditional offline prediction system with an acceptable error rate of 5%.

arxiv情報

著者 Chandrashekar Muniyappa,Kendall Willets,Sriraman Krishnamoorthy
発行日 2025-02-20 18:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60G25, cs.AI, cs.DB, cs.LG, I.5.3 | Real-Time Device Reach Forecasting Using HLL and MinHash Data Sketches はコメントを受け付けていません

Ray-Tracing for Conditionally Activated Neural Networks

要約

このホワイトペーパーでは、専門家(MOE)層の複数の混合物の階層構造を組み合わせた条件付きで活性化されたニューラルネットワークの新しいアーキテクチャを紹介し、サンプリングメカニズムを組み合わせて、エキスパート活性化の最適化された構成に徐々に収束します。
この方法論により、ネットワークのアーキテクチャの動的展開が可能になり、効率的なパス固有のトレーニングが促進されます。
実験結果は、このアプローチが従来のベースラインと比較して競争の精度を達成し、推論に必要なパラメーター数を大幅に削減することを示しています。
特に、このパラメーター削減は、明示的な補助ペナルティ関数を必要とせずに、ネットワークの運用ダイナミクスから自然に現れるプロパティである入力パターンの複雑さと相関しています。

要約(オリジナル)

In this paper, we introduce a novel architecture for conditionally activated neural networks combining a hierarchical construction of multiple Mixture of Experts (MoEs) layers with a sampling mechanism that progressively converges to an optimized configuration of expert activation. This methodology enables the dynamic unfolding of the network’s architecture, facilitating efficient path-specific training. Experimental results demonstrate that this approach achieves competitive accuracy compared to conventional baselines while significantly reducing the parameter count required for inference. Notably, this parameter reduction correlates with the complexity of the input patterns, a property naturally emerging from the network’s operational dynamics without necessitating explicit auxiliary penalty functions.

arxiv情報

著者 Claudio Gallicchio,Giuseppe Nuti
発行日 2025-02-20 18:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Ray-Tracing for Conditionally Activated Neural Networks はコメントを受け付けていません

Rapid Word Learning Through Meta In-Context Learning

要約

人間は、いくつかの実例から新しい単語を迅速に学び、次に新しい文脈で体系的かつ柔軟に使用できます。
しかし、少数のショットワード学習のための現在の言語モデルの能力、およびこれらの能力を改善する方法は、露出不足です。
この研究では、単語のコンテキスト学習のためのメタトレーニング(Minnow)の新しい方法を紹介します。
この方法は、言語モデルをトレーニングして、特別なプレースホルダートークンを使用して新しい単語を表すいくつかのコンテキストの例を考慮して、単語の使用の新しい例を生成します。
このトレーニングは、一般的な単語学習能力を開発するために、多くの新しい単語で繰り返されます。
Minnowを使用した人間の子ども向け言語でのゼロからのトレーニングモデルは、数桁のより多くのデータで事前に訓練された大規模な言語モデル(LLM)に匹敵する強力な少数の単語学習を可能にすることがわかります。
さらに、差別的および生成的評価を通じて、Minnowで微調整する事前訓練を受けたLLMが、新しい単語を区別し、新しい単語の構文カテゴリを特定し、1つまたはAに基づいて新しい単語の合理的な新しい使用法と定義を生成する能力を向上させることを実証します。
コンテキスト内の例はほとんどありません。
これらの調査結果は、ミノーのデータ効率と、単語学習タスクの言語モデルのパフォーマンスを改善する可能性を強調しています。

要約(オリジナル)

Humans can quickly learn a new word from a few illustrative examples, and then systematically and flexibly use it in novel contexts. Yet the abilities of current language models for few-shot word learning, and methods for improving these abilities, are underexplored. In this study, we introduce a novel method, Meta-training for IN-context learNing Of Words (Minnow). This method trains language models to generate new examples of a word’s usage given a few in-context examples, using a special placeholder token to represent the new word. This training is repeated on many new words to develop a general word-learning ability. We find that training models from scratch with Minnow on human-scale child-directed language enables strong few-shot word learning, comparable to a large language model (LLM) pre-trained on orders of magnitude more data. Furthermore, through discriminative and generative evaluations, we demonstrate that finetuning pre-trained LLMs with Minnow improves their ability to discriminate between new words, identify syntactic categories of new words, and generate reasonable new usages and definitions for new words, based on one or a few in-context examples. These findings highlight the data efficiency of Minnow and its potential to improve language model performance in word learning tasks.

arxiv情報

著者 Wentao Wang,Guangyuan Jiang,Tal Linzen,Brenden M. Lake
発行日 2025-02-20 18:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Rapid Word Learning Through Meta In-Context Learning はコメントを受け付けていません

Bi-Fact: A Bidirectional Factorization-based Evaluation of Intent Extraction from UI Trajectories

要約

GUISからの意図抽出を評価するには、正確で微調整されたメトリックが必要です。
このペーパーでは、意図を原子の事実に分解し、精度とリコールを評価するために双方向の比較を実行する双末の方法を紹介します。
実験は、既存のメトリックと比較して人間の判断との双末の優れた相関を示しており、UI駆動型の意図の理解のためのより堅牢な評価フレームワークを確立します。

要約(オリジナル)

Evaluating intent extraction from GUIs demands accurate, fine-grained metrics. This paper introduces Bi-Fact, a novel method that decomposes intents into atomic facts and performs bidirectional comparisons to assess precision and recall. Experiments demonstrate Bi-Fact’s superior correlation with human judgments compared to existing metrics, establishing a more robust evaluation framework for UI-driven intent understanding.

arxiv情報

著者 Sapir Caduri
発行日 2025-02-20 18:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Bi-Fact: A Bidirectional Factorization-based Evaluation of Intent Extraction from UI Trajectories はコメントを受け付けていません

From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

要約

知識を継続的に獲得、整理、および活用する能力は、AIシステムが最大限の潜在能力を解除するために近似しなければならない人間の知性の重要な特徴です。
大規模な言語モデル(LLMS)を使用した継続的な学習における課題を考えると、検索された生成(RAG)が新しい情報を導入する支配的な方法になりました。
ただし、ベクトル検索への依存は、人間の長期記憶の動的で相互に接続された性質を模倣する能力を妨げます。
最近のRAGアプローチは、これらのギャップの一部、つまり感覚作りと連想性に対処するために、知識グラフなどのさまざまな構造を持つベクトル埋め込みを増強します。
ただし、より基本的な事実のメモリタスクでのパフォーマンスは、標準的なぼろきれをはるかに下回ります。
この意図しない劣化に対処し、Hipporag 2を提案します。これは、事実、センスメイキング、および連想メモリタスクに関して標準的なRAGを包括的に上回るフレームワークです。
Hipporag 2は、Hipporagで使用されるパーソナライズされたPagerankアルゴリズムに基づいて構築され、より深い通過統合とLLMのより効果的なオンライン使用でそれを強化します。
この組み合わせにより、このRAGシステムが人間の長期記憶の有効性に近づき、最先端の埋め込みモデルよりも連想メモリタスクの7%の改善を達成しながら、優れた事実の知識と感覚作成の記憶機能を示します。
この作業は、LLMSのノンパラメトリック継続学習への道を開きます。
コードとデータは、https://github.com/osu-nlp-group/hipporagでリリースされます。

要約(オリジナル)

Our ability to continuously acquire, organize, and leverage knowledge is a key feature of human intelligence that AI systems must approximate to unlock their full potential. Given the challenges in continual learning with large language models (LLMs), retrieval-augmented generation (RAG) has become the dominant way to introduce new information. However, its reliance on vector retrieval hinders its ability to mimic the dynamic and interconnected nature of human long-term memory. Recent RAG approaches augment vector embeddings with various structures like knowledge graphs to address some of these gaps, namely sense-making and associativity. However, their performance on more basic factual memory tasks drops considerably below standard RAG. We address this unintended deterioration and propose HippoRAG 2, a framework that outperforms standard RAG comprehensively on factual, sense-making, and associative memory tasks. HippoRAG 2 builds upon the Personalized PageRank algorithm used in HippoRAG and enhances it with deeper passage integration and more effective online use of an LLM. This combination pushes this RAG system closer to the effectiveness of human long-term memory, achieving a 7% improvement in associative memory tasks over the state-of-the-art embedding model while also exhibiting superior factual knowledge and sense-making memory capabilities. This work paves the way for non-parametric continual learning for LLMs. Our code and data will be released at https://github.com/OSU-NLP-Group/HippoRAG.

arxiv情報

著者 Bernal Jiménez Gutiérrez,Yiheng Shu,Weijian Qi,Sizhe Zhou,Yu Su
発行日 2025-02-20 18:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | From RAG to Memory: Non-Parametric Continual Learning for Large Language Models はコメントを受け付けていません

Optimizing Model Selection for Compound AI Systems

要約

Self RefineやMulti-Agent Debateなどの複数のLLM呼び出しを組み合わせた化合物AIシステムは、多くのAIタスクで強力なパフォーマンスを実現します。
複合システムの最適化におけるコア質問に対処します。システム内のLLMコールまたはモジュールごとに、どのLLMを使用するかをどのように決定すべきですか?
これらのLLMの選択が品質に大きな影響を与えるが、検索スペースは指数関数的であることを示します。
複合システムでのモデル選択の効率的なフレームワークであるLLMSelectorを提案します。これは、2つの重要な経験的洞察を活用します。(i)エンドツーエンドのパフォーマンスは、他のすべてのモジュールが固定された状態で、各モジュールのパフォーマンスがどれだけうまく機能するかについて単調であることがよくあります。
)モジュールあたりのパフォーマンスは、LLMによって正確に推定できます。
これらの洞察に基づいて、LLMSelectorは1つのモジュールを繰り返し選択し、LLMによって推定されるように、それ以上のゲインが不可能になるまで、最も高いモジュールごとのパフォーマンスでモデルを割り当てます。
LLMSelectorは、境界数のモジュールを持つ任意の化合物システムに適用でき、API呼び出しの数はモジュールの数と直線的にスケールし、経験的にも理論的にも高品質のモデル割り当てを達成します。
GPT-4O、Claude 3.5 Sonnet、Gemini 1.5などのLLMを使用して、マルチエージェントの討論や自己強化などの一般的な化合物システムを使用した実験は、LLMSelectorがすべてのモジュールで同じLLMを使用するのと比較して5%-70%の精度ゲインを付与することを示しています。

要約(オリジナル)

Compound AI systems that combine multiple LLM calls, such as self-refine and multi-agent-debate, achieve strong performance on many AI tasks. We address a core question in optimizing compound systems: for each LLM call or module in the system, how should one decide which LLM to use? We show that these LLM choices have a large effect on quality, but the search space is exponential. We propose LLMSelector, an efficient framework for model selection in compound systems, which leverages two key empirical insights: (i) end-to-end performance is often monotonic in how well each module performs, with all other modules held fixed, and (ii) per-module performance can be estimated accurately by an LLM. Building upon these insights, LLMSelector iteratively selects one module and allocates to it the model with the highest module-wise performance, as estimated by an LLM, until no further gain is possible. LLMSelector is applicable to any compound system with a bounded number of modules, and its number of API calls scales linearly with the number of modules, achieving high-quality model allocation both empirically and theoretically. Experiments with popular compound systems such as multi-agent debate and self-refine using LLMs such as GPT-4o, Claude 3.5 Sonnet and Gemini 1.5 show that LLMSelector confers 5%-70% accuracy gains compared to using the same LLM for all modules.

arxiv情報

著者 Lingjiao Chen,Jared Quincy Davis,Boris Hanin,Peter Bailis,Matei Zaharia,James Zou,Ion Stoica
発行日 2025-02-20 18:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA | Optimizing Model Selection for Compound AI Systems はコメントを受け付けていません

The Computational Limits of State-Space Models and Mamba via the Lens of Circuit Complexity

要約

この論文では、回路の複雑さフレームワークを使用して、MAMBAおよび状態空間モデル(SSM)の計算制限を分析します。
マンバのステートフルなデザインとトランスフォーマーよりも優れた強力な候補としての最近の注意にもかかわらず、私たちは$ \ mathrm {poly}(n)$ – 精度と一定の深い層を持つMAMBAとSSMの両方が$ \ mathsf {dlogtime}内に存在することを実証しました。
$ -Uniform $ \ mathsf {tc}^0 $ complexityクラス。
この結果は、MAMBAが変圧器と同じ計算機能を持っていることを示しており、$ \ Mathsf {TC}^0 \ Neq \ Mathsf {nc}^1の場合、算術式の問題、ブール式の式値の問題、順列構成の問題などの問題を解決することはできません。
$。
したがって、マンバは変圧器よりも計算上表現型であるという仮定に挑戦します。
私たちの貢献には、選択的SSMおよびMAMBAアーキテクチャが$ \ mathsf {dlogtime} $ – 均一な$ \ mathsf {tc}^0 $ circuitsでシミュレートできることを示す厳格な証拠が含まれます。
$。

要約(オリジナル)

In this paper, we analyze the computational limitations of Mamba and State-space Models (SSMs) by using the circuit complexity framework. Despite Mamba’s stateful design and recent attention as a strong candidate to outperform Transformers, we have demonstrated that both Mamba and SSMs with $\mathrm{poly}(n)$-precision and constant-depth layers reside within the $\mathsf{DLOGTIME}$-uniform $\mathsf{TC}^0$ complexity class. This result indicates Mamba has the same computational capabilities as Transformer theoretically, and it cannot solve problems like arithmetic formula problems, boolean formula value problems, and permutation composition problems if $\mathsf{TC}^0 \neq \mathsf{NC}^1$. Therefore, it challenges the assumption Mamba is more computationally expressive than Transformers. Our contributions include rigorous proofs showing that Selective SSM and Mamba architectures can be simulated by $\mathsf{DLOGTIME}$-uniform $\mathsf{TC}^0$ circuits, and they cannot solve problems outside $\mathsf{TC}^0$.

arxiv情報

著者 Yifang Chen,Xiaoyu Li,Yingyu Liang,Zhenmei Shi,Zhao Song
発行日 2025-02-20 18:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL, cs.LG | The Computational Limits of State-Space Models and Mamba via the Lens of Circuit Complexity はコメントを受け付けていません

eC-Tab2Text: Aspect-Based Text Generation from e-Commerce Product Tables

要約

大規模な言語モデル(LLMS)は、多様なドメイン全体で並外れた汎用性を実証していますが、eコマースへのアプリケーションは、ドメイン固有のデータセットが不足しているため、既に採用されていないままです。
このギャップに対処するために、詳細な製品属性やユーザー固有のクエリなど、eコマースの複雑さをキャプチャするように設計された新しいデータセットであるEc-Tab2Textを紹介します。
EC-TAB2TEXTを活用すると、製品テーブルからのテキスト生成に焦点を当て、LLMが構造化された表形式データから高品質の属性固有の製品レビューを作成できるようにします。
微調整されたモデルは、標準のTable2textメトリックを使用して、正確性、忠実さ、流ency性評価を使用して厳密に評価されました。
私たちの結果は、コンテキストの正確なレビューを生成する際の大幅な改善を示しており、電子商取引ワークフローを最適化する際のカスタマイズされたデータセットの変革の可能性と微調整方法を強調しています。
この作業は、eコマースワークフローにおけるLLMの可能性と、業界固有の課題に合わせてドメイン固有のデータセットの本質的な役割を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional versatility across diverse domains, yet their application in e-commerce remains underexplored due to a lack of domain-specific datasets. To address this gap, we introduce eC-Tab2Text, a novel dataset designed to capture the intricacies of e-commerce, including detailed product attributes and user-specific queries. Leveraging eC-Tab2Text, we focus on text generation from product tables, enabling LLMs to produce high-quality, attribute-specific product reviews from structured tabular data. Fine-tuned models were rigorously evaluated using standard Table2Text metrics, alongside correctness, faithfulness, and fluency assessments. Our results demonstrate substantial improvements in generating contextually accurate reviews, highlighting the transformative potential of tailored datasets and fine-tuning methodologies in optimizing e-commerce workflows. This work highlights the potential of LLMs in e-commerce workflows and the essential role of domain-specific datasets in tailoring them to industry-specific challenges.

arxiv情報

著者 Luis Antonio Gutiérrez Guanilo,Mir Tafseer Nayeem,Cristian López,Davood Rafiei
発行日 2025-02-20 18:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.HC | eC-Tab2Text: Aspect-Based Text Generation from e-Commerce Product Tables はコメントを受け付けていません

Large Language Model Confidence Estimation via Black-Box Access

要約

モデルの応答に対する不確実性または自信を推定することは、応答だけでなく、モデル全体に​​おいても信頼を評価する上で重要です。
この論文では、単純なブラックボックスまたはクエリアクセスを使用して、大規模な言語モデル(LLMS)の応答の信頼性を推定する問題を調査します。
シンプルで拡張可能なフレームワークを提案します。ここでは、これらの機能について斬新な機能を設計し、(解釈可能な)モデル(すなわちロジスティック回帰)をトレーニングして、信頼性を推定します。
私たちの単純なフレームワークは、4つのベンチマークq \&AタスクでのFlan-UL2、Llama-13b、Mistral-7b、およびGPT-4の信頼を推定するのに効果的であることを経験的に実証します。
それによるタスクは、場合によっては10ドルを超える\%$(Aurocで)を超えてベースラインを上回ります。
さらに、私たちの解釈可能なアプローチは、信頼性を予測する機能への洞察を提供し、1つのLLM用に構築された自信モデルが特定のデータセットで他の人にゼロショットを一般化するという興味深く有用な発見につながります。

要約(オリジナル)

Estimating uncertainty or confidence in the responses of a model can be significant in evaluating trust not only in the responses, but also in the model as a whole. In this paper, we explore the problem of estimating confidence for responses of large language models (LLMs) with simply black-box or query access to them. We propose a simple and extensible framework where, we engineer novel features and train a (interpretable) model (viz. logistic regression) on these features to estimate the confidence. We empirically demonstrate that our simple framework is effective in estimating confidence of Flan-ul2, Llama-13b, Mistral-7b and GPT-4 on four benchmark Q\&A tasks as well as of Pegasus-large and BART-large on two benchmark summarization tasks with it surpassing baselines by even over $10\%$ (on AUROC) in some cases. Additionally, our interpretable approach provides insight into features that are predictive of confidence, leading to the interesting and useful discovery that our confidence models built for one LLM generalize zero-shot across others on a given dataset.

arxiv情報

著者 Tejaswini Pedapati,Amit Dhurandhar,Soumya Ghosh,Soham Dan,Prasanna Sattigeri
発行日 2025-02-20 18:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Large Language Model Confidence Estimation via Black-Box Access はコメントを受け付けていません