AI Will Always Love You: Studying Implicit Biases in Romantic AI Companions

要約

既存の研究では、職業性の性別バイアスを含む生成モデルの明示的なバイアスが認識されていますが、性別のステレオタイプのニュアンスとユーザーとAIの仲間との関係の期待は未熟なままです。
それまでの間、AIの仲間は、友人や性別のあるロマンチックなパートナーとしてユーザーにますます人気が高まってきました。
この研究は、ロマンチックで性別が割り当てられたAI仲間とそのユーザーに合わせて調整された3つの実験を考案し、さまざまなサイズのLLMにわたって暗黙的なバイアスを効果的に評価することにより、ギャップを橋渡しします。
各実験は、暗黙の関連性、感情反応、およびsycophancyという異なる次元を調べます。
この研究の目的は、新たに考案されたメトリックを介してベースラインに対するペルソナ割り当てのモデル応答を定量的に分析することにより、さまざまなコンパニオンシステムで明らかにされたバイアスを測定および比較することです。
結果は注目に値します。彼らは、性別を与えられた関係のペルソナを大規模な言語モデルに割り当てることは、これらのモデルの応答を大幅に変えることを示しています。

要約(オリジナル)

While existing studies have recognised explicit biases in generative models, including occupational gender biases, the nuances of gender stereotypes and expectations of relationships between users and AI companions remain underexplored. In the meantime, AI companions have become increasingly popular as friends or gendered romantic partners to their users. This study bridges the gap by devising three experiments tailored for romantic, gender-assigned AI companions and their users, effectively evaluating implicit biases across various-sized LLMs. Each experiment looks at a different dimension: implicit associations, emotion responses, and sycophancy. This study aims to measure and compare biases manifested in different companion systems by quantitatively analysing persona-assigned model responses to a baseline through newly devised metrics. The results are noteworthy: they show that assigning gendered, relationship personas to Large Language Models significantly alters the responses of these models, and in certain situations in a biased, stereotypical way.

arxiv情報

著者 Clare Grogan,Jackie Kay,María Pérez-Ortiz
発行日 2025-02-27 16:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AI Will Always Love You: Studying Implicit Biases in Romantic AI Companions はコメントを受け付けていません

Selective Use of Yannakakis’ Algorithm to Improve Query Performance: Machine Learning to the Rescue

要約

クエリ最適化は、データベース調査で何十年もの間中心的な役割を果たしてきました。
ただし、多くの場合、提案された最適化手法は、一部の状況ではなく、一部の状況でパフォーマンスの向上につながります。
したがって、最適化手法を適用すべきかどうかを特定のクエリを決定する決定手順を設計するための方法論が緊急に必要です。
この作業では、関心のある最適化技術としてYannakakisスタイルのクエリ評価に焦点を当てたこのような方法論を提案します。
より具体的には、この決定問題をアルゴリズムの選択問題として策定し、そのソリューションのための機械学習ベースのアプローチを提示します。
さまざまなデータベースシステムのいくつかのベンチマークを使用した経験的結果は、私たちのアプローチが実際に統計的に有意なパフォーマンス改善につながることを示しています。

要約(オリジナル)

Query optimization has played a central role in database research for decades. However, more often than not, the proposed optimization techniques lead to a performance improvement in some, but not in all, situations. Therefore, we urgently need a methodology for designing a decision procedure that decides for a given query whether the optimization technique should be applied or not. In this work, we propose such a methodology with a focus on Yannakakis-style query evaluation as our optimization technique of interest. More specifically, we formulate this decision problem as an algorithm selection problem and we present a Machine Learning based approach for its solution. Empirical results with several benchmarks on a variety of database systems show that our approach indeed leads to a statistically significant performance improvement.

arxiv情報

著者 Daniela Böhm,Georg Gottlob,Matthias Lanzinger,Davide Longo,Cem Okulmus,Reinhard Pichler,Alexander Selzer
発行日 2025-02-27 16:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Selective Use of Yannakakis’ Algorithm to Improve Query Performance: Machine Learning to the Rescue はコメントを受け付けていません

Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias in Neural Networks

要約

人工ニューラルネットワークは、データから人間の知識の多くの側面を獲得することができ、それらを人間の学習のモデルとして有望にします。
しかし、それらのネットワークが学習できることは、誘導バイアス(発見するソリューションに影響を与えるデータ以外の要因)に依存し、ニューラルネットワークの誘導バイアスはよく理解されていないままであり、これらのシステムのパフォーマンスから人間の学習に関する結論を引き出す能力を制限します。
認知科学者と機械学習の研究者は、しばしば誘導バイアスの原因としてニューラルネットワークのアーキテクチャに焦点を合わせます。
このペーパーでは、特定の問題に適合した初期重みを見つけるためのツールとしてMeta-Learningを使用して、誘導バイアスの別のソース(ネットワークの初期重み)の影響を調査します。
さまざまなバイアスと一般化の形式を必要とする3つのタスクでメタトレーニング430の異なるモデルによって、MLP、CNNS、LSTM、および変圧器の4つの広く使用されているアーキテクチャを評価します。
メタラーニングは、アーキテクチャとデータ表現間のパフォーマンスの違いを大幅に削減または完全に排除できることを発見し、これらの要因は、通常想定されるよりも誘導バイアスの原因としてそれほど重要ではないことを示唆しています。
違いが存在する場合、メタラーニングなしでうまく機能するアーキテクチャとデータ表現は、より効果的にメタトレーニングする傾向があります。
さらに、すべてのアーキテクチャは、メタトレーニングの経験からはほど遠い問題について不十分に一般化し、堅牢な一般化のためのより強力な帰納的バイアスの必要性を強調しています。

要約(オリジナル)

Artificial neural networks can acquire many aspects of human knowledge from data, making them promising as models of human learning. But what those networks can learn depends upon their inductive biases — the factors other than the data that influence the solutions they discover — and the inductive biases of neural networks remain poorly understood, limiting our ability to draw conclusions about human learning from the performance of these systems. Cognitive scientists and machine learning researchers often focus on the architecture of a neural network as a source of inductive bias. In this paper we explore the impact of another source of inductive bias — the initial weights of the network — using meta-learning as a tool for finding initial weights that are adapted for specific problems. We evaluate four widely-used architectures — MLPs, CNNs, LSTMs, and Transformers — by meta-training 430 different models across three tasks requiring different biases and forms of generalization. We find that meta-learning can substantially reduce or entirely eliminate performance differences across architectures and data representations, suggesting that these factors may be less important as sources of inductive bias than is typically assumed. When differences are present, architectures and data representations that perform well without meta-learning tend to meta-train more effectively. Moreover, all architectures generalize poorly on problems that are far from their meta-training experience, underscoring the need for stronger inductive biases for robust generalization.

arxiv情報

著者 Gianluca Bencomo,Max Gupta,Ioana Marinescu,R. Thomas McCoy,Thomas L. Griffiths
発行日 2025-02-27 16:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias in Neural Networks はコメントを受け付けていません

A Polynomial-Time Approximation for Pairwise Fair $k$-Median Clustering

要約

この作業では、$ \ ell \ ge 2 $グループを使用してペアワイズフェアクラスタリングを研究します。すべてのクラスター$ c $およびすべてのグループ$ i \ in [\ ell] $で、グループ$ i $からの$ c $のポイント数は、$ c $ in $ c $のポイント数を、他のグループ$ j \ in in integerger $ $ $ itの$ c $の$ c $のポイント数でなければなりません。
私たちの知る限り、$ \ ell> 2 $の場合、公正なクラスタリングの問題に関する以前の作業から、この問題については、双方向の近似と指数アルゴリズムのみが続きます。
私たちの作業では、$ \ ell> 2 $のケースに焦点を当てて、最初の多項式時間$ o(k^2 \ cdot \ ell \ cdot t)$を設計します – この問題の近似値は、公平性の制約に違反しない$ k $ -Medianコストを備えています。
近似結果の硬度を提供することによりアルゴリズムの結果を補完します。これは、$ o(\ log k)$の近似係数を持つ多項式時間アルゴリズムが知られている多項式時間アルゴリズムが知られていない$ \ ell = 2 $でさえ、$ \ ell = 2 $が$ k $ medianとほぼ同じくらい硬いことを示しています。

要約(オリジナル)

In this work, we study pairwise fair clustering with $\ell \ge 2$ groups, where for every cluster $C$ and every group $i \in [\ell]$, the number of points in $C$ from group $i$ must be at most $t$ times the number of points in $C$ from any other group $j \in [\ell]$, for a given integer $t$. To the best of our knowledge, only bi-criteria approximation and exponential-time algorithms follow for this problem from the prior work on fair clustering problems when $\ell > 2$. In our work, focusing on the $\ell > 2$ case, we design the first polynomial-time $O(k^2\cdot \ell \cdot t)$-approximation for this problem with $k$-median cost that does not violate the fairness constraints. We complement our algorithmic result by providing hardness of approximation results, which show that our problem even when $\ell=2$ is almost as hard as the popular uniform capacitated $k$-median, for which no polynomial-time algorithm with an approximation factor of $o(\log k)$ is known.

arxiv情報

著者 Sayan Bandyapadhyay,Eden Chlamtáč,Zachary Friggstad,Mahya Jamshidian,Yury Makarychev,Ali Vakilian
発行日 2025-02-27 16:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG | A Polynomial-Time Approximation for Pairwise Fair $k$-Median Clustering はコメントを受け付けていません

AIR: Complex Instruction Generation via Automatic Iterative Refinement

要約

大規模な言語モデルの開発により、簡単な指示に従う能力が大幅に改善されました。
ただし、複雑な指示を順守することは依然として大きな課題です。
複雑な命令を生成するための現在のアプローチは、多くの場合、現在の命令要件とは無関係であるか、限られたスケーラビリティと多様性に苦しんでいます。
さらに、逆翻訳などの方法は、単純な指導の生成に効果的ですが、大規模なWebコーパスの豊富な内容と構造を活用できません。
この論文では、制約を伴う複雑な命令を生成するための新しい自動反復洗練フレームワークを提案します。これは、実際のシナリオの要件をよりよく反映するだけでなく、複雑な指示に従うLLMSの能力を大幅に向上させます。
空気フレームワークは、次の2つの段階で構成されています。(1)ドキュメントから初期命令を生成します。
(2)貴重な制約を組み込むためにモデルの出力をドキュメントと比較することにより、LLM-As-Judgeガイダンスで指示を繰り返し改善します。
最後に、10K複雑な命令でAir-10Kデータセットを構築し、アプローチで生成された命令が複雑な指示に従うモデルの能力を大幅に改善し、既存の命令生成のための既存の方法を上回ることを示します。

要約(オリジナル)

With the development of large language models, their ability to follow simple instructions has significantly improved. However, adhering to complex instructions remains a major challenge. Current approaches to generating complex instructions are often irrelevant to the current instruction requirements or suffer from limited scalability and diversity. Moreover, methods such as back-translation, while effective for simple instruction generation, fail to leverage the rich contents and structures in large web corpora. In this paper, we propose a novel automatic iterative refinement framework to generate complex instructions with constraints, which not only better reflects the requirements of real scenarios but also significantly enhances LLMs’ ability to follow complex instructions. The AIR framework consists of two stages: (1)Generate an initial instruction from a document; (2)Iteratively refine instructions with LLM-as-judge guidance by comparing the model’s output with the document to incorporate valuable constraints. Finally, we construct the AIR-10K dataset with 10K complex instructions and demonstrate that instructions generated with our approach significantly improve the model’s ability to follow complex instructions, outperforming existing methods for instruction generation.

arxiv情報

著者 Wei Liu,Yancheng He,Hui Huang,Chengwei Hu,Jiaheng Liu,Shilong Li,Wenbo Su,Bo Zheng
発行日 2025-02-27 16:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AIR: Complex Instruction Generation via Automatic Iterative Refinement はコメントを受け付けていません

LLM as a Broken Telephone: Iterative Generation Distorts Information

要約

大規模な言語モデルがオンラインコンテンツに対してますます責任があるため、独自の出力を繰り返し処理することの影響について懸念が生じます。
チェーンされた人間のコミュニケーションにおける「壊れた電話」効果に触発されたこの研究では、LLMが同様に反復生成を通じて情報を歪めているかどうかを調査しています。
翻訳ベースの実験を通じて、言語の選択とチェーンの複雑さの影響を受けて、歪みが時間とともに蓄積することがわかります。
劣化は避けられませんが、戦略的なプロンプトテクニックを通じて軽減できます。
これらの調査結果は、AIを介した情報伝播の長期的な影響に関する議論に貢献し、反復ワークフローにおけるLLM生成コンテンツの信頼性に関する重要な質問を提起します。

要約(オリジナル)

As large language models are increasingly responsible for online content, concerns arise about the impact of repeatedly processing their own outputs. Inspired by the ‘broken telephone’ effect in chained human communication, this study investigates whether LLMs similarly distort information through iterative generation. Through translation-based experiments, we find that distortion accumulates over time, influenced by language choice and chain complexity. While degradation is inevitable, it can be mitigated through strategic prompting techniques. These findings contribute to discussions on the long-term effects of AI-mediated information propagation, raising important questions about the reliability of LLM-generated content in iterative workflows.

arxiv情報

著者 Amr Mohamed,Mingmeng Geng,Michalis Vazirgiannis,Guokan Shang
発行日 2025-02-27 16:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM as a Broken Telephone: Iterative Generation Distorts Information はコメントを受け付けていません

Large Language Models as Attribution Regularizers for Efficient Model Training

要約

大規模な言語モデル(LLM)は、多様なドメイン全体で顕著なパフォーマンスを実証しています。
ただし、より小さなダウンストリームモデルをトレーニングするための膨大な知識を効果的に活用することは、特に表形式のデータ学習などのドメインでは、解釈可能性と効率のためによりシンプルなモデルが好まれることが多い場合があります。
このホワイトペーパーでは、LLMが生成したグローバルタスク機能の属性を小規模なネットワークのトレーニングプロセスに組み込むための新しいものでありながら簡単な方法を紹介します。
具体的には、小規模モデルのトレーニングダイナミクスをLLMが提供する洞察を整列させる帰属マッチングの正規化用語を提案します。
そうすることで、私たちのアプローチは、少ないショット学習シナリオで優れたパフォーマンスをもたらします。
特に、この方法ではLLMへのブラックボックスAPIアクセスのみが必要であり、最小限の計算オーバーヘッドで既存のトレーニングパイプラインに簡単に統合できます。
さらに、この方法を使用して、歪度やバイアスなどの実際のデータセットの一般的な問題に対処する方法を示します。
LLMSからの高レベルの知識を統合することにより、トレーニングデータが制限または不均衡な場合でも、当社のアプローチは一般化を改善します。
複数のタスクにわたる広範な実験を通じてその有効性を検証し、学習効率とモデルの堅牢性の向上を実証します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance across diverse domains. However, effectively leveraging their vast knowledge for training smaller downstream models remains an open challenge, especially in domains like tabular data learning, where simpler models are often preferred due to interpretability and efficiency. In this paper, we introduce a novel yet straightforward method for incorporating LLM-generated global task feature attributions into the training process of smaller networks. Specifically, we propose an attribution-matching regularization term that aligns the training dynamics of the smaller model with the insights provided by the LLM. By doing so, our approach yields superior performance in few-shot learning scenarios. Notably, our method requires only black-box API access to the LLM, making it easy to integrate into existing training pipelines with minimal computational overhead. Furthermore, we demonstrate how this method can be used to address common issues in real-world datasets, such as skewness and bias. By integrating high-level knowledge from LLMs, our approach improves generalization, even when training data is limited or imbalanced. We validate its effectiveness through extensive experiments across multiple tasks, demonstrating improved learning efficiency and model robustness.

arxiv情報

著者 Davor Vukadin,Marin Šilić,Goran Delač
発行日 2025-02-27 16:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 | Large Language Models as Attribution Regularizers for Efficient Model Training はコメントを受け付けていません

Probabilistic Variational Causal Approach in Observational Studies

要約

この論文では、根本的な問題との関連性に基づいて、観察研究におけるイベントの希少性と頻度を説明する新しい因果方法論を紹介します。
具体的には、確率的変異因果効果(PACE)と呼ばれる直接的な因果効果メトリックと、非バイナリおよびバイナリ治療の両方に適用される特定の仮定に付着するその変動を提案します。
PACEメトリックは、純粋に因果的成分を表す全変動の概念を統合することによって導き出されます。これは、治療値の間の仮説的遷移の確率と組み合わせて、治療値の介入です。
PACEにはパラメーター$ d $があり、$ d $の値が低い値はまれな治療値を強調しているシナリオに対応しますが、$ d $の値は、より頻繁な治療レベルの因果的影響がより関連性がある状況に焦点を当てています。
したがって、単一の因果効果値の代わりに、$ d $の因果効果関数を提供します。
さらに、曝露値が変化するにつれて、結果のそれぞれの正と負の因果変化を測定するために、正と負のペースを導入します。
また、平均ペースと呼ばれるペースの正規化されたバージョンも検討します。
さらに、観察研究における反事実的な課題を処理するためのペースの識別可能性基準を提供し、方法論のいくつかの一般化を定義します。
最後に、さまざまな例の分析を通じて、フレームワークを他のよく知られている因果フレームワークと比較します。

要約(オリジナル)

In this paper, we introduce a new causal methodology that accounts for the rarity and frequency of events in observational studies based on their relevance to the underlying problem. Specifically, we propose a direct causal effect metric called the Probabilistic vAriational Causal Effect (PACE) and its variations adhering to certain postulates applicable to both non-binary and binary treatments. The PACE metric is derived by integrating the concept of total variation, representing the purely causal component, with interventions on the treatment value, combined with the probabilities of hypothetical transitioning between treatment levels. PACE features a parameter $d$, where lower values of $d$ correspond to scenarios emphasizing rare treatment values, while higher values of $d$ focus on situations where the causal impact of more frequent treatment levels is more relevant. Thus, instead of a single causal effect value, we provide a causal effect function of the degree $d$. Additionally, we introduce positive and negative PACE to measure the respective positive and negative causal changes in the outcome as exposure values shift. We also consider normalized versions of PACE, referred to MEAN PACE. Furthermore, we provide an identifiability criterion for PACE to handle counterfactual challenges in observational studies, and we define several generalizations of our methodology. Lastly, we compare our framework with other well-known causal frameworks through the analysis of various examples.

arxiv情報

著者 Usef Faghihi,Amir Saki
発行日 2025-02-27 16:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 26A45, 6008, 68T20, 68T27, 68T37, 68U99, cs.AI, cs.LO, G.3 | Probabilistic Variational Causal Approach in Observational Studies はコメントを受け付けていません

Evaluating Human Trust in LLM-Based Planners: A Preliminary Study

要約

大規模な言語モデル(LLM)は、タスクの計画にますます使用されており、説明や反復改良などの古典的なプランナーには見られない一意の機能を提供します。
ただし、LLMベースの計画タスクのコンテキストでは、計画システムの採用における重要な要素である信頼が不要です。
この研究は、LLMベースのプランナーの人間の信頼を、計画ドメイン定義言語(PDDL)ドメインでのユーザー調査を通じて、古典的なプランナーと比較することにより、このギャップを橋渡しします。
信託アンケートなどの主観的な尺度を、評価の精度などの客観的なメトリックと組み合わせて、私たちの調査結果は、正確性が信頼とパフォーマンスの主要な要因であることを明らかにしています。
LLMによって提供される説明は、評価の精度を改善しましたが、信頼への影響は限られていましたが、計画の改良性は、評価の精度を大幅に向上させることなく信頼を高める可能性を示しました。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used for planning tasks, offering unique capabilities not found in classical planners such as generating explanations and iterative refinement. However, trust–a critical factor in the adoption of planning systems–remains underexplored in the context of LLM-based planning tasks. This study bridges this gap by comparing human trust in LLM-based planners with classical planners through a user study in a Planning Domain Definition Language (PDDL) domain. Combining subjective measures, such as trust questionnaires, with objective metrics like evaluation accuracy, our findings reveal that correctness is the primary driver of trust and performance. Explanations provided by the LLM improved evaluation accuracy but had limited impact on trust, while plan refinement showed potential for increasing trust without significantly enhancing evaluation accuracy.

arxiv情報

著者 Shenghui Chen,Yunhao Yang,Kayla Boggess,Seongkook Heo,Lu Feng,Ufuk Topcu
発行日 2025-02-27 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Evaluating Human Trust in LLM-Based Planners: A Preliminary Study はコメントを受け付けていません

InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation

要約

データ分析は、組織が効果的な決定を下すのを支援できるデータから貴重な洞察を抽出するために不可欠です。
3つの重要な機能を備えたベンチマークデータセットであるInsightbenchを紹介します。
第一に、これは、金融やインシデント管理などの多様なビジネスユースケースを表す100のデータセットで構成されており、それぞれにデータセットに植えられた慎重にキュレーションされた一連の洞察が伴います。
第二に、単一のクエリへの応答に焦点を当てた既存のベンチマークとは異なり、Insightbenchは、質問の策定、回答の解釈、洞察と実用的な手順の概要を含む、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価します。
第三に、ベンチマーク内の各データセットに明確な目標があり、関連する意味のある質問と分析が含まれていることを確認するために、包括的な品質保証を実施しました。
さらに、LLAMA-3を使用して効果的なオープンソースの評価者として双方向評価メカニズムを実装して、洞察を抽出するエージェントの能力を評価します。
また、エンドツーエンドのデータ分析を実行できるベースラインデータ分析エージェントであるAgentPoirotを提案します。
Insightbenchに関する私たちの評価は、AgentPoirotが単一のクエリの解決に焦点を当てた既存のアプローチ(Pandasエージェントなど)を上回ることを示しています。
また、オープンソースとクローズドソースのLLMSのパフォーマンスとさまざまな評価戦略も比較します。
全体として、このベンチマークは、包括的な自動化データ分析のさらなる開発を動機付けるためのテストベッドとして機能し、https://github.com/servicenow/insight-benchでアクセスできます。

要約(オリジナル)

Data analytics is essential for extracting valuable insights from data that can assist organizations in making effective decisions. We introduce InsightBench, a benchmark dataset with three key features. First, it consists of 100 datasets representing diverse business use cases such as finance and incident management, each accompanied by a carefully curated set of insights planted in the datasets. Second, unlike existing benchmarks focusing on answering single queries, InsightBench evaluates agents based on their ability to perform end-to-end data analytics, including formulating questions, interpreting answers, and generating a summary of insights and actionable steps. Third, we conducted comprehensive quality assurance to ensure that each dataset in the benchmark had clear goals and included relevant and meaningful questions and analysis. Furthermore, we implement a two-way evaluation mechanism using LLaMA-3 as an effective, open-source evaluator to assess agents’ ability to extract insights. We also propose AgentPoirot, our baseline data analysis agent capable of performing end-to-end data analytics. Our evaluation on InsightBench shows that AgentPoirot outperforms existing approaches (such as Pandas Agent) that focus on resolving single queries. We also compare the performance of open- and closed-source LLMs and various evaluation strategies. Overall, this benchmark serves as a testbed to motivate further development in comprehensive automated data analytics and can be accessed here: https://github.com/ServiceNow/insight-bench.

arxiv情報

著者 Gaurav Sahu,Abhay Puri,Juan Rodriguez,Amirhossein Abaskohi,Mohammad Chegini,Alexandre Drouin,Perouz Taslakian,Valentina Zantedeschi,Alexandre Lacoste,David Vazquez,Nicolas Chapados,Christopher Pal,Sai Rajeswar Mudumba,Issam Hadj Laradji
発行日 2025-02-27 17:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation はコメントを受け付けていません