EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration

要約

大規模な言語モデル(LLM)は、高度な推奨システムの開発において基礎バックボーンとしてますます活用されており、広範な知識と推論を通じて強化された機能を提供します。
既存のLLMベースの推奨システム(RSS)は、事前に訓練されたLLMSの言語セマンティクスとRSSに不可欠な共同セマンティクスの間に大きな違いがあるため、多くの場合課題に直面しています。
これらのシステムは、事前に訓練された言語セマンティクスを使用しますが、LLM-Backboneを介してゼロから共同セマンティクスを学びます。
ただし、LLMは推奨用に設計されていないため、非効率的な共同学習、弱い結果相関、従来のRS機能の統合が不十分です。
これらの課題に対処するために、内生的および外因性の行動情報とセマンティック情報を非侵入的な方法で統合するデコーダーのみのLLMベースの生成推奨フレームワークである熱心なLLMを提案します。
具体的には、1)外因性信号のインデックス作成シーケンスを統合し、効率的なリンク全体の処理を可能にするデュアルソースの知識豊富なアイテムインデックスを提案します。
2)非侵襲的なマルチスケールアライメント再構成タスクは、共同信号とセマンティックシグナルの両方をより深く理解するためにモデルを導きます。
3)モデルの推奨パフォーマンスと理解機能のバランスをとるように設計されたアニーリングアダプター。
3つのパブリックベンチマークでの厳密なテストを通じて、熱心な有効性を実証します。

要約(オリジナル)

Large language models (LLMs) are increasingly leveraged as foundational backbones in the development of advanced recommender systems, offering enhanced capabilities through their extensive knowledge and reasoning. Existing llm-based recommender systems (RSs) often face challenges due to the significant differences between the linguistic semantics of pre-trained LLMs and the collaborative semantics essential for RSs. These systems use pre-trained linguistic semantics but learn collaborative semantics from scratch via the llm-Backbone. However, LLMs are not designed for recommendations, leading to inefficient collaborative learning, weak result correlations, and poor integration of traditional RS features. To address these challenges, we propose EAGER-LLM, a decoder-only llm-based generative recommendation framework that integrates endogenous and exogenous behavioral and semantic information in a non-intrusive manner. Specifically, we propose 1)dual-source knowledge-rich item indices that integrates indexing sequences for exogenous signals, enabling efficient link-wide processing; 2)non-invasive multiscale alignment reconstruction tasks guide the model toward a deeper understanding of both collaborative and semantic signals; 3)an annealing adapter designed to finely balance the model’s recommendation performance with its comprehension capabilities. We demonstrate EAGER-LLM’s effectiveness through rigorous testing on three public benchmarks.

arxiv情報

著者 Minjie Hong,Yan Xia,Zehan Wang,Jieming Zhu,Ye Wang,Sihang Cai,Xiaoda Yang,Quanyu Dai,Zhenhua Dong,Zhimeng Zhang,Zhou Zhao
発行日 2025-02-20 17:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration はコメントを受け付けていません

Multi-Agent Coordination across Diverse Applications: A Survey

要約

マルチエージェント調整は、多様なマルチエージェントシステム(MAS)のトレンド広がりを可能にする基礎となるメカニズムを研究し、新たなアプリケーションの拡大と急速なAIの進歩によって、ますます注目を集めています。
この調査では、4つの基本的な調整の質問に答える統一された理解を通じて、アプリケーション全体の調整研究の現在の状態の概要を説明しています。(1)調整とは何ですか。
(2)なぜ調整。
(3)誰と調整するか。
(4)調整する方法。
私たちの目的は、既存のアイデアと調整における専門知識を探求し、多様なアプリケーション全体でそれらの接続を検討しながら、新たな研究の方向性を特定し、強調することです。
まず、さまざまなアプリケーションに不可欠な一般的な調整の問題が特定されて分析されます。
第二に、広く研究されているドメイン、たとえば検索と救助、倉庫の自動化と物流、輸送システム、ヒューマノイドと擬人化ロボット、衛星システム、大規模な言語モデル(LLMS)を含む新興分野に至るまで、多くのMASアプリケーションが調査されています。

最後に、MASのスケーラビリティ、不均一性、および学習メカニズムに関するオープンな課題について分析および議論します。
特に、階層的および分散化された調整、人間の調整、およびLLMベースのMASの有望な将来の方向性としてのハイブリダイゼーションを特定します。

要約(オリジナル)

Multi-agent coordination studies the underlying mechanism enabling the trending spread of diverse multi-agent systems (MAS) and has received increasing attention, driven by the expansion of emerging applications and rapid AI advances. This survey outlines the current state of coordination research across applications through a unified understanding that answers four fundamental coordination questions: (1) what is coordination; (2) why coordination; (3) who to coordinate with; and (4) how to coordinate. Our purpose is to explore existing ideas and expertise in coordination and their connections across diverse applications, while identifying and highlighting emerging and promising research directions. First, general coordination problems that are essential to varied applications are identified and analyzed. Second, a number of MAS applications are surveyed, ranging from widely studied domains, e.g., search and rescue, warehouse automation and logistics, and transportation systems, to emerging fields including humanoid and anthropomorphic robots, satellite systems, and large language models (LLMs). Finally, open challenges about the scalability, heterogeneity, and learning mechanisms of MAS are analyzed and discussed. In particular, we identify the hybridization of hierarchical and decentralized coordination, human-MAS coordination, and LLM-based MAS as promising future directions.

arxiv情報

著者 Lijun Sun,Yijun Yang,Qiqi Duan,Yuhui Shi,Chao Lyu,Yu-Cheng Chang,Chin-Teng Lin,Yang Shen
発行日 2025-02-20 17:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Multi-Agent Coordination across Diverse Applications: A Survey はコメントを受け付けていません

Safety Evaluation of DeepSeek Models in Chinese Contexts

要約

最近、並外れた推論能力とオープンソース戦略を活用するDeepseekシリーズのモデルは、グローバルなAIランドスケープを再構築しています。
これらの利点にもかかわらず、それらは重大な安全性の欠陥を示します。
ペンシルベニア大学と協力して、シスコの子会社であるRobust Intelligenceが実施した調査により、Deepseek-R1の有害プロンプトの処理時に100 \%の攻撃成功率があることが明らかになりました。
さらに、複数の安全企業と研究機関が、このモデルの重大な安全性の脆弱性を確認しています。
中国語と英語で堅牢なパフォーマンスを実証するモデルとして、DeepSeekモデルは、両方の言語コンテキストで同様に重要な安全性評価を必要とします。
しかし、現在の研究は主に英語環境での安全評価に焦点を当てており、中国の文脈における安全性能の包括的な評価にギャップを残しています。
このギャップに応えて、この研究では、中国固有の安全評価ベンチマークであるChisafetybenchを紹介します。
このベンチマークは、中国の文脈におけるDeepSeek-R1とDeepseek-V3の安全性を体系的に評価し、安全カテゴリ全体でパフォーマンスを明らかにします。
実験結果は、中国の文脈におけるこれら2つのモデルの欠陥を定量化し、その後の改善のための重要な洞察を提供します。
包括的、客観的、権威ある評価ベンチマークを確立する努力、テストサンプルの選択、データ分布の特性、および評価基準の設定が評価結果に特定のバイアスを必然的に導入する可能性があることに注意してください。
評価ベンチマークを継続的に最適化し、このレポートを定期的に更新して、より包括的で正確な評価の結果を提供します。
最新の評価結果と結論については、最新バージョンの論文を参照してください。

要約(オリジナル)

Recently, the DeepSeek series of models, leveraging their exceptional reasoning capabilities and open-source strategy, is reshaping the global AI landscape. Despite these advantages, they exhibit significant safety deficiencies. Research conducted by Robust Intelligence, a subsidiary of Cisco, in collaboration with the University of Pennsylvania, revealed that DeepSeek-R1 has a 100\% attack success rate when processing harmful prompts. Additionally, multiple safety companies and research institutions have confirmed critical safety vulnerabilities in this model. As models demonstrating robust performance in Chinese and English, DeepSeek models require equally crucial safety assessments in both language contexts. However, current research has predominantly focused on safety evaluations in English environments, leaving a gap in comprehensive assessments of their safety performance in Chinese contexts. In response to this gap, this study introduces CHiSafetyBench, a Chinese-specific safety evaluation benchmark. This benchmark systematically evaluates the safety of DeepSeek-R1 and DeepSeek-V3 in Chinese contexts, revealing their performance across safety categories. The experimental results quantify the deficiencies of these two models in Chinese contexts, providing key insights for subsequent improvements. It should be noted that, despite our efforts to establish a comprehensive, objective, and authoritative evaluation benchmark, the selection of test samples, characteristics of data distribution, and the setting of evaluation criteria may inevitably introduce certain biases into the evaluation results. We will continuously optimize the evaluation benchmark and periodically update this report to provide more comprehensive and accurate assessment outcomes. Please refer to the latest version of the paper for the most recent evaluation results and conclusions.

arxiv情報

著者 Wenjing Zhang,Xuejiao Lei,Zhaoxiang Liu,Ning Wang,Zhenhong Long,Peijun Yang,Jiaojiao Zhao,Minjie Hua,Chaoyang Ma,Kai Wang,Shiguo Lian
発行日 2025-02-20 17:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Safety Evaluation of DeepSeek Models in Chinese Contexts はコメントを受け付けていません

On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems

要約

検索された生成(RAG)は、静的な知識への依存を減らし、答えの事実性を改善することにより、大規模な言語モデル(LLM)を強化するアプローチとして浮上しました。
RAGは関連するコンテキストスニペットを取得し、それらに基づいて答えを生成します。
産業採用の増加にもかかわらず、特に提供されたコンテキストの理想的なサイズと、ベースLLMおよび検索方法の選択に関するRAG成分の体系的な調査が不足しています。
堅牢なRAGシステムの開発をガイドするために、さまざまなコンテキストサイズ、BM25、およびセマンティック検索をレトリーバーとして評価し、8つのベースLLMを評価します。
短い答えで通常のぼろきれ評価から離れると、2つのドメインでのより挑戦的な長い形式の質問の回答を探ります。そこでは、良い答えがコンテキスト全体を利用する必要があります。
私たちの調査結果は、最終的なQAパフォーマンスが最大15個のスニペットで着実に改善するが、それを超えて停滞または減少することを示しています。
最後に、百科事典の領域とは異なる汎用LLMSが生物医学的領域で優れていること、および大規模なコーパスにおけるオープンドメインの証拠の検索が困難であることを示します。

要約(オリジナル)

Retrieval-augmented generation (RAG) has emerged as an approach to augment large language models (LLMs) by reducing their reliance on static knowledge and improving answer factuality. RAG retrieves relevant context snippets and generates an answer based on them. Despite its increasing industrial adoption, systematic exploration of RAG components is lacking, particularly regarding the ideal size of provided context, and the choice of base LLM and retrieval method. To help guide development of robust RAG systems, we evaluate various context sizes, BM25 and semantic search as retrievers, and eight base LLMs. Moving away from the usual RAG evaluation with short answers, we explore the more challenging long-form question answering in two domains, where a good answer has to utilize the entire context. Our findings indicate that final QA performance improves steadily with up to 15 snippets but stagnates or declines beyond that. Finally, we show that different general-purpose LLMs excel in the biomedical domain than the encyclopedic one, and that open-domain evidence retrieval in large corpora is challenging.

arxiv情報

著者 Juraj Vladika,Florian Matthes
発行日 2025-02-20 17:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems はコメントを受け付けていません

EquivaMap: Leveraging LLMs for Automatic Equivalence Checking of Optimization Formulations

要約

組み合わせの最適化における根本的な問題は、同等の定式化を特定することです。これは、より効率的なソリューション戦略と、問題の計算の複雑さに対するより深い洞察につながる可能性があります。
問題の定式化間の同等性を自動的に識別する必要性は、自然言語の説明から問題の定式化を生成するシステム – を増殖させた最適化カピロットとして増加しました。
ただし、定式化の等価性をチェックするための既存のアプローチは、厳密な検証には不十分な単純なヒューリスティックに依存しており、接地を欠いています。
KARPの削減に触発されたこの作業では、2つの最適化定式化が決定変数間のマッピングの存在に基づいて同等であるかを決定するための正式な基準である準KARP同等性を紹介します。
大規模な言語モデルを活用してそのようなマッピングを自動的に発見するフレームワークであるEquivamapを提案し、スケーラブルで信頼できる等価検証を可能にします。
アプローチを評価するために、既存の製剤にスラック変数や有効な不平等を追加するなどの変換を適用することによって生成される同等の最適化定式化の最初のオープンソースデータセットを構築します。
経験的に、equivamapは既存の方法を大幅に上回り、定式化の等価性を正しく識別する大幅な改善を達成します。

要約(オリジナル)

A fundamental problem in combinatorial optimization is identifying equivalent formulations, which can lead to more efficient solution strategies and deeper insights into a problem’s computational complexity. The need to automatically identify equivalence between problem formulations has grown as optimization copilots–systems that generate problem formulations from natural language descriptions–have proliferated. However, existing approaches to checking formulation equivalence lack grounding, relying on simple heuristics which are insufficient for rigorous validation. Inspired by Karp reductions, in this work we introduce quasi-Karp equivalence, a formal criterion for determining when two optimization formulations are equivalent based on the existence of a mapping between their decision variables. We propose EquivaMap, a framework that leverages large language models to automatically discover such mappings, enabling scalable and reliable equivalence verification. To evaluate our approach, we construct the first open-source dataset of equivalent optimization formulations, generated by applying transformations such as adding slack variables or valid inequalities to existing formulations. Empirically, EquivaMap significantly outperforms existing methods, achieving substantial improvements in correctly identifying formulation equivalence.

arxiv情報

著者 Haotian Zhai,Connor Lawless,Ellen Vitercik,Liu Leqi
発行日 2025-02-20 17:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | EquivaMap: Leveraging LLMs for Automatic Equivalence Checking of Optimization Formulations はコメントを受け付けていません

Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning

要約

事実検証(FV)は、関連する証拠に基づいた主張の真実性を評価することを目指しています。
自動化されたFVの従来のアプローチには、短い証拠スニペットとエンコーダのみの推論モデルに依存する3部構成のパイプラインが含まれます。
より最近のアプローチは、LLMSのマルチターンの性質を活用して、FVを段階的な問題として対処するために、追加のコンテキストを調査する質問が生成され、決定を下すのに十分な情報があるまで回答されます。
この反復方法により、検証プロセスが合理的かつ説明可能になります。
これらの方法は百科事典の主張についてテストされていますが、ドメイン固有の現実的な主張に関する調査はありません。
この作業では、3つの医学的事実チェックデータセットに反復FVシステムを適用し、異なるLLM、外部Web検索、ロジック述語を使用した構造化された推論を含む複数の設定で評価します。
従来のアプローチに対する最終パフォーマンスの改善と、ドメイン固有のクレームのための段階的なFVシステムの高い可能性を示しています。

要約(オリジナル)

Fact verification (FV) aims to assess the veracity of a claim based on relevant evidence. The traditional approach for automated FV includes a three-part pipeline relying on short evidence snippets and encoder-only inference models. More recent approaches leverage the multi-turn nature of LLMs to address FV as a step-by-step problem where questions inquiring additional context are generated and answered until there is enough information to make a decision. This iterative method makes the verification process rational and explainable. While these methods have been tested for encyclopedic claims, exploration on domain-specific and realistic claims is missing. In this work, we apply an iterative FV system on three medical fact-checking datasets and evaluate it with multiple settings, including different LLMs, external web search, and structured reasoning using logic predicates. We demonstrate improvements in the final performance over traditional approaches and the high potential of step-by-step FV systems for domain-specific claims.

arxiv情報

著者 Juraj Vladika,Ivana Hacajová,Florian Matthes
発行日 2025-02-20 17:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning はコメントを受け付けていません

Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis

要約

現代の技術とアクセシビリティの改善によって促進される研究の指数関数的な成長により、科学的発見は分野内および分野全体でますます断片化されてきました。
これにより、関連する研究、特にさまざまな研究コミュニティの重要性、斬新、漸進的な調査結果、および同等のアイデアを評価することが困難になります。
大規模な言語モデル(LLMS)は最近、強力な定量的および定性的推論能力を実証しており、多エージェントLLMの議論は、多様な視点と推論パスを調査することにより、複雑な推論タスクを処理することに有望を示しています。
これに触発されて、科学論文をそれぞれの小説を議論するLLMペルソナに変換するフレームワークであるTree-of-Debate(TOD)を紹介します。
結果のみに焦点を当てるのではなく、構造化された重要な推論を強調するために、TODは議論のツリーを動的に構築し、学術記事内の独立した斬新な議論のきめの細かい分析を可能にします。
専門家の研究者によって評価されたさまざまなドメインの科学文献に関する実験を通じて、TODは有益な議論を生成し、論文を効果的に対比し、研究者の文献レビューで研究者をサポートすることを実証します。

要約(オリジナル)

With the exponential growth of research facilitated by modern technology and improved accessibility, scientific discoveries have become increasingly fragmented within and across fields. This makes it challenging to assess the significance, novelty, incremental findings, and equivalent ideas between related works, particularly those from different research communities. Large language models (LLMs) have recently demonstrated strong quantitative and qualitative reasoning abilities, and multi-agent LLM debates have shown promise in handling complex reasoning tasks by exploring diverse perspectives and reasoning paths. Inspired by this, we introduce Tree-of-Debate (ToD), a framework which converts scientific papers into LLM personas that debate their respective novelties. To emphasize structured, critical reasoning rather than focusing solely on outcomes, ToD dynamically constructs a debate tree, enabling fine-grained analysis of independent novelty arguments within scholarly articles. Through experiments on scientific literature across various domains, evaluated by expert researchers, we demonstrate that ToD generates informative arguments, effectively contrasts papers, and supports researchers in their literature review.

arxiv情報

著者 Priyanka Kargupta,Ishika Agarwal,Tal August,Jiawei Han
発行日 2025-02-20 17:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis はコメントを受け付けていません

Towards impactful challenges: post-challenge paper, benchmarks and other dissemination actions

要約

AIチャレンジの結論は、ライフサイクルの終わりではありません。
長期にわたる影響を確保するには、綿密なチャレンジ後の活動が必要です。
長期にわたる影響も整理する必要があります。
この章では、チャレンジが正式に終了した後のさまざまなアクティビティについて説明します。
この作業は、チャレンジ後のイニシアチブのターゲットオーディエンスを特定し、チャレンジ出力を収集および整理する方法を概説します。
チャレンジの複数の出力がリストされ、それらを収集する手段がリストされています。
この章の中央部分は、典型的なチャレンジ後の論文のテンプレートです。これには、チャレンジを長続きするベンチマークに変える方法に関するグラフやアドバイスが含まれます。

要約(オリジナル)

The conclusion of an AI challenge is not the end of its lifecycle; ensuring a long-lasting impact requires meticulous post-challenge activities. The long-lasting impact also needs to be organised. This chapter covers the various activities after the challenge is formally finished. This work identifies target audiences for post-challenge initiatives and outlines methods for collecting and organizing challenge outputs. The multiple outputs of the challenge are listed, along with the means to collect them. The central part of the chapter is a template for a typical post-challenge paper, including possible graphs and advice on how to turn the challenge into a long-lasting benchmark.

arxiv情報

著者 Antoine Marot,David Rousseau,Zhen,Xu
発行日 2025-02-20 17:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards impactful challenges: post-challenge paper, benchmarks and other dissemination actions はコメントを受け付けていません

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

要約

DeepSeek-R1の成功に触発されて、大規模な推論モデルでのルールベースの強化学習(RL)の可能性を探ります。
推論ダイナミクスを分析するために、制御可能な複雑さと簡単な回答の検証により、合成ロジックパズルをトレーニングデータとして使用します。
効果的かつ安定したRLトレーニングにつながるいくつかの重要な技術的貢献を作成します。思考と回答プロセスを強調するシステムプロンプト、ショートカットを取得するために出力を罰する厳しい形式報酬機能、および安定した収束を達成する簡単なトレーニングレシピです。
7Bモデルは、ロジックコーパスには存在しない、反映、検証、要約など、高度な推論スキルなどを開発しています。
驚くべきことに、わずか5Kロジックの問題をトレーニングした後、挑戦的な数学ベンチマークAIMEとAMCの一般化能力を示しています。

要約(オリジナル)

Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in large reasoning models. To analyze reasoning dynamics, we use synthetic logic puzzles as training data due to their controllable complexity and straightforward answer verification. We make some key technical contributions that lead to effective and stable RL training: a system prompt that emphasizes the thinking and answering process, a stringent format reward function that penalizes outputs for taking shortcuts, and a straightforward training recipe that achieves stable convergence. Our 7B model develops advanced reasoning skills-such as reflection, verification, and summarization-that are absent from the logic corpus. Remarkably, after training on just 5K logic problems, it demonstrates generalization abilities to the challenging math benchmarks AIME and AMC.

arxiv情報

著者 Tian Xie,Zitian Gao,Qingnan Ren,Haoming Luo,Yuqian Hong,Bryan Dai,Joey Zhou,Kai Qiu,Zhirong Wu,Chong Luo
発行日 2025-02-20 17:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning はコメントを受け付けていません

Tempo: Helping Data Scientists and Domain Experts Collaboratively Specify Predictive Modeling Tasks

要約

一時的な予測モデルは、ヘルスケア、公共サービス、その他のドメインの意思決定を改善する可能性がありますが、多くの場合、意思決定者を効果的にサポートすることができません。
以前の文献は、モデルの行動と意思決定者の期待との間の多くの不整合が、モデル仕様の問題、すなわち、どのように、いつ、誰の予測が行われるかに起因することを示しています。
ただし、予測タスクのモデル仕様は非常に技術的であり、DATA非科学者の利害関係者が解釈し批判することは困難です。
この課題に対処するために、データサイエンティストとドメインの専門家がモデル仕様を共同で反復的に反復するのに役立つインタラクティブシステムであるTempoを開発しました。
Tempoのシンプルでありながら正確な一時的なクエリ言語を使用して、データサイエンティストは、前処理の選択に関する透明性を高めて、仕様を迅速にプロトタイプ化できます。
さらに、ドメインの専門家は、データサブグループ内のパフォーマンスを評価して、そのモデルが予想どおりに動作することを検証できます。
3つのケーススタディを通じて、Tempoが学際的なチームが実行不可能な仕様を迅速に迅速に整理し、より有望な方向を探求する方法を特定する方法を示します。

要約(オリジナル)

Temporal predictive models have the potential to improve decisions in health care, public services, and other domains, yet they often fail to effectively support decision-makers. Prior literature shows that many misalignments between model behavior and decision-makers’ expectations stem from issues of model specification, namely how, when, and for whom predictions are made. However, model specifications for predictive tasks are highly technical and difficult for non-data-scientist stakeholders to interpret and critique. To address this challenge we developed Tempo, an interactive system that helps data scientists and domain experts collaboratively iterate on model specifications. Using Tempo’s simple yet precise temporal query language, data scientists can quickly prototype specifications with greater transparency about pre-processing choices. Moreover, domain experts can assess performance within data subgroups to validate that models behave as expected. Through three case studies, we demonstrate how Tempo helps multidisciplinary teams quickly prune infeasible specifications and identify more promising directions to explore.

arxiv情報

著者 Venkatesh Sivaraman,Anika Vaishampayan,Xiaotong Li,Brian R Buck,Ziyong Ma,Richard D Boyce,Adam Perer
発行日 2025-02-20 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Tempo: Helping Data Scientists and Domain Experts Collaboratively Specify Predictive Modeling Tasks はコメントを受け付けていません