Calibrating LLM Confidence with Semantic Steering: A Multi-Prompt Aggregation Framework

要約

大規模な言語モデル(LLM)は、しばしば不一致の信頼スコアを示し、通常、予測の信頼性を過大評価します。
大規模な言語モデル(LLMS)に対する口頭化された信頼性は注目を集めていますが、プロンプトを通じて信頼スコアを体系的に操縦できるかどうかについて、以前の作業が分割されたままです。
最近の研究では、このような迅速な誘発性信頼シフトは無視できるとさえ主張しており、LLMSの信頼校正は言語介入にとって厳格であることを示唆しています。
これらの主張に反して、最初に7つのベンチマーク全体で3つのモデル(GPT3.5、Llama3-70B、GPT4、GPT4を含む)を調査することにより、方向信頼シフトの存在を厳密に確認し、明示的な命令が調整された方法で信頼スコアを膨らませるか、排除できることを示しています。
この観察に基づいて、3つのコンポーネントを含む新しいフレームワークを提案します:信頼ステアリング、ステアリングされた自信の集約、SteeringConfという名前の操縦回答の選択。
私たちの方法であるSteeringConfは、信頼操作メカニズムを活用して、LLMの信頼性スコアをいくつかの望ましい方向に導き、その後、操縦された信頼スコアを集約して最終的な予測を生成する要約モジュールが続きます。
7つのベンチマークでメソッドを評価すると、信頼性のキャリブレーションと障害検出のタスクにおけるキャリブレーションメトリックの観点から、ベースラインを一貫して上回ります。

要約(オリジナル)

Large Language Models (LLMs) often exhibit misaligned confidence scores, usually overestimating the reliability of their predictions. While verbalized confidence in Large Language Models (LLMs) has gained attention, prior work remains divided on whether confidence scores can be systematically steered through prompting. Recent studies even argue that such prompt-induced confidence shifts are negligible, suggesting LLMs’ confidence calibration is rigid to linguistic interventions. Contrary to these claims, we first rigorously confirm the existence of directional confidence shifts by probing three models (including GPT3.5, LLAMA3-70b, GPT4) across 7 benchmarks, demonstrating that explicit instructions can inflate or deflate confidence scores in a regulated manner. Based on this observation, we propose a novel framework containing three components: confidence steering, steered confidence aggregation and steered answers selection, named SteeringConf. Our method, SteeringConf, leverages a confidence manipulation mechanism to steer the confidence scores of LLMs in several desired directions, followed by a summarization module that aggregates the steered confidence scores to produce a final prediction. We evaluate our method on 7 benchmarks and it consistently outperforms the baselines in terms of calibration metrics in task of confidence calibration and failure detection.

arxiv情報

著者 Ziang Zhou,Tianyuan Jin,Jieming Shi,Qing Li
発行日 2025-03-04 18:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Calibrating LLM Confidence with Semantic Steering: A Multi-Prompt Aggregation Framework はコメントを受け付けていません

FairSense-AI: Responsible AI Meets Sustainability

要約

この論文では、FairSense-AI:テキストと画像の両方でバイアスを検出および緩和するように設計されたマルチモーダルフレームワークを紹介します。
大規模な言語モデル(LLMS)とビジョン言語モデル(VLM)を活用することにより、フェアセンス – aiは、コンテンツに表示される可能性のある偏見またはステレオタイプの微妙な形を発見し、ユーザーに公平性向上のためのバイアススコア、説明的強調、自動化された推奨事項を提供します。
さらに、FairSense-AIは、MIT AIリスクリポジトリやNIST AIリスク管理フレームワークなどのフレームワークと整合するAIリスク評価コンポーネントを統合し、倫理的および安全性の懸念の構造化された識別を可能にします。
このプラットフォームは、モデルの剪定や混合精度計算などの技術を介してエネルギー効率のために最適化されているため、環境フットプリントが削減されます。
一連のケーススタディとアプリケーションを通じて、公平性の社会的側面と大規模なAIの展開における持続可能性の差し迫った必要性の両方に対処することにより、フェアセンスがどのように責任あるAIの使用を促進するかを示します。
https://vectorinstitute.github.io/faissense-ai、https://pypi.org/project/fair-sense-ai/

要約(オリジナル)

In this paper, we introduce FairSense-AI: a multimodal framework designed to detect and mitigate bias in both text and images. By leveraging Large Language Models (LLMs) and Vision-Language Models (VLMs), FairSense-AI uncovers subtle forms of prejudice or stereotyping that can appear in content, providing users with bias scores, explanatory highlights, and automated recommendations for fairness enhancements. In addition, FairSense-AI integrates an AI risk assessment component that aligns with frameworks like the MIT AI Risk Repository and NIST AI Risk Management Framework, enabling structured identification of ethical and safety concerns. The platform is optimized for energy efficiency via techniques such as model pruning and mixed-precision computation, thereby reducing its environmental footprint. Through a series of case studies and applications, we demonstrate how FairSense-AI promotes responsible AI use by addressing both the social dimension of fairness and the pressing need for sustainability in large-scale AI deployments. https://vectorinstitute.github.io/FairSense-AI, https://pypi.org/project/fair-sense-ai/

arxiv情報

著者 Shaina Raza,Mukund Sayeeganesh Chettiar,Matin Yousefabadi,Tahniat Khan,Marcelo Lotif
発行日 2025-03-04 18:43:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FairSense-AI: Responsible AI Meets Sustainability はコメントを受け付けていません

Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits

要約

LLMベースのアプリケーションは、人々が書くのを支援しており、LLMで生成されたテキストはソーシャルメディア、ジャーナリズム、および私たちの教室に進出しています。
ただし、LLM生成されたテキストと人間の書かれたテキストの違いは不明のままです。
これを探求するために、私たちはプロの作家を雇い、いくつかの創造的なドメインで段落を編集しました。
これらの作家は、LLM生成テキストの望ましくない特異性に同意し、7カテゴリーの分類法(例:Clich \ ‘es、不必要な博覧会)に形式化することに最初に発見しました。
第二に、ランプコーパスをキュレーションしました:1,057 LLM生成された段落は、私たちの分類に従ってプロの作家によって編集されました。
ランプの分析により、私たちの研究で使用されたLLMのいずれも(GPT4O、Claude-3.5-Sonnet、llama-3.1-70b)が品質を書くという点で互いを上回っていないことを明らかにしており、モデルファミリ全体の一般的な制限を明らかにしています。
第三に、自動編集の既存の作業に基づいて、LLMで生成されたテキストを改善する方法を評価しました。
大規模な好みの注釈は、専門家が他の専門家によって編集されたテキストを大部分好むが、自動編集方法はLLM生成されたテキストと人間が作成したテキスト間の調整を改善することに有望であることを確認している。

要約(オリジナル)

LLM-based applications are helping people write, and LLM-generated text is making its way into social media, journalism, and our classrooms. However, the differences between LLM-generated and human written text remain unclear. To explore this, we hired professional writers to edit paragraphs in several creative domains. We first found these writers agree on undesirable idiosyncrasies in LLM generated text, formalizing it into a seven-category taxonomy (e.g. clich\’es, unnecessary exposition). Second, we curated the LAMP corpus: 1,057 LLM-generated paragraphs edited by professional writers according to our taxonomy. Analysis of LAMP reveals that none of the LLMs used in our study (GPT4o, Claude-3.5-Sonnet, Llama-3.1-70b) outperform each other in terms of writing quality, revealing common limitations across model families. Third, building on existing work in automatic editing we evaluated methods to improve LLM-generated text. A large-scale preference annotation confirms that although experts largely prefer text edited by other experts, automatic editing methods show promise in improving alignment between LLM-generated and human-written text.

arxiv情報

著者 Tuhin Chakrabarty,Philippe Laban,Chien-Sheng Wu
発行日 2025-03-04 18:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC | Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits はコメントを受け付けていません

The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models

要約

大規模な言語モデル(LLMS)の推論機能を改善するには、通常、ラベル付きデータまたは計算高価なサンプリングを使用して、監視された微調整が必​​要です。
LLMの推論効率を高めるために、監視されていないプレフィックス微調整(UPFT)を導入します。
初期プレフィックスサブストリング(8つのトークンもわずか8トークン)でのみトレーニングすることにより、upftはラベル付きデータまたは徹底的なサンプリングの必要性を削除します。
推論ベンチマークの実験は、UPFTが微調整の除去サンプリングなどの監視された方法のパフォーマンスと一致し、トレーニング時間を75%削減し、コストを99%削減することを示しています。
さらなる分析により、エラーは推論プロセスの後期段階に表示される傾向があり、プレフィックスベースのトレーニングがモデルの構造知識を保持することが明らかになりました。
この作業は、監視されていない微調整が最小限の微調整がLLMSのかなりの推論の利益を解き放つことができ、従来のアプローチに代わるスケーラブルでリソース効率の高い代替品を提供することを示しています。

要約(オリジナル)

Improving the reasoning capabilities of large language models (LLMs) typically requires supervised fine-tuning with labeled data or computationally expensive sampling. We introduce Unsupervised Prefix Fine-Tuning (UPFT), which leverages the observation of Prefix Self-Consistency — the shared initial reasoning steps across diverse solution trajectories — to enhance LLM reasoning efficiency. By training exclusively on the initial prefix substrings (as few as 8 tokens), UPFT removes the need for labeled data or exhaustive sampling. Experiments on reasoning benchmarks show that UPFT matches the performance of supervised methods such as Rejection Sampling Fine-Tuning, while reducing training time by 75% and sampling cost by 99%. Further analysis reveals that errors tend to appear in later stages of the reasoning process and that prefix-based training preserves the model’s structural knowledge. This work demonstrates how minimal unsupervised fine-tuning can unlock substantial reasoning gains in LLMs, offering a scalable and resource-efficient alternative to conventional approaches.

arxiv情報

著者 Ke Ji,Jiahao Xu,Tian Liang,Qiuzhi Liu,Zhiwei He,Xingyu Chen,Xiaoyuan Liu,Zhijie Wang,Junying Chen,Benyou Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-03-04 18:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models はコメントを受け付けていません

MPO: Boosting LLM Agents with Meta Plan Optimization

要約

大規模な言語モデル(LLMS)の最近の進歩により、LLMベースのエージェントはインタラクティブな計画タスクに成功裏に取り組むことができました。
しかし、彼らの成功にもかかわらず、既存のアプローチはしばしば幻覚の計画に苦しみ、新しいエージェントごとに再訓練を必要とします。
これらの課題に対処するために、明示的なガイダンスを直接組み込むことでエージェント計画機能を強化するMETA計画最適化(MPO)フレームワークを提案します。
重大な人間の努力を必要とする複雑な知識に依存する以前の方法とは異なり、MPOはメタ計画を通じて高レベルの一般的なガイダンスを活用して、エージェントの計画を支援し、エージェントのタスク実行からのフィードバックに基づいてMETAプランの継続的な最適化を可能にします。
2つの代表的なタスクで実施された実験は、MPOが既存のベースラインを大幅に上回ることを示しています。
さらに、我々の分析は、MPOが以前の目に見えないシナリオでタスクの完了効率と一般化機能の両方を強化するプラグアンドプレイソリューションを提供することを示しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have enabled LLM-based agents to successfully tackle interactive planning tasks. However, despite their successes, existing approaches often suffer from planning hallucinations and require retraining for each new agent. To address these challenges, we propose the Meta Plan Optimization (MPO) framework, which enhances agent planning capabilities by directly incorporating explicit guidance. Unlike previous methods that rely on complex knowledge, which either require significant human effort or lack quality assurance, MPO leverages high-level general guidance through meta plans to assist agent planning and enables continuous optimization of the meta plans based on feedback from the agent’s task execution. Our experiments conducted on two representative tasks demonstrate that MPO significantly outperforms existing baselines. Moreover, our analysis indicates that MPO provides a plug-and-play solution that enhances both task completion efficiency and generalization capabilities in previous unseen scenarios.

arxiv情報

著者 Weimin Xiong,Yifan Song,Qingxiu Dong,Bingchan Zhao,Feifan Song,Xun Wang,Sujian Li
発行日 2025-03-04 14:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MPO: Boosting LLM Agents with Meta Plan Optimization はコメントを受け付けていません

Seeding for Success: Skill and Stochasticity in Tabletop Games

要約

ゲームには、サイコロやシャッフルカードデッキの形でランダムな要素が組み込まれています。
このランダム性は、プレイヤーエクスペリエンスと遭遇するゲームのさまざまな状況への重要な貢献者です。
ゲームを面白くし、プレイヤーがゲームの楽しさを楽しむことに貢献するランダム性のレベルと、結果自体が効果的にランダムであり、ゲームが鈍くなるレベルの間には緊張があります。
ゲームの最適レベルは、デザインの目標とターゲットオーディエンスに依存します。
ゲームの結果のランダム性のレベルを定量化し、それを使用して15の卓上ゲームを比較し、一部のゲームの特定の部分からの全体的なランダム性へのさまざまな貢献を解くための新しい手法を導入します。
さらに、ゲームのランダム性とプレーヤースキルの間の相互作用と、この生まれつきランダム性が一般的なゲーム実験でエラー分析にどのように影響するかを調査します。

要約(オリジナル)

Games often incorporate random elements in the form of dice or shuffled card decks. This randomness is a key contributor to the player experience and the variety of game situations encountered. There is a tension between a level of randomness that makes the game interesting and contributes to the player enjoyment of a game, and a level at which the outcome itself is effectively random and the game becomes dull. The optimal level for a game will depend on the design goals and target audience. We introduce a new technique to quantify the level of randomness in game outcome and use it to compare 15 tabletop games and disentangle the different contributions to the overall randomness from specific parts of some games. We further explore the interaction between game randomness and player skill, and how this innate randomness can affect error analysis in common game experiments.

arxiv情報

著者 James Goodman,Diego Perez-Liebana,Simon Lucas
発行日 2025-03-04 14:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Seeding for Success: Skill and Stochasticity in Tabletop Games はコメントを受け付けていません

Modeling Relational Patterns for Logical Query Answering over Knowledge Graphs

要約

ナレッジグラフ(kg)を介した一次論理(fol)クエリに答えることは、主にkg不完全性のために挑戦的なタスクのままです。
クエリの埋め込みは、エンティティ、関係、および論理クエリの低次元ベクトル表現を計算することにより、この問題にアプローチします。
KGSは、対称性や構成などのリレーショナルパターンを示し、パターンのモデリングは、クエリ埋め込みモデルのパフォーマンスをさらに向上させることができます。
ただし、クエリの埋め込みモデルによるフォルクエリに答える際のそのようなパターンの役割は、文献ではまだ研究されていません。
この論文では、この研究のギャップを埋め、学習関係パターンを可能にする誘導バイアスを導入することにより、パターンの推論を備えたフォルクエリの推論を強化します。
この目的のために、複雑な空間での回転によりクエリ領域を幾何学的なコーンと代数クエリ演算子として定義する新しいクエリ埋め込み方法Roconeを開発します。
Roconeは、クエリの埋め込みのための適切に指定された幾何学的表現としてのコーンの利点と、パターン推論のための強力な代数操作としての回転演算子を組み合わせています。
いくつかのベンチマークデータセットでの実験結果は、論理クエリ応答タスクを強化するためのリレーショナルパターンの利点を確認します。

要約(オリジナル)

Answering first-order logical (FOL) queries over knowledge graphs (KG) remains a challenging task mainly due to KG incompleteness. Query embedding approaches this problem by computing the low-dimensional vector representations of entities, relations, and logical queries. KGs exhibit relational patterns such as symmetry and composition and modeling the patterns can further enhance the performance of query embedding models. However, the role of such patterns in answering FOL queries by query embedding models has not been yet studied in the literature. In this paper, we fill in this research gap and empower FOL queries reasoning with pattern inference by introducing an inductive bias that allows for learning relation patterns. To this end, we develop a novel query embedding method, RoConE, that defines query regions as geometric cones and algebraic query operators by rotations in complex space. RoConE combines the advantages of Cone as a well-specified geometric representation for query embedding, and also the rotation operator as a powerful algebraic operation for pattern inference. Our experimental results on several benchmark datasets confirm the advantage of relational patterns for enhancing logical query answering task.

arxiv情報

著者 Yunjie He,Mojtaba Nayyeri,Bo Xiong,Yuqicheng Zhu,Evgeny Kharlamov,Steffen Staab
発行日 2025-03-04 15:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG | Modeling Relational Patterns for Logical Query Answering over Knowledge Graphs はコメントを受け付けていません

The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret

要約

強化学習では、意図したタスクをキャプチャする報酬機能を指定することは非常に困難です。
報酬学習は、報酬機能を学ぶことにより、この問題に対処することを目的としています。
ただし、学習された報酬モデルは、データ分布にエラーが低い場合がありますが、その後、後悔しているポリシーを作成します。
このような報酬モデルには、エラーとリグレットの不一致があると言います。
エラーとリグレットのミスマッチの主な原因は、ポリシーの最適化中に一般的に発生する分布シフトです。
この論文では、報酬モデルの十分に低い予想されるテストエラーが低いケースの後悔が低いことを保証することを数学的に示しますが、固定された予想されるテストエラーの場合、エラーレグレットの不一致を可能にする現実的なデータ分布が存在することを示します。
次に、RLHFなどの方法で一般的に採用されているポリシー正規化手法を使用する場合でも、同様の問題が持続することを示します。
私たちの結果が、報酬モデルを学ぶための改善された方法の理論的および経験的研究を刺激し、それらの品質を確実に測定するためのより良い方法を促進することを願っています。

要約(オリジナル)

In reinforcement learning, specifying reward functions that capture the intended task can be very challenging. Reward learning aims to address this issue by learning the reward function. However, a learned reward model may have a low error on the data distribution, and yet subsequently produce a policy with large regret. We say that such a reward model has an error-regret mismatch. The main source of an error-regret mismatch is the distributional shift that commonly occurs during policy optimization. In this paper, we mathematically show that a sufficiently low expected test error of the reward model guarantees low worst-case regret, but that for any fixed expected test error, there exist realistic data distributions that allow for error-regret mismatch to occur. We then show that similar problems persist even when using policy regularization techniques, commonly employed in methods such as RLHF. We hope our results stimulate the theoretical and empirical study of improved methods to learn reward models, and better ways to measure their quality reliably.

arxiv情報

著者 Lukas Fluri,Leon Lang,Alessandro Abate,Patrick Forré,David Krueger,Joar Skalse
発行日 2025-03-04 15:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret はコメントを受け付けていません

MindBridge: Scalable and Cross-Model Knowledge Editing via Memory-Augmented Modality

要約

知識編集は、大規模な言語モデル(LLM)の知識を効率的かつ正確に更新して、陳腐化を軽減し、エラーを正しくするための手法です。
ただし、ほとんどの既存の方法は特定のモデルに過剰に栄養し、各LLMアップデート中に編集された知識を破棄し、頻繁に再編集する必要があります。
この問題に対処するために、マルチモーダルモデルのモダリティ処理とLLMSの間の低カップリングに触発されたスケーラブルなソリューションであるMindbridgeのクロスモデルの知識の編集の問題を提案し、紹介します。
Mindbridgeは、編集された知識を独立したモダリティとしてエンコードする記憶モダリティの斬新な概念を紹介します。
まず、メモリモダリティのLLMに依存しない事前トレーニングを実行し、次にさまざまなLLMと統合します。
複数のLLMと人気のある知識編集データセットに関する広範な実験は、Mindbridgeが何万もの知識エントリを編集しても優れたパフォーマンスを達成し、異なるLLMに柔軟に適応できることを示しています。
私たちのコードは、https://github.com/crashbugger/mindbridgeで入手できます。

要約(オリジナル)

Knowledge editing is a technique for efficiently and accurately updating the knowledge of large language models (LLMs) to alleviate obsolescence and correct errors. However, most existing methods overfit to specific models, causing edited knowledge to be discarded during each LLM update and requiring frequent re-editing, which is particularly burdensome in today’s rapidly evolving open-source community. To address this issue, we propose the problem of cross-model knowledge editing and introduce MindBridge, a scalable solution inspired by the low coupling between modality processing and LLMs in multi-modal models. MindBridge introduces the novel concept of memory modality, which encodes edited knowledge as an independent modality. It first performs LLM-agnostic pre-training of the memory modality and then integrates it with various LLMs. Extensive experiments on multiple LLMs and popular knowledge editing datasets demonstrate that MindBridge achieves superior performance even in editing tens of thousands of knowledge entries and can flexibly adapt to different LLMs. Our code is available at https://github.com/CrashBugger/MindBridge.

arxiv情報

著者 Shuaike Li,Kai Zhang,Qi Liu,Enhong Chen
発行日 2025-03-04 15:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MindBridge: Scalable and Cross-Model Knowledge Editing via Memory-Augmented Modality はコメントを受け付けていません

Generative Tools for Graphical Assets: Empirical Guidelines based on Game Designers’ and Developers’ Preferences

要約

グラフィカルアセットは、ゲームの設計と開発において重要な役割を果たします。
生成ツールの使用には、グラフィカルアセットの作成を支援する可能性があり、ゲームの設計と開発パイプラインが改善されます。
ただし、生成方法がより広いパイプラインにどのように適合するかについての研究はほとんどありません。
16人のゲームデザイナーと開発者とのユーザー調査を実施して、グラフィカルアセットの生成ツールに関する好みを調べました。
調査結果は、すべての参加者が初期の設計段階を好むことを強調しています(初期段階では0.67を超える平均値とp <.001)。 設計者と開発者は、適切な資産(平均値0.17が高品質、P <.001)を生成すると、アーティファクトの品質を改善できるため、品質のコストで大量のバリエーションを作成するためにこのようなツールを使用することを好みます。 また、それらはまた、強く(平均値.78、p <.001)、既存の設計および開発環境でのこのようなツールのより良い統合の必要性を高め、出力が一般的なデータ形式であり、既存の環境にスムーズに統合する必要性を高めました(平均3.5のうち3.5、p = .004)。 この調査では、既存のパイプラインにこれ​​らのツールを効果的に組み込むというユーザーのニーズにさらに重点を置くための要件も強調されています。 これらの結果から情報を提供して、ゲームデザイナーと開発者の期待とニーズを満たすツールを作成するための一連のガイドラインを提供します。

要約(オリジナル)

Graphical assets play an important role in the design and development of games. There is potential in the use of generative tools, to aid in creating graphical assets, thus improving game design and development pipelines. However, there is little research to address how the generative methods can fit into the wider pipeline. We conducted a user study with 16 game designers and developers to examine their preferences regarding generative tools for graphical assets. The findings highlight that early design stage is preferred by all participants (mean values above 0.67 and p < .001 for early stages). Designers and developers prefer to use such tools for creating large amounts of variations at the cost of quality as they can improve the quality of the artefacts once they generate a suitable asset (mean value 0.17 where 1 is high quality, p < .001). They also strongly (mean value .78, p < .001) raised the need for better integration of such tools in existing design and development environments and the need for the outputs to be in common data formats, to be manipulatable and integrate smoothly into existing environments (mean 3.5 out of 5, p = .004). The study also highlights the requirement for further emphasis on the needs of the users to incorporate these tools effectively in existing pipelines. Informed by these results, we provide a set of guidelines for creating tools that meet the expectations and needs of game designers and developers.

arxiv情報

著者 Kaisei Fukaya,Damon Daylamani-Zad,Harry Agius
発行日 2025-03-04 15:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Generative Tools for Graphical Assets: Empirical Guidelines based on Game Designers’ and Developers’ Preferences はコメントを受け付けていません