Training-Free Safe Denoisers for Safe Use of Diffusion Models

要約

強力な拡散モデル(DMS)の安全性に対する懸念が高まっています。なぜなら、不適切で安全でない(NSFW)コンテンツを生成するために誤用されることが多いため、忘れられたい人の著作権で保護された材料またはデータを生成するためです。
多くの既存の方法は、テキストベースのネガティブプロンプトに大きく依存しているか、DMSを広範囲に再調整して特定の機能またはサンプルを排除することにより、これらの問題に取り組んでいます。
この論文では、根本的に異なるアプローチを採用し、否定セット(例:安全でない画像、著作権データ、またはデータ分布の特定の領域を回避するためにDMを再訓練または微調整する必要なく回避することにより、サンプリングの軌跡を直接変更します。
私たちは、安全でないと予想される非除去されたサンプルと安全でないサンプルとの関係を正式に導き出し、最終的なサンプルが否定されることを保証する$ \ textit {safe} $ denoiserにつながります。
派生に触発されて、テキストコンディショナル、クラス条件、および無条件の画像生成シナリオのデータ分布の否定領域を回避しながら、高品質のサンプルを成功裏に生成する実用的なアルゴリズムを開発します。
これらの結果は、DMSをより安全に使用するためのトレーニングなしの安全な除去者の大きな可能性を示唆しています。

要約(オリジナル)

There is growing concern over the safety of powerful diffusion models (DMs), as they are often misused to produce inappropriate, not-safe-for-work (NSFW) content or generate copyrighted material or data of individuals who wish to be forgotten. Many existing methods tackle these issues by heavily relying on text-based negative prompts or extensively retraining DMs to eliminate certain features or samples. In this paper, we take a radically different approach, directly modifying the sampling trajectory by leveraging a negation set (e.g., unsafe images, copyrighted data, or datapoints needed to be excluded) to avoid specific regions of data distribution, without needing to retrain or fine-tune DMs. We formally derive the relationship between the expected denoised samples that are safe and those that are not safe, leading to our $\textit{safe}$ denoiser which ensures its final samples are away from the area to be negated. Inspired by the derivation, we develop a practical algorithm that successfully produces high-quality samples while avoiding negation areas of the data distribution in text-conditional, class-conditional, and unconditional image generation scenarios. These results hint at the great potential of our training-free safe denoiser for using DMs more safely.

arxiv情報

著者 Mingyu Kim,Dongjun Kim,Amman Yusuf,Stefano Ermon,Mijung Park
発行日 2025-06-12 16:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Training-Free Safe Denoisers for Safe Use of Diffusion Models はコメントを受け付けていません

Slimming Down LLMs Without Losing Their Minds

要約

このホワイトペーパーでは、パラメーター効率の高い方法(LORAおよびQlora)に焦点を当てた、大規模な言語モデルのパフォーマンスに対する微調整の影響を調査および検証します。
3つの主要なドメインにわたってモデル機能を評価します。(1)Commonsense Reasoning(Hellaswag)、(2)数学的推論(GSM8K)、および(3)マルチドメイン知識(MMLU-CS)。
(1)LORAベースの方法は、計算効率を維持しながらタスク固有のパフォーマンスを効果的に改善し、(2)パフォーマンスは微調整データセットとベンチマークタスクの間のアラインメントに大きく依存します。
この研究は、限られたリソースで効率的なLLM適応を実装する開発者のためのパラメーター効率の高いメカニズムに関する理論的洞察と実用的なガイダンスの両方を提供します。

要約(オリジナル)

This paper investigates and validates the impact of fine-tuning on large language model performance, focusing on parameter-efficient methods (LoRA and QLoRA). We evaluate model capabilities across three key domains: (1) commonsense reasoning (HellaSwag), (2) mathematical reasoning (GSM8K), and (3) multi-domain knowledge (MMLU-CS). Our findings demonstrate that: (1) LoRA-based methods effectively improve task-specific performance while maintaining computational efficiency, and (2) performance strongly depends on alignment between fine-tuning dataset and benchmark tasks. The study provides both theoretical insights into parameter-efficient mechanisms and practical guidance for developers implementing efficient LLM adaptation with limited resources.

arxiv情報

著者 Qingda,Mai
発行日 2025-06-12 16:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Slimming Down LLMs Without Losing Their Minds はコメントを受け付けていません

PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play

要約

大規模な言語モデル(LLM)は、特殊な外部ツールとますます統合されていますが、多くのタスクでは、最小限またはうるさいドキュメントでゼロショットツールの使用が必要です。
既存のソリューションは、検証のために手動の書き換えまたはラベル付きデータに依存しているため、真のゼロショット設定では適用できなくなります。
これらの課題に対処するために、各ツールで体系的に「再生」する自動化されたフレームワークであるPlay2Promptを提案します。
この反復的な試行用と誤差プロセスを通じて、Play2Promptはツールドキュメントを改良し、ラベル付きデータなしで使用例を生成します。
これらの例は、LLM推論をガイドするだけでなく、ツールの利用をさらに強化するための検証としても機能します。
現実世界のタスクに関する広範な実験は、Play2promptがオープンモデルと閉じたモデルの両方でゼロショットツールのパフォーマンスを大幅に改善し、ドメイン固有のツール統合にスケーラブルで効果的なソリューションを提供することを示しています。

要約(オリジナル)

Large language models (LLMs) are increasingly integrated with specialized external tools, yet many tasks demand zero-shot tool usage with minimal or noisy documentation. Existing solutions rely on manual rewriting or labeled data for validation, making them inapplicable in true zero-shot settings. To address these challenges, we propose PLAY2PROMPT, an automated framework that systematically ‘plays’ with each tool to explore its input-output behaviors. Through this iterative trial-and-error process, PLAY2PROMPT refines tool documentation and generates usage examples without any labeled data. These examples not only guide LLM inference but also serve as validation to further enhance tool utilization. Extensive experiments on real-world tasks demonstrate that PLAY2PROMPT significantly improves zero-shot tool performance across both open and closed models, offering a scalable and effective solution for domain-specific tool integration.

arxiv情報

著者 Wei Fang,Yang Zhang,Kaizhi Qian,James Glass,Yada Zhu
発行日 2025-06-12 16:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play はコメントを受け付けていません

The Diffusion Duality

要約

均一な状態の離散拡散モデルは、自己修正する固有の能力のために、テキスト生成の高速生成の可能性を保持します。
ただし、通常、自己回帰モデルとマスクされた拡散モデルによってアウトパフォームされています。
この作業では、重要な洞察を活用することにより、このパフォーマンスのギャップを狭めます。均一状態拡散プロセスは、基礎となるガウス拡散から自然に現れます。
私たちの方法であるDUOは、ガウスの拡散から強力な技術を転送し、トレーニングとサンプリングの両方を改善します。
まず、ガウスプロセスに導かれたカリキュラム学習戦略を紹介し、分散を減らすことでトレーニング速度を2倍にします。
カリキュラム学習で訓練されたモデルは、7つのベンチマークのうち3つでゼロショットの困惑の自己回帰モデルを上回ります。
第二に、一貫性の蒸留を連続して離散設定に適応させる離散的な一貫性の蒸留を提示します。
このアルゴリズムは、サンプリングを2桁加速することにより、拡散言語モデルの数段階の生成のロックを解除します。
プロジェクトページでコードとモデルのチェックポイントを提供します:http://s-sahoo.github.io/duo

要約(オリジナル)

Uniform-state discrete diffusion models hold the promise of fast text generation due to their inherent ability to self-correct. However, they are typically outperformed by autoregressive models and masked diffusion models. In this work, we narrow this performance gap by leveraging a key insight: Uniform-state diffusion processes naturally emerge from an underlying Gaussian diffusion. Our method, Duo, transfers powerful techniques from Gaussian diffusion to improve both training and sampling. First, we introduce a curriculum learning strategy guided by the Gaussian process, doubling training speed by reducing variance. Models trained with curriculum learning surpass autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we present Discrete Consistency Distillation, which adapts consistency distillation from the continuous to the discrete setting. This algorithm unlocks few-step generation in diffusion language models by accelerating sampling by two orders of magnitude. We provide the code and model checkpoints on the project page: http://s-sahoo.github.io/duo

arxiv情報

著者 Subham Sekhar Sahoo,Justin Deschenaux,Aaron Gokaslan,Guanghan Wang,Justin Chiu,Volodymyr Kuleshov
発行日 2025-06-12 16:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Diffusion Duality はコメントを受け付けていません

BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP

要約

エンコーダーベースのトランスモデルは、生物医学および臨床自然言語処理(NLP)の中心であり、双方向の自己触媒により、識別タスクを介して構造化されたテキストから構造化された情報を効率的に抽出するのに適しています。
ただし、エンコーダーはデコーダーモデルと比較して開発が遅くなっており、生物医学および臨床設定でのドメイン適応が限られています。
生物医学および臨床NLPの速度と性能の大幅な改善を組み込んだ最近のModernbertリリースに基づいたドメイン適応エンコーダーであるBioclinical Modernbertを紹介します。
Bioclinical Modernbertは、これまでで最大の生物医学および臨床コーパスの継続的な事前供与を通じて開発され、535億を超えるトークンを備えており、単一のソースからのデータを削除するのではなく、多様な機関、ドメイン、地理的領域からの20のデータセットを活用することにより、以前の臨床エンコーダの重要な制限に対処します。
幅広いユースケースにまたがる4つのダウンストリームタスクで、既存の生物医学および臨床エンコーダを上回ります。
Bioclinical Modernbertのベース(150mパラメーター)と大規模(396mパラメーター)バージョンの両方をリリースし、さらに調査をサポートするためのトレーニングチェックポイントをリリースします。

要約(オリジナル)

Encoder-based transformer models are central to biomedical and clinical Natural Language Processing (NLP), as their bidirectional self-attention makes them well-suited for efficiently extracting structured information from unstructured text through discriminative tasks. However, encoders have seen slower development compared to decoder models, leading to limited domain adaptation in biomedical and clinical settings. We introduce BioClinical ModernBERT, a domain-adapted encoder that builds on the recent ModernBERT release, incorporating long-context processing and substantial improvements in speed and performance for biomedical and clinical NLP. BioClinical ModernBERT is developed through continued pretraining on the largest biomedical and clinical corpus to date, with over 53.5 billion tokens, and addresses a key limitation of prior clinical encoders by leveraging 20 datasets from diverse institutions, domains, and geographic regions, rather than relying on data from a single source. It outperforms existing biomedical and clinical encoders on four downstream tasks spanning a broad range of use cases. We release both base (150M parameters) and large (396M parameters) versions of BioClinical ModernBERT, along with training checkpoints to support further research.

arxiv情報

著者 Thomas Sounack,Joshua Davis,Brigitte Durieux,Antoine Chaffin,Tom J. Pollard,Eric Lehman,Alistair E. W. Johnson,Matthew McDermott,Tristan Naumann,Charlotta Lindvall
発行日 2025-06-12 17:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP はコメントを受け付けていません

GenPlanX. Generation of Plans and Execution

要約

古典的なAI計画手法は、複雑なタスクのアクションのシーケンスを生成します。
ただし、自然言語を使用して提供された場合、計画タスクを理解する能力がありません。
大規模な言語モデル(LLMS)の出現により、人間とコンピューターの相互作用に新しい能力が導入されました。
計画タスクのコンテキストでは、LLMは他の用途の中で人間の意図を解釈するのに特に良いことが示されています。
このペーパーでは、LLMSを計画タスクの自然言語ベースの説明に統合し、実行および監視フレームワークとともに古典的なAI計画エンジンと統合するGenPlanxを紹介します。
オフィス関連のタスクでユーザーを支援する際のGenPlanxの有効性を実証し、シームレスなヒューマンアイコラボレーションを通じてワークフローを合理化し、生産性を向上させる可能性を強調しています。

要約(オリジナル)

Classical AI Planning techniques generate sequences of actions for complex tasks. However, they lack the ability to understand planning tasks when provided using natural language. The advent of Large Language Models (LLMs) has introduced novel capabilities in human-computer interaction. In the context of planning tasks, LLMs have shown to be particularly good in interpreting human intents among other uses. This paper introduces GenPlanX that integrates LLMs for natural language-based description of planning tasks, with a classical AI planning engine, alongside an execution and monitoring framework. We demonstrate the efficacy of GenPlanX in assisting users with office-related tasks, highlighting its potential to streamline workflows and enhance productivity through seamless human-AI collaboration.

arxiv情報

著者 Daniel Borrajo,Giuseppe Canonaco,Tomás de la Rosa,Alfredo Garrachón,Sriram Gopalakrishnan,Simerjot Kaur,Marianela Morales,Sunandita Patra,Alberto Pozanco,Keshav Ramani,Charese Smiley,Pietro Totis,Manuela Veloso
発行日 2025-06-12 17:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | GenPlanX. Generation of Plans and Execution はコメントを受け付けていません

Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?

要約

毒性は、初期段階の医薬品開発不全の主な原因のままです。
分子設計と特性の予測の進歩にもかかわらず、分子毒性修復のタスク – 毒性の低下を伴う構造的に有効な分子的代替を生成する – はまだ体系的に定義またはベンチマークされていません。
このギャップを埋めるために、分子毒性修復に焦点を当てた汎用マルチモーダル大手言語モデル(MLLMS)の最初のベンチマークタスクであるTomingolを導入します。
多様なメカニズムと粒度にまたがる11の主要なタスクと560の代表的な毒性分子をカバーする標準化されたデータセットを構築します。
専門家の毒物学的知識から通知された、メカニズムに対応したタスクに適した機能を備えた迅速な注釈パイプラインを設計します。
並行して、毒性エンドポイントの予測、合成アクセシビリティ、薬物の毒性、および構造的類似性を、修復の成功のためにハイスループット評価チェーンに統合する自動評価フレームワークであるToxievalを提案します。
30近くの主流の汎用MLLMSを体系的に評価し、複数のアブレーション研究を設計して、評価基準、候補の多様性、失敗の帰属などの重要な要因を分析します。
実験結果は、現在のMLLMがこのタスクで依然として重要な課題に直面しているが、毒性の理解、意味的制約の順守、構造認識分子編集における有望な能力を実証し始めることを示しています。

要約(オリジナル)

Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the task of molecular toxicity repair – generating structurally valid molecular alternatives with reduced toxicity – has not yet been systematically defined or benchmarked. To fill this gap, we introduce ToxiMol, the first benchmark task for general-purpose Multimodal Large Language Models (MLLMs) focused on molecular toxicity repair. We construct a standardized dataset covering 11 primary tasks and 560 representative toxic molecules spanning diverse mechanisms and granularities. We design a prompt annotation pipeline with mechanism-aware and task-adaptive capabilities, informed by expert toxicological knowledge. In parallel, we propose an automated evaluation framework, ToxiEval, which integrates toxicity endpoint prediction, synthetic accessibility, drug-likeness, and structural similarity into a high-throughput evaluation chain for repair success. We systematically assess nearly 30 mainstream general-purpose MLLMs and design multiple ablation studies to analyze key factors such as evaluation criteria, candidate diversity, and failure attribution. Experimental results show that although current MLLMs still face significant challenges on this task, they begin to demonstrate promising capabilities in toxicity understanding, semantic constraint adherence, and structure-aware molecule editing.

arxiv情報

著者 Fei Lin,Ziyang Gong,Cong Wang,Yonglin Tian,Tengchao Zhang,Xue Yang,Gen Luo,Fei-Yue Wang
発行日 2025-06-12 17:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification? はコメントを受け付けていません

Robustly Improving LLM Fairness in Realistic Settings via Interpretability

要約

大規模な言語モデル(LLM)は、高得着の雇用アプリケーションでますます展開されており、人々のキャリアや生計に直接影響を与える決定を下します。
以前の研究では、単純な抗バイアスプロンプトは、制御された評価の人口統計学的バイアスを排除できることが示唆されていますが、現実的なコンテキストの詳細が導入された場合、これらの緩和が失敗することがわかります。
内部バイアス緩和を通じてこれらの障害に対処します。モデルのアクティベーション内の機密属性方向を特定して中和することにより、すべてのテストされたシナリオで堅牢なバイアス削減を達成します。
主要なコマーシャル(GPT-4O、Claude 4 Sonnet、Gemini 2.5 Flash)およびオープンソースモデル(Gemma-2 27b、Gemma-3、Mistral-24b)を越えて、会社名、パブリックキャリアのページからの文化の説明、選択的雇用の制約などの現実的なコンテキストを追加することがわかります(例えば、GERDES TOT TOP 10 INDES INDINACEの領土10号のみを受け入れる)
(面接率の最大12 \%の差)。
これらのバイアスが出現すると、すべてのテストされたモデルとシナリオで、白人の候補者と女性よりも黒人よりも黒人を支持します。
さらに、モデルは人口統計を推測し、大学の所属のような微妙な手がかりから偏見を持つことができ、モデルの考え方の推論を検査する場合でも、これらのバイアスは見えないままです。
これらの制限に対処するために、当社の内部バイアス緩和は、人種とジェンダー相関の方向を特定し、推論時にアフィンコンセプトの編集を適用します。
単純な合成データセットからの方向を使用しているにもかかわらず、介入は堅牢に一般化され、一貫してバイアスを非常に低いレベル(通常は1 \%未満、常に2.5 \%未満)に削減しますが、モデルのパフォーマンスを大幅に維持します。
私たちの調査結果は、雇用のためにLLMを展開する実務家は、より現実的な評価方法を採用し、公平な結果のための内部緩和戦略を検討する必要があることを示唆しています。

要約(オリジナル)

Large language models (LLMs) are increasingly deployed in high-stakes hiring applications, making decisions that directly impact people’s careers and livelihoods. While prior studies suggest simple anti-bias prompts can eliminate demographic biases in controlled evaluations, we find these mitigations fail when realistic contextual details are introduced. We address these failures through internal bias mitigation: by identifying and neutralizing sensitive attribute directions within model activations, we achieve robust bias reduction across all tested scenarios. Across leading commercial (GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash) and open-source models (Gemma-2 27B, Gemma-3, Mistral-24B), we find that adding realistic context such as company names, culture descriptions from public careers pages, and selective hiring constraints (e.g.,“only accept candidates in the top 10\%’) induces significant racial and gender biases (up to 12\% differences in interview rates). When these biases emerge, they consistently favor Black over White candidates and female over male candidates across all tested models and scenarios. Moreover, models can infer demographics and become biased from subtle cues like college affiliations, with these biases remaining invisible even when inspecting the model’s chain-of-thought reasoning. To address these limitations, our internal bias mitigation identifies race and gender-correlated directions and applies affine concept editing at inference time. Despite using directions from a simple synthetic dataset, the intervention generalizes robustly, consistently reducing bias to very low levels (typically under 1\%, always below 2.5\%) while largely maintaining model performance. Our findings suggest that practitioners deploying LLMs for hiring should adopt more realistic evaluation methodologies and consider internal mitigation strategies for equitable outcomes.

arxiv情報

著者 Adam Karvonen,Samuel Marks
発行日 2025-06-12 17:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Robustly Improving LLM Fairness in Realistic Settings via Interpretability はコメントを受け付けていません

Agentic Semantic Control for Autonomous Wireless Space Networks: Extending Space-O-RAN with MCP-Driven Distributed Intelligence

要約

月面操作は、自律性、混乱への堅牢性、環境およびミッション主導のコンテキストに適応する能力など、無線通信システムに厳しい要件を課します。
Space-O-RANは3GPP標準に合わせた分散オーケストレーションモデルを提供しますが、その決定ロジックは静的ポリシーに限定されており、セマンティック統合がありません。
モデルコンテキストプロトコル(MCP)とエージェントからエージェント(A2A)通信プロトコルによって有効になったセマンティックエージェントレイヤーを組み込んだ新しい拡張機能を提案し、リアルタイム、ほぼリアルタイム、および非リアルタイムコントロールレイヤーにわたってコンテキストを意識する意思決定を可能にします。
ローバー、ランダー、月の基地局に展開された分散認知剤は、遅延適応推論や帯域幅を意識したセマンティック圧縮を含むワイヤレス認識調整戦略を実装し、複数のMCPサーバーとテレメトリー、移動計画、およびミッションの制約を介して合理的に相互作用します。

要約(オリジナル)

Lunar surface operations impose stringent requirements on wireless communication systems, including autonomy, robustness to disruption, and the ability to adapt to environmental and mission-driven context. While Space-O-RAN provides a distributed orchestration model aligned with 3GPP standards, its decision logic is limited to static policies and lacks semantic integration. We propose a novel extension incorporating a semantic agentic layer enabled by the Model Context Protocol (MCP) and Agent-to-Agent (A2A) communication protocols, allowing context-aware decision making across real-time, near-real-time, and non-real-time control layers. Distributed cognitive agents deployed in rovers, landers, and lunar base stations implement wireless-aware coordination strategies, including delay-adaptive reasoning and bandwidth-aware semantic compression, while interacting with multiple MCP servers to reason over telemetry, locomotion planning, and mission constraints.

arxiv情報

著者 Eduardo Baena,Paolo Testolina,Michele Polese,Sergi Aliaga,Andrew Benincasa,Dimitrios Koutsonikolas,Josep Jornet,Tommaso Melodia
発行日 2025-06-12 17:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.NI, cs.SY, eess.SY | Agentic Semantic Control for Autonomous Wireless Space Networks: Extending Space-O-RAN with MCP-Driven Distributed Intelligence はコメントを受け付けていません

The Role of Generative AI in Facilitating Social Interactions: A Scoping Review

要約

社会的つながりの低下は、メンタルヘルス、平均余命、および一般的な幸福に対する脅威をますますもたらします。
大規模な言語モデル(LLM)や画像生成ツールなどの生成AI(GAI)テクノロジーは、人間の社会的経験を向上させることを目的としたアプリケーションにますます統合されています。
その存在の高まりにもかかわらず、これらの技術が社会的相互作用にどのように影響するかについてはほとんど知られていません。
このスコーピングレビューでは、GAIベースのアプリケーションが現在、ソーシャルインタラクションを促進するように設計されている方法、どのような形式のソーシャルエンゲージメントをターゲットにしているのか、デザイナーがそれらを作成および評価するために使用する設計と評価の方法論を調査しています。
2020年以降に発表された30の研究の分析を通じて、ストーリーテリング、社会感情的スキルトレーニング、回想、共同学習、音楽作成、一般的な会話など、アプリケーションドメインの重要な傾向を特定します。
効果的なテクノロジーの使用と社会的関与の両方を促進する際の参加型および共同設計アプローチの役割を強調し、文化的偏見やアクセシビリティなどの社会倫理的懸念を調べます。
このレビューでは、GAIが動的でパーソナライズされた相互作用をサポートする可能性を強調していますが、公平な設計慣行と包括的な評価戦略にもっと注意を払う必要があります。

要約(オリジナル)

Reduced social connectedness increasingly poses a threat to mental health, life expectancy, and general well-being. Generative AI (GAI) technologies, such as large language models (LLMs) and image generation tools, are increasingly integrated into applications aimed at enhancing human social experiences. Despite their growing presence, little is known about how these technologies influence social interactions. This scoping review investigates how GAI-based applications are currently designed to facilitate social interaction, what forms of social engagement they target, and which design and evaluation methodologies designers use to create and evaluate them. Through an analysis of 30 studies published since 2020, we identify key trends in application domains including storytelling, socio-emotional skills training, reminiscence, collaborative learning, music making, and general conversation. We highlight the role of participatory and co-design approaches in fostering both effective technology use and social engagement, while also examining socio-ethical concerns such as cultural bias and accessibility. This review underscores the potential of GAI to support dynamic and personalized interactions, but calls for greater attention to equitable design practices and inclusive evaluation strategies.

arxiv情報

著者 T. T. J. E. Arets,G. Perugia,M. Houben,W. A. IJsselsteijn
発行日 2025-06-12 17:37:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | The Role of Generative AI in Facilitating Social Interactions: A Scoping Review はコメントを受け付けていません