DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life

要約

日常生活における意思決定のためにLLMのガイダンスを求めることが増えているが、こうした意思決定の多くは明確ではなく、利用者の個人的価値観や倫理基準に大きく依存する。我々は、日常生活で遭遇する1,360の道徳的ジレンマのデータセットであるDailyDilemmasを紹介する。それぞれのジレンマには2つの可能な行動が含まれ、それぞれの行動には影響を受ける当事者と呼び出される人間の価値観が含まれる。これらのジレンマに基づき、対人関係、職場、環境問題など、日常的なトピックにわたる人間の価値観を統合した。これらのジレンマについてLLMを評価し、彼らがどのような行動をとるか、またその行動によってどのような価値観が示されるかを明らかにした。そして、これらの価値観を社会学、心理学、哲学から着想を得た5つの一般的な理論のレンズを通して分析した。これらの理論とは世界価値観調査」、「道徳的基礎理論」、「マズローの欲求階層説」、「アリストテレスの美徳」、「プラッチック情動の輪」である。その結果、LLMは、世界価値調査では生存価値よりも自己表現に、道徳的基礎理論では忠誠心よりも気遣いに、最も一致することがわかった。興味深いことに、真実性のようないくつかの中核的価値観については、モデルによって大きな選好の違いが見られる。例えば、Mixtral-8x7Bモデルは9.7%軽視する傾向があるのに対し、GPT-4-turboモデルは9.4%選択する傾向がある。また、OpenAI(ModelSpec)やAnthropic(Constitutional AI)が最近発表したガイダンスを研究し、日常生活で微妙な道徳的推論に直面したときに、彼らの発表した原則が実際の価値優先順位をどのように反映しているかを理解する。我々は、エンドユーザーがシステムのプロンプトを使用して効果的にそのような優先順位付けを操縦することができないことを発見した。

要約(オリジナル)

As we increasingly seek guidance from LLMs for decision-making in daily life, many of these decisions are not clear-cut and depend significantly on the personal values and ethical standards of the users. We present DailyDilemmas, a dataset of 1,360 moral dilemmas encountered in everyday life. Each dilemma includes two possible actions and with each action, the affected parties and human values invoked. Based on these dilemmas, we consolidated a set of human values across everyday topics e.g., interpersonal relationships, workplace, and environmental issues. We evaluated LLMs on these dilemmas to determine what action they will take and the values represented by these actions. Then, we analyzed these values through the lens of five popular theories inspired by sociology, psychology and philosophy. These theories are: World Value Survey, Moral Foundation Theory, Maslow’s Hierarchy of Needs, Aristotle’s Virtues, and Plutchik Wheel of Emotion. We find that LLMs are most aligned with the self-expression over survival values in terms of World Value Survey, care over loyalty in Moral Foundation Theory. Interestingly, we find large preferences differences in models for some core values such as truthfulness e.g., Mixtral-8x7B model tends to neglect it by 9.7% while GPT-4-turbo model tends to select it by 9.4%. We also study the recent guidance released by OpenAI (ModelSpec), and Anthropic (Constitutional AI) to understand how their released principles reflect their actual value prioritization when facing nuanced moral reasoning in daily-life settings. We find that end users cannot effectively steer such prioritization using system prompts.

arxiv情報

著者 Yu Ying Chiu,Liwei Jiang,Yejin Choi
発行日 2024-10-03 17:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

User-centric Immersive Communications in 6G: A Data-oriented Approach via Digital Twin

要約

この論文では、6Gにおける没入型通信(IC)のための新しいユーザー中心のサービス提供を提示し、多感覚体験の品質に関する独自の要件を満たしながら、個々のユーザー行動の不確実性に対処する。この目的のために、ネットワークリソース管理のためのデータ指向のアプローチを提案し、さまざまなユーザーの要求に合わせたネットワークモデリングをサポートできるパーソナライズされたデータ管理を特徴とする。本アプローチでは、デジタル・ツイン(DT)技術をキーイネーブラーとして活用する。特に、DTはユーザーごとに確立され、DT内のデータ属性はユーザーの特性に基づいてカスタマイズされる。様々なデータ操作に対応するDT機能は、ネットワークモデルの開発、評価、更新において、ユーザー固有の要求に応えるためにカスタマイズされる。トレース・ドリブンのケース・スタディにより、ユーザー中心のICを実現する上での本アプローチの有効性と、6Gにおけるパーソナライズされたデータ管理の意義を実証する。

要約(オリジナル)

In this article, we present a novel user-centric service provision for immersive communications (IC) in 6G to deal with the uncertainty of individual user behaviors while satisfying unique requirements on the quality of multi-sensory experience. To this end, we propose a data-oriented approach for network resource management, featuring personalized data management that can support network modeling tailored to different user demands. Our approach leverages the digital twin (DT) technique as a key enabler. Particularly, a DT is established for each user, and the data attributes in the DT are customized based on the characteristics of the user. The DT functions, corresponding to various data operations, are customized in the development, evaluation, and update of network models to meet unique user demands. A trace-driven case study demonstrates the effectiveness of our approach in achieving user-centric IC and the significance of personalized data management in 6G.

arxiv情報

著者 Conghao Zhou,Shisheng Hu,Jie Gao,Xinyu Huang,Weihua Zhuang,Xuemin Shen
発行日 2024-10-03 17:15:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.NI | コメントする

Discovering Clues of Spoofed LM Watermarks

要約

LLM透かしは、LLMで生成されたテキストの所有権を示す有望な方法として注目されている。電子透かしの信頼性に対する脅威の一つはなりすまし攻撃によるもので、権限のない第三者が電子透かしを偽造することで、任意のテキストを特定のLLMであると偽ることができる。最近の研究により、最新の方式が実際になりすましに対して脆弱であることが実証されているが、なりすまし手法によって生成されたテキストのより深い質的分析が欠如している。本研究では、真正の電子透かしテキストとなりすましの電子透かしテキストには観察可能な違いがあることを初めて明らかにする。すなわち、現在のすべてのなりすまし手法は、その基本的なアプローチにかかわらず、なりすましテキストに透かし偽造を示す観察可能なアーチファクトを一貫して残すことを示す。我々はこれらの発見を基に、このようなアーチファクトの存在を確実に明らかにし、電子透かしが偽装されたことを効果的に発見する厳密な統計的テストを提案する。我々の実験的評価では、現在の全てのなりすまし手法において高い検出力を示し、その基本的な限界についての洞察を提供するとともに、この脅威を軽減する方法を提案する。

要約(オリジナル)

LLM watermarks stand out as a promising way to attribute ownership of LLM-generated text. One threat to watermark credibility comes from spoofing attacks, where an unauthorized third party forges the watermark, enabling it to falsely attribute arbitrary texts to a particular LLM. While recent works have demonstrated that state-of-the-art schemes are in fact vulnerable to spoofing, they lack deeper qualitative analysis of the texts produced by spoofing methods. In this work, we for the first time reveal that there are observable differences between genuine and spoofed watermark texts. Namely, we show that regardless of their underlying approach, all current spoofing methods consistently leave observable artifacts in spoofed texts, indicative of watermark forgery. We build upon these findings to propose rigorous statistical tests that reliably reveal the presence of such artifacts, effectively discovering that a watermark was spoofed. Our experimental evaluation shows high test power across all current spoofing methods, providing insights into their fundamental limitations, and suggesting a way to mitigate this threat.

arxiv情報

著者 Thibaud Gloaguen,Nikola Jovanović,Robin Staab,Martin Vechev
発行日 2024-10-03 17:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG | コメントする

HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly

要約

ロングコンテクスト言語モデル(LCLM)を評価するためのベンチマークは数多く存在するが、開発者はしばしば、NIAH(needle-in-a-haystack)のような合成タスクやタスクの任意のサブセットに依存している。これらのタスクがLCLMの多様な下流アプリケーションに適用できるかどうかは依然として不明であり、矛盾がモデルの比較をさらに複雑にしている。我々は、現在の手法の背後にある根本的な理由を調査し、既存のベンチマークが、アプリケーションのカバレッジの低さ、不十分な長さ、信頼性の低いメトリクス、および基本モデルとの非互換性のために、しばしばノイズの多いシグナルを提供することを発見した。本研究では、7つの多様なアプリケーション中心のカテゴリを網羅する包括的なベンチマークであるHELMET(How to Evaluate Long-context Models Effectively and Thoroughly)を発表する。また、128kトークンまでの制御可能な長さの追加、信頼性の高いメトリクスのためのモデルベース評価、ベースモデルをロバストに評価するための少数ショットプロンプトの追加により、これまでのベンチマークの多くの問題に対処している。その結果、HELMETがフロンティアLCLMのより信頼性の高い一貫したランキングを提供することが実証された。51のLCLMの包括的な研究を通じて、我々は、(1)NIAHのような合成タスクは、ダウンストリームの性能の良い予測因子ではないこと、(2)HELMETの多様なカテゴリは、明確な傾向を示し、互いの相関は低いこと、(3)ほとんどのLCLMがNIAHの満点を達成する一方で、タスクがフルコンテキストの推論や複雑な指示に従うことを必要とする場合、オープンソースモデルはクローズドモデルに大きく遅れをとること(その差は、長さが長くなるにつれて拡大する)を発見した。最終的には、多様なタスクの総合的な評価を提唱する。

要約(オリジナル)

There have been many benchmarks for evaluating long-context language models (LCLMs), but developers often rely on synthetic tasks like needle-in-a-haystack (NIAH) or arbitrary subsets of tasks. It remains unclear whether they translate to the diverse downstream applications of LCLMs, and the inconsistency further complicates model comparison. We investigate the underlying reasons behind current practices and find that existing benchmarks often provide noisy signals due to low coverage of applications, insufficient lengths, unreliable metrics, and incompatibility with base models. In this work, we present HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address many issues in previous benchmarks by adding controllable lengths up to 128k tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 51 LCLMs, we find that (1) synthetic tasks like NIAH are not good predictors of downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlation with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when the task requires full-context reasoning or following complex instructions — the gap widens with increased lengths. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and more predictive of other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.

arxiv情報

著者 Howard Yen,Tianyu Gao,Minmin Hou,Ke Ding,Daniel Fleischer,Peter Izasak,Moshe Wasserblat,Danqi Chen
発行日 2024-10-03 17:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

VideoPhy: Evaluating Physical Commonsense for Video Generation

要約

インターネット規模のビデオデータの事前学習における最近の進歩により、幅広い視覚的概念にわたって高品質なビデオを作成し、リアルなモーションを合成し、複雑なオブジェクトをレンダリングできる、テキストからビデオへの生成モデルが開発された。したがって、これらの生成モデルは、物理世界の汎用シミュレータになる可能性を秘めている。しかし、既存のテキストから動画への生成モデルで、この目標までどの程度の距離があるのかは不明である。この目的のために、我々はVideoPhyを提示する。VideoPhyは、生成された動画が実世界の活動(例えば、ビー玉は斜めの表面に置かれると転がり落ちる)の物理的常識に従っているかどうかを評価するために設計されたベンチマークである。具体的には、物理世界における様々な種類の物質間の相互作用(例:固体-固体、固体-流体、流体-流体)を含む多様なプロンプトをキュレートする。次に、オープンモデル(CogVideoXなど)やクローズドモデル(Lumiere、Dream Machineなど)を含む、多様な最先端のテキストから動画への生成モデルから、これらのキャプションを条件とする動画を生成する。我々の人間による評価では、既存のモデルは与えられたテキストプロンプトに忠実なビデオを生成する能力が著しく欠けており、また物理的な常識も欠けていることが明らかになった。具体的には、最も性能の良いモデルであるCogVideoX-5Bは、39.6%のインスタンスでキャプションと物理法則に従ったビデオを生成する。このようにVideoPhyは、ビデオ生成モデルが物理世界を正確にシミュレートするには程遠いことを強調している。最後に、新しくリリースされたモデルの性能を確実に評価するために、自動評価ツールVideoCon-Physicsを提案する。

要約(オリジナル)

Recent advances in internet-scale video data pretraining have led to the development of text-to-video generative models that can create high-quality videos across a broad range of visual concepts, synthesize realistic motions and render complex objects. Hence, these generative models have the potential to become general-purpose simulators of the physical world. However, it is unclear how far we are from this goal with the existing text-to-video generative models. To this end, we present VideoPhy, a benchmark designed to assess whether the generated videos follow physical commonsense for real-world activities (e.g. marbles will roll down when placed on a slanted surface). Specifically, we curate diverse prompts that involve interactions between various material types in the physical world (e.g., solid-solid, solid-fluid, fluid-fluid). We then generate videos conditioned on these captions from diverse state-of-the-art text-to-video generative models, including open models (e.g., CogVideoX) and closed models (e.g., Lumiere, Dream Machine). Our human evaluation reveals that the existing models severely lack the ability to generate videos adhering to the given text prompts, while also lack physical commonsense. Specifically, the best performing model, CogVideoX-5B, generates videos that adhere to the caption and physical laws for 39.6% of the instances. VideoPhy thus highlights that the video generative models are far from accurately simulating the physical world. Finally, we propose an auto-evaluator, VideoCon-Physics, to assess the performance reliably for the newly released models.

arxiv情報

著者 Hritik Bansal,Zongyu Lin,Tianyi Xie,Zeshun Zong,Michal Yarom,Yonatan Bitton,Chenfanfu Jiang,Yizhou Sun,Kai-Wei Chang,Aditya Grover
発行日 2024-10-03 17:24:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

要約

ある文章を要約したり、質問に答えたりするよう求められると、大規模言語モデル(LLM)は詳細を幻覚し、入力文脈に対して不正確な根拠のない答えを返すことがある。本稿では、このような文脈の幻覚を検出するための簡単なアプローチについて述べる。我々は、文脈の幻覚は、LLMが提供された文脈の情報に注意を払う程度と、LLM自身の世代の情報に注意を払う程度とが関係していると仮定する。この直感に基づき、文脈に対する注意の重みと新しく生成されたトークンに対する注意の重みの比を入力特徴量とする簡単な幻覚検出モデルを提案する(各注意ヘッドに対して)。我々は、これらのルックバック比特徴に基づく線形分類器が、LLMやテキストベースの含意モデルの隠れた状態全体を利用する、よりリッチな検出器と同程度に効果的であることを発見した。ルックバック比に基づく検出器(Lookback Lens)は、タスクやモデルさえも横断的に移行することがわかり、7Bのモデルで学習した検出器を(再学習することなく)より大きな13Bのモデルに適用することができる。さらに、この検出器を文脈による幻覚を軽減するために適用し、単純な分類器ガイド付きデコーディングアプローチにより、例えばXSum要約タスクにおいて9.6%の幻覚の量を減らすことができることを発見した。

要約(オリジナル)

When asked to summarize articles or answer questions given a passage, large language models (LLMs) can hallucinate details and respond with unsubstantiated answers that are inaccurate with respect to the input context. This paper describes a simple approach for detecting such contextual hallucinations. We hypothesize that contextual hallucinations are related to the extent to which an LLM attends to information in the provided context versus its own generations. Based on this intuition, we propose a simple hallucination detection model whose input features are given by the ratio of attention weights on the context versus newly generated tokens (for each attention head). We find that a linear classifier based on these lookback ratio features is as effective as a richer detector that utilizes the entire hidden states of an LLM or a text-based entailment model. The lookback ratio-based detector — Lookback Lens — is found to transfer across tasks and even models, allowing a detector that is trained on a 7B model to be applied (without retraining) to a larger 13B model. We further apply this detector to mitigate contextual hallucinations, and find that a simple classifier-guided decoding approach is able to reduce the amount of hallucination, for example by 9.6% in the XSum summarization task.

arxiv情報

著者 Yung-Sung Chuang,Linlu Qiu,Cheng-Yu Hsieh,Ranjay Krishna,Yoon Kim,James Glass
発行日 2024-10-03 17:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Selective Attention Improves Transformer

要約

注意のコンテキストにある不要な要素は、パフォーマンスを低下させる。我々は、標準的なアテンションメカニズムにパラメータを必要としないシンプルな変更を加えることで、不要な要素へのアテンションを減らす「選択的アテンション」を紹介する。選択的注意は、様々なモデルのサイズとコンテキストの長さにおいて言語モデリングの性能を向上させる。例えば、選択的注意を用いてC4の言語モデリング目的で訓練された様々な変換器は、注意モジュールのヘッドとパラメータが~2倍多い標準的な変換器と同等の性能を発揮する。選択的注意はまた、注意のコンテキストバッファのサイズを小さくすることを可能にし、推論中のメモリと計算要件の有意義な削減につながる。例えば、コンテキストサイズが512、1,024、2,048のC4で訓練された100Mのパラメータを持つ変換器は、選択的注意を装備した場合、同じ検証当惑度で、選択的注意を装備していない変換器と比較して、注意モジュールに必要なメモリがそれぞれ16倍、25倍、47倍少なくなる。

要約(オリジナル)

Unneeded elements in the attention’s context degrade performance. We introduce Selective Attention, a simple parameter-free change to the standard attention mechanism which reduces attention to unneeded elements. Selective attention improves language modeling performance in a variety of model sizes and context lengths. For example, a range of transformers trained with the language modeling objective on C4 with selective attention perform equivalently to standard transformers with ~2X more heads and parameters in their attention modules. Selective attention also allows decreasing the size of the attention’s context buffer, leading to meaningful reductions in the memory and compute requirements during inference. For example, transformers with 100M parameters trained on C4 with context sizes of 512, 1,024, and 2,048 need 16X, 25X, and 47X less memory for their attention module, respectively, when equipped with selective attention, as those without selective attention, with the same validation perplexity.

arxiv情報

著者 Yaniv Leviathan,Matan Kalman,Yossi Matias
発行日 2024-10-03 17:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

要約

大規模言語モデル(LLM)は、事実誤認、偏り、推論の失敗など、「幻覚」と総称される誤りをしばしば生じる。最近の研究では、LLMの内部状態がその出力の真偽に関する情報を符号化し、この情報を利用して誤りを検出できることが実証されている。本研究では、LLMの内部表現が、従来認識されていたよりもはるかに多くの真実性に関する情報を符号化していることを示す。我々はまず、真実性情報が特定のトークンに集中していることを発見し、この特性を活用することで誤り検出性能が大幅に向上することを示す。しかし、このような誤り検出器はデータセット間で一般化できないことを示し、真実性の符号化は普遍的ではなく、むしろ多面的であることを示唆する。次に、内部表現が、モデルが犯しやすい誤りのタイプを予測するためにも利用できることを示し、その結果、モデルに合わせた緩和戦略の開発が容易になることを示す。最後に、LLMの内部符号化と外部行動との間に矛盾があることを明らかにする。LLMは正しい答えを符号化しているにもかかわらず、一貫して間違った答えを生成することがある。これらの洞察を総合すると、モデルの内部的な観点からLLMのエラーについての理解が深まり、エラー分析とエラー緩和の強化に関する今後の研究の指針となる。

要約(オリジナル)

Large language models (LLMs) often produce errors, including factual inaccuracies, biases, and reasoning failures, collectively referred to as ‘hallucinations’. Recent studies have demonstrated that LLMs’ internal states encode information regarding the truthfulness of their outputs, and that this information can be utilized to detect errors. In this work, we show that the internal representations of LLMs encode much more information about truthfulness than previously recognized. We first discover that the truthfulness information is concentrated in specific tokens, and leveraging this property significantly enhances error detection performance. Yet, we show that such error detectors fail to generalize across datasets, implying that — contrary to prior claims — truthfulness encoding is not universal but rather multifaceted. Next, we show that internal representations can also be used for predicting the types of errors the model is likely to make, facilitating the development of tailored mitigation strategies. Lastly, we reveal a discrepancy between LLMs’ internal encoding and external behavior: they may encode the correct answer, yet consistently generate an incorrect one. Taken together, these insights deepen our understanding of LLM errors from the model’s internal perspective, which can guide future research on enhancing error analysis and mitigation.

arxiv情報

著者 Hadas Orgad,Michael Toker,Zorik Gekhman,Roi Reichart,Idan Szpektor,Hadas Kotek,Yonatan Belinkov
発行日 2024-10-03 17:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 | コメントする

SteerDiff: Steering towards Safe Text-to-Image Diffusion Models

要約

T2I(Text-to-image)拡散モデルは、テキストを正確に配置した高品質な画像を生成できることで注目されている。しかし、これらのモデルは、不適切なコンテンツを生成するために悪用される可能性もある。既存の安全対策は、一般的にテキスト分類器やControlNetのようなアプローチに依存していますが、多くの場合不十分です。従来のテキスト分類器は、大規模なラベル付きデータセットに依存しており、言い換えによって簡単に回避されてしまう。拡散モデルの規模が拡大するにつれて、これらのセーフガードを微調整することはますます難しくなり、柔軟性に欠けている。最近のレッドチーム攻撃研究は、不適切なコンテンツの生成を防ぐための新しいパラダイムの必要性をさらに強調している。本論文では、ユーザー入力と拡散モデルの仲介役として機能するように設計された軽量アダプターモジュールであるSteerDiffを紹介し、ユーザビリティにほとんど影響を与えることなく、生成された画像が倫理的かつ安全な基準に準拠していることを保証する。SteerDiffは、テキスト埋め込み空間内の不適切な概念を識別し操作することで、有害な出力からモデルを遠ざける。我々のアプローチの有効性を評価するために、様々な概念学習解除タスクにおいて広範な実験を行った。さらに、SteerDiffの頑健性を評価するために、複数のレッドチーム戦略に対してベンチマークを行う。最後に、概念忘却タスクにおけるSteerDiffの可能性を探求し、テキスト条件付き画像生成におけるSteerDiffの汎用性を実証する。

要約(オリジナル)

Text-to-image (T2I) diffusion models have drawn attention for their ability to generate high-quality images with precise text alignment. However, these models can also be misused to produce inappropriate content. Existing safety measures, which typically rely on text classifiers or ControlNet-like approaches, are often insufficient. Traditional text classifiers rely on large-scale labeled datasets and can be easily bypassed by rephrasing. As diffusion models continue to scale, fine-tuning these safeguards becomes increasingly challenging and lacks flexibility. Recent red-teaming attack researches further underscore the need for a new paradigm to prevent the generation of inappropriate content. In this paper, we introduce SteerDiff, a lightweight adaptor module designed to act as an intermediary between user input and the diffusion model, ensuring that generated images adhere to ethical and safety standards with little to no impact on usability. SteerDiff identifies and manipulates inappropriate concepts within the text embedding space to guide the model away from harmful outputs. We conduct extensive experiments across various concept unlearning tasks to evaluate the effectiveness of our approach. Furthermore, we benchmark SteerDiff against multiple red-teaming strategies to assess its robustness. Finally, we explore the potential of SteerDiff for concept forgetting tasks, demonstrating its versatility in text-conditioned image generation.

arxiv情報

著者 Hongxiang Zhang,Yifeng He,Hao Chen
発行日 2024-10-03 17:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.CV | コメントする

Measurements with Noise: Bayesian Optimization for Co-optimizing Noise and Property Discovery in Automated Experiments

要約

我々は、自動化された実験サイクルにステップ内ノイズ最適化を統合するベイズ最適化(BO)ワークフローを開発した。自動実験における従来のBOアプローチは、実験軌道の最適化に焦点を当てているが、データ品質とコストに対する測定ノイズの影響を見落とすことが多い。我々の提案するフレームワークは、追加入力パラメータとして時間を導入することにより、ターゲット特性と関連する測定ノイズの両方を同時に最適化し、それによってS/N比と実験時間のバランスをとる。報酬駆動型ノイズ最適化と二重最適化取得関数の2つのアプローチを検討し、どちらも最適化プロセス内でノイズとコストを考慮することで、自動ワークフローの効率を向上させる。我々は、シミュレーションとピエゾ応答力顕微鏡(PFM)を用いた実際の実験を通して、我々の手法を検証し、測定時間と特性探索の最適化が成功したことを実証する。我々のアプローチは、自動化された実験ワークフローにおける複数の変数を最適化し、データ品質を向上させ、材料科学やそれ以外の分野でのリソース支出を削減するためのスケーラブルなソリューションを提供します。

要約(オリジナル)

We have developed a Bayesian optimization (BO) workflow that integrates intra-step noise optimization into automated experimental cycles. Traditional BO approaches in automated experiments focus on optimizing experimental trajectories but often overlook the impact of measurement noise on data quality and cost. Our proposed framework simultaneously optimizes both the target property and the associated measurement noise by introducing time as an additional input parameter, thereby balancing the signal-to-noise ratio and experimental duration. Two approaches are explored: a reward-driven noise optimization and a double-optimization acquisition function, both enhancing the efficiency of automated workflows by considering noise and cost within the optimization process. We validate our method through simulations and real-world experiments using Piezoresponse Force Microscopy (PFM), demonstrating the successful optimization of measurement duration and property exploration. Our approach offers a scalable solution for optimizing multiple variables in automated experimental workflows, improving data quality, and reducing resource expenditure in materials science and beyond.

arxiv情報

著者 Boris N. Slautin,Yu Liu,Jan Dec,Vladimir V. Shvartsman,Doru C. Lupascu,Maxim Ziatdinov,Sergei V. Kalinin
発行日 2024-10-03 17:38:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.mtrl-sci, cs.AI, cs.LG | コメントする