Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance

要約

不確実性、リスク、限界を伝える能力は、大規模言語モデルの安全性にとって極めて重要である。しかし、これらの能力に関する現在の評価は、モデルによって生成された言語が適切な確率に一致するかどうかを問う、単純なキャリブレーションに頼っている。その代わりに、LLMコミュニケーションのこの側面の評価は、人間の対話者の行動に焦点を当てるべきである。ここでは、人間がLLM世代に依存しているかどうかを測定する、Rel-A.I.(「依存」と発音)と呼ばれる相互作用中心の評価フレームワークを紹介する。このフレームワークを用いて、対話の文脈的特徴(例えば、議論されている知識領域)や、温かさや有能さを伝える挨拶(例えば、「お役に立ててうれしいです!」)の使用が、依存にどのような影響を与えるかを研究する。私たちは、文脈の特徴が人間の依存行動に大きく影響することを発見した。例えば、人は計算を含む質問に答える際、10%多くLMに依存し、より有能であると認識されるLMに30%多く依存する。この結果は、キャリブレーションや言語の質だけでは、人間とLMの相互作用のリスクを評価するには不十分であることを示しており、相互作用の文脈の特徴を考慮する必要性を示している。

要約(オリジナル)

The ability to communicate uncertainty, risk, and limitation is crucial for the safety of large language models. However, current evaluations of these abilities rely on simple calibration, asking whether the language generated by the model matches appropriate probabilities. Instead, evaluation of this aspect of LLM communication should focus on the behaviors of their human interlocutors: how much do they rely on what the LLM says? Here we introduce an interaction-centered evaluation framework called Rel-A.I. (pronounced ‘rely’}) that measures whether humans rely on LLM generations. We use this framework to study how reliance is affected by contextual features of the interaction (e.g, the knowledge domain that is being discussed), or the use of greetings communicating warmth or competence (e.g., ‘I’m happy to help!’). We find that contextual characteristics significantly affect human reliance behavior. For example, people rely 10% more on LMs when responding to questions involving calculations and rely 30% more on LMs that are perceived as more competent. Our results show that calibration and language quality alone are insufficient in evaluating the risks of human-LM interactions, and illustrate the need to consider features of the interactional context.

arxiv情報

著者 Kaitlyn Zhou,Jena D. Hwang,Xiang Ren,Nouha Dziri,Dan Jurafsky,Maarten Sap
発行日 2024-10-03 16:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC | コメントする

FAN: Fourier Analysis Networks

要約

ニューラルネットワーク、特にMLPやTransformerに代表されるニューラルネットワークが達成した目覚ましい成功にもかかわらず、周期性のモデリングと推論において潜在的な欠陥、すなわち周期性の根本原理を純粋に理解するのではなく、周期性データを記憶する傾向があることを明らかにする。しかし、周期性は様々な推論や汎化において重要な特性であり、観察における反復的なパターンを通して、自然システムや人工システム全体の予測可能性を支えている。本論文では、フーリエ解析に基づく新しいネットワークアーキテクチャであるFANを提案し、周期的現象を効率的にモデル化し推論する能力を強化する。フーリエ級数を導入することで、周期性がニューラルネットワークの構造と計算過程に自然に統合され、周期的パターンのより正確な表現と予測が実現される。多層パーセプトロン(MLP)の有望な代替品として、FANはより少ないパラメータとFLOP数で、様々なモデルにおいてMLPをシームレスに置き換えることができる。広範な実験を通して、周期関数のモデリングと推論におけるFANの有効性、および記号式表現、時系列予測、言語モデリングを含む実世界の様々なタスクにおけるFANの優位性と汎用性を実証する。

要約(オリジナル)

Despite the remarkable success achieved by neural networks, particularly those represented by MLP and Transformer, we reveal that they exhibit potential flaws in the modeling and reasoning of periodicity, i.e., they tend to memorize the periodic data rather than genuinely understanding the underlying principles of periodicity. However, periodicity is a crucial trait in various forms of reasoning and generalization, underpinning predictability across natural and engineered systems through recurring patterns in observations. In this paper, we propose FAN, a novel network architecture based on Fourier Analysis, which empowers the ability to efficiently model and reason about periodic phenomena. By introducing Fourier Series, the periodicity is naturally integrated into the structure and computational processes of the neural network, thus achieving a more accurate expression and prediction of periodic patterns. As a promising substitute to multi-layer perceptron (MLP), FAN can seamlessly replace MLP in various models with fewer parameters and FLOPs. Through extensive experiments, we demonstrate the effectiveness of FAN in modeling and reasoning about periodic functions, and the superiority and generalizability of FAN across a range of real-world tasks, including symbolic formula representation, time series forecasting, and language modeling.

arxiv情報

著者 Yihong Dong,Ge Li,Yongding Tao,Xue Jiang,Kechi Zhang,Jia Li,Jing Su,Jun Zhang,Jingjing Xu
発行日 2024-10-03 17:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs

要約

大規模言語モデル(LLM)を多様な文化圏でより役立つものにするためには、進捗を測定・追跡するための効果的な文化知識ベンチマークが不可欠である。効果的なベンチマークは、ロバストで、多様で、チャレンジングである必要がある。カルチュラルベンチは、バングラデシュ、ジンバブエ、ペルーのような代表的でない地域を含む世界45地域をカバーし、LLMの文化的知識を効果的に評価するための、人間が書き、人間が検証した1,227の質問セットです。各質問は5人の独立したアノテーターによって検証され、食べ物の好みから挨拶の作法まで、17の多様なトピックに及んでいる。我々は2つのセットアップでモデルを評価する:CulturalBench-EasyとCulturalBench-Hardの2つのセットアップでモデルを評価した。LLMはこのようなセットアップの違いに敏感であることがわかった(例えば、GPT-4oでは27.3%の違い)。人間のパフォーマンス(92.6%の精度)と比較すると、CulturalBench-HardはフロンティアLLMにとってより困難であり、最もパフォーマンスの高いモデル(GPT-4o)は61.5%、最も低いモデル(Llama3-8b)は21.4%にとどまる。さらに、LLMは、複数の正解があるトリッキーな問題(例:中国人は通常どのような食器を使うか)に苦戦することが多く、単一の答えに収束する傾向があることが明らかになりました。また、OpenAI GPT-4oは、1つの地域(オセアニア)を除くすべての地域に関連する質問において、他のプロプライエタリおよびオープンソースモデルを大幅に上回るという結果も示しています。それにもかかわらず、南米と中東に関する問題では、すべてのモデルが一貫して劣っています。

要約(オリジナル)

To make large language models (LLMs) more helpful across diverse cultures, it is essential to have effective cultural knowledge benchmarks to measure and track our progress. Effective benchmarks need to be robust, diverse, and challenging. We introduce CulturalBench: a set of 1,227 human-written and human-verified questions for effectively assessing LLMs’ cultural knowledge, covering 45 global regions including the underrepresented ones like Bangladesh, Zimbabwe, and Peru. Questions – each verified by five independent annotators – span 17 diverse topics ranging from food preferences to greeting etiquettes. We evaluate models on two setups: CulturalBench-Easy and CulturalBench-Hard which share the same questions but asked differently. We find that LLMs are sensitive to such difference in setups (e.g., GPT-4o with 27.3% difference). Compared to human performance (92.6% accuracy), CulturalBench-Hard is more challenging for frontier LLMs with the best performing model (GPT-4o) at only 61.5% and the worst (Llama3-8b) at 21.4%. Moreover, we find that LLMs often struggle with tricky questions that have multiple correct answers (e.g., What utensils do the Chinese usually use?), revealing a tendency to converge to a single answer. Our results also indicate that OpenAI GPT-4o substantially outperform other proprietary and open source models in questions related to all but one region (Oceania). Nonetheless, all models consistently underperform on questions related to South America and the Middle East.

arxiv情報

著者 Yu Ying Chiu,Liwei Jiang,Bill Yuchen Lin,Chan Young Park,Shuyue Stella Li,Sahithya Ravi,Mehar Bhatia,Maria Antoniak,Yulia Tsvetkov,Vered Shwartz,Yejin Choi
発行日 2024-10-03 17:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Distilling an End-to-End Voice Assistant Without Instruction Training Data

要約

SiriやGoogleアシスタントのような音声アシスタントは、通常、音声とテキストを別々にモデル化するため、音声情報が失われ、複雑さが増します。この問題に対処するため、教師付き微調整(SFT)を用いて訓練されたエンドツーエンドの音声大規模言語モデル(LLM)を用いた最近の取り組みでは、モデルがテキストのみのLLMから機能を「忘れる」ことにつながっている。本研究では、テキストのみのLLMのトランスクリプトに対する応答を自己教師として使用することで、命令データなしで音声LLMを訓練するための代替パラダイムを提案する。重要なことは、このプロセスは注釈付き応答なしで実行できることである。我々は、我々のDistilled Voice Assistant (DiVA)が音声質問応答、分類、翻訳に一般化することを示す。さらに、DiVAがユーザの嗜好をよりよく満たし、Qwen 2 Audioのような最先端モデルと比較して、$>$100倍少ない訓練計算量にもかかわらず、72%の勝率を達成することを示す。

要約(オリジナル)

Voice assistants, such as Siri and Google Assistant, typically model audio and text separately, resulting in lost speech information and increased complexity. Recent efforts to address this with end-to-end Speech Large Language Models (LLMs) trained with supervised finetuning (SFT) have led to models “forgetting’ capabilities from text-only LLMs. Our work proposes an alternative paradigm for training Speech LLMs without instruction data, using the response of a text-only LLM to transcripts as self-supervision. Importantly, this process can be performed without annotated responses. We show that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question Answering, Classification, and Translation. Furthermore, we show that DiVA better meets user preferences, achieving a 72\% win rate compared with state-of-the-art models like Qwen 2 Audio, despite using $>$100x less training compute.

arxiv情報

著者 William Held,Ella Li,Michael Ryan,Weiyan Shi,Yanzhe Zhang,Diyi Yang
発行日 2024-10-03 17:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life

要約

日常生活における意思決定のためにLLMのガイダンスを求めることが増えているが、こうした意思決定の多くは明確ではなく、利用者の個人的価値観や倫理基準に大きく依存する。我々は、日常生活で遭遇する1,360の道徳的ジレンマのデータセットであるDailyDilemmasを紹介する。それぞれのジレンマには2つの可能な行動が含まれ、それぞれの行動には影響を受ける当事者と呼び出される人間の価値観が含まれる。これらのジレンマに基づき、対人関係、職場、環境問題など、日常的なトピックにわたる人間の価値観を統合した。これらのジレンマについてLLMを評価し、彼らがどのような行動をとるか、またその行動によってどのような価値観が示されるかを明らかにした。そして、これらの価値観を社会学、心理学、哲学から着想を得た5つの一般的な理論のレンズを通して分析した。これらの理論とは世界価値観調査」、「道徳的基礎理論」、「マズローの欲求階層説」、「アリストテレスの美徳」、「プラッチック情動の輪」である。その結果、LLMは、世界価値調査では生存価値よりも自己表現に、道徳的基礎理論では忠誠心よりも気遣いに、最も一致することがわかった。興味深いことに、真実性のようないくつかの中核的価値観については、モデルによって大きな選好の違いが見られる。例えば、Mixtral-8x7Bモデルは9.7%軽視する傾向があるのに対し、GPT-4-turboモデルは9.4%選択する傾向がある。また、OpenAI(ModelSpec)やAnthropic(Constitutional AI)が最近発表したガイダンスを研究し、日常生活で微妙な道徳的推論に直面したときに、彼らの発表した原則が実際の価値優先順位をどのように反映しているかを理解する。我々は、エンドユーザーがシステムのプロンプトを使用して効果的にそのような優先順位付けを操縦することができないことを発見した。

要約(オリジナル)

As we increasingly seek guidance from LLMs for decision-making in daily life, many of these decisions are not clear-cut and depend significantly on the personal values and ethical standards of the users. We present DailyDilemmas, a dataset of 1,360 moral dilemmas encountered in everyday life. Each dilemma includes two possible actions and with each action, the affected parties and human values invoked. Based on these dilemmas, we consolidated a set of human values across everyday topics e.g., interpersonal relationships, workplace, and environmental issues. We evaluated LLMs on these dilemmas to determine what action they will take and the values represented by these actions. Then, we analyzed these values through the lens of five popular theories inspired by sociology, psychology and philosophy. These theories are: World Value Survey, Moral Foundation Theory, Maslow’s Hierarchy of Needs, Aristotle’s Virtues, and Plutchik Wheel of Emotion. We find that LLMs are most aligned with the self-expression over survival values in terms of World Value Survey, care over loyalty in Moral Foundation Theory. Interestingly, we find large preferences differences in models for some core values such as truthfulness e.g., Mixtral-8x7B model tends to neglect it by 9.7% while GPT-4-turbo model tends to select it by 9.4%. We also study the recent guidance released by OpenAI (ModelSpec), and Anthropic (Constitutional AI) to understand how their released principles reflect their actual value prioritization when facing nuanced moral reasoning in daily-life settings. We find that end users cannot effectively steer such prioritization using system prompts.

arxiv情報

著者 Yu Ying Chiu,Liwei Jiang,Yejin Choi
発行日 2024-10-03 17:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

User-centric Immersive Communications in 6G: A Data-oriented Approach via Digital Twin

要約

この論文では、6Gにおける没入型通信(IC)のための新しいユーザー中心のサービス提供を提示し、多感覚体験の品質に関する独自の要件を満たしながら、個々のユーザー行動の不確実性に対処する。この目的のために、ネットワークリソース管理のためのデータ指向のアプローチを提案し、さまざまなユーザーの要求に合わせたネットワークモデリングをサポートできるパーソナライズされたデータ管理を特徴とする。本アプローチでは、デジタル・ツイン(DT)技術をキーイネーブラーとして活用する。特に、DTはユーザーごとに確立され、DT内のデータ属性はユーザーの特性に基づいてカスタマイズされる。様々なデータ操作に対応するDT機能は、ネットワークモデルの開発、評価、更新において、ユーザー固有の要求に応えるためにカスタマイズされる。トレース・ドリブンのケース・スタディにより、ユーザー中心のICを実現する上での本アプローチの有効性と、6Gにおけるパーソナライズされたデータ管理の意義を実証する。

要約(オリジナル)

In this article, we present a novel user-centric service provision for immersive communications (IC) in 6G to deal with the uncertainty of individual user behaviors while satisfying unique requirements on the quality of multi-sensory experience. To this end, we propose a data-oriented approach for network resource management, featuring personalized data management that can support network modeling tailored to different user demands. Our approach leverages the digital twin (DT) technique as a key enabler. Particularly, a DT is established for each user, and the data attributes in the DT are customized based on the characteristics of the user. The DT functions, corresponding to various data operations, are customized in the development, evaluation, and update of network models to meet unique user demands. A trace-driven case study demonstrates the effectiveness of our approach in achieving user-centric IC and the significance of personalized data management in 6G.

arxiv情報

著者 Conghao Zhou,Shisheng Hu,Jie Gao,Xinyu Huang,Weihua Zhuang,Xuemin Shen
発行日 2024-10-03 17:15:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.NI | コメントする

Discovering Clues of Spoofed LM Watermarks

要約

LLM透かしは、LLMで生成されたテキストの所有権を示す有望な方法として注目されている。電子透かしの信頼性に対する脅威の一つはなりすまし攻撃によるもので、権限のない第三者が電子透かしを偽造することで、任意のテキストを特定のLLMであると偽ることができる。最近の研究により、最新の方式が実際になりすましに対して脆弱であることが実証されているが、なりすまし手法によって生成されたテキストのより深い質的分析が欠如している。本研究では、真正の電子透かしテキストとなりすましの電子透かしテキストには観察可能な違いがあることを初めて明らかにする。すなわち、現在のすべてのなりすまし手法は、その基本的なアプローチにかかわらず、なりすましテキストに透かし偽造を示す観察可能なアーチファクトを一貫して残すことを示す。我々はこれらの発見を基に、このようなアーチファクトの存在を確実に明らかにし、電子透かしが偽装されたことを効果的に発見する厳密な統計的テストを提案する。我々の実験的評価では、現在の全てのなりすまし手法において高い検出力を示し、その基本的な限界についての洞察を提供するとともに、この脅威を軽減する方法を提案する。

要約(オリジナル)

LLM watermarks stand out as a promising way to attribute ownership of LLM-generated text. One threat to watermark credibility comes from spoofing attacks, where an unauthorized third party forges the watermark, enabling it to falsely attribute arbitrary texts to a particular LLM. While recent works have demonstrated that state-of-the-art schemes are in fact vulnerable to spoofing, they lack deeper qualitative analysis of the texts produced by spoofing methods. In this work, we for the first time reveal that there are observable differences between genuine and spoofed watermark texts. Namely, we show that regardless of their underlying approach, all current spoofing methods consistently leave observable artifacts in spoofed texts, indicative of watermark forgery. We build upon these findings to propose rigorous statistical tests that reliably reveal the presence of such artifacts, effectively discovering that a watermark was spoofed. Our experimental evaluation shows high test power across all current spoofing methods, providing insights into their fundamental limitations, and suggesting a way to mitigate this threat.

arxiv情報

著者 Thibaud Gloaguen,Nikola Jovanović,Robin Staab,Martin Vechev
発行日 2024-10-03 17:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG | コメントする

HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly

要約

ロングコンテクスト言語モデル(LCLM)を評価するためのベンチマークは数多く存在するが、開発者はしばしば、NIAH(needle-in-a-haystack)のような合成タスクやタスクの任意のサブセットに依存している。これらのタスクがLCLMの多様な下流アプリケーションに適用できるかどうかは依然として不明であり、矛盾がモデルの比較をさらに複雑にしている。我々は、現在の手法の背後にある根本的な理由を調査し、既存のベンチマークが、アプリケーションのカバレッジの低さ、不十分な長さ、信頼性の低いメトリクス、および基本モデルとの非互換性のために、しばしばノイズの多いシグナルを提供することを発見した。本研究では、7つの多様なアプリケーション中心のカテゴリを網羅する包括的なベンチマークであるHELMET(How to Evaluate Long-context Models Effectively and Thoroughly)を発表する。また、128kトークンまでの制御可能な長さの追加、信頼性の高いメトリクスのためのモデルベース評価、ベースモデルをロバストに評価するための少数ショットプロンプトの追加により、これまでのベンチマークの多くの問題に対処している。その結果、HELMETがフロンティアLCLMのより信頼性の高い一貫したランキングを提供することが実証された。51のLCLMの包括的な研究を通じて、我々は、(1)NIAHのような合成タスクは、ダウンストリームの性能の良い予測因子ではないこと、(2)HELMETの多様なカテゴリは、明確な傾向を示し、互いの相関は低いこと、(3)ほとんどのLCLMがNIAHの満点を達成する一方で、タスクがフルコンテキストの推論や複雑な指示に従うことを必要とする場合、オープンソースモデルはクローズドモデルに大きく遅れをとること(その差は、長さが長くなるにつれて拡大する)を発見した。最終的には、多様なタスクの総合的な評価を提唱する。

要約(オリジナル)

There have been many benchmarks for evaluating long-context language models (LCLMs), but developers often rely on synthetic tasks like needle-in-a-haystack (NIAH) or arbitrary subsets of tasks. It remains unclear whether they translate to the diverse downstream applications of LCLMs, and the inconsistency further complicates model comparison. We investigate the underlying reasons behind current practices and find that existing benchmarks often provide noisy signals due to low coverage of applications, insufficient lengths, unreliable metrics, and incompatibility with base models. In this work, we present HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address many issues in previous benchmarks by adding controllable lengths up to 128k tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 51 LCLMs, we find that (1) synthetic tasks like NIAH are not good predictors of downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlation with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when the task requires full-context reasoning or following complex instructions — the gap widens with increased lengths. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and more predictive of other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.

arxiv情報

著者 Howard Yen,Tianyu Gao,Minmin Hou,Ke Ding,Daniel Fleischer,Peter Izasak,Moshe Wasserblat,Danqi Chen
発行日 2024-10-03 17:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

VideoPhy: Evaluating Physical Commonsense for Video Generation

要約

インターネット規模のビデオデータの事前学習における最近の進歩により、幅広い視覚的概念にわたって高品質なビデオを作成し、リアルなモーションを合成し、複雑なオブジェクトをレンダリングできる、テキストからビデオへの生成モデルが開発された。したがって、これらの生成モデルは、物理世界の汎用シミュレータになる可能性を秘めている。しかし、既存のテキストから動画への生成モデルで、この目標までどの程度の距離があるのかは不明である。この目的のために、我々はVideoPhyを提示する。VideoPhyは、生成された動画が実世界の活動(例えば、ビー玉は斜めの表面に置かれると転がり落ちる)の物理的常識に従っているかどうかを評価するために設計されたベンチマークである。具体的には、物理世界における様々な種類の物質間の相互作用(例:固体-固体、固体-流体、流体-流体)を含む多様なプロンプトをキュレートする。次に、オープンモデル(CogVideoXなど)やクローズドモデル(Lumiere、Dream Machineなど)を含む、多様な最先端のテキストから動画への生成モデルから、これらのキャプションを条件とする動画を生成する。我々の人間による評価では、既存のモデルは与えられたテキストプロンプトに忠実なビデオを生成する能力が著しく欠けており、また物理的な常識も欠けていることが明らかになった。具体的には、最も性能の良いモデルであるCogVideoX-5Bは、39.6%のインスタンスでキャプションと物理法則に従ったビデオを生成する。このようにVideoPhyは、ビデオ生成モデルが物理世界を正確にシミュレートするには程遠いことを強調している。最後に、新しくリリースされたモデルの性能を確実に評価するために、自動評価ツールVideoCon-Physicsを提案する。

要約(オリジナル)

Recent advances in internet-scale video data pretraining have led to the development of text-to-video generative models that can create high-quality videos across a broad range of visual concepts, synthesize realistic motions and render complex objects. Hence, these generative models have the potential to become general-purpose simulators of the physical world. However, it is unclear how far we are from this goal with the existing text-to-video generative models. To this end, we present VideoPhy, a benchmark designed to assess whether the generated videos follow physical commonsense for real-world activities (e.g. marbles will roll down when placed on a slanted surface). Specifically, we curate diverse prompts that involve interactions between various material types in the physical world (e.g., solid-solid, solid-fluid, fluid-fluid). We then generate videos conditioned on these captions from diverse state-of-the-art text-to-video generative models, including open models (e.g., CogVideoX) and closed models (e.g., Lumiere, Dream Machine). Our human evaluation reveals that the existing models severely lack the ability to generate videos adhering to the given text prompts, while also lack physical commonsense. Specifically, the best performing model, CogVideoX-5B, generates videos that adhere to the caption and physical laws for 39.6% of the instances. VideoPhy thus highlights that the video generative models are far from accurately simulating the physical world. Finally, we propose an auto-evaluator, VideoCon-Physics, to assess the performance reliably for the newly released models.

arxiv情報

著者 Hritik Bansal,Zongyu Lin,Tianyi Xie,Zeshun Zong,Michal Yarom,Yonatan Bitton,Chenfanfu Jiang,Yizhou Sun,Kai-Wei Chang,Aditya Grover
発行日 2024-10-03 17:24:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

要約

ある文章を要約したり、質問に答えたりするよう求められると、大規模言語モデル(LLM)は詳細を幻覚し、入力文脈に対して不正確な根拠のない答えを返すことがある。本稿では、このような文脈の幻覚を検出するための簡単なアプローチについて述べる。我々は、文脈の幻覚は、LLMが提供された文脈の情報に注意を払う程度と、LLM自身の世代の情報に注意を払う程度とが関係していると仮定する。この直感に基づき、文脈に対する注意の重みと新しく生成されたトークンに対する注意の重みの比を入力特徴量とする簡単な幻覚検出モデルを提案する(各注意ヘッドに対して)。我々は、これらのルックバック比特徴に基づく線形分類器が、LLMやテキストベースの含意モデルの隠れた状態全体を利用する、よりリッチな検出器と同程度に効果的であることを発見した。ルックバック比に基づく検出器(Lookback Lens)は、タスクやモデルさえも横断的に移行することがわかり、7Bのモデルで学習した検出器を(再学習することなく)より大きな13Bのモデルに適用することができる。さらに、この検出器を文脈による幻覚を軽減するために適用し、単純な分類器ガイド付きデコーディングアプローチにより、例えばXSum要約タスクにおいて9.6%の幻覚の量を減らすことができることを発見した。

要約(オリジナル)

When asked to summarize articles or answer questions given a passage, large language models (LLMs) can hallucinate details and respond with unsubstantiated answers that are inaccurate with respect to the input context. This paper describes a simple approach for detecting such contextual hallucinations. We hypothesize that contextual hallucinations are related to the extent to which an LLM attends to information in the provided context versus its own generations. Based on this intuition, we propose a simple hallucination detection model whose input features are given by the ratio of attention weights on the context versus newly generated tokens (for each attention head). We find that a linear classifier based on these lookback ratio features is as effective as a richer detector that utilizes the entire hidden states of an LLM or a text-based entailment model. The lookback ratio-based detector — Lookback Lens — is found to transfer across tasks and even models, allowing a detector that is trained on a 7B model to be applied (without retraining) to a larger 13B model. We further apply this detector to mitigate contextual hallucinations, and find that a simple classifier-guided decoding approach is able to reduce the amount of hallucination, for example by 9.6% in the XSum summarization task.

arxiv情報

著者 Yung-Sung Chuang,Linlu Qiu,Cheng-Yu Hsieh,Ranjay Krishna,Yoon Kim,James Glass
発行日 2024-10-03 17:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする