Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference

要約

自然言語推論 (NLI) 仮説を作成するためにクラウドソーシング ワーカーを LLM に置き換えても、同様にアノテーション アーティファクトが発生するかどうかをテストします。
GPT-4、Llama-2、Mistral 7b を使用してスタンフォード NLI コーパスの一部を再作成し、仮説のみの分類器をトレーニングして、LLM によって導き出された仮説にアノテーション アーティファクトが含まれているかどうかを判断します。
LLM によって導出された NLI データセットでは、BERT ベースの仮説のみの分類器は 86 ~ 96% の精度を達成しており、これらのデータセットには仮説のみのアーティファクトが含まれていることを示しています。
また、LLM によって生成された仮説には、頻繁に「ギブアウェイ」が見られます。
「プールで泳ぐ」というフレーズは、GPT-4 によって生成された 10,000 以上の矛盾の中に出現します。
私たちの分析は、NLI における十分に証明されたバイアスが LLM で生成されたデータに存続する可能性があるという経験的証拠を提供します。

要約(オリジナル)

We test whether replacing crowdsource workers with LLMs to write Natural Language Inference (NLI) hypotheses similarly results in annotation artifacts. We recreate a portion of the Stanford NLI corpus using GPT-4, Llama-2 and Mistral 7b, and train hypothesis-only classifiers to determine whether LLM-elicited hypotheses contain annotation artifacts. On our LLM-elicited NLI datasets, BERT-based hypothesis-only classifiers achieve between 86-96% accuracy, indicating these datasets contain hypothesis-only artifacts. We also find frequent ‘give-aways’ in LLM-generated hypotheses, e.g. the phrase ‘swimming in a pool’ appears in more than 10,000 contradictions generated by GPT-4. Our analysis provides empirical evidence that well-attested biases in NLI can persist in LLM-generated data.

arxiv情報

著者 Grace Proebsting,Adam Poliak
発行日 2024-10-11 17:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference はコメントを受け付けていません

LLM-Generated Black-box Explanations Can Be Adversarially Helpful

要約

大規模言語モデル (LLM) は、デジタル アシスタントとして機能することで、複雑な問題の解決と理解を助ける重要なツールになりつつあります。
LLM は、これらの問題の入力と出力のみが与えられた場合でも、つまり「ブラックボックス」アプローチであった場合でも、説得力のある説明を生成できます。
しかし、私たちの調査では、このアプローチに関連する隠れたリスク、つまり「敵対的有用性」と呼ばれるリスクが明らかになりました。
これは、LLM の説明によって間違った答えが正しいように見せかけ、人々が間違った答えを信頼するように誘導する場合に発生します。
この論文では、この問題が人間だけでなく LLM 評価者にも影響を及ぼすことを示します。
さらに深く掘り下げて、LLM が採用する主要な説得戦略を特定し、調査します。
私たちの調査結果は、これらのモデルが、質問を再構成し、高いレベルの信頼を表現し、誤解を招く答えを信頼できる観点から描くために証拠を厳選するなどの戦略を採用していることを明らかにしました。
LLM が敵対的に役立つ説明を生成するときに複雑な構造の知識をナビゲートできるかどうかを調べるために、グラフ内のナビゲートに基づいた特別なタスクを作成します。
ほとんどの LLM は、単純なグラフに沿って代替パスを見つけることができません。これは、誤解を招く説明が、複雑な知識を使用した論理的演繹だけによって生成されていないことを示しています。
これらの発見により、ブラックボックス説明設定の限界が明らかになり、LLM の安全な使用法についてのアドバイスを提供できるようになります。

要約(オリジナル)

Large Language Models (LLMs) are becoming vital tools that help us solve and understand complex problems by acting as digital assistants. LLMs can generate convincing explanations, even when only given the inputs and outputs of these problems, i.e., in a “black-box” approach. However, our research uncovers a hidden risk tied to this approach, which we call *adversarial helpfulness*. This happens when an LLM’s explanations make a wrong answer look right, potentially leading people to trust incorrect solutions. In this paper, we show that this issue affects not just humans, but also LLM evaluators. Digging deeper, we identify and examine key persuasive strategies employed by LLMs. Our findings reveal that these models employ strategies such as reframing the questions, expressing an elevated level of confidence, and cherry-picking evidence to paint misleading answers in a credible light. To examine if LLMs are able to navigate complex-structured knowledge when generating adversarially helpful explanations, we create a special task based on navigating through graphs. Most LLMs are not able to find alternative paths along simple graphs, indicating that their misleading explanations aren’t produced by only logical deductions using complex knowledge. These findings shed light on the limitations of the black-box explanation setting and allow us to provide advice on the safe usage of LLMs.

arxiv情報

著者 Rohan Ajwani,Shashidhar Reddy Javaji,Frank Rudzicz,Zining Zhu
発行日 2024-10-11 17:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-Generated Black-box Explanations Can Be Adversarially Helpful はコメントを受け付けていません

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

要約

柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (LLM) のいずれかの形式で、音声対応の基礎モデルの人気が高まっています。
これらのモデルの興味深い側面の 1 つは、適切なプロンプトを使用して自動音声認識 (ASR) 以外のタスクを実行できることです。
たとえば、OpenAI Whisper モデルは、音声の書き起こしと音声翻訳の両方を実行できます。
音声指示による LLM の開発により、さらに優れた制御オプションが可能になる可能性があります。
この研究では、この柔軟性の向上により、システムがモデル制御による敵対的攻撃の影響を受けやすくなる可能性があることを実証します。
モデル プロンプトにアクセスしなくても、オーディオ入力を適切に変更することでシステムの動作を変更できます。
このリスクを説明するために、短い普遍的な敵対的音響セグメントを任意の入力音声信号の前に追加して、ASR 基盤モデルのプロンプト設定をオーバーライドできることを示します。
具体的には、ユニバーサル敵対的音響セグメントを使用して、音声転写を実行するように設定されているにもかかわらず、常に音声翻訳を実行するように Whisper を制御することに成功しました。
全体として、この研究は、マルチタスク音声対応基盤モデルに対する新しい形式の敵対的攻撃を示しており、この形式のモデルを展開する前に検討する必要があります。

要約(オリジナル)

Speech enabled foundation models, either in the form of flexible speech recognition based systems or audio-prompted large language models (LLMs), are becoming increasingly popular. One of the interesting aspects of these models is their ability to perform tasks other than automatic speech recognition (ASR) using an appropriate prompt. For example, the OpenAI Whisper model can perform both speech transcription and speech translation. With the development of audio-prompted LLMs there is the potential for even greater control options. In this work we demonstrate that with this greater flexibility the systems can be susceptible to model-control adversarial attacks. Without any access to the model prompt it is possible to modify the behaviour of the system by appropriately changing the audio input. To illustrate this risk, we demonstrate that it is possible to prepend a short universal adversarial acoustic segment to any input speech signal to override the prompt setting of an ASR foundation model. Specifically, we successfully use a universal adversarial acoustic segment to control Whisper to always perform speech translation, despite being set to perform speech transcription. Overall, this work demonstrates a new form of adversarial attack on multi-tasking speech enabled foundation models that needs to be considered prior to the deployment of this form of model.

arxiv情報

著者 Vyas Raina,Mark Gales
発行日 2024-10-11 17:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models はコメントを受け付けていません

SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

要約

GPT-4、PaLM、LLaMA などの大規模言語モデル (LLM) は、さまざまな推論タスクにおいて大幅な改善を示しています。
ただし、Llama-3-8B や DeepSeekMath-Base などの小規模なモデルは、推論エラーを効果的に特定して修正できないため、依然として複雑な数学的推論に苦労しています。
最近のリフレクションベースの手法は、自己反省と自己修正を可能にすることでこれらの問題に対処することを目的としていますが、推論ステップでのエラーを独立して検出するという課題に依然として直面しています。
これらの制限を克服するために、我々は、大規模な教師モデルを使用して、小規模な生徒モデルの推論プロセスと反省プロセスの両方を監視および修正する新しい 2 段階のフレームワークである SuperCorrect を提案します。
最初の段階では、教師モデルから階層的な高レベルで詳細な思考テンプレートを抽出し、よりきめの細かい推論思考を引き出す際に生徒モデルをガイドします。
第 2 段階では、トレーニング中に教師の修正トレースを追跡することにより、学生モデルの自己修正能力を強化するために、モデル間の協調的直接選好最適化 (DPO) を導入します。
このクロスモデル DPO アプローチは、教師モデルからのエラー駆動型の洞察を使用して、生徒モデルに誤った考えを効果的に見つけて解決することを教え、思考のボトルネックを解消し、困難な問題に取り組むための新しいスキルと知識を獲得します。
広範な実験により、以前の方法に対する当社の優位性が一貫して実証されています。
特に、当社の SuperCorrect-7B モデルは、MATH/GSM8K ベンチマークで強力な DeepSeekMath-7B を 7.8%/5.3%、Qwen2.5-Math-7B を 15.1%/6.3% 上回り、すべての 7B モデルの中で新しい SOTA パフォーマンスを達成しています。
コード: https://github.com/YangLing0818/SuperCorrect-llm

要約(オリジナル)

Large language models (LLMs) like GPT-4, PaLM, and LLaMA have shown significant improvements in various reasoning tasks. However, smaller models such as Llama-3-8B and DeepSeekMath-Base still struggle with complex mathematical reasoning because they fail to effectively identify and correct reasoning errors. Recent reflection-based methods aim to address these issues by enabling self-reflection and self-correction, but they still face challenges in independently detecting errors in their reasoning steps. To overcome these limitations, we propose SuperCorrect, a novel two-stage framework that uses a large teacher model to supervise and correct both the reasoning and reflection processes of a smaller student model. In the first stage, we extract hierarchical high-level and detailed thought templates from the teacher model to guide the student model in eliciting more fine-grained reasoning thoughts. In the second stage, we introduce cross-model collaborative direct preference optimization (DPO) to enhance the self-correction abilities of the student model by following the teacher’s correction traces during training. This cross-model DPO approach teaches the student model to effectively locate and resolve erroneous thoughts with error-driven insights from the teacher model, breaking the bottleneck of its thoughts and acquiring new skills and knowledge to tackle challenging problems. Extensive experiments consistently demonstrate our superiority over previous methods. Notably, our SuperCorrect-7B model significantly surpasses powerful DeepSeekMath-7B by 7.8%/5.3% and Qwen2.5-Math-7B by 15.1%/6.3% on MATH/GSM8K benchmarks, achieving new SOTA performance among all 7B models. Code: https://github.com/YangLing0818/SuperCorrect-llm

arxiv情報

著者 Ling Yang,Zhaochen Yu,Tianjun Zhang,Minkai Xu,Joseph E. Gonzalez,Bin Cui,Shuicheng Yan
発行日 2024-10-11 17:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights はコメントを受け付けていません

The Impact of Visual Information in Chinese Characters: Evaluating Large Models’ Ability to Recognize and Utilize Radicals

要約

中国語の象形文字体系には、意味や発音に関するヒントを提供する部首など、情報豊富な視覚的特徴が各文字に組み込まれています。
しかし、現代の大規模言語モデル (LLM) と視覚言語モデル (VLM) がプロンプトを通じて中国語のこれらのサブ文字の特徴を利用できるかどうかについては調査されていません。
この研究では、部首、構成構造、画数、画数などの漢字の視覚要素に対する LLM と VLM の理解を評価するためのベンチマークを確立します。
私たちの結果は、驚くべきことに、キャラクターの画像が提供されているかどうかに関係なく、モデルは視覚情報についてある程度の、しかしまだ限られた知識を示していることを明らかにしました。
モデルが部首を使用できるようにするために、中国語理解タスクのプロンプトに部首を組み込む実験をさらに行いました。
部首に関する追加情報を提供する際の品詞タグ付けの一貫した改善が観察され、サブ文字情報を統合することで CLP を強化できる可能性が示唆されています。

要約(オリジナル)

The glyphic writing system of Chinese incorporates information-rich visual features in each character, such as radicals that provide hints about meaning or pronunciation. However, there has been no investigation into whether contemporary Large Language Models (LLMs) and Vision-Language Models (VLMs) can harness these sub-character features in Chinese through prompting. In this study, we establish a benchmark to evaluate LLMs’ and VLMs’ understanding of visual elements in Chinese characters, including radicals, composition structures, strokes, and stroke counts. Our results reveal that models surprisingly exhibit some, but still limited, knowledge of the visual information, regardless of whether images of characters are provided. To incite models’ ability to use radicals, we further experiment with incorporating radicals into the prompts for Chinese language understanding tasks. We observe consistent improvement in Part-Of-Speech tagging when providing additional information about radicals, suggesting the potential to enhance CLP by integrating sub-character information.

arxiv情報

著者 Xiaofeng Wu,Karl Stratos,Wei Xu
発行日 2024-10-11 17:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Impact of Visual Information in Chinese Characters: Evaluating Large Models’ Ability to Recognize and Utilize Radicals はコメントを受け付けていません

Parameter-Efficient Fine-Tuning of State Space Models

要約

Mamba (Gu & Dao、2024) などのディープ ステート スペース モデル (SSM) は、言語モデリングの強力なツールとして登場し、効率的な推論とシーケンス長の線形スケーリングによる高いパフォーマンスを提供します。
ただし、パラメータ効率の良い微調整 (PEFT) 手法を SSM ベースのモデルに適用することは、ほとんど研究されていないままです。
このペーパーは、次の 2 つの重要な質問を系統的に研究することを目的としています: (i) 既存の PEFT 手法は SSM ベースのモデルでどのように機能しますか?
(ii) 微調整に最も効果的なモジュールはどれですか?
SSM ベースのモデルで 4 つの基本的な PEFT 手法の経験的ベンチマークを実行します。
私たちの調査結果は、プロンプトベースの方法(プレフィックスチューニングなど)がもはや効果的ではないことを明らかにしており、この経験的結果は理論的分析によってさらに裏付けられています。
対照的に、LoRA は SSM ベースのモデルに対して引き続き有効です。
これらのモデル内での LoRA の最適な適用をさらに調査し、LoRA は SSM モジュールの調整には効果的ではないため、SSM モジュールを変更せずに線形射影行列に LoRA を適用すると最良の結果が得られることを理論的および実験的に実証しました。
パフォーマンスをさらに向上させるために、LoRA を線形射影行列に適用しながら、SSM モジュールの特定のチャネルと状態を選択的に更新する、Selective Dimension Tuning (SDLoRA) を備えた LoRA を導入します。
広範な実験結果は、このアプローチが標準の LoRA よりも優れていることを示しています。

要約(オリジナル)

Deep State Space Models (SSMs), such as Mamba (Gu & Dao, 2024), have emerged as powerful tools for language modeling, offering high performance with efficient inference and linear scaling in sequence length. However, the application of parameter-efficient fine-tuning (PEFT) methods to SSM-based models remains largely unexplored. This paper aims to systematically study two key questions: (i) How do existing PEFT methods perform on SSM-based models? (ii) Which modules are most effective for fine-tuning? We conduct an empirical benchmark of four basic PEFT methods on SSM-based models. Our findings reveal that prompt-based methods (e.g., prefix-tuning) are no longer effective, an empirical result further supported by theoretical analysis. In contrast, LoRA remains effective for SSM-based models. We further investigate the optimal application of LoRA within these models, demonstrating both theoretically and experimentally that applying LoRA to linear projection matrices without modifying SSM modules yields the best results, as LoRA is not effective at tuning SSM modules. To further improve performance, we introduce LoRA with Selective Dimension tuning (SDLoRA), which selectively updates certain channels and states on SSM modules while applying LoRA to linear projection matrices. Extensive experimental results show that this approach outperforms standard LoRA.

arxiv情報

著者 Kevin Galim,Wonjun Kang,Yuchen Zeng,Hyung Il Koo,Kangwook Lee
発行日 2024-10-11 17:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Parameter-Efficient Fine-Tuning of State Space Models はコメントを受け付けていません

MedMobile: A mobile-sized language model with expert-level clinical capabilities

要約

言語モデル (LM) は、医学において専門家レベルの推論能力と想起能力を実証しています。
しかし、計算コストとプライバシーへの懸念が、大規模な実装への障壁となっています。
医療アプリケーション向けに、モバイル デバイス上で実行可能な 38 億パラメータの LM である phi-3-mini の倹約的な適応である MedMobile を紹介します。
MedMobile が MedQA (USMLE) で 75.7% のスコアを獲得し、医師の合格点 (約 60%) を上回り、サイズの 100 倍のモデルのスコアに近づいていることを実証します。
その後、一連の慎重なアブレーションを実行し、一連の思考、アンサンブル、微調整が最大のパフォーマンス向上につながる一方、予期せぬ検索拡張生成では大幅な改善が見られないことを実証しました。

要約(オリジナル)

Language models (LMs) have demonstrated expert-level reasoning and recall abilities in medicine. However, computational costs and privacy concerns are mounting barriers to wide-scale implementation. We introduce a parsimonious adaptation of phi-3-mini, MedMobile, a 3.8 billion parameter LM capable of running on a mobile device, for medical applications. We demonstrate that MedMobile scores 75.7% on the MedQA (USMLE), surpassing the passing mark for physicians (~60%), and approaching the scores of models 100 times its size. We subsequently perform a careful set of ablations, and demonstrate that chain of thought, ensembling, and fine-tuning lead to the greatest performance gains, while unexpectedly retrieval augmented generation fails to demonstrate significant improvements

arxiv情報

著者 Krithik Vishwanath,Jaden Stryker,Anton Alaykin,Daniel Alexander Alber,Eric Karl Oermann
発行日 2024-10-11 17:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MedMobile: A mobile-sized language model with expert-level clinical capabilities はコメントを受け付けていません

Evaluating Copyright Takedown Methods for Language Models

要約

言語モデル (LM) は、著作権で保護されている可能性のある素材を含む、多様なデータに関する広範なトレーニングからその機能を導き出します。
これらのモデルはトレーニング データと同様のコンテンツを記憶して生成する可能性があるため、潜在的な懸念が生じます。
したがって、モデル作成者は、保護されたコンテンツの生成を防ぐ緩和方法を開発するよう動機付けられています。
私たちは、この手順を DMCA の削除と概念的に類似している (ただし、法的には区別されている) ことに注目して、LM の著作権削除と呼んでいます。 この文書では、LM の著作権削除の実現可能性と副作用の最初の評価を紹介します。
私たちは、著作権削除手法の有効性、暗唱が禁止されているトレーニング データから著作権のない事実の知識を保持するモデルの能力への影響、およびモデルがその一般的な有用性と効率性をどの程度維持しているかを評価するための評価フレームワークである CoTaEval を提案します。
システムプロンプトの追加、デコード時のフィルタリング介入、アンラーニングアプローチなど、いくつかの戦略を検討します。
私たちの調査結果は、すべての指標にわたって優れたテスト済みの手法はないことを示しており、このユニークな問題設定では研究の余地が大きいことを示し、実際の政策提案に対する潜在的な未解決の課題を示しています。

要約(オリジナル)

Language models (LMs) derive their capabilities from extensive training on diverse data, including potentially copyrighted material. These models can memorize and generate content similar to their training data, posing potential concerns. Therefore, model creators are motivated to develop mitigation methods that prevent generating protected content. We term this procedure as copyright takedowns for LMs, noting the conceptual similarity to (but legal distinction from) the DMCA takedown This paper introduces the first evaluation of the feasibility and side effects of copyright takedowns for LMs. We propose CoTaEval, an evaluation framework to assess the effectiveness of copyright takedown methods, the impact on the model’s ability to retain uncopyrightable factual knowledge from the training data whose recitation is embargoed, and how well the model maintains its general utility and efficiency. We examine several strategies, including adding system prompts, decoding-time filtering interventions, and unlearning approaches. Our findings indicate that no tested method excels across all metrics, showing significant room for research in this unique problem setting and indicating potential unresolved challenges for live policy proposals.

arxiv情報

著者 Boyi Wei,Weijia Shi,Yangsibo Huang,Noah A. Smith,Chiyuan Zhang,Luke Zettlemoyer,Kai Li,Peter Henderson
発行日 2024-10-11 17:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Evaluating Copyright Takedown Methods for Language Models はコメントを受け付けていません

AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation

要約

この論文では、特に最適化ベースの貪欲座標勾配 (GCG) 戦略に焦点を当てて、脱獄攻撃に対するトランスフォーマーベースの大規模言語モデル (LLM) の脆弱性を研究します。
まず、攻撃の有効性とモデルの内部動作との間に正の相関関係があることが観察されました。
たとえば、LLM の安全性の調整を確保するために設計されたシステム プロンプトにモデルがより注意を払うと、攻撃の効果が低下する傾向があります。
この発見に基づいて、モデルの注意スコアを操作して LLM ジェイルブレイクを容易にする強化された方法を導入します。これを AttnGCG と呼びます。
経験的には、AttnGCG はさまざまな LLM にわたって攻撃効率の一貫した向上を示しており、Llama-2 シリーズでは平均約 7%、Gemma シリーズでは約 10% の増加を達成しています。
私たちの戦略は、目に見えない有害な目標と、GPT-3.5 や GPT-4 のようなブラックボックス LLM の両方に対する堅牢な攻撃伝達性も示しています。
さらに、注意スコアの視覚化はより解釈しやすく、ターゲットを絞った注意操作がより効果的な脱獄をどのように促進するかについてより良い洞察を得ることができることに注目します。
コードは https://github.com/UCSC-VLAA/AttnGCG-攻撃 でリリースされます。

要約(オリジナル)

This paper studies the vulnerabilities of transformer-based Large Language Models (LLMs) to jailbreaking attacks, focusing specifically on the optimization-based Greedy Coordinate Gradient (GCG) strategy. We first observe a positive correlation between the effectiveness of attacks and the internal behaviors of the models. For instance, attacks tend to be less effective when models pay more attention to system prompts designed to ensure LLM safety alignment. Building on this discovery, we introduce an enhanced method that manipulates models’ attention scores to facilitate LLM jailbreaking, which we term AttnGCG. Empirically, AttnGCG shows consistent improvements in attack efficacy across diverse LLMs, achieving an average increase of ~7% in the Llama-2 series and ~10% in the Gemma series. Our strategy also demonstrates robust attack transferability against both unseen harmful goals and black-box LLMs like GPT-3.5 and GPT-4. Moreover, we note our attention-score visualization is more interpretable, allowing us to gain better insights into how our targeted attention manipulation facilitates more effective jailbreaking. We release the code at https://github.com/UCSC-VLAA/AttnGCG-attack.

arxiv情報

著者 Zijun Wang,Haoqin Tu,Jieru Mei,Bingchen Zhao,Yisen Wang,Cihang Xie
発行日 2024-10-11 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation はコメントを受け付けていません

Bank Loan Prediction Using Machine Learning Techniques

要約

銀行は、消費者ローンや企業ローンを通じて、あらゆる金融エコシステムの経済発展にとって重要です。
ただし、融資にはリスクが伴います。
したがって、銀行は債務不履行の可能性を減らすために、申請者の財務状況を判断する必要があります。
そのため現在、多くの銀行がデータ分析と最先端のテクノロジーを導入して、プロセスにおいてより適切な意思決定を行っています。
回収の確率は、機械学習アルゴリズムが適用される予測モデリング手法によって規定されます。
この研究プロジェクトでは、ローン承認プロセスの精度と効率をさらに向上させるために、いくつかの機械学習手法を適用します。
私たちの仕事は銀行融資の承認の予測に焦点を当てています。
私たちは機械学習手法を使用して、148,670 のインスタンスと 37 の属性のデータセットに取り組みました。
ターゲット プロパティは、ローン申請を「承認」グループと「拒否」グループに分離します。
さまざまな機械学習技術、つまり、デシジョン ツリー分類、AdaBoosting、ランダム フォレスト分類器、SVM、および GaussianNB が使用されています。
その後、モデルがトレーニングされ、評価されました。
これらの中で、最もパフォーマンスの高いアルゴリズムは AdaBoosting で、99.99% という驚異的な精度を達成しました。
したがって、この結果は、アンサンブル学習がローン承認決定の予測スキルを向上させるためにどのように効果的に機能するかを示しています。
発表された研究は、機械学習を金融領域に適用するための有用な洞察を提供する、非常に正確で効率的なローン予測モデルを実現できる可能性を示しています。

要約(オリジナル)

Banks are important for the development of economies in any financial ecosystem through consumer and business loans. Lending, however, presents risks; thus, banks have to determine the applicant’s financial position to reduce the probabilities of default. A number of banks have currently, therefore, adopted data analytics and state-of-the-art technology to arrive at better decisions in the process. The probability of payback is prescribed by a predictive modeling technique in which machine learning algorithms are applied. In this research project, we will apply several machine learning methods to further improve the accuracy and efficiency of loan approval processes. Our work focuses on the prediction of bank loan approval; we have worked on a dataset of 148,670 instances and 37 attributes using machine learning methods. The target property segregates the loan applications into ‘Approved’ and ‘Denied’ groups. various machine learning techniques have been used, namely, Decision Tree Categorization, AdaBoosting, Random Forest Classifier, SVM, and GaussianNB. Following that, the models were trained and evaluated. Among these, the best-performing algorithm was AdaBoosting, which achieved an incredible accuracy of 99.99%. The results therefore show how ensemble learning works effectively to improve the prediction skills of loan approval decisions. The presented work points to the possibility of achieving extremely accurate and efficient loan prediction models that provide useful insights for applying machine learning to financial domains.

arxiv情報

著者 F M Ahosanul Haque,Md. Mahedi Hassan
発行日 2024-10-11 15:01:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Bank Loan Prediction Using Machine Learning Techniques はコメントを受け付けていません