月別アーカイブ: 2024年8月

Inference-Time Selective Debiasing

投稿日: 2024年8月22日作成者: jarxiv

要約私たちは選択的バイアス軽減を提案します。これは、モデルの再トレーニングが法 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks

投稿日: 2024年8月22日作成者: jarxiv

要約自然言語処理 (NLP) 分野の急速な進歩に伴い、トレーニングデータの需 … 続きを読む →

カテゴリー: cs.CL, cs.CR | コメントを受け付けていません

Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models

投稿日: 2024年8月22日作成者: jarxiv

要約大規模言語モデル (LLM) に対する主流のバックドア攻撃は通常、入力イン … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions

投稿日: 2024年8月22日作成者: jarxiv

要約大規模言語モデル (LLM) によって生成される応答には、個人や組織からの … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

What Makes and Breaks Safety Fine-tuning? A Mechanistic Study

投稿日: 2024年8月22日作成者: jarxiv

要約安全性の微調整は、大規模言語モデル (LLM) を人間の好みに合わせて安全 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

投稿日: 2024年8月22日作成者: jarxiv

要約 Fluent 世代の大規模言語モデル (LLM) を信頼するには、人間が信 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks

投稿日: 2024年8月22日作成者: jarxiv

要約大規模言語モデル (LLM) は、敵対的攻撃、バックドア攻撃、埋め込み反転 … 続きを読む →

カテゴリー: cs.CL, cs.CR | コメントを受け付けていません

Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards

投稿日: 2024年8月22日作成者: jarxiv

要約最近の研究では、大規模言語モデル (LLM) が電気通信の技術標準に苦戦し … 続きを読む →

カテゴリー: cs.CL, cs.NI | コメントを受け付けていません

No Such Thing as a General Learner: Language models and their dual optimization

投稿日: 2024年8月22日作成者: jarxiv

要約成功している大規模言語モデル (LLM) は、人間の認知の理解において、特 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Personality Alignment of Large Language Models

投稿日: 2024年8月22日作成者: jarxiv

要約大規模言語モデル (LLM) を調整するための現在の方法は、通常、一般的な … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

月別アーカイブ: 2024年8月

Inference-Time Selective Debiasing

Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks

Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models

Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions

What Makes and Breaks Safety Fine-tuning? A Mechanistic Study

Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks

Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards

No Such Thing as a General Learner: Language models and their dual optimization

Personality Alignment of Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー