月別アーカイブ: 2024年6月

SyntaxShap: Syntax-aware Explainability Method for Text Generation

投稿日: 2024年6月4日作成者: jarxiv

要約セーフティ・クリティカルな領域で大規模言語モデルの能力を活用するためには、 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model

投稿日: 2024年6月4日作成者: jarxiv

要約整列された大規模言語モデル(LLM)は、実世界の様々なタスクを処理すること … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models

投稿日: 2024年6月4日作成者: jarxiv

要約ニューラル・セオリー・オブ・マインド(N-ToM)は、機械が他者の心理状態 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

PRE: A Peer Review Based Large Language Model Evaluator

投稿日: 2024年6月4日作成者: jarxiv

要約大規模言語モデル（LLM）の優れた性能は、学術界や産業界から大きな注目を集 … 続きを読む →

カテゴリー: cs.CL, cs.IR | コメントを受け付けていません

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios

投稿日: 2024年6月4日作成者: jarxiv

要約大規模言語モデル（LLM）を実世界のアプリケーションでツールエージェントと … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game

投稿日: 2024年6月4日作成者: jarxiv

要約大規模言語モデル（LLM）の対話品質を向上させるためには、人間の嗜好アライ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance

投稿日: 2024年6月4日作成者: jarxiv

要約本稿では、最近のコード類似性評価メトリクスを再検討し、特に、多様なプログラ … 続きを読む →

カテゴリー: cs.CL, cs.PL, cs.SE | コメントを受け付けていません

Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

投稿日: 2024年6月4日作成者: jarxiv

要約命令チューニングされた大規模言語モデル(LLM)は、多くの実用的なアプリケ … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Benchmarking and Improving Compositional Generalization of Multi-aspect Controllable Text Generation

投稿日: 2024年6月4日作成者: jarxiv

要約構文汎化とは、学習データから単一の属性を組み換えることによって得られる新し … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

LangBridge: Multilingual Reasoning Without Multilingual Supervision

投稿日: 2024年6月4日作成者: jarxiv

要約我々はLangBridgeを紹介する。LangBridgeは、多言語監督な … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

月別アーカイブ: 2024年6月

SyntaxShap: Syntax-aware Explainability Method for Text Generation

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model

OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models

PRE: A Peer Review Based Large Language Model Evaluator

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios

Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game

Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance

Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

Benchmarking and Improving Compositional Generalization of Multi-aspect Controllable Text Generation

LangBridge: Multilingual Reasoning Without Multilingual Supervision

最近の投稿

最近のコメント

アーカイブ

カテゴリー