投稿者「jarxiv」のアーカイブ

Incentivizing Reasoning from Weak Supervision

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、推論集約型タスクの印象的なパフォーマンス … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Inference-time Alignment in Continuous Space

投稿日: 2025年5月27日作成者: jarxiv

要約推論時間に人間のフィードバックで大規模な言語モデルを調整することで、柔軟性 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLM）は、人工的な一般情報の基礎的な調査ですが、指導 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Multi-Domain Explainability of Preferences

投稿日: 2025年5月27日作成者: jarxiv

要約人間の好み、LLM-as-a-a-judge（laaj）、報酬モデルなどの … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

S2LPP: Small-to-Large Prompt Prediction across LLMs

投稿日: 2025年5月27日作成者: jarxiv

要約事前に訓練された大型言語モデル（LLMS）のパフォーマンスは、多くの場合、 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Adaptive Deep Reasoning: Triggering Deep Thinking When Needed

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLM）は、長鎖の推論を通じて複雑なタスクを処理する上 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment

投稿日: 2025年5月27日作成者: jarxiv

要約科学研究の記事では、現在の研究と以前の研究との関係を強調しているため、引用 … 続きを読む →

カテゴリー: cs.CL, cs.DL | コメントを受け付けていません

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLM）がデリケートなワークフローに統合されると、懸念 … 続きを読む →

カテゴリー: cs.CL, cs.CR | コメントを受け付けていません

PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLMS）は顕著な能力を達成していますが、ジェイルブレ … 続きを読む →

カテゴリー: cs.CL, cs.CR | コメントを受け付けていません

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLM）は、従来の技術を進めるために情報検索に広く統合 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Incentivizing Reasoning from Weak Supervision

Inference-time Alignment in Continuous Space

Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models

Multi-Domain Explainability of Preferences

S2LPP: Small-to-Large Prompt Prediction across LLMs

Adaptive Deep Reasoning: Triggering Deep Thinking When Needed

SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers

最近の投稿

最近のコメント

アーカイブ

カテゴリー