「cs.CL」カテゴリーアーカイブ

Linear Attention Sequence Parallelism

投稿日: 2024年4月4日作成者: jarxiv

要約シーケンス並列(SP)は、単一のGPUのメモリ限界を超える長いシーケンスを … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Structured Packing in LLM Training Improves Long Context Utilization

投稿日: 2024年4月4日作成者: jarxiv

要約最近のロングコンテクスト大規模言語モデルの開発は大きな注目を集めている。し … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Octopus v2: On-device language model for super agent

投稿日: 2024年4月4日作成者: jarxiv

要約言語モデルは、様々なソフトウェア・アプリケーション、特に自動ワークフローに … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

投稿日: 2024年4月4日作成者: jarxiv

要約大規模言語モデル(LLM)は、人間の言語の優れた習得能力を示しているが、数 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

投稿日: 2024年4月4日作成者: jarxiv

要約カルバック・ライブラー発散は、大規模言語モデル(LLM)を圧縮するために知 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets

投稿日: 2024年4月4日作成者: jarxiv

要約女性蔑視はしばしば比喩的な言葉で表現される。中立的な言葉の中には、蔑称とし … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

投稿日: 2024年4月4日作成者: jarxiv

要約大規模言語モデル（LLM）は、人間との安全な会話を保証するために安全アライ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers

投稿日: 2024年4月4日作成者: jarxiv

要約近年、自己注意ブロックの設計を線形コスト推論（LCI）に変更することで、ト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Attention is Naturally Sparse with Gaussian Distributed Input

投稿日: 2024年4月4日作成者: jarxiv

要約大規模言語モデル(LLM)の計算量は、主に変換器アーキテクチャにおける注意 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Hallucination Benchmark in Medical Visual Question Answering

投稿日: 2024年4月4日作成者: jarxiv

要約視覚質問応答（VQA）における大規模言語・視覚モデル（LLVM）の最近の成 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Linear Attention Sequence Parallelism

Structured Packing in LLM Training Improves Long Context Utilization

Octopus v2: On-device language model for super agent

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers

Attention is Naturally Sparse with Gaussian Distributed Input

Hallucination Benchmark in Medical Visual Question Answering

最近の投稿

最近のコメント

アーカイブ

カテゴリー