cs.CL」カテゴリーアーカイブ

Linear Attention Sequence Parallelism

要約 シーケンス並列(SP)は、単一のGPUのメモリ限界を超える長いシーケンスを … 続きを読む

カテゴリー: cs.CL, cs.LG | Linear Attention Sequence Parallelism はコメントを受け付けていません

Structured Packing in LLM Training Improves Long Context Utilization

要約 最近のロングコンテクスト大規模言語モデルの開発は大きな注目を集めている。し … 続きを読む

カテゴリー: cs.CL | Structured Packing in LLM Training Improves Long Context Utilization はコメントを受け付けていません

Octopus v2: On-device language model for super agent

要約 言語モデルは、様々なソフトウェア・アプリケーション、特に自動ワークフローに … 続きを読む

カテゴリー: cs.CL | Octopus v2: On-device language model for super agent はコメントを受け付けていません

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

要約 大規模言語モデル(LLM)は、人間の言語の優れた習得能力を示しているが、数 … 続きを読む

カテゴリー: cs.CL | ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline はコメントを受け付けていません

Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

要約 カルバック・ライブラー発散は、大規模言語モデル(LLM)を圧縮するために知 … 続きを読む

カテゴリー: cs.AI, cs.CL | Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models はコメントを受け付けていません

PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets

要約 女性蔑視はしばしば比喩的な言葉で表現される。中立的な言葉の中には、蔑称とし … 続きを読む

カテゴリー: cs.AI, cs.CL | PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets はコメントを受け付けていません

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

要約 大規模言語モデル(LLM)は、人間との安全な会話を保証するために安全アライ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! はコメントを受け付けていません

Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers

要約 近年、自己注意ブロックの設計を線形コスト推論(LCI)に変更することで、ト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers はコメントを受け付けていません

Attention is Naturally Sparse with Gaussian Distributed Input

要約 大規模言語モデル(LLM)の計算量は、主に変換器アーキテクチャにおける注意 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Attention is Naturally Sparse with Gaussian Distributed Input はコメントを受け付けていません

Hallucination Benchmark in Medical Visual Question Answering

要約 視覚質問応答(VQA)における大規模言語・視覚モデル(LLVM)の最近の成 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Hallucination Benchmark in Medical Visual Question Answering はコメントを受け付けていません