cs.PF」カテゴリーアーカイブ

BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache

要約 長いコンテキストの大規模な言語モデル(LLMS)の採用の増大は、キー価値( … 続きを読む

カテゴリー: cs.AI, cs.AR, cs.CL, cs.PF | コメントする

GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code Generation

要約 大規模な言語モデル(LLM)は、日常生活に不可欠になり、さまざまな自然言語 … 続きを読む

カテゴリー: C.4, cs.AI, cs.DC, cs.PF, cs.SE | コメントする

Investigating Execution-Aware Language Models for Code Optimization

要約 コードの最適化は、意図した機能を維持しながら、コード効率を向上させるプロセ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.PF, cs.SE | コメントする

PriorMotion: Generative Class-Agnostic Motion Prediction with Raster-Vector Motion Field Priors

要約 信頼できる空間と動きの認識は、安全な自律的なナビゲーションに不可欠です。 … 続きを読む

カテゴリー: cs.CV, cs.PF, cs.RO | PriorMotion: Generative Class-Agnostic Motion Prediction with Raster-Vector Motion Field Priors はコメントを受け付けていません

Leveraging Approximate Caching for Faster Retrieval-Augmented Generation

要約 検索された生成(RAG)は、外部知識を統合することにより、大規模な言語モデ … 続きを読む

カテゴリー: cs.DB, cs.LG, cs.PF | Leveraging Approximate Caching for Faster Retrieval-Augmented Generation はコメントを受け付けていません

Energy-Efficient Transformer Inference: Optimization Strategies for Time Series Classification

要約 時系列分類におけるトランスモデルの計算需要の増加は、エネルギー効率の高い展 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.PF | Energy-Efficient Transformer Inference: Optimization Strategies for Time Series Classification はコメントを受け付けていません

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

要約 大規模なモデルには、二次時間の複雑さがあるため、効率的な注意実装が不可欠で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.PF | SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference はコメントを受け付けていません

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

要約 大規模な言語モデル(LLM)は、長いシーケンスの処理において顕著な可能性を … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.DC, cs.LG, cs.PF | LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention はコメントを受け付けていません

Glinthawk: A Two-Tiered Architecture for Offline LLM Inference

要約 オフラインの大手言語モデル(LLM)推論のアーキテクチャであるGlinTh … 続きを読む

カテゴリー: cs.DC, cs.LG, cs.PF | Glinthawk: A Two-Tiered Architecture for Offline LLM Inference はコメントを受け付けていません

Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques

要約 変圧器は、自然言語処理やバイオインフォマティクスなど、多くのドメインで大き … 続きを読む

カテゴリー: cs.AI, cs.DC, cs.LG, cs.PF | Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques はコメントを受け付けていません