I.2.7」カテゴリーアーカイブ

Tokenization and Morphology in Multilingual Language Models: A~Comparative Analysis of mT5 and ByT5

要約 形態論はトークン化に直接的な課題をもたらすため、多言語言語モデリングにとっ … 続きを読む

カテゴリー: cs.CL, I.2.7 | Tokenization and Morphology in Multilingual Language Models: A~Comparative Analysis of mT5 and ByT5 はコメントを受け付けていません

Everyday Speech in the Indian Subcontinent

要約 インドには 1,369 の言語があり、そのうち 22 が公用語です。 これ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Everyday Speech in the Indian Subcontinent はコメントを受け付けていません

Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Large Multi-modal Models

要約 最近の研究では、トレーニング データにおける文化と社会経済的グループの不平 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, I.2.7 | Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Large Multi-modal Models はコメントを受け付けていません

Data Processing for the OpenGPT-X Model Family

要約 このペーパーでは、オープンで高性能な多言語大規模言語モデル (LLM) の … 続きを読む

カテゴリー: cs.CL, I.2.7 | Data Processing for the OpenGPT-X Model Family はコメントを受け付けていません

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

要約 LLM はテキストを単語に大まかに対応するトークンのシーケンスとして処理し … 続きを読む

カテゴリー: cs.CL, cs.LG, I.2.7 | Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs はコメントを受け付けていません

Vocabulary Transfer for Medical Texts

要約 特定の NLP サブドメイン内での作業には、主に永続的なデータ不足が原因で … 続きを読む

カテゴリー: cs.CL, I.2.7 | Vocabulary Transfer for Medical Texts はコメントを受け付けていません

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models

要約 事前トレーニング + 微調整パラダイムは、さまざまなダウンストリーム アプ … 続きを読む

カテゴリー: cs.AI, cs.CL, I.2.7 | MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models はコメントを受け付けていません

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

要約 大規模言語モデル (LLM) は、事実の不正確さ、偏見、推論の失敗などのエ … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 | LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations はコメントを受け付けていません

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

要約 大規模言語モデル(LLM)は、事実誤認、偏り、推論の失敗など、「幻覚」と総 … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 | LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations はコメントを受け付けていません

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

要約 多くのユースケースでは、テキストのより小さい部分を取得する必要があり、埋め … 続きを読む

カテゴリー: 68T50, cs.CL, cs.IR, I.2.7 | Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models はコメントを受け付けていません