Hate Personified: Investigating the role of LLMs in content moderation

要約

ヘイト検出のような主観的なタスクでは、人によってヘイトの捉え方が異なるため、Large Language Model (LLM)の多様なグループを表現する能力は不明確である。我々は、プロンプトに追加的な文脈を含めることで、地理的プライミング、ペルソナ属性、数値情報に対するLLMの感度を包括的に分析し、様々なグループのニーズがどの程度反映されているかを評価した。2つのLLM、5つの言語、6つのデータセットで得られた知見から、ペルソナベースの属性を模倣するとアノテーションにばらつきが生じることが明らかになった。一方、地理的なシグナルを取り入れると、地域的なアライメントが向上する。また、LLMは数値アンカーに敏感であり、コミュニティベースのフラグ立ての努力と敵対者への暴露を活用できることを示している。我々の研究は、予備的なガイドラインを提供し、文化的に敏感なケースでLLMを適用する際のニュアンスを強調している。

要約(オリジナル)

For subjective tasks such as hate detection, where people perceive hate differently, the Large Language Model’s (LLM) ability to represent diverse groups is unclear. By including additional context in prompts, we comprehensively analyze LLM’s sensitivity to geographical priming, persona attributes, and numerical information to assess how well the needs of various groups are reflected. Our findings on two LLMs, five languages, and six datasets reveal that mimicking persona-based attributes leads to annotation variability. Meanwhile, incorporating geographical signals leads to better regional alignment. We also find that the LLMs are sensitive to numerical anchors, indicating the ability to leverage community-based flagging efforts and exposure to adversaries. Our work provides preliminary guidelines and highlights the nuances of applying LLMs in culturally sensitive cases.

arxiv情報

著者 Sarah Masud,Sahajpreet Singh,Viktor Hangya,Alexander Fraser,Tanmoy Chakraborty
発行日 2024-10-03 16:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY | コメントする

How to Train Long-Context Language Models (Effectively)

要約

我々は、ロングコンテクスト情報を効果的に利用するための言語モデル(LM)の継続的な学習と教師付き微調整(SFT)について研究する。パープレキシティや単純なNIAH(Needle-in-a-Haystack)テストの代わりに、幅広いロングコンテクスト課題を使用し、ロングコンテクスト能力をより良く明らかにするため、SFT後のモデルを命令データで評価する。また、SFT後のモデルを命令データで評価することで、ロングコンテキストの能力をより明確にすることができる。その結果、(1)コードリポジトリや書籍は、ロングデータの優れたソースであるが、高品質のショートデータと組み合わせることが重要であること、(2)評価長を超えるシーケンス長でのトレーニングは、ロングコンテキストの性能を向上させること、(3)SFTの場合、ショートインストラクションデータセットのみを使用することで、ロングコンテキストのタスクで強力な性能が得られることがわかった。Llama-3から初期化され、40Bのトークンで学習された我々の最終モデルProLong-8Bは、128Kの長さで同サイズのモデルの中で最先端のロングコンテクスト性能を示す。ProLongは、ロングコンテキストの学習中に見たトークンの数がLlama-3.18B-Instructの5%しかないにもかかわらず、ロングコンテキストのタスクの大部分でLlama-3.18B-Instructを上回る。さらに、ProLongは512Kまでのトークンを効果的に処理することができ、これは公開されているLMの中で最も長いコンテキストウィンドウの一つである。

要約(オリジナル)

We study continued training and supervised fine-tuning (SFT) of a language model (LM) to make effective use of long-context information. We first establish a reliable evaluation protocol to guide model development — Instead of perplexity or simple needle-in-a-haystack (NIAH) tests, we use a broad set of long-context tasks, and we evaluate models after SFT with instruction data as this better reveals long-context abilities. Supported by our robust evaluations, we run thorough experiments to decide the data mix for continued pre-training, the instruction tuning dataset, and many other design choices. We find that (1) code repositories and books are excellent sources of long data, but it is crucial to combine them with high-quality short data; (2) training with a sequence length beyond the evaluation length boosts long-context performance; (3) for SFT, using only short instruction datasets yields strong performance on long-context tasks. Our final model, ProLong-8B, which is initialized from Llama-3 and trained on 40B tokens, demonstrates state-of-the-art long-context performance among similarly sized models at a length of 128K. ProLong outperforms Llama-3.18B-Instruct on the majority of long-context tasks despite having seen only 5% as many tokens during long-context training. Additionally, ProLong can effectively process up to 512K tokens, one of the longest context windows of publicly available LMs.

arxiv情報

著者 Tianyu Gao,Alexander Wettig,Howard Yen,Danqi Chen
発行日 2024-10-03 16:46:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

On Leakage of Code Generation Evaluation Datasets

要約

本論文では、コード生成テストセットによる汚染、特に最新の大規模言語モデルでの使用について考察する。(i)直接的なデータ漏洩、(ii)合成データの使用による間接的なデータ漏洩、(iii)モデル選択時の評価セットへのオーバーフィット。これに対処するために、私たちはLess Basic Python Problems (LBPP)をリリースします。LBPPは、161のプロンプトとそれに関連するPythonの解答からなる、汚染されていない新しいベンチマークです。LBPPはhttps://huggingface.co/datasets/CohereForAI/lbpp。

要約(オリジナル)

In this paper, we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. To address this, we release Less Basic Python Problems (LBPP): an uncontaminated new benchmark of 161 prompts with their associated Python solutions. LBPP is released at https://huggingface.co/datasets/CohereForAI/lbpp .

arxiv情報

著者 Alexandre Matton,Tom Sherborne,Dennis Aumiller,Elena Tommasone,Milad Alizadeh,Jingyi He,Raymond Ma,Maxime Voisin,Ellen Gilsenan-McMahon,Matthias Gallé
発行日 2024-10-03 16:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus

要約

19世紀アメリカ文学の正書法変化トークンのデータセットと、人間による注釈が加えられた方言グループタグの新しいレイヤーを紹介する。このデータセットに対して、トークン(BERT)と文字(CANINE)の両方のレベルの文脈言語モデルを用いて、初期の幅広い実験を行った。その結果、意図的な正書法の変化によって生じる「方言効果」は複数の言語チャンネルを用いること、そして、これらのチャンネルは、特定の言語モデリングの仮定があれば、様々な程度まで浮上させることができることがわかった。具体的には、トークン化スキームの選択が、モデルが表面化できる正書法情報の種類に有意義な影響を与えることを示す証拠を発見した。

要約(オリジナル)

We present a dataset of 19th century American literary orthovariant tokens with a novel layer of human-annotated dialect group tags designed to serve as the basis for computational experiments exploring literarily meaningful orthographic variation. We perform an initial broad set of experiments over this dataset using both token (BERT) and character (CANINE)-level contextual language models. We find indications that the ‘dialect effect’ produced by intentional orthographic variation employs multiple linguistic channels, and that these channels are able to be surfaced to varied degrees given particular language modelling assumptions. Specifically, we find evidence showing that choice of tokenization scheme meaningfully impact the type of orthographic information a model is able to surface.

arxiv情報

著者 Craig Messner,Tom Lippincott
発行日 2024-10-03 16:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

StorySparkQA: Expert-Annotated QA Pairs with Real-World Knowledge for Children’s Story-Based Learning

要約

インタラクティブな絵本の読み聞かせは、一般的な親子活動であり、親は、絵本の内容を超えて、言語技能と実社会の知識の両方を教えることを期待している。この活動のために開発されたストーリーテリングや読み聞かせシステムは増えているが、実社会の知識を会話に取り入れることができないことが多い。この限界は、システムが構築されている既存の児童教育用質問応答(QA)データセットが、対話型読み聞かせ活動を行う際に教育専門家がどのように考えるかというニュアンスを捉え損ねていることに起因している。このギャップを埋めるために、我々は、専門家の注釈と思考プロセスを捕捉するために、既存の知識グラフによって強化された注釈フレームワークを設計し、このフレームワークを活用して、実世界の知識を持つ5,868の専門家が注釈を付けたQAペアからなるStorySparkQAデータセットを構築する。様々なQAペア生成設定において、自動評価と人間による専門家評価を実施し、我々のStorySparkQAが、ストーリーの内容を超えた実世界の知識を対象としたQAペアを生成するモデルを効果的にサポートできることを実証する。StorySparkQAはhttps://huggingface.co/datasets/NEU-HAI/StorySparkQA。

要約(オリジナル)

Interactive story reading is a common parent-child activity, where parents expect to teach both language skills and real-world knowledge beyond the story. While increasing storytelling and reading systems have been developed for this activity, they often fail to infuse real-world knowledge into the conversation. This limitation can be attributed to the existing question-answering (QA) datasets used for children’s education, upon which the systems are built, failing to capture the nuances of how education experts think when conducting interactive story reading activities. To bridge this gap, we design an annotation framework, empowered by existing knowledge graph to capture experts’ annotations and thinking process, and leverage this framework to construct StorySparkQA dataset, which comprises 5,868 expert-annotated QA pairs with real-world knowledge. We conduct automated and human expert evaluations across various QA pair generation settings to demonstrate that our StorySparkQA can effectively support models in generating QA pairs that target real-world knowledge beyond story content. StorySparkQA is available at https://huggingface.co/datasets/NEU-HAI/StorySparkQA.

arxiv情報

著者 Jiaju Chen,Yuxuan Lu,Shao Zhang,Bingsheng Yao,Yuanzhe Dong,Ying Xu,Yunyao Li,Qianwen Wang,Dakuo Wang,Yuling Sun
発行日 2024-10-03 17:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Jailbreaking LLMs with Arabic Transliteration and Arabizi

要約

本研究では、「脱獄」攻撃に対する大規模言語モデル(LLM)の潜在的な脆弱性を、特にアラビア語とその様々な形式に焦点を当てて明らかにする。ほとんどの研究は英語ベースのプロンプト操作に集中しているが、我々の調査はアラビア語の調査へと範囲を広げている。当初、標準アラビア語でAdvBenchベンチマークをテストしたところ、接頭辞注入のようなプロンプト操作テクニックを用いても、LLMを刺激して安全でないコンテンツを生成させるには不十分であることがわかった。しかし、アラビア語の音訳とチャットスピーク(またはアラビズ)を使用すると、OpenAI GPT-4やAnthropic Claude 3 Sonnetのようなプラットフォームで安全でないコンテンツを生成できることがわかりました。私たちの発見は、アラビア語とその様々な形式を使用することで、隠されたままになっている可能性のある情報を暴露し、脱獄攻撃のリスクを高める可能性があることを示唆しています。この暴露は、モデルが学習した特定の単語との関連によるものである可能性があり、すべての言語形式にわたってより包括的な安全トレーニングの必要性を強調するものであるという仮説を立てた。

要約(オリジナル)

This study identifies the potential vulnerabilities of Large Language Models (LLMs) to ‘jailbreak’ attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model’s learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms.

arxiv情報

著者 Mansour Al Ghanim,Saleh Almohaimeed,Mengxin Zheng,Yan Solihin,Qian Lou
発行日 2024-10-03 17:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router

要約

大規模言語モデル(LLM)がますます強力になるにつれて、その安全性と人間の価値観との整合性を確保することが重要な課題となっている。理想的には、LLMは有害な情報や機微な情報の開示を避けながら、有益な応答を提供すべきである。しかし、有害なプロンプトを完全に拒否するようにモデルを訓練したり、粗いフィルタを適用したりするなど、拒否戦略に大きく依存する現在のアライメントアプローチは、その二項対立的な性質によって制限されている。これらの方法は、情報へのアクセスを完全に拒否するか、十分なニュアンスなしに許可するかのどちらかであり、過度に慎重な応答や微妙な有害コンテンツの検出の失敗につながる。例えば、LLMは誤用の懸念から、薬に関する基本的な公開情報の提供を拒否することがある。さらに、これらの拒否ベースの方法は、混合コンテンツのシナリオを処理するのに苦労し、文脈に依存する感受性に適応する能力を欠いているため、良性のコンテンツを過剰に検閲してしまう可能性がある。これらの課題を克服するために、LLMにおけるきめ細かく安全な生成のための新しいフレームワークであるHiddenGuardを紹介する。HiddenGuardはPrism (rePresentation Router for In-Stream Moderation)を組み込んでおり、LLMと並行して動作し、中間的な隠された状態を活用することで、リアルタイムのトークン・レベルでの有害コンテンツの検出と再編集を可能にする。このきめ細かなアプローチにより、よりニュアンスに富んだ、文脈を考慮したモデレーションが可能になり、モデルが、明白な拒否ではなく、センシティブな情報を選択的に再編集または置換しながら、有益な応答を生成することができる。また、多様なコンテキストにおける潜在的に有害な情報のトークン・レベルのきめ細かいアノテーションを含む包括的なデータセットも提供する。我々の実験により、HiddenGuardは、モデルの応答の全体的な有用性と情報性を維持しながら、有害なコンテンツの検出と再編集において90%以上のF1スコアを達成することが実証された。

要約(オリジナル)

As Large Language Models (LLMs) grow increasingly powerful, ensuring their safety and alignment with human values remains a critical challenge. Ideally, LLMs should provide informative responses while avoiding the disclosure of harmful or sensitive information. However, current alignment approaches, which rely heavily on refusal strategies, such as training models to completely reject harmful prompts or applying coarse filters are limited by their binary nature. These methods either fully deny access to information or grant it without sufficient nuance, leading to overly cautious responses or failures to detect subtle harmful content. For example, LLMs may refuse to provide basic, public information about medication due to misuse concerns. Moreover, these refusal-based methods struggle to handle mixed-content scenarios and lack the ability to adapt to context-dependent sensitivities, which can result in over-censorship of benign content. To overcome these challenges, we introduce HiddenGuard, a novel framework for fine-grained, safe generation in LLMs. HiddenGuard incorporates Prism (rePresentation Router for In-Stream Moderation), which operates alongside the LLM to enable real-time, token-level detection and redaction of harmful content by leveraging intermediate hidden states. This fine-grained approach allows for more nuanced, context-aware moderation, enabling the model to generate informative responses while selectively redacting or replacing sensitive information, rather than outright refusal. We also contribute a comprehensive dataset with token-level fine-grained annotations of potentially harmful information across diverse contexts. Our experiments demonstrate that HiddenGuard achieves over 90% in F1 score for detecting and redacting harmful content while preserving the overall utility and informativeness of the model’s responses.

arxiv情報

著者 Lingrui Mei,Shenghua Liu,Yiwei Wang,Baolong Bi,Ruibin Yuan,Xueqi Cheng
発行日 2024-10-03 17:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

要約

人間のフィードバックからの強化学習(RLHF)は、言語モデルを人間の嗜好に合わせるための効果的なアプローチである。RLHFの中心は、人間の嗜好をスコアリングするための報酬関数を学習することである。報酬モデルを学習する2つの主なアプローチは、1)RLHFのようにEXplicit Reward Model(EXRM)を学習する方法と、2)Direct Preference Optimization(DPO)のような方法で嗜好データから学習した暗黙の報酬を使用する方法である。先行研究により、DPOの暗黙的報酬モデル(DPORMと呼ぶ)は極限においてEXRMを近似できることが示されている。DPORMの有効性は学習されたポリシーの最適性を直接意味し、また反復DPOを含むLLMアライメント手法に実用的な示唆を与える。しかし、DPORMがEXRMの性能と経験的にどの程度一致するかは不明である。本研究では、DPORMとEXRMの両方について、好ましい解答と拒否された解答を区別する精度を研究する。我々の発見は、DPORMが訓練データセットに同等に適合しているにもかかわらず、特に検証データセットに分布シフトが含まれる場合、EXRMよりも効果的に汎化されないことを示している。5つの分布ずれの設定において、DPORMは平均3%、最大7%の精度低下を示した。これらの知見は、DPORMの汎化能力が限定的であることを強調し、反復DPOアプローチに明示的報酬モデルを統合することを立証するものである。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is an effective approach for aligning language models to human preferences. Central to RLHF is learning a reward function for scoring human preferences. Two main approaches for learning a reward model are 1) training an EXplicit Reward Model (EXRM) as in RLHF, and 2) using an implicit reward learned from preference data through methods such as Direct Preference Optimization (DPO). Prior work has shown that the implicit reward model of DPO (denoted as DPORM) can approximate an EXRM in the limit. DPORM’s effectiveness directly implies the optimality of the learned policy, and also has practical implication for LLM alignment methods including iterative DPO. However, it is unclear how well DPORM empirically matches the performance of EXRM. This work studies the accuracy at distinguishing preferred and rejected answers for both DPORM and EXRM. Our findings indicate that even though DPORM fits the training dataset comparably, it generalizes less effectively than EXRM, especially when the validation datasets contain distribution shifts. Across five out-of-distribution settings, DPORM has a mean drop in accuracy of 3% and a maximum drop of 7%. These findings highlight that DPORM has limited generalization ability and substantiates the integration of an explicit reward model in iterative DPO approaches.

arxiv情報

著者 Yong Lin,Skyler Seto,Maartje ter Hoeve,Katherine Metcalf,Barry-John Theobald,Xuan Wang,Yizhe Zhang,Chen Huang,Tong Zhang
発行日 2024-10-03 17:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

Enhanced Automated Code Vulnerability Repair using Large Language Models

要約

この研究は、テクノロジー主導の世界においてデジタル・セキュリティを強化するために不可欠な、コードの脆弱性を自動修復するという複雑な課題に取り組んでいる。この研究では、Code LlamaやMistralのような先進的な大規模言語モデル(LLM)を用いて、コード修正を表現するための斬新で効率的なフォーマットを導入する。Cコードの脆弱性を含むデータセットで微調整されたこれらのモデルは、自動コード修復技術の精度と適応性を大幅に向上させる。重要な発見は、VulRepairのような以前の手法と比較した場合の、これらのモデルの修復精度の向上であり、これは実用的な有用性と効率性を強調している。この研究はまた、完全予測などの現在の評価指標と、実世界のシナリオにおける自動修復モデルの真の能力を反映する上でのその限界について、批判的な評価も行っている。続いて、学習サンプルのないテストデータセットを使用することの重要性を強調し、コード修復タスクにおけるLLMの有効性を高めるためのデータセットの完全性の必要性を強調している。この研究の意義は、デジタル・セキュリティへの貢献であり、自動化されたコード脆弱性修復の新たな基準を設定し、サイバーセキュリティと人工知能の分野における将来の進歩への道を開くことである。この研究は、コード・セキュリティの強化におけるLLMの可能性を強調するだけでなく、これらの重要な分野におけるさらなる探求と研究を促進するものである。

要約(オリジナル)

This research addresses the complex challenge of automated repair of code vulnerabilities, vital for enhancing digital security in an increasingly technology-driven world. The study introduces a novel and efficient format for the representation of code modification, using advanced Large Language Models (LLMs) such as Code Llama and Mistral. These models, fine-tuned on datasets featuring C code vulnerabilities, significantly improve the accuracy and adaptability of automated code repair techniques. A key finding is the enhanced repair accuracy of these models when compared to previous methods such as VulRepair, which underscores their practical utility and efficiency. The research also offers a critical assessment of current evaluation metrics, such as perfect predictions, and their limitations in reflecting the true capabilities of automated repair models in real-world scenarios. Following this, it underscores the importance of using test datasets devoid of train samples, emphasizing the need for dataset integrity to enhance the effectiveness of LLMs in code repair tasks. The significance of this work is its contribution to digital security, setting new standards for automated code vulnerability repair and paving the way for future advancements in the fields of cybersecurity and artificial intelligence. The study does not only highlight the potential of LLMs in enhancing code security but also fosters further exploration and research in these crucial areas.

arxiv情報

著者 David de-Fitero-Dominguez,Eva Garcia-Lopez,Antonio Garcia-Cabot,Jose-Javier Martinez-Herraiz
発行日 2024-10-03 17:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SE | コメントする

On the Proper Treatment of Tokenization in Psycholinguistics

要約

言語モデルは、計算心理言語学において、ある言語モデルにおける注目領域(文字の部分列)の負の対数確率(驚き)と、その領域に対する注視時間などで運用される、読者が経験する認知的コストとを関連付ける理論を検証するために広く使用されている。しかし、現代の言語モデルを心理言語学的研究に応用することは、モデルを学習する中間段階としてトークン化を使用する慣行によって複雑になっている。そうすることで、文字列の言語モデルではなく、トークン文字列の言語モデルになってしまう。興味深いことに、関心領域とトークン文字列は一般的にずれている。本論文では、心理言語学的研究において、トークン・レベルの言語モデルを、関心領域の驚きを計算するために使用する前に、文字レベルの言語モデルに(近似的に)マージナル化すべきであると主張する。トークン・レベルのモデルを文字レベルのモデルにマージナル化するという我々の提案は、トークン化スキームとは無関係にこのズレの問題を解決する。経験的に、我々は様々なフォーカルエリアを発見し、その驚きが、注目領域自体の驚きに比べて、より優れた心理測定予測因子であることを発見した。

要約(オリジナル)

Language models are widely used in computational psycholinguistics to test theories that relate the negative log probability (the surprisal) of a region of interest (a substring of characters) under a language model to its cognitive cost experienced by readers, as operationalized, for example, by gaze duration on the region. However, the application of modern language models to psycholinguistic studies is complicated by the practice of using tokenization as an intermediate step in training a model. Doing so results in a language model over token strings rather than one over character strings. Vexingly, regions of interest are generally misaligned with these token strings. The paper argues that token-level language models should be (approximately) marginalized into character-level language models before they are used in psycholinguistic studies to compute the surprisal of a region of interest; then, the marginalized character-level language model can be used to compute the surprisal of an arbitrary character substring, which we term a focal area, that the experimenter may wish to use as a predictor. Our proposal of marginalizing a token-level model into a character-level one solves this misalignment issue independently of the tokenization scheme. Empirically, we discover various focal areas whose surprisal is a better psychometric predictor than the surprisal of the region of interest itself.

arxiv情報

著者 Mario Giulianelli,Luca Malagutti,Juan Luis Gastaldi,Brian DuSell,Tim Vieira,Ryan Cotterell
発行日 2024-10-03 17:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする