「cs.CL」カテゴリーアーカイブ

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

投稿日: 2025年4月16日作成者: jarxiv

要約複雑な数学的推論の能力は、人工知能の重要なベンチマークです。 LLMSに適 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis

投稿日: 2025年4月16日作成者: jarxiv

要約大規模なビジョン言語モデルの最近の進歩は、デジタルデバイスの生産性を高める … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.HC | コメントを受け付けていません

Breaking the Data Barrier — Building GUI Agents Through Task Generalization

投稿日: 2025年4月16日作成者: jarxiv

要約グラフィカルユーザーインターフェイス（GUI）エージェントは、生産性ワーク … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

TADACap: Time-series Adaptive Domain-Aware Captioning

投稿日: 2025年4月16日作成者: jarxiv

要約画像キャプションは大きな注目を集めていますが、金融やヘルスケアなどの分野で … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages

投稿日: 2025年4月16日作成者: jarxiv

要約 31の言語をカバーするLLMSの多言語性を評価するための新しいベンチマーク … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

投稿日: 2025年4月16日作成者: jarxiv

要約グラフィカルユーザーインターフェイス（GUI）エージェントの構築における既 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.HC | コメントを受け付けていません

VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

投稿日: 2025年4月16日作成者: jarxiv

要約現在のマルチモーダルベンチマークは、多くの場合、推論とドメイン固有の知識を … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

投稿日: 2025年4月16日作成者: jarxiv

要約チェックボックスは、ダニの有無がデータの抽出と意思決定プロセスを直接通知す … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Joint Action Language Modelling for Transparent Policy Execution

投稿日: 2025年4月15日作成者: jarxiv

要約エージェントの意図は、具体化されたポリシーのブラックボックスの性質の背後に … 続きを読む →

カテゴリー: cs.CL, cs.RO | コメントを受け付けていません

TRA: Better Length Generalisation with Threshold Relative Attention

投稿日: 2025年4月15日作成者: jarxiv

要約トランスは長さの一般化に苦しんでおり、基本的なタスクでもパフォーマンスが低 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis

Breaking the Data Barrier — Building GUI Agents Through Task Generalization

TADACap: Time-series Adaptive Domain-Aware Captioning

MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

Joint Action Language Modelling for Transparent Policy Execution

TRA: Better Length Generalisation with Threshold Relative Attention

最近の投稿

最近のコメント

アーカイブ

カテゴリー