「cs.CL」カテゴリーアーカイブ

Text2Data: Low-Resource Data Generation with Textual Control

投稿日: 2025年1月3日作成者: jarxiv

要約自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な信号とし … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes

投稿日: 2025年1月3日作成者: jarxiv

要約いくつかの研究では、大規模言語モデル (LLM) が医療質問に正確に回答で … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

投稿日: 2025年1月3日作成者: jarxiv

要約読唇術は、唇の動きを分析することで話し言葉を予測することを目的としています … 続きを読む →

カテゴリー: cs.CL, cs.CV, eess.AS, eess.IV | コメントを受け付けていません

MLVU: Benchmarking Multi-task Long Video Understanding

投稿日: 2025年1月3日作成者: jarxiv

要約 Long Video Understanding (LVU) パフォーマン … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Refining Skewed Perceptions in Vision-Language Models through Visual Representations

投稿日: 2025年1月3日作成者: jarxiv

要約 CLIP などの大規模ビジョン言語モデル (VLM) は基盤となり、さまざ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

投稿日: 2025年1月3日作成者: jarxiv

要約埋め込みモデルは、意味的類似性、情報検索、クラスタリングなどのさまざまな下 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models

投稿日: 2025年1月3日作成者: jarxiv

要約 Midjourney や DALLE 3 などのイノベーションに代表される … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension

投稿日: 2025年1月3日作成者: jarxiv

要約自然言語を介して局所的な視覚領域を定着させることを目的とした参照式理解 ( … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

投稿日: 2025年1月3日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の開発は、さまざまな分野 ( … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

投稿日: 2025年1月3日作成者: jarxiv

要約 LEAN4 を使用した対話型自動定理証明用に Hunyuan 7B から微 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Text2Data: Low-Resource Data Generation with Textual Control

MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes

Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

MLVU: Benchmarking Multi-task Long Video Understanding

Refining Skewed Perceptions in Vision-Language Models through Visual Representations

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models

MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

最近の投稿

最近のコメント

アーカイブ

カテゴリー