「cs.CL」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

投稿日: 2025年2月20日作成者: jarxiv

要約感情を理解することは、人間のコミュニケーションの基本的な側面です。オーデ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | コメントを受け付けていません

GroundCap: A Visually Grounded Image Captioning Dataset

投稿日: 2025年2月20日作成者: jarxiv

要約現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクす … 続きを読む →

カテゴリー: cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

Qwen2.5-VL Technical Report

投稿日: 2025年2月20日作成者: jarxiv

要約 QWEN Vision-Languageシリーズの最新のフラッグシップモデ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

投稿日: 2025年2月20日作成者: jarxiv

要約最近の研究では、大きなビジョン言語モデル（VLM）が画像コンテンツを無視し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model

投稿日: 2025年2月20日作成者: jarxiv

要約 APIコール機能を備えた大規模な言語モデル（LLMS）により、効果的な言語 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

投稿日: 2025年2月20日作成者: jarxiv

要約与えられた大規模な言語モデル（LLM）が経済的推論を確実に実行できるかどう … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation

投稿日: 2025年2月20日作成者: jarxiv

要約 TiktokやYouTubeなどのプラットフォームで支配的な人気のあるマイ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

From Instance Training to Instruction Learning: Task Adapters Generation from Instructions

投稿日: 2025年2月19日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、命令Finetuning（IFT）を利用 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

投稿日: 2025年2月19日作成者: jarxiv

要約この論文では、$ \ textbf {ne} $ ural-$ \ tex … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Large Language Diffusion Models

投稿日: 2025年2月19日作成者: jarxiv

要約自己回帰モデル（アーム）は、大規模な言語モデル（LLM）の礎石と広く見なさ … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

GroundCap: A Visually Grounded Image Captioning Dataset

Qwen2.5-VL Technical Report

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model

STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation

From Instance Training to Instruction Learning: Task Adapters Generation from Instructions

Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

Large Language Diffusion Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー