「cs.CL」カテゴリーアーカイブ

Natural Language as Polices: Reasoning for Coordinate-Level Embodied Control with LLMs

投稿日: 2024年3月21日作成者: jarxiv

要約ロボットの行動計画の問題に対処する LLM を使用した実験結果を示します。 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.RO, I.2.7 | コメントを受け付けていません

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning

投稿日: 2024年3月21日作成者: jarxiv

要約深層学習が復活して以来、大規模言語モデル (LLM) によって強化されたビ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

m&m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

投稿日: 2024年3月21日作成者: jarxiv

要約現実世界のマルチモーダルな問題は、単一の機械学習モデルで解決されることはほ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

ZigMa: Zigzag Mamba Diffusion Model

投稿日: 2024年3月21日作成者: jarxiv

要約拡散モデルは、特にトランスベースの構造内で、スケーラビリティと二次複雑性の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Learning from Models and Data for Visual Grounding

投稿日: 2024年3月21日作成者: jarxiv

要約 SynGround は、データ駆動型学習とさまざまな大規模な事前トレーニン … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Generative Multimodal Entity Linking

投稿日: 2024年3月21日作成者: jarxiv

要約マルチモーダルエンティティリンク (MEL) は、マルチモーダルコン … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning

投稿日: 2024年3月20日作成者: jarxiv

要約マルチモーダル感情分析タスクのための効果的な表現学習方法を設計することは、 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions

投稿日: 2024年3月20日作成者: jarxiv

要約科学論文を書くことは、高度に成文化され特殊なジャンルであるため、困難な作業 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

投稿日: 2024年3月20日作成者: jarxiv

要約以前の手話翻訳 (SLT) メソッドは、光沢注釈に依存することで優れたパフ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models

投稿日: 2024年3月20日作成者: jarxiv

要約大規模言語モデル (LLM) は、通常の長さの NLP タスクよりも劇的な … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Natural Language as Polices: Reasoning for Coordinate-Level Embodied Control with LLMs

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning

m&m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

ZigMa: Zigzag Mamba Diffusion Model

Learning from Models and Data for Visual Grounding

Generative Multimodal Entity Linking

Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning

CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions

Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー