「cs.CL」カテゴリーアーカイブ

Exact Aggregation for Federated and Efficient Fine-Tuning of Foundation Models

投稿日: 2024年12月2日作成者: jarxiv

要約低ランク適応 (LoRA) は、基礎モデルを効率的に微調整するための一般的 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.DC | コメントを受け付けていません

MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks

投稿日: 2024年12月2日作成者: jarxiv

要約最近、人間の動作分析は、ノイズ除去拡散モデルや大規模言語モデルなどの刺激的 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

A Survey on Multimodal Large Language Models

投稿日: 2024年12月2日作成者: jarxiv

要約最近、GPT-4V に代表されるマルチモーダル大規模言語モデル (MLLM … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

SIMS: Simulating Human-Scene Interactions with Real World Script Planning

投稿日: 2024年12月2日作成者: jarxiv

要約長期にわたるヒューマンシーンとシーンのインタラクションをシミュレートするこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR | コメントを受け付けていません

On Domain-Specific Post-Training for Multimodal Large Language Models

投稿日: 2024年12月2日作成者: jarxiv

要約近年、一般的なマルチモーダル大規模言語モデル (MLLM) の急速な発展が … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

VLSBench: Unveiling Visual Leakage in Multimodal Safety

投稿日: 2024年12月2日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の安全性に関する懸念は、さま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV | コメントを受け付けていません

Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark

投稿日: 2024年12月2日作成者: jarxiv

要約 2023 年版の成功に続き、最先端のビデオモデルのベンチマークと測定を目 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

投稿日: 2024年12月2日作成者: jarxiv

要約画像領域におけるマルチモーダル大規模言語モデル (MLLM) の成功は、研 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Large Language Model-Brained GUI Agents: A Survey

投稿日: 2024年12月2日作成者: jarxiv

要約 GUI は長い間、人間とコンピューターの対話の中心であり、デジタルシステ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.HC | コメントを受け付けていません

Don’t Command, Cultivate: An Exploratory Study of System-2 Alignment

投稿日: 2024年12月2日作成者: jarxiv

要約 o1 システムカードは、o1 モデルが OpenAI 内で最も堅牢である … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Exact Aggregation for Federated and Efficient Fine-Tuning of Foundation Models

MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks

A Survey on Multimodal Large Language Models

SIMS: Simulating Human-Scene Interactions with Real World Script Planning

On Domain-Specific Post-Training for Multimodal Large Language Models

VLSBench: Unveiling Visual Leakage in Multimodal Safety

Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

Large Language Model-Brained GUI Agents: A Survey

Don’t Command, Cultivate: An Exploratory Study of System-2 Alignment

最近の投稿

最近のコメント

アーカイブ

カテゴリー