月別アーカイブ: 2024年7月

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

投稿日: 2024年7月11日作成者: jarxiv

要約視覚的な命令のチューニングは、大規模マルチモーダルモデル (LMM) の … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

投稿日: 2024年7月11日作成者: jarxiv

要約大規模言語モデル (LLM) の急速な進歩により、高機能な自律エージェント … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

投稿日: 2024年7月11日作成者: jarxiv

要約現在の大規模マルチモーダルモデル (LMM) のほとんどは、すでに自然の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes

投稿日: 2024年7月11日作成者: jarxiv

要約 3D ガウススプラッティングなどの粒子ベースの放射フィールド表現は、複雑 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Real-time Holistic Robot Pose Estimation with Unknown States

投稿日: 2024年7月11日作成者: jarxiv

要約 RGB 画像からロボットのポーズを推定することは、コンピュータービジョン … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models

投稿日: 2024年7月11日作成者: jarxiv

要約大規模言語モデル (LLM) は、並列データなしでトレーニングした場合でも … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

CAPformer: Compression-Aware Pre-trained Transformer for Low-Light Image Enhancement

投稿日: 2024年7月11日作成者: jarxiv

要約低照度画像強化 (LLIE) は、電話写真の需要の急増に伴って進歩してきま … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods

投稿日: 2024年7月11日作成者: jarxiv

要約ドメイン固有のアプリケーションでは、正確なプロンプトまたは検索拡張生成 ( … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

OneRestore: A Universal Restoration Framework for Composite Degradation

投稿日: 2024年7月11日作成者: jarxiv

要約現実世界のシナリオでは、画像障害は複合的な劣化として現れることが多く、低照 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation

投稿日: 2024年7月11日作成者: jarxiv

要約自動運転の進展に伴い、動作計画やナビゲーション時の安全確保がますます重要に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

月別アーカイブ: 2024年7月

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes

Real-time Holistic Robot Pose Estimation with Unknown States

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models

CAPformer: Compression-Aware Pre-trained Transformer for Low-Light Image Enhancement

PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods

OneRestore: A Universal Restoration Framework for Composite Degradation

Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation

最近の投稿

最近のコメント

アーカイブ

カテゴリー