月別アーカイブ: 2024年6月

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

投稿日: 2024年6月26日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚的理解タス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

投稿日: 2024年6月26日作成者: jarxiv

要約都市環境における自動運転の主なハードルは、困難な道路状況や繊細な人間の行動 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks

投稿日: 2024年6月26日作成者: jarxiv

要約ハイブリッド Convolution および Transformer ニュ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Fast and Uncertainty-Aware SVBRDF Recovery from Multi-View Capture using Frequency Domain Analysis

投稿日: 2024年6月26日作成者: jarxiv

要約再点灯可能なオブジェクトの取得は、デジタルアセットの作成を簡素化する上で … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Text-Animator: Controllable Visual Text Video Generation

投稿日: 2024年6月26日作成者: jarxiv

要約ビデオ生成は、ゲーム、電子商取引、広告などのさまざまな業界において、困難で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adam-mini: Use Fewer Learning Rates To Gain More

投稿日: 2024年6月26日作成者: jarxiv

要約私たちは、Adam-mini を提案します。Adam-mini は、メモリ … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Low Fidelity Visuo-Tactile Pretraining Improves Vision-Only Manipulation Performance

投稿日: 2024年6月26日作成者: jarxiv

要約触覚は現実世界の操作タスクを解決するための重要な要素ですが、操作用の触覚セ … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

Towards Zero-Shot Text-To-Speech for Arabic Dialects

投稿日: 2024年6月26日作成者: jarxiv

要約ゼロショットマルチスピーカーテキスト読み上げ (ZS-TTS) システ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

投稿日: 2024年6月26日作成者: jarxiv

要約 LLM の適用範囲が広くなり、遍在性が高まっているため、LLM の応答をユ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs

投稿日: 2024年6月26日作成者: jarxiv

要約大規模言語モデル (LLM) を新しいタスクに適応させるための既存の方法は … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

月別アーカイブ: 2024年6月

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks

Fast and Uncertainty-Aware SVBRDF Recovery from Multi-View Capture using Frequency Domain Analysis

Text-Animator: Controllable Visual Text Video Generation

Adam-mini: Use Fewer Learning Rates To Gain More

Low Fidelity Visuo-Tactile Pretraining Improves Vision-Only Manipulation Performance

Towards Zero-Shot Text-To-Speech for Arabic Dialects

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs

最近の投稿

最近のコメント

アーカイブ

カテゴリー