月別アーカイブ: 2024年6月

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

要約 マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚的理解タス … 続きを読む

カテゴリー: cs.CV | MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning はコメントを受け付けていません

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

要約 都市環境における自動運転の主なハードルは、困難な道路状況や繊細な人間の行動 … 続きを読む

カテゴリー: cs.CV | DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models はコメントを受け付けていません

CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks

要約 ハイブリッド Convolution および Transformer ニュ … 続きを読む

カテゴリー: cs.CV | CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks はコメントを受け付けていません

Fast and Uncertainty-Aware SVBRDF Recovery from Multi-View Capture using Frequency Domain Analysis

要約 再点灯可能なオブジェクトの取得は、デジタル アセットの作成を簡素化する上で … 続きを読む

カテゴリー: cs.CV, cs.GR | Fast and Uncertainty-Aware SVBRDF Recovery from Multi-View Capture using Frequency Domain Analysis はコメントを受け付けていません

Text-Animator: Controllable Visual Text Video Generation

要約 ビデオ生成は、ゲーム、電子商取引、広告などのさまざまな業界において、困難で … 続きを読む

カテゴリー: cs.CV | Text-Animator: Controllable Visual Text Video Generation はコメントを受け付けていません

Adam-mini: Use Fewer Learning Rates To Gain More

要約 私たちは、Adam-mini を提案します。Adam-mini は、メモリ … 続きを読む

カテゴリー: cs.AI, cs.LG | Adam-mini: Use Fewer Learning Rates To Gain More はコメントを受け付けていません

Low Fidelity Visuo-Tactile Pretraining Improves Vision-Only Manipulation Performance

要約 触覚は現実世界の操作タスクを解決するための重要な要素ですが、操作用の触覚セ … 続きを読む

カテゴリー: cs.RO | Low Fidelity Visuo-Tactile Pretraining Improves Vision-Only Manipulation Performance はコメントを受け付けていません

Towards Zero-Shot Text-To-Speech for Arabic Dialects

要約 ゼロショット マルチスピーカー テキスト読み上げ (ZS-TTS) システ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards Zero-Shot Text-To-Speech for Arabic Dialects はコメントを受け付けていません

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

要約 LLM の適用範囲が広くなり、遍在性が高まっているため、LLM の応答をユ … 続きを読む

カテゴリー: cs.CL | Reward Steering with Evolutionary Heuristics for Decoding-time Alignment はコメントを受け付けていません

Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs

要約 大規模言語モデル (LLM) を新しいタスクに適応させるための既存の方法は … 続きを読む

カテゴリー: cs.AI, cs.CL | Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs はコメントを受け付けていません