投稿者「jarxiv」のアーカイブ

Speech Retrieval-Augmented Generation without Automatic Speech Recognition

投稿日: 2025年1月6日作成者: jarxiv

要約音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識（ … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

BlockDialect: Block-wise Fine-grained Mixed Format for Energy-Efficient LLM Inference

投稿日: 2025年1月6日作成者: jarxiv

要約大規模言語モデル(LLM)は目覚ましい成功を収めているが、サイズが大きくな … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking

投稿日: 2025年1月6日作成者: jarxiv

要約大規模言語モデル(LLM)は卓越した能力を発揮するが、依然として幻覚の問題 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

SVFR: A Unified Framework for Generalized Video Face Restoration

投稿日: 2025年1月6日作成者: jarxiv

要約顔復元（Face Restoration：FR）は、劣化した入力から高品質 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

投稿日: 2025年1月6日作成者: jarxiv

要約生成されたビデオ内の動的オブジェクトとカメラの動きを制御することは、有意義 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

投稿日: 2025年1月6日作成者: jarxiv

要約近年、2次元視覚言語モデル(VLM)は、画像とテキストの理解タスクにおいて … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AdaptVC: High Quality Voice Conversion with Adaptive Learning

投稿日: 2025年1月6日作成者: jarxiv

要約音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Modelling and Control of Spatial Behaviours in Multi-Agent Systems with Applications to Biology and Robotics

投稿日: 2025年1月5日作成者: jarxiv

要約大規模マルチエージェントシステム(LS-MAS)は、いくつかの自律的な構成 … 続きを読む →

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

Steppability-informed Quadrupedal Contact Planning through Deep Visual Search Heuristics

投稿日: 2025年1月5日作成者: jarxiv

要約本論文では、画像空間における環境ステッパビリティ（脚式ロボットのプラットフ … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

TrajLearn: Trajectory Prediction Learning using Deep Generative Models

投稿日: 2025年1月5日作成者: jarxiv

要約軌跡予測は、現在位置と過去の移動データを用いてエンティティの将来の経路を推 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Speech Retrieval-Augmented Generation without Automatic Speech Recognition

BlockDialect: Block-wise Fine-grained Mixed Format for Energy-Efficient LLM Inference

Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking

SVFR: A Unified Framework for Generalized Video Face Restoration

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

AdaptVC: High Quality Voice Conversion with Adaptive Learning

Modelling and Control of Spatial Behaviours in Multi-Agent Systems with Applications to Biology and Robotics

Steppability-informed Quadrupedal Contact Planning through Deep Visual Search Heuristics

TrajLearn: Trajectory Prediction Learning using Deep Generative Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー