cs.LG」カテゴリーアーカイブ

ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition

要約 Transformer モデルは、自然言語処理 (NLP) やコンピュータ … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.LG | ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition はコメントを受け付けていません

OminiControl: Minimal and Universal Control for Diffusion Transformer

要約 このペーパーでは、画像条件を事前トレーニング済みの拡散変換 (DiT) モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | OminiControl: Minimal and Universal Control for Diffusion Transformer はコメントを受け付けていません

Understanding Generalizability of Diffusion Models Requires Rethinking the Hidden Gaussian Structure

要約 この研究では、学習されたスコア関数の隠れた特性を調べることによって拡散モデ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV, eess.SP | Understanding Generalizability of Diffusion Models Requires Rethinking the Hidden Gaussian Structure はコメントを受け付けていません

What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics

要約 教育者には読みやすさを迅速に評価し、教室の多様なニーズに合わせてテキストを … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics はコメントを受け付けていません

Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability

要約 大規模言語モデル (LLM) は、推論タスクで顕著なパフォーマンスを示しま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability はコメントを受け付けていません

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

要約 画像領域におけるマルチモーダル大規模言語モデル (MLLM) の成功は、研 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs はコメントを受け付けていません

OWLed: Outlier-weighed Layerwise Pruning for Efficient Autonomous Driving Framework

要約 大規模言語モデル (LLM) を自動運転システムに統合すると、環境の理解と … 続きを読む

カテゴリー: cs.LG, cs.RO | OWLed: Outlier-weighed Layerwise Pruning for Efficient Autonomous Driving Framework はコメントを受け付けていません

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

要約 強化学習 (RL) はロボット タスクにおいて魅力的なパフォーマンスを示し … 続きを読む

カテゴリー: cs.LG, cs.RO | ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics はコメントを受け付けていません

Control-oriented Clustering of Visual Latent Representation

要約 私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおけ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Control-oriented Clustering of Visual Latent Representation はコメントを受け付けていません

GRAPE: Generalizing Robot Policy via Preference Alignment

要約 さまざまなロボット工学タスクに関するビジョン・言語・アクション (VLA) … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | GRAPE: Generalizing Robot Policy via Preference Alignment はコメントを受け付けていません