「cs.AI」カテゴリーアーカイブ

MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

投稿日: 2024年12月17日作成者: jarxiv

要約強化学習 (RL) アルゴリズムは、現在の最良の戦略の活用と、より高い報酬 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

投稿日: 2024年12月17日作成者: jarxiv

要約 Text-to-Image（TTI）生成モデルは目覚ましい成功を収めている … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

投稿日: 2024年12月17日作成者: jarxiv

要約画像とキャプションのペアでユーモアや皮肉を伝えるマルチモーダルなオチは、オ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

IRR: Image Review Ranking Framework for Evaluating Vision-Language Models

投稿日: 2024年12月17日作成者: jarxiv

要約大規模ビジョン言語モデル (LVLM) は、画像とテキストの両方を処理し、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning

投稿日: 2024年12月17日作成者: jarxiv

要約画像の美的評価 (IAA) は、画像の美的価値を分析および評価し、そのハイ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Gramian Multimodal Representation Learning and Alignment

投稿日: 2024年12月17日作成者: jarxiv

要約人間の知覚は、視覚、聴覚、言語などの複数のモダリティを統合して、周囲の現実 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

投稿日: 2024年12月17日作成者: jarxiv

要約従来の強化学習ベースのロボット制御手法はタスク固有であることが多く、多様な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | コメントを受け付けていません

EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion

投稿日: 2024年12月17日作成者: jarxiv

要約拡散モデルはトーキングヘッド生成の分野に革命をもたらしましたが、表現力、 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning

投稿日: 2024年12月17日作成者: jarxiv

要約この研究では、豊富なラベルのない本当の顔を使って、一般化パフォーマンスに関 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation

投稿日: 2024年12月17日作成者: jarxiv

要約 GPU ベースの並列シミュレーションの最近の進歩により、実践者は大量のデー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

IRR: Image Review Ranking Framework for Evaluating Vision-Language Models

Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning

Gramian Multimodal Representation Learning and Alignment

Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion

FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning

Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation

最近の投稿

最近のコメント

アーカイブ

カテゴリー