ParetoPilot: Zero-Surrogate Offline Multi-Objective Optimization via Infer-Perturb-Guide Diffusion

Efficient Post-training of LLMs for Code Generation With Offline Reinforcement Learning

This paper proposes using offline reinforcement learning (RL) as an efficient al…

A Unified Framework for Gradient Aggregation in Multi-Objective Optimization

The paper introduces a unified theoretical framework for gradient aggregation in…

Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization

The paper proposes an objective-wise reputation-market mechanism to dynamically…

Behavior-Invariant Task Representation Learning with Transformer-based World Models for Offline Meta…

The paper proposes a novel framework combining behavior-invariant task represent…

Time-Aware Diffusion based on Preference Disentanglement for Generative Recommendation

The paper proposes TDPM, a time-aware diffusion model for generative recommendat…

Regularized Offline Policy Optimization with Posterior Hybrid Bayesian Belief

The paper introduces Posterior Hybrid Bayesian Belief (PhyB), a novel framework…

U-Net-Accelerated Quality-Diversity Optimization for Climate-Adaptive Urban Layouts

The paper introduces a U-Net deep learning surrogate model to accelerate Quality…

Fine-Tuning Diffusion Models for Molecular Generation via Reinforcement Learning and Fast Sampling

The paper introduces FTDiff, a reinforcement learning fine-tuning framework that…