Heming Zou

1 indexed paper

Recent (6 mo)

With code

Influential cites

Benchmarked

Publications per year

Top categories

ML×1AI×1

Frequent co-authors

Yixiu Mao1×

Yun Qu1×

Qi Wang1×

Xiangyang Ji1×

Research Timeline

2026

RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning

The paper introduces Group Prioritized Off-Policy Optimization (POPO), a novel framework that efficiently accelerates RL finetuning for LLM reasoning by leveraging effective off-policy training batches without requiring costly additional data rollouts.

Highlighted terms show continued research focus across papers

Papers

cs.LGcs.AIRecentMay 31, 2026

RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning

Yixiu Mao, Yun Qu, Qi Wang, Heming Zou +1 more

View →