Group Relative Policy Optimization

A training technique for reasoning models that optimizes based on relative performance within groups of responses. Introduced in late 2024 and used in many frontier models.