StudyPreprintWikiReinforcement LearningModerate

Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation

Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation | Steady Practice | SteadyPractice