Vector Policy Optimization: Training for Diversity Improves Test-Time Search

Authors: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal
Year: 2026

Vector Policy Optimization: Training for Diversity Improves Test-Time Search | Steady Practice | SteadyPractice