De Cauchy à Nesterov : pourquoi certaines descentes vont (beaucoup) plus vite que d’autres ?
Pourquoi la descente de gradient classique est elle parfois désespérément lente, alors que de petites modifications de l’algorithme semblent, comme par magie, accélérer fortement la convergence ? Dans cet exposé, je proposerai un voyage qui commence chez Cauchy en 1847, avec la première formulation systématique de la méthode du gradient, pour arriver aux méthodes accélérées modernes de type Nesterov.
Le fil conducteur sera toujours le même : derrière chaque algorithme de premier ordre se cache une équation différentielle. En lisant les méthodes de gradient comme des discrétisations de dynamiques continues bien choisies, on comprend mieux d’où vient l’accélération, quel est exactement le rôle des paramètres, et pourquoi certains schémas sont stables et efficaces alors que d’autres se comportent mal.
Je présenterai cette approche continu/discret sur des exemples simples, en insistant davantage sur les idées et les phénomènes que sur les détails techniques des preuves. J’évoquerai enfin quelques prolongements vers des modèles non lisses et des problèmes issus de l’imagerie et de l’apprentissage, ainsi que plusieurs questions ouvertes sur les véritables limites de l’accélération. L’exposé est destiné à un public large de mathématiciens, d’informaticiens et d’ingénieurs, familiarisé avec les notions de base en optimisation et en équations différentielles ordinaires.
