Paramètres de l'algorithme SARSA(λ)



Score: ,

Fonctions valeur d'état-action

Les graphes ci-dessous représentent les fonctions de valeurs état-action des actions (respectivement): Dans ces graphes, l'axe x représente la position et l'axe y représente la vitesse. L'état courent est coloré en rouge. A chaque état, l'agent favorise l'action lui donnant la meilleur valeur d'état-action.
Copyright Nawfel BENGHERBIA