Wolfram Language

Entraînez un agent dans un environnement d'apprentissage par renforcement

Cet exemple illustre comment entraîner un réseau neuronal simple pour maximiser sa récompense dans l'environnement "Simulated Cart Pole" en utilisant la méthode REINFORCE (Williams, 1992). L'environnement du Cart Pole se compose d'un chariot qui se déplace le long d'un rail unidimensionnel sans friction et d'un lourd pendule fixé au chariot par une charnière (également appelé pendule inversé). Le chariot a une certaine vitesse initiale, de sorte que le pendule se renversera sans intervention. Le but de l'agent est de maintenir le pendule en position verticale le plus longtemps possible. Ceci est accompli en apprenant laquelle des deux actions possibles (déplacer vers la gauche ou vers la droite) doit être exécutée à un moment donné.

Téléchargez et restituez l'environnement dans son état d'origine.

Définissez un réseau simple qui apprendra une stratégie pour choisir de déplacer le chariot vers la gauche ou vers la droite.

Définissez une fonction de perte pour les gradients de politiques d'apprentissage.

Définissez une fonction de générateur qui échantillonnera les données d'entraînement pour le réseau.

Montrer l'entrée complète de Wolfram Language

Entraînez le réseau stratégique, en mesurant la moyenne des récompenses escomptées.

Animez l'environnement avec le réseau stratégique entraîné (cliquez sur l'image suivante pour voir une animation). Remarquez que le pendule reste droit.

Comparez ceci à un agent effectuant des actions aléatoires dans l'environnement (cliquez sur l'image suivante pour voir une animation).

Exemples connexes

de en es ja ko pt-br zh