Treine um agente em um ambiente de aprendizagem por reforço: Novos Recursos do Wolfram Language 12

Treine um agente em um ambiente de aprendizagem por reforço

Este exemplo mostra como treinar uma rede neural simples para maximizar sua recompensa no ambiente "Simulated Cart Pole" usando o método REINFORCE (Williams, 1992). O ambiente Cart Pole (carrinho com pêndulo invertido) consiste em um carrinho que se move ao longo de um trilho unidimensional sem atrito e um pêndulo pesado preso ao carrinho por uma dobradiça (também conhecido como pêndulo invertido). O carrinho tem alguma velocidade inicial, de tal forma que o pêndulo cairá sem intervenção. O objetivo do agente é manter o pêndulo na posição vertical pelo maior tempo possível. Isso é feito aprendendo quais das duas ações possíveis (mover para a esquerda ou para a direita) devem ser executadas a qualquer momento.

Carregue e renderize o ambiente em seu estado inicial.

Defina uma rede simples que aprenda uma estratégia para escolher se deve mover o carrinho para a esquerda ou para a direita.

Defina uma função de perda para o aprendizado baseado em gradiente de política.

Defina uma função geradora que irá amostrar dados de treinamento para a rede.

mostre o input completo da Wolfram Language

Treine a rede de políticas e meça o fator de desconto médio.

Anime o ambiente com a rede de políticas treinada (clique na imagem a seguir para ver uma animação). Observe que o pêndulo fica na vertical.

Compare isso com um agente considerando ações aleatórias no ambiente (clique na imagem a seguir para ver uma animação).

Wolfram Language™

Treine um agente em um ambiente de aprendizagem por reforço

Exemplos Relacionados