Treine um agente em um ambiente de aprendizagem por reforço
Este exemplo mostra como treinar uma rede neural simples para maximizar sua recompensa no ambiente "Simulated Cart Pole" usando o método REINFORCE (Williams, 1992). O ambiente Cart Pole (carrinho com pêndulo invertido) consiste em um carrinho que se move ao longo de um trilho unidimensional sem atrito e um pêndulo pesado preso ao carrinho por uma dobradiça (também conhecido como pêndulo invertido). O carrinho tem alguma velocidade inicial, de tal forma que o pêndulo cairá sem intervenção. O objetivo do agente é manter o pêndulo na posição vertical pelo maior tempo possível. Isso é feito aprendendo quais das duas ações possíveis (mover para a esquerda ou para a direita) devem ser executadas a qualquer momento.
Carregue e renderize o ambiente em seu estado inicial.
Defina uma rede simples que aprenda uma estratégia para escolher se deve mover o carrinho para a esquerda ou para a direita.
Defina uma função de perda para o aprendizado baseado em gradiente de política.
Defina uma função geradora que irá amostrar dados de treinamento para a rede.
Treine a rede de políticas e meça o fator de desconto médio.
Anime o ambiente com a rede de políticas treinada (clique na imagem a seguir para ver uma animação). Observe que o pêndulo fica na vertical.
Compare isso com um agente considerando ações aleatórias no ambiente (clique na imagem a seguir para ver uma animação).