prendizagem por reforço: o que é, algoritmos, aplicativos, exemplo

O que é Aprendizagem por Reforço?

O Aprendizado por Reforço é definido como um método de Aprendizado de Máquina que se preocupa com como os agentes de software devem realizar ações em um ambiente. O Aprendizado por Reforço é uma parte do método de aprendizado profundo que o ajuda a maximizar uma parte da recompensa cumulativa.

Este método de aprendizagem de rede neural ajuda você a aprender como atingir um objetivo complexo ou maximizar uma dimensão específica em várias etapas.

No tutorial de Aprendizagem por Reforço, você aprenderá:

Termos importantes usados ​​no método de Aprendizagem por Reforço Profundo

Aqui estão alguns termos importantes usados ​​no Reforço AI:

  • Agente: É uma entidade presumida que executa ações em um ambiente para ganhar alguma recompensa.
  • Ambiente (e): Um cenário que um agente tem que enfrentar.
  • Recompensa (R): Um retorno imediato dado a um agente quando ele executa uma ação ou tarefa específica.
  • Estado (s): Estado refere-se à situação atual devolvida pelo meio ambiente.
  • Política (π): É uma estratégia aplicada pelo agente para decidir a próxima ação com base no estado atual.
  • Valor (V): Espera-se retorno de longo prazo com desconto, em relação à recompensa de curto prazo.
  • Função de valor: Isto especifica o valor de um estado que é o valor total da recompensa. É um agente que se deve esperar a partir desse estado.
  • Modelo do ambiente: Isso imita o comportamento do ambiente. Ajuda a fazer inferências a serem feitas e também a determinar como o ambiente se comportará.
  • Métodos baseados em modelo: É um método para resolver problemas de aprendizagem por reforço que usa métodos baseados em modelos.
  • Valor Q ou valor da ação (Q): O valor Q é bastante semelhante ao valor. A única diferença entre os dois é que leva um parâmetro adicional como uma ação atual.

Como funciona o Aprendizado por Reforço?

Vamos ver alguns exemplos simples que ajudam a ilustrar o mecanismo de aprendizagem por reforço.

Considere o cenário de ensinar novos truques ao seu gato

  • Como o gato não entende inglês ou qualquer outra língua humana, não podemos lhe dizer diretamente o que fazer. Em vez disso, seguimos uma estratégia diferente.
  • Imitamos uma situação e o gato tenta reagir de muitas maneiras diferentes. Se a resposta do gato for a desejada, daremos peixes a ele.
  • Agora, sempre que o gato é exposto à mesma situação, o gato executa uma ação semelhante com ainda mais entusiasmo na expectativa de obter mais recompensa (comida).
  • É como aprender que o gato consegue 'o que fazer' com experiências positivas.
  • Ao mesmo tempo, o gato também aprende o que não faz quando se depara com experiências negativas.

Explicação sobre o exemplo:

Como funciona o Aprendizado por Reforço

Nesse caso,

  • Seu gato é um agente exposto ao meio ambiente. Nesse caso, é sua casa. Um exemplo de estado poderia ser seu gato sentado, e você usa uma palavra específica para gato andar.
  • Nosso agente reage realizando uma transição de ação de um 'estado' para outro 'estado'.
  • Por exemplo, seu gato passa de sentado para andar.
  • A reação de um agente é uma ação, e a política é um método de selecionar uma ação em um determinado estado na expectativa de melhores resultados.
  • Após a transição, eles podem receber uma recompensa ou penalidade em troca.

Algoritmos de Aprendizagem por Reforço

Existem três abordagens para implementar um algoritmo de Aprendizado por Reforço.

Baseado em valor:

Em um método de Aprendizagem por Reforço baseado em valor, você deve tentar maximizar uma função de valor V (s) . Neste método, o agente espera um retorno de longo prazo dos estados atuais sob a política Pi .

Baseado em políticas:

Em um método de RL baseado em política, você tenta criar uma política de modo que a ação executada em cada estado o ajude a obter o máximo de recompensa no futuro.

Dois tipos de métodos baseados em políticas são:

  • Determinística: para qualquer estado, a mesma ação é produzida pela política π.
  • Estocástico: Cada ação tem uma certa probabilidade, que é determinada pela seguinte equação. Política Estocástica:
    n{as) = PA, = aS, =S]

Baseado em modelo:

Neste método de Aprendizagem por Reforço, você precisa criar um modelo virtual para cada ambiente. O agente aprende a atuar naquele ambiente específico.

Características da Aprendizagem por Reforço

Aqui estão características importantes da aprendizagem por reforço

  • Não há supervisor, apenas um número real ou sinal de recompensa
  • Tomada de decisão sequencial
  • O tempo desempenha um papel crucial nos problemas de reforço
  • O feedback é sempre atrasado, não instantâneo
  • As ações do agente determinam os dados subsequentes que ele recebe

Tipos de Aprendizagem por Reforço

Dois tipos de métodos de aprendizagem por reforço são:

Positivo:

É definido como um evento que ocorre devido a um comportamento específico. Aumenta a força e a frequência do comportamento e impacta positivamente na ação do agente.

Este tipo de reforço ajuda a maximizar o desempenho e sustentar a mudança por um período mais extenso. No entanto, muito reforço pode levar à otimização excessiva do estado, o que pode afetar os resultados.

Negativo:

Reforço negativo é definido como fortalecimento do comportamento que ocorre devido a uma condição negativa que deveria ter sido interrompida ou evitada. Isso ajuda você a definir a posição mínima de desempenho. No entanto, a desvantagem desse método é que ele fornece o suficiente para atender ao comportamento mínimo.

Modelos de Aprendizagem de Reforço

Existem dois modelos de aprendizagem importantes na aprendizagem por reforço:

  • Processo de decisão de Markov
  • Aprendizagem Q

Processo de decisão de Markov

Os seguintes parâmetros são usados ​​para obter uma solução:

  • Conjunto de ações- A
  • Conjunto de estados -S
  • Recompensa- R
  • Política- n
  • Valor- V

A abordagem matemática para mapear uma solução em Aprendizagem por reforço é reconhecida como um Processo de Decisão de Markov ou (MDP).

Q-Learning

O aprendizado Q é um método baseado em valor de fornecer informações para informar qual ação um agente deve realizar.

Vamos entender esse método pelo seguinte exemplo:

  • Há cinco quartos em um prédio que são conectados por portas.
  • Cada quarto é numerado de 0 a 4
  • O exterior do edifício pode ser uma grande área externa (5)
  • As portas número 1 e 4 conduzem para o prédio a partir da sala 5

Em seguida, você precisa associar um valor de recompensa a cada porta:

  • As portas que levam diretamente ao gol têm uma recompensa de 100
  • Portas que não estão diretamente conectadas à sala de destino oferecem recompensa zero
  • Como as portas são de mão dupla e duas setas são atribuídas para cada sala
  • Cada seta na imagem acima contém um valor de recompensa instantânea

Explicação:

Nesta imagem, você pode ver que a sala representa um estado

O movimento do agente de uma sala para outra representa uma ação

Na imagem fornecida abaixo, um estado é descrito como um nó, enquanto as setas mostram a ação.

Por exemplo, um agente atravessa da sala número 2 a 5

  • Estado inicial = estado 2
  • Estado 2-> estado 3
  • Estado 3 -> estado (2,1,4)
  • Estado 4-> estado (0,5,3)
  • Estado 1-> estado (5,3)
  • Estado 0-> estado 4

Aprendizagem por Reforço vs. Aprendizagem Supervisionada

Parâmetros Aprendizagem por Reforço Aprendizagem Supervisionada
Estilo de decisãoo aprendizado por reforço o ajuda a tomar suas decisões sequencialmente.Nesse método, uma decisão é tomada com base na entrada fornecida no início.
Funciona emTrabalha na interação com o meio ambiente.Trabalha com exemplos ou dados de amostra fornecidos.
Dependência de decisãoNo método RL, a decisão de aprendizagem é dependente. Portanto, você deve dar rótulos a todas as decisões dependentes.Aprendizagem supervisionada das decisões que são independentes umas das outras, então rótulos são dados para cada decisão.
Mais adequadoOferece suporte e funciona melhor em IA, onde a interação humana é predominante.É operado principalmente com um sistema de software ou aplicativos interativos.
ExemploJogo de xadrezReconhecimento de objeto

Aplicações de Aprendizagem por Reforço

Aqui estão as aplicações do Aprendizado por Reforço:

  • Robótica para automação industrial.
  • Planejamento de estratégia de negócios
  • Aprendizado de máquina e processamento de dados
  • Ele ajuda você a criar sistemas de treinamento que fornecem instruções e materiais personalizados de acordo com a necessidade dos alunos.
  • Controle de aeronaves e controle de movimento do robô

Por que usar o Aprendizado por Reforço?

Aqui estão as principais razões para usar o Aprendizado por Reforço:

  • Ajuda você a descobrir qual situação precisa de uma ação
  • Ajuda você a descobrir qual ação produz a maior recompensa em um período mais longo.
  • O Aprendizado por Reforço também fornece ao agente de aprendizagem uma função de recompensa.
  • Também permite descobrir o melhor método para obter grandes recompensas.

Quando não usar o aprendizado por reforço?

Você não pode aplicar o modelo de aprendizagem por reforço em toda a situação. Aqui estão algumas condições quando você não deve usar o modelo de aprendizagem por reforço.

  • Quando você tem dados suficientes para resolver o problema com um método de aprendizado supervisionado
  • Você precisa se lembrar que o Aprendizado por Reforço é um trabalho pesado e demorado. em particular quando o espaço de ação é grande.

Desafios da Aprendizagem por Reforço

Aqui estão os principais desafios que você enfrentará ao ganhar o reforço:

  • Design de recurso / recompensa que deve estar muito envolvido
  • Os parâmetros podem afetar a velocidade de aprendizagem.
  • Ambientes realistas podem ter observabilidade parcial.
  • Muito Reforço pode levar a uma sobrecarga de estados que podem diminuir os resultados.
  • Ambientes realistas podem ser não estacionários.

Resumo:

  • Aprendizado por Reforço é um método de Aprendizado de Máquina
  • Ajuda você a descobrir qual ação produz a maior recompensa em um período mais longo.
  • Três métodos de aprendizagem por reforço são 1) Baseada em valores 2) Aprendizagem baseada em políticas e baseada em modelos.
  • Agente, Estado, Recompensa, Ambiente, Modelo de função de valor do ambiente, métodos baseados em modelo, são alguns termos importantes usando no método de aprendizagem RL
  • O exemplo de aprendizagem por reforço é que seu gato é um agente exposto ao ambiente.
  • A maior característica deste método é que não há supervisor, apenas um número real ou sinal de recompensa
  • Dois tipos de aprendizagem por reforço são 1) Positiva 2) Negativa
  • Dois modelos de aprendizagem amplamente utilizados são 1) Processo de decisão de Markov 2) Q learning
  • O método de Aprendizagem por Reforço funciona na interação com o ambiente, enquanto o método de aprendizagem supervisionada funciona em dados de amostra fornecidos ou exemplo.
  • Os métodos de aprendizagem de aplicação ou reforço são: Robótica para automação industrial e planejamento de estratégia de negócios
  • Você não deve usar este método quando tiver dados suficientes para resolver o problema
  • O maior desafio deste método é que os parâmetros podem afetar a velocidade de aprendizagem