Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Authors

  • André Luiz Carvalho Ottoni Universidade Federal de São João del-Rei
  • Erivelton Geraldo Nepomuceno UFSJ
  • Marcos Santos de Oliveira UFSJ
  • Lara Toledo Cordeiro UFSJ
  • Rubisson Duarte Lamperti UTFPR/Campus Medianeira

DOI:

https://doi.org/10.5335/rbca.v8i2.5249

Keywords:

Aprendizado por Reforço, Navegação Autônoma, Regressão Logística.

Abstract

Nos algoritmos de aprendizado por reforço, a taxa de aprendizado (alpha) e o fator de desconto (gamma) podem ser definidos entre qualquer valor no intervalo entre 0 e 1. Assim, adotando os conceitos de regressão logística, é proposta uma metodologia estatística para a análise da influência da variação de \alpha e \gamma nos algoritmos Q-learning e SARSA. Como estudo de caso, o aprendizado por reforço foi aplicado em experimentos de navegação autônoma. A análise de resultados mostrou que simples variações em \alpha e \gamma podem interferir diretamente no desempenho do aprendizado por reforço.

Downloads

Download data is not yet available.

Author Biographies

  • André Luiz Carvalho Ottoni, Universidade Federal de São João del-Rei
    André Luiz Carvalho Ottoni é aluno do mestrado em Engenharia Elétrica (Associação Ampla UFSJ & CEFET-MG), na linha de pesquisa Análise e Modelagem de Sistemas. É graduado em Engenharia Elétrica pela Universidade Federal de São João del-Rei (UFSJ). Além disso, possui formação técnica em Planejamento e Gestão em Tecnologia da Informação, pelo CEFET-MG. Atua principalmente nas seguintes áreas: Aprendizado por Reforço, Robótica Inteligente, Futebol de Robôs, Inteligência Artificial e Análise Estatística do Desempenho de Algoritmos.
  • Erivelton Geraldo Nepomuceno, UFSJ
    ossui graduação em Engenharia Elétrica pela Universidade Federal de São João del-Rei (UFSJ) (2001), mestrado e doutorado em Engenharia Elétrica pela Universidade Federal de Minas Gerais. Realizou pós-doutorado no Imperial College London no período de 2013 a 2014. ÁREA DE PESQUISA: Análise e Modelagem de Sistemas. O foco da pesquisa atualmente é na detecção de estruturas e nos aspectos computacionais e matemáticos da simulação de modelos. É Professor Associado do Departamento de Engenharia Elétrica da UFSJ, Foi o primeiro coordenador e presidente da comissão de implantação do Programa de Pós-Graduação em Engenharia Elétrica.
  • Marcos Santos de Oliveira, UFSJ
    Formado em Estatística pela UNESP em 2001. Mestre em Estatística pelo IME/USP em 2004. Doutor em Estatística e Experimentação Agropecuária pela UFLA em 2009. Professor da UFSJ desde 2005. Entre 2006 e 2014 foi Professor Orientador dos alunos campeões da OBMEP. Em 2008, vinculou-se ao Programa de Pós-Graduação Lato Sensu em Matemática (UFSJ). Entre 2010 e 2012, foi Coordenador Adjunto de Pesquisa da Comissão Permanente de Vestibular (Copeve/UFSJ). Ainda em 2010, vinculou-se como professor colaborador do Programa de Mestrado em Psicologia (UFSJ). Em 2012, vinculou-se ao Mestrado Profissional em Matemática em Rede Nacional (PROFMAT/SBM). Atualmente tem suas atividades de pesquisas em modelos de regressão e estatística não-paramétrica.
  • Lara Toledo Cordeiro, UFSJ
    É graduanda em Engenharia Mecatrônica na Universidade Federal de São João del Rei.
  • Rubisson Duarte Lamperti, UTFPR/Campus Medianeira
    é graduado (2008) e mestre (2013) em Engenharia Elétrica pela Universidade Federal de São João del-Rei (UFSJ). Atualmente, é professor assistente I na Universidade Tecnológica Federal do Paraná (UTFPR), campus Medianeira. Áreas de interesse: Robótica Inteligente, Futebol de Robôs, Inteligência Artificial, Aprendizado por Reforço.

Published

2016-09-01

Issue

Section

Original Paper

How to Cite

[1]
2016. Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma. Brazilian Journal of Applied Computing. 8, 2 (Sep. 2016), 44–59. DOI:https://doi.org/10.5335/rbca.v8i2.5249.