1. train部分需要考虑的只是强化学习算法大体框架和学习率之类的
  2. env正是我们接入外部agent对象数据的接口

__init__()初始化各种数据

step()每次循环会做的事

render()渲染函数

reset()同init,重置函数而已