100000 {'survive': 963, 'wall': 25590, 'starve': 9842, 'self': 63605, 'max steps': 10000} 200000 {'survive': 13487, 'wall': 38205, 'starve': 14010, 'self': 134298, 'max steps': 10000}
修改参数扩大场地和寿命 让蛇更倾向于保持直线 加大饿死惩罚 修改可视化参数 增加加载逻辑
训练100万步成果,在最多1000步、12*12的情况下 推理代码