成果专门可视化代码

2025-01-04 00:17:16 +08:00
parent a9e76e9b47
commit b173c29000
1 changed files with 319 additions and 0 deletions
--- a/src/eval.py
+++ b/src/eval.py
@@ -0,0 +1,319 @@
+import numpy as np
+import random
+import pygame
+import sys
+import pickle
+
+# 初始化pygame
+pygame.init()
+
+# 设置窗口大小
+GRID_SIZE = 128
+CELL_SIZE = 10
+WINDOW_SIZE = GRID_SIZE * CELL_SIZE
+screen = pygame.display.set_mode((WINDOW_SIZE, WINDOW_SIZE))
+pygame.display.set_caption('Snake Game')
+
+# 定义颜色
+BACKGROUND = (0, 0, 0)
+SNAKE_COLOR = (0, 255, 0)
+FOOD_COLOR = (255, 0, 0)
+
+
+# 定义环境类
+class SnakeEnv:
+    def __init__(self, size=12):
+        self.size = size
+        self.reset()
+        self.record = {
+            "survive": 0,
+            "wall": 0,
+            "starve": 0,
+            "self": 0,
+            "max steps": 0,
+        }
+
+    def reset(self):
+        head = (random.randint(0, self.size - 1), random.randint(0, self.size - 1))
+        self.snake = [head, (head[0] - 1, head[1]), (head[0] - 2, head[1])]
+        self.food = self.generate_food()
+        self.steps = 0
+        self.death = False
+        self.length = 3
+        self.action_memory = []
+        self.direction = 'right'  # 初始化方向为右
+        self.prev_distance = self.calculate_distance()  # 初始化上一状态的距离
+        return self.get_state()
+
+    def generate_food(self):
+        while True:
+            food = (random.randint(0, self.size - 1), random.randint(0, self.size - 1))
+            if food not in self.snake:
+                return food
+
+    def calculate_distance(self):
+        head = self.snake[0]
+        food = self.food
+        return np.sqrt((head[0] - food[0]) ** 2 + (head[1] - food[1]) ** 2)
+
+    def step(self, action):
+        reward = 0.0
+        head = self.snake[0]
+        if action == 0:  # 保持方向
+            reward += 0.5
+            pass
+        elif action == 1:  # 左转
+            if self.direction == 'up':
+                self.direction = 'left'
+            elif self.direction == 'down':
+                self.direction = 'right'
+            elif self.direction == 'left':
+                self.direction = 'down'
+            elif self.direction == 'right':
+                self.direction = 'up'
+        elif action == 2:  # 右转
+            if self.direction == 'up':
+                self.direction = 'right'
+            elif self.direction == 'down':
+                self.direction = 'left'
+            elif self.direction == 'left':
+                self.direction = 'up'
+            elif self.direction == 'right':
+                self.direction = 'down'
+
+        # 根据方向移动蛇头
+        if self.direction == 'up':
+            new_head = (head[0] - 1, head[1])
+        elif self.direction == 'down':
+            new_head = (head[0] + 1, head[1])
+        elif self.direction == 'left':
+            new_head = (head[0], head[1] - 1)
+        elif self.direction == 'right':
+            new_head = (head[0], head[1] + 1)
+
+        # 检查是否撞墙
+        if new_head[0] < 0 or new_head[0] >= self.size or new_head[1] < 0 or new_head[1] >= self.size:
+            self.record['wall'] += 1
+            self.death = True
+            return self.get_state(), - GRID_SIZE * GRID_SIZE, True
+
+        # 检查是否撞到自己
+        if new_head in self.snake[:-1]:
+            self.record['self'] += 1
+            self.death = True
+            return self.get_state(), - GRID_SIZE * GRID_SIZE, True
+
+        self.snake.insert(0, new_head)
+
+        # 检查是否吃到食物
+        if new_head == self.food:
+            self.length += 1
+            self.food = self.generate_food()
+            reward += GRID_SIZE * 3
+        else:
+            self.snake.pop()
+            reward += -1
+
+        # 计算当前距离
+        current_distance = self.calculate_distance()
+        distance_change = self.prev_distance - current_distance
+        self.prev_distance = current_distance
+
+        # 添加距离变化的奖励
+        if distance_change > 0:
+            reward += 0.5
+        elif distance_change < 0:
+            reward -= 0.5
+
+        self.steps += 1
+
+        # 每250步失去一格身体
+        if self.steps % (GRID_SIZE * 3) == 0 and self.length >= 1:
+            self.length -= 1
+            if self.length == 0:
+                self.record['starve'] += 1
+                self.death = True
+                return self.get_state(), - GRID_SIZE * GRID_SIZE, True
+            self.snake.pop()
+
+        # # 一局最多10000步
+        # if self.steps >= 10000:
+        #     self.record['survive'] += 1
+        #     self.death = True
+        #     return self.get_state(), 0, True
+
+        done = self.death
+        return self.get_state(), reward, done
+
+    def get_state(self):
+        head = self.snake[0]
+        food = self.food
+        direction = self.direction
+        grid = np.zeros((3, 3))
+        for i in range(-1, 2):
+            for j in range(-1, 2):
+                x = head[0] + i
+                y = head[1] + j
+                if x < 0 or x >= self.size or y < 0 or y >= self.size:
+                    grid[i + 1][j + 1] = 1  # 墙壁
+                elif (x, y) in self.snake:
+                    grid[i + 1][j + 1] = 2  # 蛇身
+                elif (x, y) == self.food:
+                    grid[i + 1][j + 1] = 3  # 食物
+                else:
+                    grid[i + 1][j + 1] = 0  # 空地
+        memory = self.action_memory[-5:] if len(self.action_memory) >= 5 else self.action_memory + [0] * (
+                    5 - len(self.action_memory))
+        food_direction = self.get_food_direction()
+        direction_one_hot = self.get_direction_one_hot()
+        return tuple(grid.flatten().tolist() + memory + list(food_direction))
+
+    def get_food_direction(self):
+        head = self.snake[0]
+        food = self.food
+        dx = food[0] - head[0]
+        dy = food[1] - head[1]
+        if dx > 0:
+            fx = 1
+        elif dx < 0:
+            fx = -1
+        else:
+            fx = 0
+        if dy > 0:
+            fy = 1
+        elif dy < 0:
+            fy = -1
+        else:
+            fy = 0
+        return (fx, fy)
+
+    def get_direction_one_hot(self):
+        direction = self.direction
+        if direction == 'up':
+            return (1, 0, 0, 0)
+        elif direction == 'down':
+            return (0, 1, 0, 0)
+        elif direction == 'left':
+            return (0, 0, 1, 0)
+        elif direction == 'right':
+            return (0, 0, 0, 1)
+        else:
+            return (0, 0, 0, 0)
+
+
+# 定义Q学习类
+class QLearning:
+    def __init__(self, actions=[0, 1, 2], epsilon=1.0, alpha=0.1, gamma=0.99, memory_size=1000, q_table=None):
+        self.actions = actions
+        self.epsilon = epsilon
+        self.alpha = alpha
+        self.gamma = gamma
+        self.q_table = {}
+        if q_table is None:
+            self.q_table = {}
+        else:
+            print("load qtable!")
+            self.q_table = q_table
+        self.memory = []
+        self.memory_size = memory_size
+
+    def choose_action(self, state):
+        state_tuple = state
+        if state_tuple not in self.q_table:
+            self.q_table[state_tuple] = [0] * len(self.actions)
+        if random.uniform(0, 1) < self.epsilon:
+            action = random.choice(self.actions)
+        else:
+            action = np.argmax(self.q_table[state_tuple])
+        return action
+
+    def learn(self, state, action, reward, next_state, done):
+        state_tuple = state
+        next_state_tuple = next_state
+        if next_state_tuple not in self.q_table:
+            self.q_table[next_state_tuple] = [0] * len(self.actions)
+        q_predict = self.q_table[state_tuple][action]
+        q_target = reward + self.gamma * max(self.q_table[next_state_tuple]) if not done else reward
+        self.q_table[state_tuple][action] += self.alpha * (q_target - q_predict)
+        self.remember(state_tuple, action, reward, next_state_tuple, done)
+        self.replay()
+
+    def remember(self, state, action, reward, next_state, done):
+        if len(self.memory) > self.memory_size:
+            del self.memory[0]
+        self.memory.append((state, action, reward, next_state, done))
+
+    def replay(self, batch_size=32):
+        if len(self.memory) < batch_size:
+            return
+        batch = random.sample(self.memory, batch_size)
+        for state, action, reward, next_state, done in batch:
+            q_predict = self.q_table[state][action]
+            q_target = reward + self.gamma * max(self.q_table[next_state]) if not done else reward
+            self.q_table[state][action] += self.alpha * (q_target - q_predict)
+
+    def decay_epsilon(self, min_epsilon=0.001, decay_rate=0.9999):
+        if self.epsilon > min_epsilon:
+            self.epsilon *= decay_rate
+
+
+# 训练函数
+def train(env, agent, episodes=10000, visualize=False):
+    for episode in range(episodes):
+        state = env.reset()
+        done = False
+        if episode % 5000 == 0 or visualize and episode % 1 == 0:
+            print(episode)
+            print(env.record)
+        while not done:
+            action = agent.choose_action(state)
+            env.action_memory.append(action)
+            next_state, reward, done = env.step(action)
+            agent.learn(state, action, reward, next_state, done)
+            state = next_state
+            # if reward == 0 and done:
+            #     print(episode, "survive!")
+            draw_env(env, visualize and episode % 1 == 0)
+        env.record['max steps'] = max(env.record['max steps'], env.steps)
+        agent.decay_epsilon()
+        if episode % 100000 == 0 and not visualize:
+            with open(f'q_table_{episode}.pkl', 'wb') as f:
+                pickle.dump(agent.q_table, f)
+    print(env.record)
+
+
+# 可视化函数
+def draw_env(env, visualize=True):
+    if visualize:
+        screen.fill(BACKGROUND)
+        for body in env.snake:
+            pygame.draw.rect(screen, SNAKE_COLOR, (body[1] * CELL_SIZE, body[0] * CELL_SIZE, CELL_SIZE, CELL_SIZE))
+        pygame.draw.rect(screen, FOOD_COLOR, (env.food[1] * CELL_SIZE, env.food[0] * CELL_SIZE, CELL_SIZE, CELL_SIZE))
+        pygame.display.flip()
+
+        # 添加延迟
+        pygame.time.delay(5)
+
+        # 处理事件
+        for event in pygame.event.get():
+            if event.type == pygame.QUIT:
+                pygame.quit()
+                sys.exit()
+
+
+# 主函数
+def main():
+    env = SnakeEnv(GRID_SIZE)
+    actions = [0, 1, 2]  # 保持、左转、右转
+    visualize = True
+    # if visualize:
+    with open('q_table_200000.pkl', 'rb') as f:
+        q_table = pickle.load(f)
+    agent = QLearning(actions, q_table=q_table if visualize else None, epsilon=0.0001 if visualize else 1.0)
+    # agent = QLearning(actions)
+    train(env, agent, episodes=1000000, visualize=visualize)  # 关闭可视化
+    pygame.quit()
+
+
+if __name__ == '__main__':
+    main()