Học tăng cường: tác tử học bằng thử–sai

MÔ PHỎNG HỌC TĂNG CƯỜNG

▸ Dựng thế giới lưới (gridworld) & đặt đích / bẫy…

▸ Khởi tạo bảng giá trị Q về 0

▸ Nạp chính sách ε-greedy (khám phá ↔ khai thác)

▸ Cài cập nhật Bellman: Q ← Q + α[r + γ·maxQ′ − Q]

▸ Gieo bộ sinh số tất định (mulberry32)…

▸ Sẵn sàng — Trực tuyến. ✅

Tiến độ học

🎮 Lưới đơn giản

Tập (episode)—

Phần thưởng tập—

Số bước tập này—

Khám phá ε—

Tỉ lệ thành công—

Giá trị tốt nhất—

Ghi chú

Học tăng cường: một tác tử hành động trong môi trường, nhận phần thưởng rồi điều chỉnh để tối đa hoá phần thưởng tích luỹ. Không ai dạy nước đi đúng — nó học bằng thử–sai qua nhiều tập. Đây là cách AI chơi cờ vây (AlphaGo) & game Atari.

—

Chọn "Kịch bản" để đổi môi trường (bẫy · trơn trượt · vách núi…) · 🔀 đổi lưới · ↺ học lại từ đầu · bấm cấu trúc/khái niệm để xem chi tiết · ô sáng = giá trị cao, mũi tên = nước đi tốt nhất.

Trình duyệt chưa bật canvas.

Phần thưởng & khám phá ε theo tập phần thưởng (trơn)khám phá ε