MÔ PHỎNG HỌC TĂNG CƯỜNG

▸ Dựng thế giới lưới (gridworld) & đặt đích / bẫy…
▸ Khởi tạo bảng giá trị Q về 0
▸ Nạp chính sách ε-greedy (khám phá ↔ khai thác)
▸ Cài cập nhật Bellman: Q ← Q + α[r + γ·maxQ′ − Q]
▸ Gieo bộ sinh số tất định (mulberry32)…
▸ Sẵn sàng — Trực tuyến. ✅
0%
⌂ Tư duy & Máy

Phòng mô phỏng Học tăng cường

Reinforcement Learning · Q-learning
Trực tuyến
thử–sai · phần thưởng · chính sách tối ưu
Tiến độ học
🎮 Lưới đơn giản
Tập (episode)
Phần thưởng tập
Số bước tập này
Khám phá ε
Tỉ lệ thành công
Giá trị tốt nhất
Ghi chú
Học tăng cường: một tác tử hành động trong môi trường, nhận phần thưởng rồi điều chỉnh để tối đa hoá phần thưởng tích luỹ. Không ai dạy nước đi đúng — nó học bằng thử–sai qua nhiều tập. Đây là cách AI chơi cờ vây (AlphaGo) & game Atari.
Chọn "Kịch bản" để đổi môi trường (bẫy · trơn trượt · vách núi…) · 🔀 đổi lưới · ↺ học lại từ đầu · bấm cấu trúc/khái niệm để xem chi tiết · ô sáng = giá trị cao, mũi tên = nước đi tốt nhất.
Trình duyệt chưa bật canvas.
Phần thưởng & khám phá ε theo tập phần thưởng (trơn)khám phá ε