Học tăng cường: một tác tử hành động trong môi trường, nhận phần thưởng rồi điều chỉnh để tối đa hoá phần thưởng tích luỹ. Không ai dạy nước đi đúng — nó học bằng thử–sai qua nhiều tập. Đây là cách AI chơi cờ vây (AlphaGo) & game Atari.
—
Chọn "Kịch bản" để đổi môi trường (bẫy · trơn trượt · vách núi…) · 🔀 đổi lưới · ↺ học lại từ đầu · bấm cấu trúc/khái niệm để xem chi tiết · ô sáng = giá trị cao, mũi tên = nước đi tốt nhất.
Trình duyệt chưa bật canvas.
Phần thưởng & khám phá ε theo tậpphần thưởng (trơn)khám phá ε