Một AI đã cố gắng gian lận với những gì tốt nhất mà con người cung cấp sau khi phát hiện ra một khai thác trong trò chơi arcade cổ điển Q * bert và chạy với nó.
Mặc dù các lần lặp lại trước đó của AI sẽ chơi Q * bert đúng cách, nhưng tại một số thời điểm trong quá trình tìm hiểu cách trò chơi hoạt động, nó phát hiện ra một cách khai thác cho phép nó tăng điểm điên rồ. Đương nhiên, như bất kỳ người chơi săn điểm nào, nó lặp lại quá trình để có thể tăng điểm theo cách hiệu quả nhất có thể.
Bạn có thể thấy AI hoạt động theo cách của nó xung quanh các nền tảng trong video bên dưới. Lúc đầu, có vẻ như nó đang nhảy không mục đích giữa các nền tảng. Thay vì nhìn thấy trò chơi tiến triển đến vòng tiếp theo, Q * bert trở nên mắc kẹt trong một vòng lặp mà tất cả các nền tảng của nó bắt đầu nhấp nháy - khi đó, AI có thể tăng điểm một cách điên cuồng để thu về số điểm khổng lồ.
ĐỌC TIẾP: Một trong những kỷ lục trò chơi gây tranh cãi nhất cuối cùng đã bị mất uy tín
làm thế nào để chơi với những người bạn đã chết trong ánh sáng ban ngày
AI đã chiến thắng trong cuộc chiến Q * bert như thế nào
Phá vỡ kỷ lục mọi thời đại cho danh hiệu này, AI đã đạt được điểm số cao không tưởng nhờ lập trình thuật toán chiến lược tiến hóa của nó. Chiến lược tiến hóa (ES) khác với phương pháp học tăng cường (RL) thông thường mà AI truyền thống sử dụng vì nó được coi là có khả năng mở rộng hơn do khả năng học tập theo thế hệ của nó.
Mỗi vòng lặp học tập được coi là một thế hệ và nó tiếp tục nhiệm vụ của mình cho đến khi đáp ứng một điều kiện đã đặt (trong trường hợp này là điểm cao). Với mỗi thế hệ kế tiếp, AI hấp thụ kiến thức của thế hệ trước và do đó, đạt được mục tiêu tương tự và vượt qua nó tốt hơn. Tiếp tục, và bạn sẽ kết thúc với một AI hoàn toàn vô song trong nhiệm vụ của nó. Đó chính xác là những gì đã xảy ra ở đây với điểm Q * bert.
Được phác thảo trong giấy , được công bố vào tuần trước bởi các nhà nghiên cứu tại Đại học Freiburg, Đức, có vẻ như lỗi không phải là một số lượng đã biết. Trên thực tế, mặc dù họ không quá ngạc nhiên về việc tìm ra lỗi, nhưng thật thú vị khi thấy cách AI sau đó đã tiếp tục và học cách khai thác lỗi mỗi khi nó chơi để tối đa hóa tiềm năng ghi bàn.
ĐỌC TIẾP: Trí thông minh nhân tạo này đã học cách thành thạo Super Mario Bros
Các nhà nghiên cứu giải thích: Để tìm ra lỗi, nhân viên phải học cách gần như hoàn thành cấp độ đầu tiên - điều này không được thực hiện ngay lập tức mà sử dụng nhiều cải tiến nhỏ, các nhà nghiên cứu giải thích. Đăng ký . Chúng tôi nghi ngờ rằng tại một thời điểm nào đó trong quá trình đào tạo, một trong những giải pháp con đã gặp lỗi và có điểm số tốt hơn nhiều so với các giải pháp anh em của nó, do đó đã tăng đóng góp của nó cho bản cập nhật - trọng số của nó là giải pháp cao nhất trong mức trung bình có trọng số. Điều này từ từ chuyển giải pháp vào không gian mà ngày càng nhiều con non bắt đầu gặp phải lỗi tương tự.
Chúng tôi không biết các điều kiện chính xác mà lỗi xuất hiện; có thể nó chỉ xuất hiện nếu tác nhân tuân theo một mô hình có vẻ không tối ưu, [ví dụ: khi tác nhân lãng phí thời gian, hoặc thậm chí mất mạng]. Nếu đúng như vậy, thì RL tiêu chuẩn sẽ cực kỳ khó tìm ra lỗi: nếu bạn sử dụng phần thưởng tăng dần, bạn sẽ học được các chiến lược nhanh chóng mang lại phần thưởng nào đó, thay vì học các chiến lược không mang lại nhiều phần thưởng trong một thời gian và rồi bất ngờ thắng lớn.
Xem liên quan Nhà vô địch Dragster, Todd Rogers vừa mất vương miện sau 35 năm Trí thông minh nhân tạo này đã học cách thành thạo Super Mario Bros 1-2 trong 17 ngày Xem AI này học lái xe trong GTA V trên Twitch
Tuy nhiên, bất chấp kết quả tuyệt vời của bot, các nhà nghiên cứu không nói rằng đây là trường hợp để ủng hộ việc học ES qua RL. Trên thực tế, cả hai hệ thống đều có những vấn đề riêng và sự kết hợp của cả hai phần lớn được coi là lựa chọn tốt nhất trong tương lai.
Phương pháp ES tương tự trên các trò chơi Atari khác không mang lại kết quả tích cực gần giống nhau. Mặt khác, RL chịu trách nhiệm phá vỡ các kỷ lục trái, phải và trung tâm, bao gồm cả việc đánh bại người chơi GO xuất sắc nhất thế giới. Mặc dù vậy, ES vẫn có vị trí riêng của mình trong mọi việc và đó thực sự là cách Nvidia thực hiện rất nhiều khóa đào tạo về AI do nó đòi hỏi nhiều sức mạnh tính toán hơn nhưng đạt được kết quả tốt hơn trong một khoảng thời gian dài hơn.
Bất kể con đường nào sẽ trở thành tương lai cho sự phát triển của AI, ít nhất con bot này gian lận hệ thống không tệ như thế này bây giờ là nhà vô địch thế giới trò chơi điện tử bị thất sủng .