AI học cách gian lận ở Q * bert theo cách mà con người chưa từng làm trước đây

Một AI đã cố gắng gian lận với những gì tốt nhất mà con người cung cấp sau khi phát hiện ra một khai thác trong trò chơi arcade cổ điển Q * bert và chạy với nó.

Mặc dù các lần lặp lại trước đó của AI sẽ chơi Q * bert đúng cách, nhưng tại một số thời điểm trong quá trình tìm hiểu cách trò chơi hoạt động, nó phát hiện ra một cách khai thác cho phép nó tăng điểm điên rồ. Đương nhiên, như bất kỳ người chơi săn điểm nào, nó lặp lại quá trình để có thể tăng điểm theo cách hiệu quả nhất có thể.

Bạn có thể thấy AI hoạt động theo cách của nó xung quanh các nền tảng trong video bên dưới. Lúc đầu, có vẻ như nó đang nhảy không mục đích giữa các nền tảng. Thay vì nhìn thấy trò chơi tiến triển đến vòng tiếp theo, Q * bert trở nên mắc kẹt trong một vòng lặp mà tất cả các nền tảng của nó bắt đầu nhấp nháy - khi đó, AI có thể tăng điểm một cách điên cuồng để thu về số điểm khổng lồ.

ĐỌC TIẾP: Một trong những kỷ lục trò chơi gây tranh cãi nhất cuối cùng đã bị mất uy tín

làm thế nào để chơi với những người bạn đã chết trong ánh sáng ban ngày

AI đã chiến thắng trong cuộc chiến Q * bert như thế nào

Phá vỡ kỷ lục mọi thời đại cho danh hiệu này, AI đã đạt được điểm số cao không tưởng nhờ lập trình thuật toán chiến lược tiến hóa của nó. Chiến lược tiến hóa (ES) khác với phương pháp học tăng cường (RL) thông thường mà AI truyền thống sử dụng vì nó được coi là có khả năng mở rộng hơn do khả năng học tập theo thế hệ của nó.

Mỗi vòng lặp học tập được coi là một thế hệ và nó tiếp tục nhiệm vụ của mình cho đến khi đáp ứng một điều kiện đã đặt (trong trường hợp này là điểm cao). Với mỗi thế hệ kế tiếp, AI hấp thụ kiến thức của thế hệ trước và do đó, đạt được mục tiêu tương tự và vượt qua nó tốt hơn. Tiếp tục, và bạn sẽ kết thúc với một AI hoàn toàn vô song trong nhiệm vụ của nó. Đó chính xác là những gì đã xảy ra ở đây với điểm Q * bert.

Được phác thảo trong giấy , được công bố vào tuần trước bởi các nhà nghiên cứu tại Đại học Freiburg, Đức, có vẻ như lỗi không phải là một số lượng đã biết. Trên thực tế, mặc dù họ không quá ngạc nhiên về việc tìm ra lỗi, nhưng thật thú vị khi thấy cách AI sau đó đã tiếp tục và học cách khai thác lỗi mỗi khi nó chơi để tối đa hóa tiềm năng ghi bàn.

none

ĐỌC TIẾP: Trí thông minh nhân tạo này đã học cách thành thạo Super Mario Bros

Các nhà nghiên cứu giải thích: Để tìm ra lỗi, nhân viên phải học cách gần như hoàn thành cấp độ đầu tiên - điều này không được thực hiện ngay lập tức mà sử dụng nhiều cải tiến nhỏ, các nhà nghiên cứu giải thích. Đăng ký . Chúng tôi nghi ngờ rằng tại một thời điểm nào đó trong quá trình đào tạo, một trong những giải pháp con đã gặp lỗi và có điểm số tốt hơn nhiều so với các giải pháp anh em của nó, do đó đã tăng đóng góp của nó cho bản cập nhật - trọng số của nó là giải pháp cao nhất trong mức trung bình có trọng số. Điều này từ từ chuyển giải pháp vào không gian mà ngày càng nhiều con non bắt đầu gặp phải lỗi tương tự.

Chúng tôi không biết các điều kiện chính xác mà lỗi xuất hiện; có thể nó chỉ xuất hiện nếu tác nhân tuân theo một mô hình có vẻ không tối ưu, [ví dụ: khi tác nhân lãng phí thời gian, hoặc thậm chí mất mạng]. Nếu đúng như vậy, thì RL tiêu chuẩn sẽ cực kỳ khó tìm ra lỗi: nếu bạn sử dụng phần thưởng tăng dần, bạn sẽ học được các chiến lược nhanh chóng mang lại phần thưởng nào đó, thay vì học các chiến lược không mang lại nhiều phần thưởng trong một thời gian và rồi bất ngờ thắng lớn.

Xem liên quan Nhà vô địch Dragster, Todd Rogers vừa mất vương miện sau 35 năm Trí thông minh nhân tạo này đã học cách thành thạo Super Mario Bros 1-2 trong 17 ngày Xem AI này học lái xe trong GTA V trên Twitch

Tuy nhiên, bất chấp kết quả tuyệt vời của bot, các nhà nghiên cứu không nói rằng đây là trường hợp để ủng hộ việc học ES qua RL. Trên thực tế, cả hai hệ thống đều có những vấn đề riêng và sự kết hợp của cả hai phần lớn được coi là lựa chọn tốt nhất trong tương lai.

Phương pháp ES tương tự trên các trò chơi Atari khác không mang lại kết quả tích cực gần giống nhau. Mặt khác, RL chịu trách nhiệm phá vỡ các kỷ lục trái, phải và trung tâm, bao gồm cả việc đánh bại người chơi GO xuất sắc nhất thế giới. Mặc dù vậy, ES vẫn có vị trí riêng của mình trong mọi việc và đó thực sự là cách Nvidia thực hiện rất nhiều khóa đào tạo về AI do nó đòi hỏi nhiều sức mạnh tính toán hơn nhưng đạt được kết quả tốt hơn trong một khoảng thời gian dài hơn.

Bất kể con đường nào sẽ trở thành tương lai cho sự phát triển của AI, ít nhất con bot này gian lận hệ thống không tệ như thế này bây giờ là nhà vô địch thế giới trò chơi điện tử bị thất sủng .

**AI học cách gian lận ở Q * bert theo cách mà con người chưa từng làm trước đây**

AI đã chiến thắng trong cuộc chiến Q * bert như thế nào

Bài ViếT Thú Vị

Nút thanh công cụ nhận mục ưa thích của Microsoft Edge Chromium

Chiều cao tối ưu của chuông cửa

Editor Choice

Xóa nút Trang chủ khỏi trình duyệt Vivaldi

Đây là cách bạn có thể xóa nút Trang chủ khỏi trình duyệt Vivaldi.

Cách khắc phục khi micrô Windows 10 không hoạt động

Khi micrô Windows 10 của bạn không hoạt động, bạn nên biết cách lấy lại micrô PC đó hoạt động bình thường. Các bước khắc phục sự cố này sẽ hữu ích.

**AI học cách gian lận ở Q * bert theo cách mà con người chưa từng làm trước đây**

Cách chuyển nhanh sang màn hình nền Windows của bạn

Sử dụng các phím tắt phổ biến với phím Windows để chuyển nhanh sang màn hình nền của bạn hoặc để thêm hoặc di chuyển giữa các màn hình ảo.

Cách xóa tất cả thư rác trong Gmail

Cách hủy đăng ký Apple Music

https://www.youtube.com/watch?v=WOSLSCZk37s Là dịch vụ phát trực tuyến cực kỳ phổ biến, Apple Music có thư viện hơn 60 triệu bài hát và đi kèm với tùy chọn tạo danh sách phát của riêng bạn. Nhưng, điều gì sẽ xảy ra nếu bạn đổi ý

Cách hủy theo dõi trên TikTok

Việc hủy theo dõi ai đó trên TikTok sẽ xóa video của họ khỏi tab Đang theo dõi của bạn. Đây là cách hủy theo dõi nhiều người hoặc chỉ một người trong ứng dụng TikTok.