Nima uchun sun'iy intellekt ba'zi o'yinlarda sarosimaga tushishini aniqlash
Google’ning DeepMind guruhi tomonidan yaratilgan Alpha seriyali sun’iy intellektlar (AI) shaxmat kabi o‘yinlarni to‘rt soat ichida va Go o‘yinini o‘z-o‘zini mashq qildirish orqali mukammal egallash usulini topgandek tuyulgandi. Biroq keyinchalik Go o‘yinida g‘alati holatlar yuzaga kela boshladi: ba’zi pozitsiyalar nisbatan yangi o‘yinchilarga qarshi yutqazsa ham, o‘xshash Go-AI’ni osongina mag‘lub etardi.
Sun’iy intellektni stol o‘yinida mag‘lub etish unchalik ahamiyatsiz tuyulishi mumkin bo‘lsa-da, bu AI’ning muvaffaqiyatsizlikka uchragan joylarini aniqlashga yordam beradi. Bu AI’larning ko‘r nuqtalarni rivojlantirmasliklari uchun ularning mashq usullarini yaxshilashga xizmat qiladi, bu esa odamlar AI’ga turli muammolarni hal qilishda tobora ko‘proq tayanayotgan bir paytda juda muhim bo‘lishi mumkin.
Yaqinda Machine Learning jurnalida nashr etilgan maqolada AlphaGo va AlphaChess’ni mashq qilishda qo‘llanilgan usul ish bermaydigan butun bir o‘yinlar toifasi tasvirlangan. Ko‘rib chiqilayotgan o‘yinlar hayratlanarli darajada oddiy bo‘lishi mumkin, masalan, tadqiqotchilar ishlagan "Nim" o‘yini. Bu o‘yinda ikki o‘yinchi piramida shaklidagi taxtadan navbatma-navbat gugurt cho‘plarini olib tashlaydi, toki bir o‘yinchi uchun qonuniy harakat qolmaguncha davom etadi.
Betaraflik
Nim o‘yinida gugurt cho‘plari qatorlari joylashtiriladi: eng yuqori qatorda bitta gugurt, har bir undan pastdagi qatorda esa ikkitadan ko‘proq gugurt bo‘ladi. Bu piramida shaklidagi taxtani hosil qiladi. Ikki o‘yinchi navbatma-navbat taxtadan gugurt cho‘plarini olib tashlaydi, buning uchun bir qator tanlanadi va undan bir dona gugurtdan tortib butun qatorni olib tashlash mumkin. O‘yin qonuniy harakatlar qolmaguncha davom etadi. Bu bolalarga osongina o‘rgatish mumkin bo‘lgan oddiy o‘yin.
Shuningdek, bu o‘yin "betaraf o‘yinlar" deb nomlanuvchi butun bir qoida toifasining muhim namunasi bo‘lib chiqadi. Ular shaxmat kabi o‘yinlardan farq qiladi, chunki shaxmatda har bir o‘yinchi o‘zining shaxmat figuralariga ega; betaraf o‘yinlarda esa ikki o‘yinchi bir xil qismlarni baham ko‘radi va bir xil qoidalar bilan bog‘langan bo‘ladi. Nimning ahamiyati shundan iboratki, har qanday betaraf o‘yindagi har qanday holatni Nim piramidasining konfiguratsiyasi bilan ifodalash mumkinligini ko‘rsatuvchi teorema mavjud. Ya’ni, agar biror narsa Nimga tegishli bo‘lsa, u barcha betaraf o‘yinlarga ham tegishli bo‘ladi.
Nim va boshqa betaraf o‘yinlarning o‘ziga xos xususiyatlaridan biri shundaki, o‘yinning istalgan nuqtasida taxtani baholash va qaysi o‘yinchi yutish salohiyatiga ega ekanligini aniqlash oson. Boshqacha qilib aytganda, siz taxtani baholashingiz va shu paytdan boshlab optimal harakatlarni o‘ynasangiz, g‘alaba qozonishingizni bilishingiz mumkin. Buning uchun faqat taxtaning konfiguratsiyasini paritet funksiyasiga kiritish kifoya, bu funksiya sizning g‘alaba qozonayotganingizni aniqlash uchun hisob-kitoblarni amalga oshiradi.
(Tabiiyki, hozirda g‘alaba qozonayotgan shaxs optimal bo‘lmagan harakatni o‘ynab, yutqazishi mumkin. Va optimal harakatlarning aniq ketma-ketligi oxirigacha aniqlanmaydi, chunki ular raqibingiz nima qilishiga bog‘liq bo‘ladi.)
Bei Zhou va Soren Riis tomonidan amalga oshirilgan yangi ish oddiy savol beradi: agar siz o‘yinlarni o‘ynash uchun sun’iy intellektni o‘rgatishda AlphaGo yondashuvini qabul qilsangangiz va Nim o‘ynaydigan sun’iy intellektni yaratishga harakat qilsangiz nima bo‘ladi? Boshqacha qilib aytganda: ular AI Nimda o‘z-o‘zini o‘ynab, paritet funksiyasini mustaqil ravishda rivojlantira oladimi, deb so‘rashdi.
O‘z-o‘zini o‘rganish muvaffaqiyatsiz bo‘lganda
Shaxmat o‘ynovchi versiya bo‘lgan AlphaZero faqat shaxmat qoidalari asosida o‘qitilgan. O‘z-o‘zini o‘ynash orqali u turli taxta konfiguratsiyalarini g‘alaba qozonish ehtimoli bilan bog‘lashi mumkin. Uning bir xil izda qolib ketmasligi uchun tasodifiy tanlash elementi ham mavjud bo‘lib, bu unga yangi hududlarni o‘rganishni davom ettirish imkonini beradi. Va, u cheklangan miqdordagi yuqori qiymatli harakatlarni aniqlay olganidan so‘ng, u ushbu harakatlardan kelib chiqadigan kelajakdagi imkoniyatlarni chuqurroq o‘rganishga qodir. U qancha ko‘p o‘yin o‘ynasa, berilgan pozitsiyadan kelib chiqishi mumkin bo‘lgan potentsial taxta konfiguratsiyalariga qiymatlar berish ehtimoli shuncha yuqori bo‘ladi (garchi ko‘proq o‘yinlarning afzalliklari yetarli miqdorda o‘ynalgandan keyin kamayishga moyil bo‘lsa ham).
Nimda berilgan taxta konfiguratsiyasi uchun cheklangan miqdordagi optimal harakatlar mavjud. Agar siz ulardan birini o‘ynamasangiz, u holda siz raqibingizga nazoratni topshirasiz, u faqat optimal harakatlarni o‘ynab g‘alaba qozonishi mumkin. Va yana, optimal harakatlarni matematik paritet funksiyasini baholash orqali aniqlash mumkin.
Demak, shaxmat uchun ishlagan o‘quv jarayoni Nim uchun samarali bo‘lmasligi mumkin deb o‘ylashga asoslar bor. Hayratlanarlisi shundaki, u qanchalik yomon ishlagan. Zhou va Riis beshta qatorli Nim taxtasi uchun AI juda tez yaxshilanganini va 500 ta o‘qitish iteratsiyasidan keyin ham yaxshilanishda davom etganini aniqladilar. Biroq, atigi bitta qo‘shimcha qator qo‘shish yaxshilanish tezligini sezilarli darajada sekinlashtirdi. Va, yetti qatorli taxta uchun, AI o‘zini 500 marta o‘ynagan vaqtga kelib, unumdorlikdagi o‘sishlar asosan to‘xtagan edi.
Muammoni yaxshiroq ko‘rsatish uchun tadqiqotchilar potentsial harakatlarni taklif qiluvchi quyi tizimni tasodifiy ishlaydigan tizimga almashtirdilar. Yetti qatorli Nim taxtasida, o‘qitilgan va tasodifiy versiyalarning ko‘rsatkichlari 500 ta o‘qitish o‘yini davomida farqlanmadi. Asosan, taxta yetarlicha katta bo‘lgach, tizim o‘yin natijalarini kuzatishdan o‘rganishga qodir emas edi. Yetti qatorli konfiguratsiyaning dastlabki holatida g‘alabaga olib keladigan uchta potentsial harakat mavjud. Ammo tizimning o‘qitilgan harakat baholovchisi barcha potentsial harakatlarni tekshirish so‘ralganda, u har birini taxminan teng deb baholadi.
Tadqiqotchilarning xulosasiga ko‘ra, Nim samarali o‘ynash uchun o‘yinchilardan paritet funksiyasini o‘rganishni talab qiladi. Va shaxmat va Go uchun juda yaxshi ishlaydigan o‘qitish tartibi bunga qodir emas.
Faqat Nim emas
Xulosani shunday tushunish mumkin: Nim (va, demak, barcha betaraf o‘yinlar) shunchaki g‘alati. Ammo Zhou va Riis shunga o‘xshash muammolar shaxmat o‘ynovchi AI’larda ham paydo bo‘lishi mumkinligini ko‘rsatuvchi ba’zi belgilar topdilar, ular ham xuddi shu tarzda o‘qitilgan edi. Ular bir nechta "noto‘g‘ri" shaxmat harakatlarini aniqladilar – mot hujumini o‘tkazib yuborgan yoki oxirgi o‘yinni buzgan harakatlar – bu harakatlar AI’ning taxtani baholovchisi tomonidan dastlab yuqori baholangan. Dastur bir nechta qo‘shimcha shoxchalarni kelajakdagi bir necha harakatlarga chuqurlashtirgani tufayligina ushbu xatolardan qochishga muvaffaq bo‘ldi.
Nimning ko‘plab taxta konfiguratsiyalari uchun, g‘alabaga olib keladigan optimal shoxchalar o‘z qadriyatini ko‘rsatish uchun o‘yin oxirigacha o‘ynalishi kerak, shuning uchun bunday potentsial xatodan qochishni boshqarish ancha qiyin. Va ular shaxmat o‘yinchilari shaxmat o‘ynovchi dasturlar ko‘pincha butunlay o‘tkazib yuboradigan, uzoq harakatlar zanjirini talab qiladigan mot kombinatsiyalarini topganliklarini ta’kidladilar. Ular muammo shaxmatda xuddi shunday muammolar yo‘qligida emas, balki Nimga o‘xshash taxta konfiguratsiyalari shaxmatda kam uchraydiganligida ekanligini ta’kidladilar. Taxminan, shunga o‘xshash narsalar Go o‘yiniga ham tegishli bo‘lib, AI’larning o‘sha o‘yindagi g‘alati zaifliklari buni ko‘rsatadi.
"AlphaZero bog‘lanish orqali o‘rganishda ustundir," deya ta’kidlashadi Zhou va Riis, "ammo muammo o‘yin holatlari va natijalari o‘rtasidagi korrelyatsiyadan bilvosita o‘rganib bo‘lmaydigan ramziy fikrlash shaklini talab qilganda muvaffaqiyatsizlikka uchraydi." Boshqacha qilib aytganda, hatto o‘yinni boshqaruvchi qoidalar nima qilish kerakligini aniqlash uchun oddiy qoidalarni taqdim etsa ham, biz Alpha-uslubidagi mashqlar AI’ga ularni aniqlashga imkon berishini kutolmaymiz. Natija esa ular "sezilarli, halokatli muvaffaqiyatsizlik rejimi" deb atagan narsadir.
Bu nima uchun muhim? Ko‘plab odamlar AI’larning matematik muammolar uchun foydaliligini o‘rganmoqda, bu esa ko‘pincha taxta konfiguratsiyasidan paritet funksiyasi kabi umumiy qoidalarga ekstrapolyatsiya qilishni o‘z ichiga olgan ramziy fikrlashni talab qiladi. AI’ni buni amalga oshirishga qanday o‘rgatish aniq bo‘lmasa-da, qaysi yondashuvlar aniq ishlamasligini bilish foydali bo‘lishi mumkin.
Machine Learning, 2026. DOI: 10.1007/s10994-026-06996-1 (DOI’lar haqida).