Meta AI Garri Potter kitobining deyarli yarmini tiklay oladi – tadqiqot

So'nggi yillarda, kitoblar, gazetalar, kompyuter kodlari va fotosuratlar nashriyotchilarini o'z ichiga olgan ko'plab da'vogarlar sun'iy intellekt kompaniyalarini mualliflik huquqi bilan himoyalangan materiallardan foydalanib modellarni o'rgatgani uchun sudga berishdi. Bu sud ishlaridagi asosiy savollardan biri shuki, sun'iy intellekt modellari da'vogarlarning mualliflik huquqi bilan himoyalangan kontentidan so'zma-so'z parchalarni qanchalik osonlik bilan yaratadi.

Misol uchun, 2023-yil dekabr oyida OpenAI'ga qarshi qo'zg'atilgan sud ishida "The New York Times" kompaniyasi GPT-4 ning "Times" maqolalaridan muhim parchalarni aniq takrorlagan o'nlab misollarni keltirdi. O'z javobida OpenAI buni "margʻinal xatti-harakat" va "OpenAI va boshqa joylardagi tadqiqotchilar bartaraf etish uchun qattiq mehnat qilayotgan muammo" deb ta'rifladi.

Ammo bu haqiqatan ham marginal xatti-harakatmi? Yetakchi sun'iy intellekt kompaniyalari bu muammoni hal qilishdimi? Kitoblarga emas, balki gazeta maqolalariga va turli kompaniyalarga e'tibor qaratgan yangi tadqiqot bu savolga kutilmagan javoblar beradi. Ba'zi topilmalar da'vogarlarning argumentlarini kuchaytirsa, boshqalari javobgarlarga ko'proq yordam berishi mumkin.

Ushbu tadqiqot o'tgan oy Stenford, Kornell va G'arbiy Virjiniya universitetlaridan kompyuter olimlari va huquqshunoslar jamoasi tomonidan nashr etilgan. Ular beshta mashhur ochiq-vaznli modellarning – Meta'dan uchtasi va Microsoft hamda EleutherAI'dan bittadan – LLM'larni o'rgatishda keng qo'llaniladigan "Books3" kitoblar to'plamidagi matnni takrorlay olish qobiliyatini o'rganib chiqdilar. Bu kitoblarning aksariyati hali ham mualliflik huquqi bilan himoyalangan.

Ularning eng hayratlanarli topilmasini quyidagi jadval ko'rsatib turibdi:

Memorization Chart

Ushbu jadval modelning "Harry Potter va Falsafa toshi" kitobining turli qismlaridan 50 tokenlik parchalarni yaratishi qanchalik oson ekanligini ko'rsatadi. Chiziq qanchalik qora bo'lsa, kitobning ushbu qismini takrorlash shunchalik oson bo'ladi.

Har bir qator alohida modelni ifodalaydi. Eng pastki uch qator Meta'dan Llama modellaridir. Ko'rib turganingizdek, 2024-yil iyul oyida Meta tomonidan chiqarilgan o'rta o'lchamli Llama 3.1 70B modeli boshqa to'rt modelga qaraganda "Harry Potter" matnini takrorlash ehtimoli ancha yuqori.

Xususan, tadqiqot shuni ko'rsatadiki, Llama 3.1 70B birinchi "Harry Potter" kitobining 42 foizini 50 tokenlik parchalarni kamida yarmida takrorlay oladigan darajada yodlab olgan. Qizig'i shundaki, 2023-yil fevral oyida chiqarilgan xuddi shunday o'lchamdagi Llama 1 65B modeli "Harry Potter va Falsafa toshi" kitobining atigi 4.4 foizini yodlab olgan edi. Bu shuni ko'rsatadiki, mumkin bo'lgan huquqiy javobgarlikka qaramay, Meta Llama 3'ni o'qitish jarayonida yodlashning oldini olish uchun ko'p ish qilmagan. Hech bo'lmaganda bu kitob uchun Llama 1 va Llama 3 orasida muammo ancha yomonlashgan.

"Harry Potter va Falsafa toshi" tadqiqotchilar tomonidan sinovdan o'tkazilgan o'nlab kitoblardan biri edi. Ular Llama 3.1 70B ning "Hobbit" va Jorj Oruellning "1984" kabi mashhur kitoblarni kam ma'lum bo'lganlariga qaraganda ko'proq takrorlash ehtimoli borligini aniqladilar. Ko'pgina kitoblar uchun Llama 3.1 70B boshqa modellarga qaraganda ko'proq yodlab olgan.

"Modellar orasida verbatim matnni yodlash qobiliyatida juda katta farqlar mavjud", - dedi Kornell huquqshunoslik professori Jeyms Grimmelman, u tadqiqot mualliflaridan bir nechtasi bilan hamkorlik qilgan. Tadqiqot natijalari, jumladan Stenford universiteti huquq professori Mark Lemleyni ham hayratda qoldirdi. (Lemley ilgari Meta'ning yuridik jamoasi tarkibida bo'lgan, ammo yanvar oyida Facebookning Tramp tarafdori mo'tadillik siyosatlarini qabul qilganidan keyin ularni mijoz sifatida tashlab ketgan.) "Biz 1 yoki 2 foiz atrofida qandaydir past darajadagi takrorlanuvchanlikni kutgan edik", - dedi Lemley. "Meni hayratda qoldirgan birinchi narsa – bu qanchalik katta farq borligidir."

Bu natijalar sun'iy intellekt mualliflik huquqi bo'yicha bahslarda barcha ishtirokchilarga o'z pozitsiyalarini mustahkamlash uchun asos beradi. Sun'iy intellekt sanoati tanqidchilari uchun asosiy xulosa shuki, hech bo'lmaganda ba'zi modellar va ba'zi kitoblar uchun yodlash marginal hodisa emas.

Boshqa tomondan, tadqiqot faqat bir nechta mashhur kitoblarning sezilarli darajada yodlanganligini aniqladi. Misol uchun, tadqiqotchilar Llama 3.1 70B 2009-yilgi yozuvchi Richard Kadreyning "Sandman Slim" romanining atigi 0.13 foizini yodlab olganini aniqladilar. Bu sun'iy intellekt kompaniyalariga qarshi jamoaviy da'vo arizalari bilan chiqqan yuridik firmalar uchun bosh og'rig'i bo'lishi mumkin. Kadrey Meta'ga qarshi jamoaviy da'voning asosiy da'vogari hisoblanadi.

Bunday xilma-xil natijalar J.K. Rowling, Kadrey va boshqa minglab mualliflarni bitta ommaviy da'vo ishiga birlashtirish mantiqan to'g'rimi degan savolni tug'dirishi mumkin. Bu esa Meta foydasiga ishlashi mumkin, chunki aksariyat mualliflar individual da'vo arizalarini berish uchun resurslarga ega emaslar.

Ushbu tadqiqotning kengroq xulosasi shundan iboratki, bu mualliflik huquqi ishlarida tafsilotlar muhim rol o'ynaydi. Ko'pincha, onlayn muhokamalarda "generativ modellar o'z o'quv ma'lumotlarini nusxalaydimi yoki shunchaki ulardan o'rganadimi?" degan savol nazariy yoki hatto falsafiy masala sifatida ko'rilgan. Ammo bu empirik yo'l bilan tekshirilishi mumkin bo'lgan savol – va javob modellar hamda mualliflik huquqi bilan himoyalangan asarlar bo'yicha farq qilishi mumkin.

Yodlash qanday o'lchandi?

LLM'lar keyingi tokeni bashorat qiladi deb aytish odatiy hol. Ammo model aslida keyingi token uchun barcha mumkin bo'lgan variantlar bo'yicha ehtimollik taqsimotini yaratadi. Masalan, agar siz LLM'ga "Yeryong'oq yog'i va" iborasini bersangiz, u quyidagi kabi ehtimollik taqsimotini qaytarishi mumkin:

  • P("murabbo") = 70 foiz
  • P("shakar") = 9 foiz
  • P("yeryong'oq") = 6 foiz
  • P("shokolad") = 4 foiz
  • P("qaymoq") = 3 foiz

Va hokazo. Model bunday ehtimollar ro'yxatini yaratgandan so'ng, tizim ushbu variantlardan birini o'z ehtimolliklariga qarab tasodifiy tanlaydi. Shunday qilib, 70 foiz hollarda tizim "Yeryong'oq yog'i va murabbo" ni yaratadi. To'qqiz foiz hollarda "Yeryong'oq yog'i va shakar" ni olamiz. Olti foiz hollarda "Yeryong'oq yog'i va yeryong'oq" bo'ladi. Tushundingiz.

Tadqiqot mualliflari ma'lum bir javobning ehtimolini baholash uchun bir nechta chiqishlarni yaratishga hojat qolmagan. Buning o'rniga, ular har bir token uchun ehtimolliklarni hisoblab, keyin ularni bir-biriga ko'paytirishi mumkin edi. Aytaylik, kimdir modelning "Mening sevimli buterbrodim" jumlasi uchun "yeryong'oq yog'i va murabbo" deb javob berish ehtimolini baholamoqchi:

  • Modelga "Mening sevimli buterbrodim" jumlasini berib, "yeryong'oq" so'zining ehtimolini tekshirish (aytaylik, 20 foiz).
  • Modelga "Mening sevimli buterbrodim yeryong'oq" jumlasini berib, "yog'i" so'zining ehtimolini tekshirish (aytaylik, 90 foiz).
  • Modelga "Mening sevimli buterbrodim yeryong'oq yog'i" jumlasini berib, "va" so'zining ehtimolini tekshirish (aytaylik, 80 foiz).
  • Modelga "Mening sevimli buterbrodim yeryong'oq yog'i va" jumlasini berib, "murabbo" so'zining ehtimolini tekshirish (aytaylik, 70 foiz).

Keyin biz shunchaki ehtimolliklarni quyidagicha ko'paytirishimiz kerak:

0.2 * 0.9 * 0.8 * 0.7 = 0.1008

Shunday qilib, biz modelning "yeryong'oq yog'i va murabbo" so'zini taxminan 10 foiz hollarda chiqarishini bashorat qila olamiz, aslida 100 yoki 1000 ta chiqishni yaratib, ularning qanchasi aynan shu ibora ekanligini sanashga hojat qolmaydi.

Bu usul tadqiqot narxini sezilarli darajada kamaytirdi, mualliflarga ko'proq kitoblarni tahlil qilish imkonini berdi va juda past ehtimolliklarni aniq baholashni maqsadga muvofiq qildi. Misol uchun, mualliflar ba'zi kitoblardan 50 tokenli ketma-ketliklarni aniq takrorlash uchun 10 kvadrilliondan ortiq namuna olish kerakligini taxmin qilishgan. Shubhasiz, bunchalik ko'p chiqishlarni aslida yaratish mumkin emas edi. Ammo bunga hojat qolmadi: ehtimollikni 50 ta token uchun ehtimolliklarni ko'paytirish orqali baholash mumkin edi.

E'tiborga olish kerak bo'lgan asosiy narsa shundaki, ehtimolliklar juda tez juda kichik bo'lib qolishi mumkin. Mening o'ylab topgan misolimda modelning "yeryong'oq yog'i va murabbo" kabi to'rtta token yaratish ehtimoli atigi 10 foizni tashkil etadi. Agar biz yana ko'proq token qo'shganimizda, ehtimollik yanada pasaygan bo'lardi. Agar biz yana 46 ta token qo'shganimizda, ehtimollik bir necha tartibga tushishi mumkin edi.

Har qanday til modeli uchun har qanday 50 tokenli ketma-ketlikni "tasodifan" yaratish ehtimoli juda kichik. Agar model mualliflik huquqi bilan himoyalangan asardan 50 ta token yaratsa, bu tokenlarning o'quv ma'lumotlaridan "kelganligi" haqida kuchli dalil hisoblanadi. Bu hatto u faqat 10 foiz, 1 foiz yoki 0.01 foiz hollarda ushbu tokenlarni yaratgan bo'lsa ham to'g'ri.

Tadqiqot mualliflari 36 ta kitobni olib, ularning har birini ustma-ust tushuvchi 100 tokenlik parchalariga bo'lishdi. Birinchi 50 tokenni so'rov sifatida ishlatib, ular keyingi 50 tokenning asl parchaga bir xil bo'lish ehtimolini hisoblab chiqdilar. Agar model parchaning so'zma-so'z takrorlanishi uchun 50 foizdan yuqori imkoniyatga ega bo'lsa, ular parcha "yodlangan" deb hisoblashdi. Bu ta'rif juda qattiq. 50 tokenli ketma-ketlikning 50 foizdan yuqori ehtimolga ega bo'lishi uchun, parchadagi o'rtacha tokenning ehtimoli kamida 98.5 foiz bo'lishi kerak! Bundan tashqari, mualliflar faqat aniq mos kelishlarni hisobga olishdi. Ular, masalan, model asl parchadan 48 yoki 49 token yaratgan, ammo bir yoki ikkita token noto'g'ri chiqqan holatlarni hisoblashga urinmadilar. Agar bu holatlar hisoblanganida, yodlash miqdori yanada yuqori bo'lar edi.

Ushbu tadqiqot "Harry Potter va Falsafa toshi" kitobining muhim qismlari Llama 3.1 70B'ning vaznlariga nusxalanganiga kuchli dalil beradi. Ammo bu topilma nima uchun yoki qanday sodir bo'lganini aytmaydi. Menimcha, javobning bir qismi shuki, Llama 3 70B 15 trillion token ustida o'qitilgan – bu Llama 1 65B ni o'qitish uchun ishlatilgan 1.4 trillion tokendan 10 barobar ko'p. Model ma'lum bir misol ustida qancha ko'p o'qitilsa, u shu misolni yodlash ehtimoli shuncha ortadi. Balki Meta 15 trillion xil token topishda qiynalgandir, shuning uchun "Books3" ma'lumotlar to'plamida bir necha marta o'qitgan.

Yoki Meta "Harry Potter" va boshqa mashhur kitoblardan iqtiboslar o'z ichiga olgan uchinchi tomon manbalarini – masalan, onlayn "Harry Potter" muxlislari forumlari, iste'molchilar kitob sharhlari yoki talabalar kitob hisobotlari – qo'shgan bo'lishi mumkin. Bu tushuntirishlarning hech biri faktlarga to'liq mos kelmaydi deb o'ylamayman. Mashhur kitoblar uchun yodlashning ancha katta muammo bo'lishi Llama'ning bu kitoblardan iqtibos keltirgan ikkilamchi manbalarda o'qitilganligini ko'rsatishi mumkin, kitoblarning o'zida emas. Boshqa tomondan, Llama'ning "Harry Potter va Falsafa toshi" ni shunchalik ko'p yodlagani hayratlanarli.

"Agar bu iqtiboslar bo'lganida, hamma iqtibos keltiradigan yoki gapiradigan bir nechta mashhur narsalar atrofida to'planishini kutgan bo'lar edik", - dedi Lemley. Llama 3 ning kitobning deyarli yarmini yodlab olgani, butun matnning o'quv ma'lumotlarida yaxshi taqdim etilganligini ko'rsatadi. Yoki boshqa bir tushuntirish ham bo'lishi mumkin. Balki Meta o'z o'qitish retseptida yodlash muammosini tasodifan yomonlashtirgan nozik o'zgarishlar kiritgandir. Men o'tgan hafta Meta'ga izoh so'rab elektron pochta yubordim, ammo hali javob olganim yo'q.

"Bu barcha mashhur kitoblar uchun emasdek ko'rinadi", - dedi Mark Lemley. "Ba'zi mashhur kitoblar bu natijani ko'rsatadi, boshqalari esa yo'q. Nima uchun bunday bo'lganiga aniq izoh berish qiyin."

Javobgarlikning uchta nazariyasi

Mualliflik huquqi bilan himoyalangan asarlar ustida modelni o'rgatish qanday qilib mualliflik huquqini buzishi mumkinligi haqida uchta alohida nazariya mavjud:

  1. Mualliflik huquqi bilan himoyalangan asar ustida o'qitish aslida qoidabuzarlikdir, chunki o'qitish jarayoni asarning raqamli nusxasini yaratishni o'z ichiga oladi.
  2. O'qitish jarayoni o'quv ma'lumotlaridan ma'lumotni modelga ko'chiradi, bu esa modelni mualliflik huquqi qonuniga binoan hosilaviy asarga aylantiradi.
  3. Model mualliflik huquqi bilan himoyalangan asarni (yoki uning qismlarini) yaratganda huquqbuzarlik yuzaga keladi.

Hozirgacha ko'p muhokamalar birinchi nazariyaga qaratilgan, chunki u sun'iy intellekt kompaniyalari uchun eng tahdidli hisoblanadi. Agar sudlar bu nazariyani tasdiqlasa, hozirgi LLM'larning aksariyati, o'quv ma'lumotlarini yodlagan yoki yodlamaganligidan qat'i nazar, noqonuniy bo'ladi.

Sun'iy intellekt sanoati mualliflik huquqi bilan himoyalangan asarlardan o'qitish jarayonida foydalanish 2015-yilgi Google Kitoblar qarori ostida adolatli foydalanish ekanligini isbotlash uchun ancha kuchli argumentlarga ega. Ammo Llama 3.1 70B'ning "Harry Potter" ning katta qismlarini yodlagani sudlarning bu adolatli foydalanish masalalarini qanday ko'rib chiqishiga ta'sir qilishi mumkin.

Adolatli foydalanish tahlilining asosiy qismi foydalanishning "o'zgartiruvchi" ekanligidir – ya'ni kompaniya yangi narsa yaratganmi yoki shunchaki boshqalarning ishidan foyda ko'rayotganmi. Til modellarining "Harry Potter", "1984" va "Hobbit" kabi mashhur asarlarning muhim qismlarini qaytarib bera olish qobiliyati sudyalarni bu adolatli foydalanish argumentlariga nisbatan shubha bilan qarashga undashi mumkin.

Bundan tashqari, Google'ning kitoblar ishidagi asosiy argumentlaridan biri shundan iborat ediki, uning tizimi hech qachon hech qanday kitobdan qisqa parchadan ko'pini qaytarmaslik uchun mo'ljallangan edi. Agar Meta sud ishida sudya Meta'ning argumentlarini Google'ning kitoblar ishida qilganlaridan ajratib ko'rsatmoqchi bo'lsa, u Llama'ning "Harry Potter" dan bir nechta qatordan ko'proq narsani yaratishi mumkinligiga ishora qilishi mumkin. Yangi tadqiqot "javobgarlarning bu ishlarda aytib kelayotgan hikoyasini murakkablashtiradi", - dedi hammuallif Mark Lemley. "Ya'ni, "biz shunchaki so'z shakllarini o'rganamiz. Bularning hech biri modelda ko'rinmaydi."

Ammo "Harry Potter" natijasi Meta uchun ikkinchi nazariya ostida yanada katta xavf tug'diradi – ya'ni Llama'ning o'zi Rowling kitobining hosilaviy nusxasi ekanligi.

"Harry Potter va boshqa turli kitoblarning muhim qismlarini modeldan aslida ajratib olish mumkinligi aniq", - dedi Lemley. "Bu men uchun shuni ko'rsatadiki, ehtimol, ba'zi kitoblar uchun modelning o'zida qonun kitobning bir qismining nusxasi deb ataydigan narsa bor."

Google Kitoblar pretsedenti, ehtimol, Meta'ni bu ikkinchi huquqiy nazariyadan himoya qila olmaydi, chunki Google hech qachon o'zining kitoblar ma'lumotlar bazasini foydalanuvchilar yuklab olishi uchun ochiq qilmagan – agar shunday qilganida, Google deyarli aniq yutqazgan bo'lardi. Nazariy jihatdan, Meta "Harry Potter" ning 42 foizini nusxalash egiluvchan, sud tomonidan yaratilgan adolatli foydalanish doktrinasi bo'yicha ruxsat etilganligiga sudyani ishontirishi mumkin. Ammo bu juda qiyin kurash bo'ladi.

"Siz qilishingiz kerak bo'lgan adolatli foydalanish tahlili nafaqat 'o'quv to'plami adolatli foydalanishmi,' balki 'modelga kiritish adolatli foydalanishmi?' degan savoldan ham iborat", - dedi Lemley. "Bu javobgarlarning hikoyasini murakkablashtiradi."

Grimmelman, shuningdek, ushbu tadqiqot ochiq-vaznli modellarni yopiq-vaznli modellarga qaraganda ko'proq huquqiy xavf ostiga qo'yishi mumkinligini aytdi. Kornell va Stenford tadqiqotchilari o'z ishlarini faqat mualliflar asosiy modelga kirish imkoniyatiga ega bo'lganligi sababli amalga oshira oldilar – va shu sababli token ketma-ketliklari ehtimollarini samarali hisoblash imkonini beruvchi token ehtimollik qiymatlariga ham kirish imkoniyati bor edi.

Aksariyat yetakchi laboratoriyalar, jumladan OpenAI, Anthropic va Google, bu "logitalar" deb ataluvchi ma'lumotlarga kirishni tobora cheklab bormoqda, bu esa ushbu modellarni o'rganishni qiyinlashtiradi.

Bundan tashqari, agar kompaniya model vaznlarini o'z serverlarida saqlasa, u huquqbuzar chiqishlarning tashqi dunyoga yetib borishini oldini olish uchun filtrlardan foydalanishi mumkin. Shunday qilib, hatto OpenAI, Anthropic va Google'ning asosiy modellari mualliflik huquqi bilan himoyalangan asarlarni Llama 3.1 70B kabi yodlagan bo'lsa ham, kompaniyadan tashqaridagi har qanday odamga buni isbotlash qiyin bo'lishi mumkin.

Bundan tashqari, bunday filtrlash yopiq-vaznli modellarga ega kompaniyalar uchun Google Kitoblar pretsedentiga murojaat qilishni osonlashtiradi. Qisqasi, mualliflik huquqi qonuni kompaniyalarni ochiq-vaznli modellarni chiqarishga nisbatan kuchli to'siq yaratishi mumkin.

"Bu qandaydir g'alati", - dedi Mark Lemley. "Menga bu natija yoqmaydi."

Boshqa tomondan, sudyalar kompaniyalarni ochiq-vaznli modellarni nashr etgani uchun jazolash yomon bo'lishi mumkin degan xulosaga kelishlari mumkin.

"Ochiq bo'lish va vaznlarni bo'lishish qandaydir jamoat xizmatidir", - dedi Grimmelman. "Men sudyalarning Meta va ochiq-vaznli modellarni taqdim etayotgan boshqalarga nisbatan shubhalarini kamaytirganini chin dildan ko'ra olardim."

Timothy B. Lee 2017-yildan 2021-yilgacha Ars Technica'da xodim bo'lgan. Bugun u sun'iy intellekt qanday ishlashi va dunyomizni qanday o'zgartirayotganini o'rganuvchi "Understanding AI" nomli axborot byulletenini yozadi. Siz unga bu yerda obuna bo'lishingiz mumkin.