Katta genom modeli: Trillionlab asosli ochiq manbali sun'iy intellekt

2025-yil oxirida biz ulkan bakterial genomlar maʼlumotlari asosida oʻqitilgan Evo deb nomlangan sunʼiy intellekt tizimining rivojlanishini yoritgan edik. Ushbu tizim shu qadar koʻp maʼlumotlarda oʻqitilganki, u tegishli genlar klasteridan olingan ketma-ketliklar bilan soʻralganda, keyingisini toʻgʻri aniqlay oladi yoki butunlay yangi oqsilni taklif qila oladi.

Bu tizim samarali ishlagan, chunki bakteriyalar tegishli genlarni bir-biriga yaqin joylashtirishga moyil. Murakkab hujayrali organizmlarda esa bunday emas, ularning genom tuzilishi ham xuddi shunday murakkab. Shuning uchun, bizning maqolamizda taʼkidlanganidek, "bu yondashuv murakkab genomlarda ishlashi aniq emas edi."

Koʻrinishidan, Evo ortidagi jamoa buni qiyinchilik sifatida qabul qilgan, chunki bugun ular hayotning barcha uch sohasi (bakteriyalar, arxeylar va eukariotlar) genomlarida oʻqitilgan ochiq kodli sunʼiy intellekt tizimi Evo 2 ni taqdim etmoqdalar. Trillionlab asosiy juft DNKda oʻqitilganidan soʻng, Evo 2 hatto biznikidek murakkab genomlarda ham asosiy xususiyatlarning ichki tasvirlarini ishlab chiqdi, bularga tartibga soluvchi DNK va splays joylari kiradi, bu joylarni insonlar uchun aniqlash qiyin boʻlishi mumkin.

Genom xususiyatlari

Bakterial genomlar nisbatan oddiy prinsiplar boʻyicha tashkil etilgan. Oqsillar yoki RNK kodlaydigan har qanday genlar doimiy boʻlib, kodlash ketma-ketligida uzilishlar yoʻq. Shakar almashinuvchi yoki aminokislota ishlab chiqaruvchi kabi bir xil funksiyalarni bajaradigan genlar bir joyga toʻplanishga moyil boʻlib, bu ularni yagona, ixcham tartibga soluvchi tizim orqali boshqarishga imkon beradi. Hammasi oddiy va samarali.

Eukariotlar esa bunday emas. Genlarning kodlovchi qismlari intronlar tomonidan uzilib turadi, ular hech narsani kodlamaydi. Ular yuz minglab asosiy juftliklarga tarqalgan ketma-ketlik tomonidan tartibga solinadi. Intronlarning chegaralarini yoki tartibga soluvchi oqsillarning bogʻlanish joylarini aniqlovchi ketma-ketliklar zaif aniqlangan – ularda mutlaqo talab qilinadigan bir nechta asoslar boʻlsa-da, koʻp asoslar maʼlum bir asosga ega boʻlish tendentsiyasiga ega (masalan, "45 foiz hollarda bu T"). Koʻpgina eukariot genomlarida bularning barchasini oʻrab turgan juda koʻp DNK "chiqindi" deb ataladi: faol boʻlmagan viruslar, jiddiy shikastlangan genlar va boshqalar.

Bu murakkablik eukariot genomlarini talqin qilishni qiyinlashtirdi. Va splays joylari kabi narsalarni aniqlash uchun koʻplab maxsus vositalar ishlab chiqilgan boʻlsa-da, ularning barchasi xatolarga moyil boʻlib, 3 milliard asosli uzun genom kabi katta narsani tahlil qilganda muammoga aylanadi. Biz evolyutsion taqqoslashlar oʻtkazish va saqlanib qolgan ketma-ketliklarni izlash orqali koʻproq narsani oʻrganishimiz mumkin, ammo buning ham oʻz chegaralari bor, va biz koʻpincha turlar orasidagi farqlarga ham qiziqamiz.

Biroq, bunday statistik ehtimolliklar neyron tarmoqlar uchun juda mos keladi, ular koʻz bilan aniqlash mumkin boʻlmagan nozik naqshlarni tanib olishda juda samarali. Lekin bu nozik xususiyatlarning baʼzilarini aniqlash uchun mutlaqo katta miqdordagi maʼlumotlar va hisoblash vaqti kerak boʻladi.

Bizda hozir bu jarayon uchun zarur boʻlgan xom genom maʼlumotlari mavjud. Biroq, ularni samarali AI oʻqitish dasturiga kiritish uchun tizimni yaratish qiyinchilik boʻlib qoldi. Evo ortidagi jamoa aynan shu qiyinchilikni oʻz zimmasiga oldi.

Katta genom modelini oʻqitish

Evo 2 tizimining asosi konvolyutsion neyron tarmogʻi boʻlib, u StripedHyena 2 deb nomlanadi. Oʻqitish ikki bosqichda amalga oshirildi. Dastlabki bosqich tizimni 8000 tagacha asosiy juftlik uzunlikdagi boʻlaklarda muhim genom xususiyatlarini aniqlashga oʻrgatishga qaratildi. Undan soʻng, ikkinchi bosqichda ketma-ketliklar bir million asosdan bir million asosga boʻlib, tizimga keng koʻlamli genom xususiyatlarini aniqlash imkoniyati berildi.

Tadqiqotchilar oʻz tizimlarining ikki versiyasini OpenGenome2 deb nomlangan maʼlumotlar toʻplamidan foydalanib oʻqitdilar, u hayotning uch sohasi (bakteriyalar, arxeylar va eukariotlar), shuningdek, bakteriyalarni yuqtiruvchi viruslardan olingan 8,8 trillion asosni oʻz ichiga oladi. Ular eukariotlarga hujum qiluvchi viruslarni kiritmadilar, chunki tizim odamlarga tahdid soluvchi xavflarni yaratish uchun suiisteʼmol qilinishi mumkinligidan xavotirda edilar. Ikki versiya oʻqitildi: biri 7 milliard parametrga ega boʻlib, 2,4 trillion asosdan foydalanilgan, ikkinchisi esa toʻliq versiya boʻlib, 40 milliard parametrga ega va toʻliq ochiq genom maʼlumotlar toʻplamida oʻqitildi.

Oʻqitish mantigʻi juda oddiy: agar biron bir narsa koʻplab turlar boʻylab evolyutsion jihatdan saqlanib qolish uchun etarlicha muhim boʻlsa, u bir nechta kontekstda namoyon boʻladi va tizim uni oʻqitish paytida qayta-qayta koʻrishi kerak. "Katta evolyutsion maʼlumotlar toʻplamlari boʻylab ketma-ketliklarning ehtimolligini oʻrganish orqali, biologik ketma-ketlik modellari koʻpincha funksional ahamiyatni aks ettiruvchi saqlanib qolgan ketma-ketlik naqshlarini qamrab oladi", deb yozadi tadqiqot mualliflari. "Bu cheklovlar modellarga har qanday vazifaga xos sozlashlar yoki nazorat (supervision)siz nol-shot bashoratini amalga oshirishga imkon beradi."

Bu oxirgi jihat muhimdir. Masalan, biz unga maʼlum splays joylari qanday koʻrinishda ekanligi haqida maʼlumot berishimiz mumkin, bu unga qoʻshimcha splays joylarini aniqlashga yordam berishi mumkin. Ammo bu uning biz hali tanib olmagan har qanday gʻayrioddiy splays joylarini tanib olishini qiyinlashtirishi mumkin. Nozik sozlashni oʻtkazib yuborish, shuningdek, biz hozirda umuman bilmaydigan, ammo kelajakdagi tadqiqotlar orqali aniqlanishi mumkin boʻlgan genom xususiyatlarini aniqlashga ham yordam berishi mumkin.

Bularning barchasi hozir jamoatchilikka taqdim etildi. "Biz Evo 2 ni toʻliq ochiq qildik, shu jumladan model parametrlari, oʻqitish kodi, xulosa chiqarish kodi va OpenGenome2 maʼlumotlar toʻplami", deb eʼlon qilinadi maqolada.

Tadqiqotchilar, shuningdek, neyron tarmoqlardagi ichki xususiyatlarni aniqlashga qodir tizimdan foydalanib, Evo 2 ichida tekshiruv oʻtkazdilar va u nimalarni tanib olishni oʻrganganini aniqladilar. Ular Evo 2 dagi faollashuv naqshlarini tanib olish va unda yuqori darajadagi xususiyatlarni aniqlash uchun alohida neyron tarmogʻini oʻqitdilar. U oqsil kodlovchi mintaqalarni va ularni oʻrab turgan intronlarning chegaralarini aniq tanidi. Shuningdek, u kodlovchi mintaqalardagi oqsillarning baʼzi strukturaviy xususiyatlarini (alfa spirallar va beta varaqlar), shuningdek, ularning kodlash ketma-ketligini buzuvchi mutatsiyalarni ham tanib olishga muvaffaq boʻldi. Hatto harakatchan genetik elementlar (ularni DNK darajasidagi parazitlar deb hisoblash mumkin) ham Evo 2 ichida oʻz xususiyatiga ega boʻldi.

Bu nimaga yordam beradi?

Tizimni sinash uchun tadqiqotchilar bitta asosli mutatsiyalar kiritishni boshladilar va ularni Evo 2 ga kiritib, u qanday javob berishini koʻrdilar. Evo 2 mutatsiyalar DNKda RNKga transkripsiya boshlanadigan joylarga yoki RNKning oqsilga translyatsiyasi boshlanadigan joylarga taʼsir qilganda muammolarni aniqlay oldi. Shuningdek, u mutatsiyalarning jiddiyligini ham tanidi. Oqsil translyatsiyasini toʻxtatib qoʻyadigan, masalan, toʻxtatish signallarini kiritish kabi mutatsiyalar, translyatsiyani buzmaganlarga qaraganda muhimroq oʻzgarishlar sifatida aniqlandi.

Shuningdek, u ketma-ketliklar umuman translyatsiya qilinmaganda ham buni tanidi. Koʻpgina asosiy hujayraviy funksiyalar toʻgʻridan-toʻgʻri RNKlar tomonidan amalga oshiriladi, va Evo 2 mutatsiyalar ularni buzganida ham buni taniy oldi.

Taʼsirchan tomoni shundaki, eukariot genomlaridagi xususiyatlarni tanib olish qobiliyati bakteriyalar va arxeylardagi xususiyatlarni tanib olish qobiliyatini yoʻqotmagan. Aslida, tizim qaysi turda ishlayotganini aniqlay olganga oʻxshaydi. Bir qator evolyutsion guruhlar oqsillarning translyatsiyasini toʻxtatish uchun turli signallarga ega genetik kodlardan foydalanadi. Evo 2 qaysi turdagi ketma-ketlikka qarayotganini taniy oldi va ular uchun toʻgʻri genetik koddan foydalandi.

Shuningdek, u oʻzgaruvchanlikka chidamli xususiyatlarni tanib olishda yaxshi edi, masalan, intronlarni oqsillarning kodlash ketma-ketligidan olib tashlash uchun RNKlarni splayslash joylarini bildiruvchi joylar. Baʼzi oʻlchovlar boʻyicha, u bu vazifa uchun maxsus yaratilgan dasturlardan ham yaxshiroq edi. Xuddi shu holat BRCA2 genidagi mutatsiyalarni baholashda ham kuzatildi, bu mutatsiyalarning koʻplari saraton bilan bogʻliq. Maʼlum BRCA2 mutatsiyalari boʻyicha qoʻshimcha oʻqitishdan soʻng, uning ishlashi yanada yaxshilandi.

Umuman olganda, Evo 2 genomlarni baholash va asosiy xususiyatlarni aniqlash uchun juda yaxshi koʻrinadi. Uni yaratgan tadqiqotchilar, u dastlabki genom annotatsiyasi uchun yaxshi avtomatlashtirilgan vosita boʻlib xizmat qilishi mumkinligini taklif qilishadi.

Ammo Evo ning dastlabki versiyasining diqqatga sazovor tomoni shundaki, u maʼlum bakterial genlarni oʻz ichiga olgan ketma-ketlik boʻlagi bilan soʻralganda, uning baʼzi javoblari tegishli funksiyalarga ega boʻlgan butunlay yangi oqsillarni oʻz ichiga olgan. Endi u murakkab eukariotik genlarda oʻqitilgan boʻlsa, xuddi shunday qila oladimi?

Biz toʻliq bilmaymiz. Agar unga xamirturushdan (eukariot) bir qancha DNK berilsa, u funksional RNKlar va tartibga soluvchi maʼlumotlar va splays joylariga ega genlarga oʻxshash ketma-ketlik bilan javob beradi. Ammo tadqiqotchilar oqsillarning birortasi biror narsa qila olgan-qilmaganligini sinamadilar. Va bu sinovni qanday oʻtkazishlari mumkinligini tasavvur qilish qiyin. Bakterial genlar bilan, ular AI tomonidan yaratilgan gen yaqin atrofdagi genlarga tegishli biror narsa qilishi kerak deb taxmin qilishlari mumkin edi. Ammo eukariotlarda bu odatda shunday emas, shuning uchun ular qanday funksiyalarni sinab koʻrishlari kerakligini taxmin qilish qiyin.

Bir oz koʻproq maʼlumot beruvchi sinovda, tadqiqotchilar Evo 2 dan bir hujayra turida faol, boshqasida esa faol boʻlmagan tartibga soluvchi DNK yaratishni soʻradilar, unga har ikkala hujayra turida faol boʻlgan ketma-ketliklar haqida maʼlumot bergan holda. Chiqqan ketma-ketliklar keyinchalik bu hujayralarga kiritildi va sinovdan oʻtkazildi, ammo natijalar juda zaif boʻldi, atigi 17 foizi ikki hujayra turi oʻrtasida ikki yoki undan koʻproq farq qiluvchi faollikka ega edi. Bu katta yutuq, ammo u butunlay yangi oqsillarni yaratish bilan bir xil darajada emas.

Keyingi bosqich nima?

Umuman olganda, bu asl Evo ni tasvirlaydigan maqola chiqqanidan toʻrt oydan kamroq vaqt oʻtgach paydo boʻlganini hisobga olsak, Evo 2 biologik ahamiyatga ega DNK ketma-ketliklarini yaratish uchun nimalar qila olishini sinash boʻyicha koʻproq ish qilinmagani ajablanarli emas. Biologiya tajribalari qiyin va vaqt talab qiladi, va qaysilari eng qiziqarli maʼlumotlarni berishini oldindan baholash har doim ham oson emas. Shuning uchun, biz Evo 2 bilan jamiyat qiziqarli narsalarni topa oladimi va u foydali oqsil dizayn muammolarini hal qilishda yaxshimi yoki yoʻqligini bilish uchun oylar yoki yillar kutishimiz kerak boʻladi.

Shuningdek, keyingi oʻqitish va ixtisoslashish Evo 2 ning saraton hujayralaridan genomlarni baholash yoki yangi sekvensiya qilingan genomlarni annotatsiya qilish kabi aniq vazifalar uchun ayniqsa yaxshi boʻlgan qarindoshlarini yarata oladimi degan savol bor. Maʼlum darajada, tadqiqot guruhi buni chiqarib, boshqalarga uni qanday qoʻllashni oʻrganishga imkon berishni istagan koʻrinadi; bu barcha dasturiy taʼminotning taqdim etilishi bilan ham mos keladi.

Katta ochiq savol shundaki, bu tizim biz qanday sinashni bilmaydigan biron bir narsani aniqladimi? Intron/ekzon chegaralari va tartibga soluvchi DNK kabi narsalar oʻn yillar davomida oʻrganilgan, shuning uchun biz ularni qanday izlashni bilamiz va Evo 2 ularni aniqlaganda taniy olamiz. Ammo soʻnggi oʻn yilliklarda genomda yangi xususiyatlarning doimiy oqimi (CRISPR takrorlanishlari, mikroRNKlar va boshqalar) kashf etildi. Genomda biz hali bilmaydigan xususiyatlar mavjud boʻlishi texnik jihatdan mumkin va Evo 2 ularni aniqlagan boʻlishi mumkin.

Bu yerda tasvirlangan vositalardan Evo 2 ni soʻrash va yangi genom xususiyatlarini aniqlash usullarini tasavvur qilish mumkin. Shunday ekan, men bunday ishlardan yakunida nima kelib chiqishini koʻrishni intiqlik bilan kutaman.

Nature, 2026. DOI: 10.1038/s41586-026-10176-5 (DOI haqida).