در اینجا، نگاهی به مدل زبان پیشرفته ESM3 خواهیم انداخت و آن را بررسی خواهیم کرد. زبانی که در راستای شبیه سازی تکامل پروتئینها طراحی شده و بر اساس توالی، ساختار و عملکرد پروتئینها، پروتئینهای جدید را طراحی میکند.
ضمنا باید عرض کنم که ESM3 محصولی خلق شده در شرکت Evolutionary Scale میباشد.
شناخت اولیه
بیش از ۳٫۵ میلیارد سال پیش، زندگی بر روی زمین در اثر واکنشهای شیمیایی شکل گرفت. طبیعت دست به ابداع، RNA، پروتئینها و DNA، که مولکولهای اصلی حیات هستند زد. همچنین کارخانهای مولکولی خلق کرد که اکنون ما آن را به نام ریبوزوم میشناسیم. ریبوزوم پروتئینها را براساس دستورالعملهای ژنتیکی میسازد.
پروتئینها مولکولهای پویا و شگفت انگیزی هستند که کارکردهای بسیار متنوعی دارند. برخی مانند موتورهای مولکولی عمل کرده و حرکت را ایجاد میکنند. برخی دیگر به عنوان ماشینهای فتوسنتز، نور را جذب و آن را به انرژی تبدیل میکنند. پروتئینها اسکلت داخلی سلولها را میسازند، با محیط اطراف تعامل دارند و برنامهها و سیستم عامل حیات را کنترل میکنند. پروتئینها در بیماریها و سلامتی نقش دارند و بسیاری از داروهای نجات بخش زندگی نیز از جنس پروتئین هستند.
بر طبق شواهد باید گفت زیست شناسی پیشرفتهترین فناوری است که تاکنون خلق شده است، چیزی بسیار فراتر از هر آنچه که انسانها تاکنون ساختهاند.
ریبوزوم یک کارخانهٔ قابل برنامه ریزی است، کدهای پروتئینی را در قالب RNA دریافت میکند و پروتئینها را از ابتدا و در سطح اتمی میسازد. هر سلول زنده بر روی زمین، هزاران تا میلیونها کارخانه مولکولی ریبوزوم دارد. اما حتی پیچیدهترین ابزارهای محاسباتی امروز، با تمام پیشرفتها، تنها یکی از سطوح زیست شناسی را لمس کردهاند؛ زیرا ساختار زیست شناسی به زبانی نوشته شده است که بشر هنوز آن را درک نکرده است.
اگر بشر بیاموزد که کد حیات را بخواند و مانند آن بنویسد و در آن تغییرات ایجاد کند میتوانیم زیست شناسی را برنامه نویسی کنیم. در این صورت، دیگر نیازی به روش آزمون و خطا نیست و میتوانیم به جای انجام آزمایشهای دشوار و طاقت فرسا، از شبیه سازی استفاده کنیم.
شرکت Evolutionary Scale که در مقابل رقبای خود تازه نفس و کم تجربهتر شناخته میشود مفتخر است تا مدل زبان پیشرفته ESM3 را با هیجان هرچه بیشتر معرفی نماید. ESM3 یک مدل زبان پیشرو در علوم زیستی است که توانایی ما را برای برنامه نویسی و خلق با کد حیات ارتقا میبخشد. ESM3 گامی به سوی آیندهای است که در آن هوش مصنوعی ابزاری برای مهندسی زیست شناسی و از اصول اولیه خواهد بود، درست همانطور که ما ساختارها، ماشین آلات، تراشههای ریز و برنامههای کامپیوتری را مهندسی میکنیم، از این پس ممکن است در علوم زیستی نیز چنین توانایی را به کمک هوش مصنوعی به دست بیاوریم.
شرکت Evolutionary Scale در یک پیش نویس جدید توضیح میدهد که چگونه یک پروتئین فلورسنت سبز جدید تولید کرده است. پروتئینهای فلورسنت مسئول درخشش و رنگهای زیبای آبزیان مانند اعماق دریایی و مرجانها هستند و در بیوتکنولوژی مدرن نیز ابزارهای مهمی به شمار میروند. پروتئین جدید خلق شده به نام esmGFP، تنها ۵۸٪ شباهت توالی با نزدیکترین پروتئین فلورسنت شناخته شده در طبیعت را دارد. با توجه به نرخ تنوع پروتئینهای فلورسنت در طبیعت، برآورد میشود که تولید این پروتئین فلورسنت جدید، معادل شبیه سازی بیش از ۵۰۰ میلیون سال تکامل است.
قدرت و پتانسیل این فناوریهای جدید، نیازمند تعهد به اصول توسعه به صورت مسئولانه و شفافیت و پاسخگویی از ابتدا میباشد. بدین منظور Evolutionary Scale، با تکیه بر تجربیات موجود، یک چارچوب توسعه مسئولانه را شکل داده است که راهنمای پیشرفت آنها خواهد بود.
Esm3: یک مدل زبان پیشرو برای زیست شناسی
ESM3 مدل زبانی پیشرفته و پیش رویی که برای اولین بار برای علوم زیست شناسی تولید شده و همزمان بر روی توالی، ساختار و عملکرد پروتئینها استدلال میکند.
ESM3 بر اساس تنوع طبیعی زمین و میلیاردها پروتئین، از جنگلهای بارانی آمازون گرفته تا اعماق اقیانوسها، محیطهای حاد مانند آبگرمهای زیردریایی و میکروبهای موجود در یک مشت خاک، آموزش دیده است.
ESM3 که با استفاده از یکی از کلاسترهای GPU با بالاترین نرخ داده در جهان امروز آموزش دیده، یک مدل تولیدی پیشرو برای زیست شناسی با توان رسیدن تا سرحد اوج پارامترها، توان محاسباتی و دادهها میباشد. اعتقاد براین است که ESM3 بیشترین محاسبات را برای آموزش یک مدل زیستی به خود اختصاص داده است، که با بیش از ۱×۱۰^۲۴ FLOPS و ۹۸ میلیارد پارامتر آموزش دیده است.
در سرتاسر حوزه هوش مصنوعی، ما شاهد قدرت مقیاس پذیری هستیم. با افزایش مقیاس مدلها از نظر پارامترها، دادهها و محاسبات، مدلهای بزرگتر تواناییهای جدید و شگفت انگیزی را کسب میکنند که مدلهای کوچکتر از آن بهره مند نیستند. در بسیاری زمینهها، مدلهای عمومی که بر روی دادههای متنوع آموزش دیدهاند، عملکرد بهتری نسبت به مدلهای تخصصی دارند. پیشرفتهای شگفت انگیز اخیر در هوش مصنوعی، ناشی از استفاده از مدلهای بزرگتر، مجموعه دادههای عظیم و افزایش قدرت محاسباتی است.
همین دیدگاه و الگوها در زمینه زیست شناسی نیز صدق میکند. در طی پنج سال گذشته، تیم Evolutionary Scale روی مقیاس پذیری در زیست شناسی نیز تحقیقاتی را به عمل آورده است. نکته جالب توجه اینجاست که آنها دریافتند، با افزایش مقیاس مدلهای زبانی، درک عمیقتری از اصول بنیادین زیست شناسی پیدا خواهند کرد و میتوانند ساختارها و عملکردهای زیستی بیشتری را کشف نمایند.
ESM3 یک مدل بسیار پیشرفته در خانواده ESM است
این اولین مدل در نوع خود است که توسط Evolutionary Scale ساخته شده و نسبت به مدل قبلی یعنی ESM2، ده برابر بزرگتر است. ESM3 از ابتدا برای کار با انواع مختلف دادهها طراحی شده و میتواند موارد جدید را هم تولید کند.
برای درک بهتر رفتار پروتئینها، مدلهای زبانی باید بتوانند توالی، ساختار سه بعدی و عملکرد آنها را تجزیه و تحلیل کنند. این کار با تبدیل ساختار و عملکرد به واحدهای گسسته و نمایش آنها به صورت حروف، امکان پذیر شده است. این روش به ESM3 اجازه میدهد در مقیاس بزرگ آموزش ببیند و قابلیتهای جدید در خلق و تولید را کسب کند. دایره لغات ESM3 پل ارتباطی بین توالی، ساختار و عملکرد در یک مدل زبانی واحد است.
ESM3 با یک هدف ساده آموزش داده میشود. برای هر پروتئین، توالی، ساختار سه بعدی و عملکرد آن استخراج و بخشی از آن پنهان میشود. کار ESM3 این است که با الهام از مدلهای پردازش زبان طبیعی، موقعیتهای پنهان شده را پیش بینی کند. برای این کار، ESM3 باید درک عمیقی از ارتباط بین توالی، ساختار و عملکرد در دادههای گسترده تکاملی را پیدا کند. با آموزش و تمرین روی میلیاردها پروتئین و پارامتر، ESM3 یاد میگیرد که چگونه تکامل را شبیه سازی کند.
از آنجایی که دادههای آزمایشگاهی در مورد ساختار و عملکرد پروتئینها محدود است، مجموعه دادههای آموزشی چندوجهی ESM3 با صدها میلیون نمونه مصنوعی، شامل ساختارها و عملکردهای پیش بینی شده برای توالیهای مختلف، تقویت میشود.
ESM3 یک ترانسفورماتور چند مسیری است که به طور مشترک بر روی توالی، ساختار و عملکرد پروتئینها استدلال میکند.
کمی درباره برنامه نویسی زیستی
ESM3 یک مدل خلق کننده است و امکان برنامه نویسی در زمینه زیست شناسی را فراهم میکند. میتواند با پیروی از راهنماها، پروتئینهای جدید تولید کند. دانشمندان میتوانند با ESM3 تعامل کرده و آن را برای کاربردهایی مانند پزشکی، تحقیقات زیستی و انرژیهای پاک استفاده نمایند.
برای تولید پروتئینها، ابتدا یک مجموعه کامل توکنهای مخفی در نظر گرفته میشود و سپس توکنها یکی پس از دیگری جایگذاری میشوند تا همه موقعیتها پر شوند. از آنجا که در فرآیند آموزش و تمرین، توالی، ساختار و عملکرد، همه و همه پنهان و پیش بینی میشوند، ESM3 میتواند در هر سه حالت تولید را انجام دهد. این فرایند تولید را میتوان با مشخص کردن بخشی یا تمام توالی، ساختار و عملکرد هدایت کرد.
قدرت چندوجهی ESM3 به دانشمندان اجازه میدهد تا با کنترل بیشتری نسبت به گذشته، پروتئینهای جدید را تولید کنند. به عنوان مثال، این مدل میتواند با ترکیب ساختار، توالی و عملکرد، یک چهارچوب بالقوه برای جایگاه فعال PETase، آنزیمی که پلاستیک PET را تجزیه میکند، پیشنهاد دهد. این آنزیم برای مهندسانی که به دنبال راهی برای تجزیه زبالههای پلاستیکی هستند، بسیار جذاب است.
ظهور قابلیتهای جدید با افزایش مقیاس
توانایی ESM3 در حل چالشهای پیچیده برای طراحی پروتئین، با افزایش مقیاس آن، بیشتر بروز میکند. یکی از این وظایف، هماهنگی اتمی است، که در آن باید پروتئینی طراحی شود که موقعیت اتمهای اسیدهای آمینه دور ازهم در توالی، اما نزدیک در ساختار را برآورده کند. عملکرد ESM3 در این گونه اقدامات با افزایش میزان مقیاس بهتر میشود، یعنی ESM3 میتواند مسائل سختتری را با افزایش مقیاسش حل کند.
عملکرد ESM3 همچنین میتواند با دریافت بازخورد، مشابه روش یادگیری از بازخورد انسانی در مدلهای زبان بزرگ، بهبود یابد. اما به جای بازخورد انسانی، ESM3 میتواند از بازخورد در مورد کیفیت تولیدات خودش بهره ببرد. بازخورد از آزمایشات آزمایشگاهی یا دادههای آزمایشی موجود نیز میتواند برای هماهنگی تولیدات ESM3 با موفقیتهای زیستی، به کار گرفته شود.
شبیه سازی ۵۰۰ میلیون سال تکامل
پروتئین فلورسنت سبز (Green fluorescent protein)، یا GFP، و خانواده پروتئینهای فلورسنت آن از زیباترین پروتئینهای موجود در طبیعت هستند که تنها در برخی شاخههای درخت زیستی جهان یافت میشوند. کشف GFP منجر به اعطای جایزه نوبل شد و به یکی از پرکاربردترین ابزارها در زیست شناسی تبدیل شد که به دانشمندان اجازه میدهد پروتئینهای درون سلولی را ببینند.
GFP حاوی یک کروموفور فلورسنت (fluorescent chromophore) است – یک جزء مولکولی که یک فوتون منفرد از یک رنگ را در یک طول موج کوتاه جذب میکند، بخشی از انرژی آن را جذب میگیرد و بقیه را به عنوان یک فوتون جدید با رنگ متفاوت و طول موج بلندتر آزاد میکند. GFP طبیعی نور آبی را جذب میکند و نور سبز از خود ساطع میکند.
GFP پروتئینی است که تغییر شکل میدهد – ساختار آن یک استوانه یازده حلقهای با یک رشته مارپیچ در مرکز است. و پس از چین خوردگی GFP، یک واکنش خود به خودی رخ میدهد. که در آن اتمهای زنجیره پروتئینی، پیکربندی جدیدی را در مرکز ایجاد میکنند که یک کروموفور فلورسنت را شکل میدهد. این مکانیسم بینظیر است و هیچ پروتئین دیگری به طور خودبخودی چنین کروموفوری تولید نمیکند که نشان میدهد حتی برای طبیعت، تولید فلورسانس کاری دشوار است.
دانشمندان گونههای متعددی از GFP را در طبیعت کشف کردهاند و در آزمایشگاه گونههای مصنوعی از روی این پروتئینهای طبیعی ایجاد کردهاند. اولین گونههای مصنوعی با ایجاد تعداد کمی جهش که روشنایی یا رنگ را تغییر میداد، ساخته شدند. با تکنیکهای جدید آزمایشگاهی و یادگیری ماشین (machine learning)، جستجو برای یافتن گونههای متفاوتتر که تا ۲۰ درصد فرق میکنند، گسترش یافته است. اما همچنان بخش عمده تنوع GFP های کاربردی از بررسی طبیعت به دست میآید و نه توسط مهندسی پروتئین (protein engineering).
فرآیند تکاملی که به ایجاد پروتئینهای فلورسنت جدید منجر میشود، ادوار زمانی طولانی را در بر میگیرد. داستان این خانواده پروتئینی به اعماق تاریخ طبیعی و زمین شناسی بازمی گردد، جایی که در گذشته دور، طبیعت اولین پروتئین فلورسنت را خلق کرد. پروتئینهای فلورسنت طبیعی در طی صدها میلیون سال از توالیهای اجدادی کهن منشعب شدهاند تا به پروتئینهایی که امروز هستند، تبدیل شوند.
ESM3 با ساختار چند باقیمانده در هسته GFP طبیعی، و با یک زنجیره استدلالی، نامزدهایی برای GFP های جدید تولید کرد. تولید یک GFP جدید به طور کاملاً تصادفی از میان تعداد نجومی توالیها و ساختارها تقریباً غیرممکن بود. در یک آزمایش اولیه، ۹۶ نسل مورد آزمایش قرار گرفتند و چندین پروتئین فلورسنت یافت شد، از جمله یکی که از هر پروتئین طبیعی مشاهده شده تا به امروز متفاوتتر بود. این پروتئین، که در چشمه B۸ قرار داشت، ۵۰ برابر کم نورتر از GFP های طبیعی بود و کروموفور آن در یک هفته بالغ میشد، اما نشانههایی از عملکرد در یک ناحیه ناشناخته از فضای توالی را نشان میداد.
از توالی B۸ آغاز شد و ۹۶ پروتئین دیگر نیز تولید شد که چندین پروتئین با روشنایی مشابه GFP های طبیعی یافت شد، از جمله روشنترین آنها در چشمه C۱۰ که به آن esmGFP میگوییم. esmGFP با ۹۶ جهش (از ۲۲۹ اسید آمینه، ۵۸٪ از توالی مشابه است) با نزدیکترین پروتئین فلورسنت موجود در طبیعت متفاوت است.
برخلاف طبیعت، مدلهای زبان پروتئین (protein language models) در چارچوب محدودیتهای تکاملی کار نمیکنند. اما برای پیش بینی زنجیره پنهان شده، ESM3 باید یاد بگیرد که تکامل چگونه در فضای مخفی پروتئینها اتفاق میافتد. از این نظر، میتوان ESM3 را یک شبیه ساز تکاملی در نظر گرفت. تجزیه و تحلیل زنجیرههای تکاملی قبلی esmGFP به روش سنتی پاسخی متناقض خواهد داشت، زیرا این پروتئین خارج از فرایندهای طبیعی ایجاد شده است.
محققین از طریق بهره گیری از تکامل طبیعی متوجه شدهاند که GFP های طبیعی با سطوح مشابهی از هویت توالی با صدها میلیون سال تکامل از هم جدا شدهاند. با استفاده از نوعی از تجزیه و تحلیل، مشابه آنچه ممکن است بر روی پروتئین جدیدی که در دنیای طبیعی یافت میشود انجام شود، تخمین زده میشود که esmGFP معادل بیش از ۵۰۰ میلیون سال تکامل طبیعی است، که توسط یک شبیه ساز تکاملی انجام گرفته است.
مسئولیت در کنار توسعه
Evolutionary Scale یک شرکت عام المنفعه است. ماموریت آن توسعه هوش مصنوعی برای درک زیست شناسی به نفع سلامت انسان و جامعه، از طریق مشارکت با جامعه علمی، و تحقیقات گسترده، ایمن و مسئولانه است.
زیست شناسی مولکولی قبلاً در آغاز دوران DNA نوترکیب در دهه ۱۹۷۰، زمانی که دانشمندان فناوری مهندسی ژنتیک را توسعه میدادند، یک نقطه عطف را پشت سر گذاشته است. نتیجه آن چرخش تکنولوژیک انقلابی در درک ما از ژنتیک، رمزگشایی ژنوم انسان و داروهای جدید بود.
جامعه علمی برای مسیردهی کار خود در زمان توسعه سریع فناوری، مجموعهای از اصول و توصیهها را در کنفرانس Asilomar در سال ۱۹۷۵ ایجاد کرد. این اصول منجر به ایجاد چارچوبهای قوی شد که به مدیریت ریسک کمک میکند تا توسط شرکتهای سنتز نوکلئوتید (nucleotide synthesis)، فروشندگان زیست شناسی مولکولی و تنظیم کنندگان بازار مورد استفاده قرار گیرد.
اکنون که وارد عصری میشویم که میتوانیم بیولوژی جدید را طراحی و برنامه ریزی کنیم، بهتر است به تاریخچه رشته بیولوژی و همچنین اصول و توصیههای جدیدی که توسط جامعه رو به رشد محققان پیشگام در مرزهای طراحی بیولوژیکی پیشنهاد میشود، نگاهی بیندازیم.
Evolutionary Scale با الهام از این موارد، چارچوب توسعه مسئولانهای را ایجاد کرده تا کار خود را با شفافیت و وضوح در راستای ماموریت خود هدایت نماید.
اصول اساسی این چارچوب عبارتند از:
- اعلام مزایا و خطرات تحقیقات
- ارزیابی دقیق خطرات قبل از استقرار عمومی مدلها
- به کار گیری راهبردهای کاهش خطر و محافظت محتاطانه
- آگاه سازی ذینفعان به طور کلی
استفاده برای دیگران
از زمان شروع پروژه Evolutionary Scale متعهد شده است که علم را به صورت کد و مدلهای باز ارائه کند. اعتقاد بر این است که به اشتراک گذاری تحقیقات و کدها، پیشرفت را سرعت میبخشد و به درک و کاهش ریسک کمک میکند و در نهایت تأثیر مثبت را برای جهان به ارمغان میآورد.
دیدن کاربردهای غیر قابل باور و تاثیرگذار مدلهای ESM در تحقیقات و صنعت باورنکردنی است. به عنوان مثال، از ESM-1v و ESM-1b برای تکامل آنتیبادیها، بهبود ویژگیهای مرتبط از نظر درمانی مانند میل ترکیبی، پایداری حرارتی و خنثیسازی ویروسی استفاده شده است.
شرکتهای BioNTech و InstaDeep یک مدل زبان ESM را روی پروتئینهای اسپایک کووید تنظیم کردند تا انواعی را که خطر بیشتری برای سلامت عمومی ایجاد میکنند، شناسایی کنند و با موفقیت تمام ۱۶ نوع نگرانکننده را قبل از اینکه توسط WHO (سازمان بهداشت جهانی) اعلام شوند، عمومی کردند.
شرکت Brandes از ESM-1b برای پیشبینی اثرات بالینی جهشها استفاده کرد و در حال حاضر قویترین روش را یافته است. Marsiglia از ESM-1v برای مهندسی انواع پروتئین ضد CRISPR جدید استفاده کرد. Shanker از ESM-IF1 برای هدایت تکامل پروتئینهای مختلف، از جمله آنتیبادیهای با قدرت بالای تأیید شده در محیط آزمایشگاهی علیه SARS-CoV-2 استفاده کرد.
Yu از ESM-1b برای پیشبینی عملکرد آنزیمها، از جمله آنزیمهای نادر و مطالعهنشده، استفاده کرده است. Rosen از ESM2 برای ساختن شمایلی از ژنها در یک مدل پایه تک سلولی استفاده کرد. Høie از تنظیم دقیق ESM-IF1 بر روی ساختارهای آنتی بادی برای دستیابی به عملکرد پیشرفته در بازیابی توالی در سراسر مناطق CDR، برای طراحی آنتی بادیهایی با میل اتصال بالا استفاده کرده است.
توسعه و انتشار مدلهای باز برای تسریع تحقیقات و توانمندسازی جامعه علمی ادامه خواهد یافت. این کار با انتشار مدل باز ESM3 ۱٫۴B شروع میشود.
به کجا خواهیم رفت
اعتقاد بر این است که هوش مصنوعی همراه ما خواهد بود تا سیستمهای پیچیده زندگی در سطوح ابتدایی آن، برای ما قابل درکتر شود. اکتشافات جدید و اتفاقات آینده درک ما از زیست شناسی را به مراتب بالاتر برده و به ما کمک میکند تا بتوانیم در راستای درمان بیماریها از هوش مصنوعی نهایت استفاده را ببریم.
ESM3 ابزاری در خدمت دانشمندان خواهد بود. آنچه به زودی در اختیار محققین قرار خواهد گرفت به آنها اجازه میدهد تا رمزهای طراحی پروتئین و زیست شناسی مصنوعی را کشف کنند و راه حلهای جدیدی برای برخی از مهمترین مشکلات پیش رو را ابداع نمایند.
ESM3 اولین گام در راه علوم زیست شناسی و برنامه نویسی است. و تصور بر این است که بزودی مدلهای چندوجهی بیشتری معرفی شوند که به توانایی بشر برای درک و برنامه ریزی زیست شناسی برای ساختن جهانی بهتر کمک میکنند.
اگر به AI علاقهمند هستید میتوانید صفحات «اخبار هوشمصنوعی» و «مقالات هوشمصنوعی» را دنبال کنید.
افکارتان را باما در میان بگذارید