esm3-simulating-500-million-years-of-evolution

مدل زبانی ESM3، تولید و تکامل پروتئین‌ها به کمک هوش مصنوعی

در اینجا، نگاهی به مدل زبان پیشرفته ESM3 خواهیم انداخت و آن را بررسی خواهیم کرد. زبانی که در راستای شبیه سازی تکامل پروتئین‌ها طراحی شده و بر اساس توالی، ساختار و عملکرد پروتئین‌ها، پروتئین‌های جدید را طراحی می‌کند.

ضمنا باید عرض کنم که ESM3 محصولی خلق شده در شرکت Evolutionary Scale می‌باشد.

شناخت اولیه

بیش از ۳٫۵ میلیارد سال پیش، زندگی بر روی زمین در اثر واکنش‌های شیمیایی شکل گرفت. طبیعت دست به ابداع، RNA، پروتئین‌ها و DNA، که مولکول‌های اصلی حیات هستند زد. همچنین کارخانه‌ای مولکولی خلق کرد که اکنون ما آن را به نام ریبوزوم میشناسیم. ریبوزوم پروتئین‌ها را براساس دستورالعمل‌های ژنتیکی می‌سازد.

پروتئین‌ها مولکول‌های پویا و شگفت انگیزی هستند که کارکردهای بسیار متنوعی دارند. برخی مانند موتورهای مولکولی عمل کرده و حرکت را ایجاد می‌کنند. برخی دیگر به عنوان ماشین‌های فتوسنتز، نور را جذب و آن را به انرژی تبدیل می‌کنند. پروتئین‌ها اسکلت داخلی سلول‌ها را می‌سازند، با محیط اطراف تعامل دارند و برنامه‌ها و سیستم عامل حیات را کنترل می‌کنند. پروتئین‌ها در بیماری‌ها و سلامتی نقش دارند و بسیاری از داروهای نجات بخش زندگی نیز از جنس پروتئین هستند.

بر طبق شواهد باید گفت زیست شناسی پیشرفته‌ترین فناوری است که تاکنون خلق شده است، چیزی بسیار فراتر از هر آنچه که انسان‌ها تاکنون ساخته‌اند.  

ریبوزوم یک کارخانهٔ قابل برنامه ریزی است، کدهای پروتئینی را در قالب RNA دریافت می‌کند و پروتئین‌ها را از ابتدا و در سطح اتمی می‌سازد. هر سلول زنده بر روی زمین، هزاران تا میلیون‌ها کارخانه مولکولی ریبوزوم دارد. اما حتی پیچیده‌ترین ابزارهای محاسباتی امروز، با تمام پیشرفت‌ها، تنها یکی از سطوح زیست شناسی را لمس کرده‌اند؛ زیرا ساختار زیست شناسی به زبانی نوشته شده است که بشر هنوز آن را درک نکرده است.

اگر بشر بیاموزد که کد حیات را بخواند و مانند آن بنویسد و در آن تغییرات ایجاد کند می‌توانیم زیست شناسی را برنامه نویسی کنیم. در این صورت، دیگر نیازی به روش آزمون و خطا نیست و می‌توانیم به جای انجام آزمایش‌های دشوار و طاقت فرسا، از شبیه سازی استفاده کنیم.

شرکت Evolutionary Scale که در مقابل رقبای خود تازه نفس و کم تجربه‌تر شناخته می‌شود مفتخر است تا مدل زبان پیشرفته ESM3 را با هیجان هرچه بیشتر معرفی نماید. ESM3 یک مدل زبان پیشرو در علوم زیستی است که توانایی ما را برای برنامه نویسی و خلق با کد حیات ارتقا می‌بخشد. ESM3 گامی به سوی آینده‌ای است که در آن هوش مصنوعی ابزاری برای مهندسی زیست شناسی و از اصول اولیه خواهد بود، درست همانطور که ما ساختارها، ماشین آلات، تراشه‌های ریز و برنامه‌های کامپیوتری را مهندسی می‌کنیم، از این پس ممکن است در علوم زیستی نیز چنین توانایی را به کمک هوش مصنوعی به دست بیاوریم.

شرکت Evolutionary Scale در یک پیش نویس جدید توضیح می‌دهد که چگونه یک پروتئین فلورسنت سبز جدید تولید کرده است. پروتئین‌های فلورسنت مسئول درخشش و رنگ‌های زیبای آبزیان مانند اعماق دریایی و مرجان‌ها هستند و در بیوتکنولوژی مدرن نیز ابزارهای مهمی به شمار می‌روند. پروتئین جدید خلق شده به نام esmGFP، تنها ۵۸٪ شباهت توالی با نزدیکترین پروتئین فلورسنت شناخته شده در طبیعت را دارد. با توجه به نرخ تنوع پروتئین‌های فلورسنت در طبیعت، برآورد می‌شود که تولید این پروتئین فلورسنت جدید، معادل شبیه سازی بیش از ۵۰۰ میلیون سال تکامل است.

قدرت و پتانسیل این فناوری‌های جدید، نیازمند تعهد به اصول توسعه به صورت مسئولانه و شفافیت و پاسخگویی از ابتدا می‌باشد. بدین منظور Evolutionary Scale، با تکیه بر تجربیات موجود، یک چارچوب توسعه مسئولانه را شکل داده است که راهنمای پیشرفت آنها خواهد بود.

Esm3: یک مدل زبان پیشرو برای زیست شناسی

ESM3 مدل زبانی پیشرفته و پیش رویی که برای اولین بار برای علوم زیست شناسی تولید شده و همزمان بر روی توالی، ساختار و عملکرد پروتئین‌ها استدلال می‌کند.

ESM3 بر اساس تنوع طبیعی زمین و میلیاردها پروتئین، از جنگل‌های بارانی آمازون گرفته تا اعماق اقیانوس‌ها، محیط‌های حاد مانند آبگرم‌های زیردریایی و میکروب‌های موجود در یک مشت خاک، آموزش دیده است.

ESM3 که با استفاده از یکی از کلاسترهای GPU با بالاترین نرخ داده در جهان امروز آموزش دیده، یک مدل تولیدی پیشرو برای زیست شناسی با توان رسیدن تا سرحد اوج پارامترها، توان محاسباتی و داده‌ها می‌باشد. اعتقاد براین است که ESM3 بیشترین محاسبات را برای آموزش یک مدل زیستی به خود اختصاص داده است، که با بیش از ۱×۱۰^۲۴ FLOPS و ۹۸ میلیارد پارامتر آموزش دیده است.

در سرتاسر حوزه هوش مصنوعی، ما شاهد قدرت مقیاس پذیری هستیم. با افزایش مقیاس مدل‌ها از نظر پارامترها، داده‌ها و محاسبات، مدل‌های بزرگتر توانایی‌های جدید و شگفت انگیزی را کسب می‌کنند که مدل‌های کوچکتر از آن بهره مند نیستند. در بسیاری زمینه‌ها، مدل‌های عمومی که بر روی داده‌های متنوع آموزش دیده‌اند، عملکرد بهتری نسبت به مدل‌های تخصصی دارند. پیشرفت‌های شگفت انگیز اخیر در هوش مصنوعی، ناشی از استفاده از مدل‌های بزرگتر، مجموعه داده‌های عظیم و افزایش قدرت محاسباتی است.

همین دیدگاه و الگوها در زمینه زیست شناسی نیز صدق میکند. در طی پنج سال گذشته، تیم Evolutionary Scale روی مقیاس پذیری در زیست شناسی نیز تحقیقاتی را به عمل آورده است. نکته جالب توجه اینجاست که آنها دریافتند، با افزایش مقیاس مدل‌های زبانی، درک عمیق‌تری از اصول بنیادین زیست شناسی پیدا خواهند کرد و می‌توانند ساختارها و عملکردهای زیستی بیشتری را کشف نمایند.

ESM3 یک مدل بسیار پیشرفته در خانواده ESM است

این اولین مدل در نوع خود است که توسط Evolutionary Scale ساخته شده و نسبت به مدل قبلی یعنی ESM2، ده برابر بزرگتر است. ESM3 از ابتدا برای کار با انواع مختلف داده‌ها طراحی شده و می‌تواند موارد جدید را هم تولید کند.

برای درک بهتر رفتار پروتئین‌ها، مدل‌های زبانی باید بتوانند توالی، ساختار سه بعدی و عملکرد آنها را تجزیه و تحلیل کنند. این کار با تبدیل ساختار و عملکرد به واحدهای گسسته و نمایش آنها به صورت حروف، امکان پذیر شده است. این روش به ESM3 اجازه می‌دهد در مقیاس بزرگ آموزش ببیند و قابلیت‌های جدید در خلق و تولید را کسب کند. دایره لغات ESM3 پل ارتباطی بین توالی، ساختار و عملکرد در یک مدل زبانی واحد است.

ESM3 با یک هدف ساده آموزش داده می‌شود. برای هر پروتئین، توالی، ساختار سه بعدی و عملکرد آن استخراج و بخشی از آن پنهان می‌شود. کار ESM3 این است که با الهام از مدل‌های پردازش زبان طبیعی، موقعیت‌های پنهان شده را پیش بینی کند. برای این کار، ESM3 باید درک عمیقی از ارتباط بین توالی، ساختار و عملکرد در داده‌های گسترده تکاملی را پیدا کند. با آموزش و تمرین روی میلیاردها پروتئین و پارامتر، ESM3 یاد می‌گیرد که چگونه تکامل را شبیه سازی کند.

از آنجایی که داده‌های آزمایشگاهی در مورد ساختار و عملکرد پروتئین‌ها محدود است، مجموعه داده‌های آموزشی چندوجهی ESM3 با صدها میلیون نمونه مصنوعی، شامل ساختارها و عملکردهای پیش بینی شده برای توالی‌های مختلف، تقویت می‌شود.

مدل زبانی ESM3، تولید و تکامل پروتئین‌ها به کمک هوش مصنوعی

ESM3 یک ترانسفورماتور چند مسیری است که به طور مشترک بر روی توالی، ساختار و عملکرد پروتئین‌ها استدلال می‌کند.

کمی درباره برنامه نویسی زیستی

ESM3 یک مدل خلق کننده است و امکان برنامه نویسی در زمینه زیست شناسی را فراهم می‌کند. می‌تواند با پیروی از راهنماها، پروتئین‌های جدید تولید کند. دانشمندان می‌توانند با ESM3 تعامل کرده و آن را برای کاربردهایی مانند پزشکی، تحقیقات زیستی و انرژی‌های پاک استفاده نمایند.

برای تولید پروتئین‌ها، ابتدا یک مجموعه کامل توکن‌های مخفی در نظر گرفته می‌شود و سپس توکن‌ها یکی پس از دیگری جایگذاری می‌شوند تا همه موقعیت‌ها پر شوند. از آنجا که در فرآیند آموزش و تمرین، توالی، ساختار و عملکرد، همه و همه پنهان و پیش بینی می‌شوند، ESM3 می‌تواند در هر سه حالت تولید را انجام دهد. این فرایند تولید را می‌توان با مشخص کردن بخشی یا تمام توالی، ساختار و عملکرد هدایت کرد.

قدرت چندوجهی ESM3 به دانشمندان اجازه می‌دهد تا با کنترل بیشتری نسبت به گذشته، پروتئین‌های جدید را تولید کنند. به عنوان مثال، این مدل می‌تواند با ترکیب ساختار، توالی و عملکرد، یک چهارچوب بالقوه برای جایگاه فعال PETase، آنزیمی که پلاستیک PET را تجزیه می‌کند، پیشنهاد دهد. این آنزیم برای مهندسانی که به دنبال راهی برای تجزیه زباله‌های پلاستیکی هستند، بسیار جذاب است.

ظهور قابلیت‌های جدید با افزایش مقیاس

توانایی ESM3 در حل چالش‌های پیچیده برای طراحی پروتئین، با افزایش مقیاس آن، بیشتر بروز می‌کند. یکی از این وظایف، هماهنگی اتمی است، که در آن باید پروتئینی طراحی شود که موقعیت اتم‌های اسیدهای آمینه دور ازهم در توالی، اما نزدیک در ساختار را برآورده کند. عملکرد ESM3 در این گونه اقدامات با افزایش میزان مقیاس بهتر می‌شود، یعنی ESM3 می‌تواند مسائل سخت‌تری را با افزایش مقیاسش حل کند.

عملکرد ESM3 همچنین می‌تواند با دریافت بازخورد، مشابه روش یادگیری از بازخورد انسانی در مدل‌های زبان بزرگ، بهبود یابد. اما به جای بازخورد انسانی، ESM3 می‌تواند از بازخورد در مورد کیفیت تولیدات خودش بهره ببرد. بازخورد از آزمایشات آزمایشگاهی یا داده‌های آزمایشی موجود نیز می‌تواند برای هماهنگی تولیدات ESM3 با موفقیت‌های زیستی، به کار گرفته شود.

شبیه سازی ۵۰۰ میلیون سال تکامل

پروتئین فلورسنت سبز (Green fluorescent protein)، یا GFP، و خانواده پروتئین‌های فلورسنت آن از زیباترین پروتئین‌های موجود در طبیعت هستند که تنها در برخی شاخه‌های درخت زیستی جهان یافت می‌شوند. کشف GFP منجر به اعطای جایزه نوبل شد و به یکی از پرکاربردترین ابزارها در زیست شناسی تبدیل شد که به دانشمندان اجازه می‌دهد پروتئین‌های درون سلولی را ببینند.

GFP حاوی یک کروموفور فلورسنت (fluorescent chromophore) است – یک جزء مولکولی که یک فوتون منفرد از یک رنگ را در یک طول موج کوتاه جذب می‌کند، بخشی از انرژی آن را جذب می‌گیرد و بقیه را به عنوان یک فوتون جدید با رنگ متفاوت و طول موج بلندتر آزاد می‌کند. GFP طبیعی نور آبی را جذب می‌کند و نور سبز از خود ساطع می‌کند.

GFP پروتئینی است که تغییر شکل می‌دهد – ساختار آن یک استوانه یازده حلقه‌ای با یک رشته مارپیچ در مرکز است. و پس از چین خوردگی GFP، یک واکنش خود به خودی رخ می‌دهد. که در آن اتم‌های زنجیره پروتئینی، پیکربندی جدیدی را در مرکز ایجاد می‌کنند که یک کروموفور فلورسنت را شکل می‌دهد. این مکانیسم بی‌نظیر است و هیچ پروتئین دیگری به طور خودبخودی چنین کروموفوری تولید نمی‌کند که نشان می‌دهد حتی برای طبیعت، تولید فلورسانس کاری دشوار است.

دانشمندان گونه‌های متعددی از GFP را در طبیعت کشف کرده‌اند و در آزمایشگاه گونه‌های مصنوعی از روی این پروتئین‌های طبیعی ایجاد کرده‌اند. اولین گونه‌های مصنوعی با ایجاد تعداد کمی جهش که روشنایی یا رنگ را تغییر میداد، ساخته شدند. با تکنیک‌های جدید آزمایشگاهی و یادگیری ماشین (machine learning)، جستجو برای یافتن گونه‌های متفاوت‌تر که تا ۲۰ درصد فرق میکنند، گسترش یافته است. اما همچنان بخش عمده تنوع GFP های کاربردی از بررسی طبیعت به دست می‌آید و نه توسط مهندسی پروتئین (protein engineering).

فرآیند تکاملی که به ایجاد پروتئین‌های فلورسنت جدید منجر می‌شود، ادوار زمانی طولانی را در بر می‌گیرد. داستان این خانواده پروتئینی به اعماق تاریخ طبیعی و زمین شناسی بازمی گردد، جایی که در گذشته دور، طبیعت اولین پروتئین فلورسنت را خلق کرد. پروتئین‌های فلورسنت طبیعی در طی صدها میلیون سال از توالی‌های اجدادی کهن منشعب شده‌اند تا به پروتئین‌هایی که امروز هستند، تبدیل شوند.

ESM3 با ساختار چند باقیمانده در هسته GFP طبیعی، و با یک زنجیره استدلالی، نامزدهایی برای GFP های جدید تولید کرد. تولید یک GFP جدید به طور کاملاً تصادفی از میان تعداد نجومی توالی‌ها و ساختارها تقریباً غیرممکن بود. در یک آزمایش اولیه، ۹۶ نسل مورد آزمایش قرار گرفتند و چندین پروتئین فلورسنت یافت شد، از جمله یکی که از هر پروتئین طبیعی مشاهده شده تا به امروز متفاوت‌تر بود. این پروتئین، که در چشمه B۸ قرار داشت، ۵۰ برابر کم نورتر از GFP های طبیعی بود و کروموفور آن در یک هفته بالغ می‌شد، اما نشانه‌هایی از عملکرد در یک ناحیه ناشناخته از فضای توالی را نشان میداد.

از توالی B۸ آغاز شد و ۹۶ پروتئین دیگر نیز تولید شد که چندین پروتئین با روشنایی مشابه GFP های طبیعی یافت شد، از جمله روشن‌ترین آنها در چشمه C۱۰ که به آن esmGFP می‌گوییم. esmGFP با ۹۶ جهش (از ۲۲۹ اسید آمینه، ۵۸٪ از توالی مشابه است) با نزدیکترین پروتئین فلورسنت موجود در طبیعت متفاوت است.

برخلاف طبیعت، مدل‌های زبان پروتئین (protein language models) در چارچوب محدودیت‌های تکاملی کار نمی‌کنند. اما برای پیش بینی زنجیره پنهان شده، ESM3 باید یاد بگیرد که تکامل چگونه در فضای مخفی پروتئین‌ها اتفاق می‌افتد. از این نظر، می‌توان ESM3 را یک شبیه ساز تکاملی در نظر گرفت. تجزیه و تحلیل زنجیره‌های تکاملی قبلی esmGFP به روش سنتی پاسخی متناقض خواهد داشت، زیرا این پروتئین خارج از فرایندهای طبیعی ایجاد شده است.

محققین از طریق بهره گیری از تکامل طبیعی متوجه شده‌اند که GFP های طبیعی با سطوح مشابهی از هویت توالی با صدها میلیون سال تکامل از هم جدا شده‌اند. با استفاده از نوعی از تجزیه و تحلیل، مشابه آنچه ممکن است بر روی پروتئین جدیدی که در دنیای طبیعی یافت می‌شود انجام شود، تخمین زده می‌شود که esmGFP معادل بیش از ۵۰۰ میلیون سال تکامل طبیعی است، که توسط یک شبیه ساز تکاملی انجام گرفته است.

مسئولیت در کنار توسعه

Evolutionary Scale یک شرکت عام المنفعه است. ماموریت آن توسعه هوش مصنوعی برای درک زیست شناسی به نفع سلامت انسان و جامعه، از طریق مشارکت با جامعه علمی، و تحقیقات گسترده، ایمن و مسئولانه است.

زیست شناسی مولکولی قبلاً در آغاز دوران DNA نوترکیب در دهه ۱۹۷۰، زمانی که دانشمندان فناوری مهندسی ژنتیک را توسعه می‌دادند، یک نقطه عطف را پشت سر گذاشته است. نتیجه آن چرخش تکنولوژیک انقلابی در درک ما از ژنتیک، رمزگشایی ژنوم انسان و داروهای جدید بود.

جامعه علمی برای مسیردهی کار خود در زمان توسعه سریع فناوری، مجموعه‌ای از اصول و توصیه‌ها را در کنفرانس Asilomar در سال ۱۹۷۵ ایجاد کرد. این اصول منجر به ایجاد چارچوب‌های قوی شد که به مدیریت ریسک کمک می‌کند تا توسط شرکت‌های سنتز نوکلئوتید (nucleotide synthesis)، فروشندگان زیست شناسی مولکولی و تنظیم کنندگان بازار مورد استفاده قرار گیرد.

اکنون که وارد عصری می‌شویم که می‌توانیم بیولوژی جدید را طراحی و برنامه ریزی کنیم، بهتر است به تاریخچه رشته بیولوژی و همچنین اصول و توصیه‌های جدیدی که توسط جامعه رو به رشد محققان پیشگام در مرزهای طراحی بیولوژیکی پیشنهاد می‌شود، نگاهی بیندازیم.

Evolutionary Scale با الهام از این موارد، چارچوب توسعه مسئولانه‌ای را ایجاد کرده تا کار خود را با شفافیت و وضوح در راستای ماموریت خود هدایت نماید.

اصول اساسی این چارچوب عبارتند از:

  • اعلام مزایا و خطرات تحقیقات 
  • ارزیابی دقیق خطرات قبل از استقرار عمومی مدل‌ها
  • به کار گیری راهبردهای کاهش خطر و محافظت محتاطانه
  • آگاه سازی ذینفعان به طور کلی

استفاده برای دیگران

از زمان شروع پروژه Evolutionary Scale متعهد شده است که علم را به صورت کد و مدل‌های باز ارائه کند. اعتقاد بر این است که به اشتراک گذاری تحقیقات و کدها، پیشرفت را سرعت می‌بخشد و به درک و کاهش ریسک کمک می‌کند و در نهایت تأثیر مثبت را برای جهان به ارمغان می‌آورد.

دیدن کاربردهای غیر قابل باور و تاثیرگذار مدل‌های ESM در تحقیقات و صنعت باورنکردنی است. به عنوان مثال، از ESM-1v و ESM-1b برای تکامل آنتی‌بادی‌ها، بهبود ویژگی‌های مرتبط از نظر درمانی مانند میل ترکیبی، پایداری حرارتی و خنثی‌سازی ویروسی استفاده شده است.

شرکت‌های BioNTech و InstaDeep یک مدل زبان ESM را روی پروتئین‌های اسپایک کووید تنظیم کردند تا انواعی را که خطر بیشتری برای سلامت عمومی ایجاد می‌کنند، شناسایی کنند و با موفقیت تمام ۱۶ نوع نگران‌کننده را قبل از اینکه توسط WHO (سازمان بهداشت جهانی) اعلام شوند، عمومی کردند.

شرکت Brandes از ESM-1b برای پیش‌بینی اثرات بالینی جهش‌ها استفاده کرد و در حال حاضر قوی‌ترین روش را یافته است. Marsiglia از ESM-1v برای مهندسی انواع پروتئین ضد CRISPR جدید استفاده کرد. Shanker از ESM-IF1 برای هدایت تکامل پروتئین‌های مختلف، از جمله آنتی‌بادی‌های با قدرت بالای تأیید شده در محیط آزمایشگاهی علیه SARS-CoV-2 استفاده کرد.

Yu از ESM-1b برای پیش‌بینی عملکرد آنزیم‌ها، از جمله آنزیم‌های نادر و مطالعه‌نشده، استفاده کرده است. Rosen از ESM2 برای ساختن شمایلی از ژن‌ها در یک مدل پایه تک سلولی استفاده کرد. Høie از تنظیم دقیق ESM-IF1 بر روی ساختارهای آنتی بادی برای دستیابی به عملکرد پیشرفته در بازیابی توالی در سراسر مناطق CDR، برای طراحی آنتی بادی‌هایی با میل اتصال بالا استفاده کرده است.  

توسعه و انتشار مدل‌های باز برای تسریع تحقیقات و توانمندسازی جامعه علمی ادامه خواهد یافت. این کار با انتشار مدل باز ESM3 ۱٫۴B شروع می‌شود.

به کجا خواهیم رفت

اعتقاد بر این است که هوش مصنوعی همراه ما خواهد بود تا سیستم‌های پیچیده زندگی در سطوح ابتدایی آن، برای ما قابل درک‌تر شود. اکتشافات جدید و اتفاقات آینده درک ما از زیست شناسی را به مراتب بالاتر برده و به ما کمک میکند تا بتوانیم در راستای درمان بیماری‌ها از هوش مصنوعی نهایت استفاده را ببریم.

ESM3 ابزاری در خدمت دانشمندان خواهد بود. آنچه به زودی در اختیار محققین قرار خواهد گرفت به آنها اجازه میدهد تا رمزهای طراحی پروتئین و زیست شناسی مصنوعی را کشف کنند و راه حل‌های جدیدی برای برخی از مهم‌ترین مشکلات پیش رو را ابداع نمایند.

ESM3 اولین گام در راه علوم زیست شناسی و برنامه نویسی است. و تصور بر این است که بزودی مدل‌های چندوجهی بیشتری معرفی شوند که به توانایی بشر برای درک و برنامه ریزی زیست شناسی برای ساختن جهانی بهتر کمک میکنند.

اگر به AI علاقه‌مند هستید می‌توانید صفحات «اخبار هوش‌مصنوعی» و «مقالات هوش‌مصنوعی» را دنبال کنید.

Tags: No tags

افکارتان را باما در میان بگذارید

اطلاعات شما پیش ما امن هست، آدرس ایمیل شما منتشر نخواهد شد!