memory3-irangpu-2

معماری جدید Memory3 برای بهبود عملکرد مدل‌های زبانی بزرگ

مدلسازی زبان در هوش مصنوعی، بر توسعه سیستم‌هایی متمرکز است که قادر به درک، تفسیر و تولید زبان انسانی هستند. این حوزه، کاربردهای گوناگونی از جمله ترجمه ماشینی، خلاصه سازی متن و موارد گفتمانی را در بر می‌گیرد. محققان به دنبال ایجاد مدل‌هایی هستند که توانایی‌های زبانی انسان را تقلید کنند تا تعامل روان بین انسان و ماشین را ممکن سازند. پیشرفت‌ها در این زمینه، منجر به توسعه مدل‌های پیچیده و بزرگ شده است، که نیازمند منابع محاسباتی قابل توجهی هستند و قطعا معماری Memory3 یکی از این پیشرفت‌های جدید است که در ادامه بیشتر با آن آشنا می‌شویم.

پیچیدگی و حجم فزاینده مدل‌های زبانی بزرگ «LLM»، منجر به هزینه‌های قابل توجه در مواردی همچون آموزش و نتیجه سازی می‌شود. این هزینه‌ها ناشی از لزوم رمزگذاری حجم عظیمی از داده‌ها در پارامترهای مدل است که هم از نظر منابع پرهزینه و هم گران از نظر محاسباتی هستند.

با افزایش تقاضا برای مدل‌های قدرتمندتر، چالش مدیریت این هزینه‌ها پررنگ‌تر می‌شود. رسیدگی به این مشکل برای توسعه پایدار فناوری‌های مدلسازی زبان، امری حیاتی است.  

روش‌های موجود برای کاهش این هزینه‌ها، شامل بهینه سازی جنبه‌های مختلف مدل‌های زبانی بزرگ می‌باشد، مثلا بهینه سازی در معماری، کیفیت داده‌ها و موازی سازی آن‌ها. به عنوان نمونه مدل‌های نسل توسعه دیده با بازیابی «retrieval augmented generation یا RAG»، از پایگاه‌های دانش خارجی برای کاهش بار روی پارامترهای مدل خود استفاده می‌کنند.

که با این حال، این مدل‌ها هنوز هم به شدت به پارامترهای بزرگ وابسته هستند و همین امر کارایی آنها را محدود می‌کند. از رویکردهای دیگر میتوان به بهبود کیفیت داده و استفاده از سخت افزارهای پیشرفته اشاره نمود، اما تمام این راه حل‌ها تنها بخشی از چالش هزینه‌های بالای محاسباتی را حل می‌کنند.

معماری Memory3 انقلابی در پرفورمنس عملکرد مدل‌های زبانی ایجاد می‌کند

مدل «Memory3» توسط محققانی از مؤسسه تحقیقات الگوریتم‌های پیشرفته در شانگهای «Moqi Inc»، و مرکز تحقیقات یادگیری ماشین «Machine Learning» در دانشگاه پکن معرفی شده است. این رویکرد نوآورانه، حافظه صریح را در LLM ها ادغام می‌کند. این مدل، بخش قابل توجهی از دانش خود را به صورت خارجی نگهداری می‌کند تا «LLM» بتواند اندازهٔ پارامتری کوچکتری داشته باشد. معرفی حافظه صریح، یک تحول پارادایمی در نحوه ذخیره و بازیابی دانش در مدل‌های زبانی است.

«Memory3» از حافظه‌های صریح «آشکار» استفاده می‌کند که نسبت به پارامترهای مدل سنتی، ذخیره و فراخوانی آنها ارزان‌تر است. این طراحی شامل یک مکانیزم کاهش تراکم حافظه و یک طرح پیش آموزش دو مرحله‌ای برای تسهیل تشکیل حافظه کارآمد است. این مدل، متون را به حافظه‌های صریح تبدیل می‌کند که می‌توانند در زمان نتیجه گیری بازیابی شوند و هزینه‌های محاسباتی کلی را کاهش دهند. معماری «Memory3» به گونه‌ای طراحی شده که با مدل‌های زبان بزرگ موجود که مبتنی بر مبدل‌ها هستند «Transformer-based LLMs» سازگار باشد و صرفا با یک تنظیم جزئی قابل بهره برداری باشد.

این انعطاف پذیری اطمینان می‌دهد که مدل «Memory3» می‌تواند بدون نیاز به اصلاحات گسترده سیستماتیک، به طور فراگیری مورد استفاده قرار گیرد. پایگاه دانش آن شامل ۱٫۱ × ۱۰^۸ بخش متنی با طول حداکثر ۱۲۸ توکن می‌باشد که به صورت کارآمد ذخیره و پردازش می‌شوند.

مدل «Memory3»، با ۲٫۴ میلیارد پارامتر جاسازی نشده، عملکرد بهتری نسبت به «LLM» ها و مدل‌های «RAG» بزرگتر از خود داشته است. این مدل، عملکرد بهتری در بنچمارک نشان داده و کارایی و دقت بهتری را به نمایش گذاشته است. به طور خاص، «Memory3» سرعت رمزگشایی بالاتری نسبت به مدل‌های «RAG» دارد، زیرا به فرآیندهای بازیابی متن به صورت گسترده متکی نیست.

علاوه بر این، عملکرد آن در وظایف حرفه‌ای که نیازمند بازیابی با فرکانس بالای حافظه‌های صریح می‌باشد، نشان میدهد که قدرت و انعطاف پذیری این مدل برای کاربردهای مختلف قابل استفاده است. ادغام حافظه‌های صریح، بار محاسباتی را به میزان قابل توجهی کاهش می‌دهد و پردازش سریعتر و کارآمدتری را ممکن می‌سازد.

آنچه مشخص است مدل «Memory3» نتایج چشمگیری را به نمایش گذاشته است. این مدل با استفاده از حافظه صریح، امتیاز متوسط خود را ۲٫۵۱ درصد بهبود داده و در مقایسه با مدل‌هایی که این ویژگی را نداشتند به مراتب بهتر عمل کرده است. به عنوان مثال امتیاز ۸۳٫۳ در «HellaSwag» و ۸۰٫۴ در «BoolQ» را کسب کرده، این در حالیست که یک مدل بزرگتر با ۹٫۱ میلیارد پارامتر امتیازهای ۷۰٫۶ و ۷۰٫۷ را کسب کرده است.

ضمنا سرعت رمزگشایی این مدل بدون استفاده از حافظه ۳۵٫۲ درصد کندتر بود که نشان دهنده استفاده کارآمد از حافظه است. علاوه بر این، مکانیزم حافظه صریح، نیاز به فضای ذخیره سازی حافظه کل را از ۷٫۱۷ پتابایت به ۴۵٫۹ ترابایت کاهش داده که آن را برای کاربردهای در مقیاس بزرگ، عملی‌تر می‌سازد.

در پایان، مدل «Memory3» یک پیشرفت قابل توجه در کاهش هزینه و پیچیدگی آموزش و اجرای مدل‌های زبانی بزرگ محسوب می‌شود. محققان با برون سپاری بخشی از دانش به حافظه‌های صریح، یک راه حل کارآمد به همراه قابلیت مقیاس پذیری ارائه کردند که عملکرد و دقت بالایی را حفظ می‌کند. این رویکرد نوآورانه، چالش هزینه‌های محاسباتی در مدلسازی زبان را برطرف می‌کند و راه را برای فناوری‌های هوش مصنوعی پایدارتر و در دسترس‌تر هموار می‌سازد.

یکی از مزایای دیگر مدل «Memory3»، قابلیت آن در کاهش اثرات زیست محیطی فناوری‌های هوش مصنوعی است. با کاهش نیاز به منابع محاسباتی عظیم، این مدل گام مهمی در راستای دستیابی به فناوری‌های پایدارتر و سازگارتر با محیط زیست برمی دارد. کاهش مصرف انرژی، تولید گازهای گلخانه‌ای و کربن ناشی از آموزش و اجرای مدل‌های بزرگ، می‌تواند تاثیر قابل توجهی بر حفاظت از منابع طبیعی و مبارزه با تغییرات آب و هوایی داشته باشد.

علاوه بر این، مدل «Memory ۳» امکان دسترسی گسترده‌تر به فناوری‌های هوش مصنوعی پیشرفته را فراهم می‌کند. با کاهش هزینه‌های سرسام آور محاسباتی، این مدل می‌تواند برای سازمان‌های کوچکتر و محدودتر از نظر بودجه نیز در دسترس باشد. این امر به نوبه خود، نوآوری و خلاقیت را در حوزه هوش مصنوعی تقویت می‌کند و فرصت‌های جدیدی را برای استفاده از این فناوری در زمینه‌های گوناگون از جمله آموزش، پزشکی، تجارت و غیره ایجاد می‌نماید.

برای خواندن چیزهای بیشتری از این مقاله میتوانید به اصل مقاله با عنوان Memory3: Language Modeling with Explicit Memory مراجعه کنید.

اگر به AI علاقه‌مند هستید می‌توانید صفحات «اخبار هوش‌مصنوعی» و «مقالات هوش‌مصنوعی» را دنبال کنید.

Tags: No tags

افکارتان را باما در میان بگذارید

اطلاعات شما پیش ما امن هست، آدرس ایمیل شما منتشر نخواهد شد!