ژوپیترنوتبوکها یکی از مهمترین محیطهای توسعه پایتون و از محبوبترین ابزارها درزمینهٔ دادهکاوی یا یادگیری ماشین (یادگیری عمیق)هستند.
7 عامل مهم در انتخاب یک Framework یادگیری عمیق مناسب

یکی از راههایی که هر فرد علاقهمند به فناوری که میخواهد کار خود را در حوزه علم داده آغاز کند برای کسب اطلاعات در پیش میگیرد، جستجوی اینترنتی است که البته اغلب اوقات به پاسخهای صحیحی ختم نمیشود. از این رو ما در این مقاله سعی کردهایم به شما کمک کنیم تا بتوانید کتابخانه یادگیری عمیق بهتری را برای خود انتخاب کنید. تجزیه و تحلیلهای ما بر اساس عوامل مختلفی مانند معماری، سرعت، کاربرپسندی، محبوبیت و موارد دیگر انجام شده است.
آشنایی با کتابخانههای یادگیری عمیق پایتون
اما اجازه دهید قبل از شروع بخش تجزیه و تحلیل، با هر یک از آنها بهطور خلاصه آشنا شویم.
کتابخانه یادگیری عمیق کراس – Keras
کراس یک کتابخانه قدرتمند و در دسترس منبع باز برای شبکه عصبی و توسعه و ارزیابی مدلهای یادگیری عمیق است. این کتابخانه ریاضی نمادین، به شما این امکان میدهد مسائل مربوط به یادگیری عمیق و یادگیری ماشین را حل کنید.
هدف این ابزار انجام آزمایشهای سریع با استفاده از یادگیری عمیق است. این برنامه که در 27 مارس 2015 توسط Francois Chollet توسعه یافته است، در واقع یک API برنامه نویسی سطح بالا است.
کتابخانه پای تورچ – Pytorch
PyTorch یک کتابخانه یادگیری ماشین اوپن سورس است که به زبان Python و C++ نوشته شده است و به عنوان یک برنامه منبع باز برای دانلود در دسترس عموم قرار دارد. گروه تحقیقاتی فیس بوک این فناوری را در اکتبر 2016 توسعه داد تا در برنامه هایی مانند پردازش زبان طبیعی، بینایی کامپیوتری و موارد دیگر مورد استفاده قرار گیرد. این برنامه در مقایسه با سایر همتایانش از لحاظ سطح بالا و سطح پایین، جایی بین TensorFlow و Keras قرار میگیرد.
کتابخانه تنسورفلو – TensorFlow
این کتابخانه که به راحتی با C++، جاوا و سایر زبانهای کد یکپارچه میشود، ابزار جامعی را برای توسعه دهندگان، شرکتها و … برای ساخت برنامه های کاربردی مبتنی بر یادگیری ماشین فراهم میکند. در این کتابخانه ریاضی نمادین، مسائل مربوط به یادگیری عمیق و یادگیری ماشین حل میشود. کتابخانه تنسورفلو که در 9 نوامبر 2015 توسط گوگل ایجاد شده است، در برنامه نویسی به عنوان یک API سطح پایین شناخته میشود.
بررسی عوامل تأثیرگذار بر انتخاب Framework یادگیری عمیق مناسب
1. معماری- Architecture
آموزش مدلهای بزرگ و پیچیده فرایندی زمان بر است، بنابراین سرعت پردازش برای مدلهای بزرگ و پیچیده کمتر خواهد بود. PyTorch در مقایسه با Keras، معماری پیچیدهتری دارد که میتواند منجر به خوانایی کمتر شود. برندگان رقابت در این بخش TensorFlow و PyTorch بودند که هر دو فریمورک های شبیه سازی سطح پایین عملی هستند که سرعت و زمان بالایی دارند.
2.سرعت- Speed
سرعت Keras بالاتر از حداقل نیست و سرعت این framework در مقایسه با سایر framework ها کندتر است. TensorFlow و Pytorch هر دو با حداکثر سرعت کار میکنند که به نوبه خود باعث نمایش عملکرد بالاتری میشود.
3- سطح API ها- Level of APIs
API های Keras اجازه دسترسی به Theano و CNTK را فراهم میکنند، بنابراین Keras را میتوان در هر دو پلتفرم اجرا کرد. اما به دلیل API سطح پایین PyTorch، این کتابخانه تنها از آرایه Array) ) پشتیبانی میکند. با اینحال اخیراً پای تورچ توجه زیادی را به خود جلب کرده است و به یک راه حل ترجیحی برای تحقیقات دانشگاهی و برنامه های یادگیری عمیق که نیاز به بهینه سازی بیان سفارشی دارند تبدیل شده است. TensorFlow علاوه بر ارائه API های سطح پایین، API های سطح بالا را نیز ارائه میدهد.
4. مبتدی دوست- Beginner-Friendly
ویژگی نمونه سازی سریع در Keras بر این اساس طراحی شده است که مدل یادگیری عمیق را آسان کند. این برنامه دارای یک رابط کاربری بسیار مبتدی است که کاربران میتوانند به راحتی شبکه های عصبی را مانند بلوکهای لگو بسازند.
فرایند مشکل یابی یا Debugging ارورهای پایتون به سادگی دیباگینگ کد پایتون است. مشکل یابی این خطاها را میتوان با استفاده از هر یک از دیباگرهای محبوب پایتون انجام داد. دیباگینگ خطاها در Tensorflow با استفاده از ماژولهای debugging آن امکان پذیر است.
5.دیباگینگ – Debugging
کارکردن با Keras معمولاً ساده است و حین کار با آن احتمالاً با هیچ مشکلی مواجه نخواهید شد. با این حال، از آنجایی که سطوح انتزاعی بسیار زیادی در بکاند دارد، دیباگینگ آن اغلب میتواند دشوار باشد. با Pytorch میتوانید راحتتر از Keras یا TensorFlow دیباگینگ کنید. فرآیند دیباگینگ در TensorFlow نیز میتواند چالش برانگیز باشد.
6.روند محبوبیت- Trends Popularity
شبکههای عصبی مبتنی بر هسته شامل لایههای کانولوشنال و کاربردی به طور گسترده توسط Keras استفاده میشوند و Keras بیشتر در شرکت هایی مانند Nvidia، Uber، Amazon، Apple و Netflix استفاده میشود. استفاده داخلی از گوگل و هم نرم افزاری که برای ثبت تصاویر به طور خودکار از آن استفاده میکند، در معروفیت آن مؤثر بوده است. تنسورفلو توسط گوگل، لینکدین، اسنپ، AMD، بلومبرگ، پی پال و کوالکام، بسیاری از شرکتهای دیگر استفاده میشود.
Keras با ماژول NN، ماژول بهینه و ماژول autograd خود از برنامه های گرافیکی پرقدرت پشتیبانی میکند و تمایز خودکار آن در شبکههای یادگیری عمیق باعث محبوبیت آن شده است. از جمله شرکتهای بزرگی که از Pytorch استفاده میکنند میتوان به فیسبوک، ولز فارگو، Salesforce، Genentech، Microsoft و JPMorgan Chase اشاره کرد.
7.دیتا بیس- DataSet
از آنجایی که نسخه اصلی، Keras سرعت پایینی داشت و برای نمونه سازی سریع طراحی شده بود این فریم ورک برای پردازش مجموعه دادههای بزرگ مناسب نیست. یکی از دلایلی که کراس در مجموعه دادههای کوچکتر به خوبی کار میکند، سرعت اجرای آن سریع است.
در حالی که اگرچه TensorFlow و PyTorch فریمورکهای سطح پایینی هستند، اما به دلیل سرعت بالایی که دارند میتوانند با مجموعه دادههای بزرگ به خوبی کار کنند. تسک هایی با کارایی بالا روی یک مجموعه داده با حجم بالا را میتوان به خوبی با این ابزارها انجام داد.
نتیجه
ما برای مقایسه این 3 فریمورک، پارامترهای مختلفی را بررسی کردیم و شاهد این بودیم که مثلاً PyTorch کاربرپسند و سادهتر است یا TensorFlow به دلیل API ناکارا چندان راضیکننده به نظر نمیرسد. از طرف دیگر درست است که Keras و TensorFlow دیوارهایی دارند که از آجر و ملات ساخته شدهاند، اما دهانههای کوچکی برای برقراری ارتباط باقی میگذارند، در حالی که PyTorch محکم به پایتون متصل است و میتوانید آن را در بسیاری از پلتفرمهای مختلف به کار بگیرید.
مقدمه ای بر یادگیری ماشینی با نوت بوک های ژوپیتر
اخیراً ، من روی نسخه ی دمو محاسبات پیشرفتهای کار می کردم که از یادگیری ماشینی برای تشخیص ناهنجاری ها در سایت یک کارخانه مورد استفاده قرار میگرفت. این نسخه دمو در واقع بخشی از طرح راه حل صنعتی هستند که در سال گذشته ارائه شده بودند. بر اساس مستندات GitHub نقشه ساخت یا بلوپرینت ها امکان اعلام مشخصاتی را که می تواند در لایه ها سازماندهی شود فراهم می کند و تمام اجزای مورد استفاده در لبه ساختارمرجع ، مانند سخت افزار ، نرم افزار ، ابزارهای مدیریت و تجهیز ابزار را مشخص می کند.
در ابتدای شروع پروژه ، من فقط درکی کلی از یادگیری ماشینی داشتم وحقیقتا دانش تخصصی انجام کار مفید با آن را نداشتم به همچنین اگرچه در مورد نوت بوک های ژوپیتر چیزهای زیادی شنیده بودم اما واقعاً نمی دانستم آنها دقیقا چی هستند و چگونه باید از آنها استفاده کرد.
از این رو مطالعه این این مقاله برای توسعه دهندگانی که می خواهند یادگیری ماشینی و نحوه انجام آن توسط نوت بوک های ژوپیتر را بفهمند، بسیار مفید خواهد بود. در این مقاله با ساخت یک مدل یادگیری ماشینی برای تشخیص ناهنجاری در داده های ارتعاش پمپ های مورد استفاده در یک کارخانه ، توسط نوت بوک های ژوپیتر آشنا خواهید شد. خوشبختانه برای مطالعه بیشتر و آشنایی با نحوه ساخت مدل های ML ، منابع بسیار زیادی در دسترس است.
نوت بوک ژوپیتر چیست؟
نوت بوک های محاسباتی به عنوان نوت بوک های آزمایشگاهی الکترونیکی برای مستندسازی رویه ها ، داده ها ، محاسبات و یافته ها مورد استفاده قرار میگیرند محیط توسعه ژوپیتر یا به اصطلاح دفترچه ژوپیتر و یا نوت بوک ژوپیتر یک محیط محاسباتی تعاملی است که یک محیط برنامه نویسی برای توسعه برنامه های کاربردی «علم داده» Data Science) ) فراهم می کند.
نوت بوک ژوپیتر کد های نرم افزاری، خروجی محاسباتی ، متن توضیحی و محتوای غنی(متنی که دارای کدهای معرفی کننده ی ایتالیک ، حروف سیاه و شکلهای دیگر حروف است) را در یک سند واحد ترکیب می کنند. نوت بوک ها امکان ویرایش و اجرای کد در مرورگر و نمایش نتایج محاسبه را در لحظه دارند. یک نوت بوک با پسوند .ipynb ذخیره می شود. پروژه نوت بوک ژوپیتر از ده ها زبان برنامه نویسی پشتیبانی می کند ، نام آن نشان دهنده پشتیبانی آن از جولیا Ju)) و پایتون Python (Py), و R است.
می توانید یک نوت بوک را با استفاده از یک سندباکس عمومی (سندباکس (Sandbox) محیطی است که معمولا برای تست بخشهای جدید یک نرم افزار یا اجرای ایمن نرم افزارها بدون اینکه محیط اصلی تحت تأثیر آن قرار بگیرد به کار میرود) یا فعال کردن روی سرور خود مانند ژوپیتر هاب امتحان کنید. ژوپیتر هاب نوت بوک هایی را برای چندین کاربر ارائه می دهد که میتواند نمونه های متعددی از سرور نوت بوک ژوپیتر تک کاربره را ایجاد ، مدیریت و پروکسی کند. در این مقاله ، ژوپیتر هاب بر روی Kubernetes اجرا شده است.
داشبورد نوت بوک ژوپیتر
هنگامی که سرور نوت بوک برای اولین بار راه اندازی می شود ، یک برگه مرورگر جدید باز می شود که داشبورد نوت بوک را نشان می دهد. داشبورد به عنوان صفحه اصلی نوت بوک های شما عمل می کند. هدف اصلی آن نمایش بخشی از سیستم فایل در دسترس کاربر و ارائه نمای کلی از هسته های در حال اجرا ، پایانه ها و خوشه های موازی است. شکل 1 یک داشبورد نوت بوک را نشان می دهد.

شکل 1: داشبورد نوت بوک.
در ادامه با بخش های اجزای داشبورد نوت بوک ها آشنا خواهید شد:
برگه فایل ها Files tab
برگه Files نمای سیستم فایل را در اختیار کاربر قرار می دهد. این نما معمولاً ریشه در پوشه ای دارد که سرور نوت بوک در آن راه اندازی شده است.
افزودن نوت بوک- Adding a notebook
یک نوت بوک جدید می تواند با کلیک روی دکمه New ایجاد شود یا با کلیک روی دکمه بارگذاری، بارگذاری شود.
برگه در حال اجرا- Running tab
برگه در حال اجرا نوت بوک هایی را که در حال حاضر برای سرور شناخته شده است را نمایش می دهد.
کار با نوت بوک ژوپیتر
هنگامی که یک نوت بوک باز می شود ، یک برگه مرورگر جدید ایجاد می شود که رابط کاربری نوت بوک را ارائه می دهد. اجزای رابط در بخشهای زیر توضیح داده شده است.
سرتیتر- Header
در بالای سند نوت بوک یک سربرگ وجود دارد که شامل عنوان دفترچه ، نوار منو و نوار ابزار است ، همانطور که در شکل 2 نشان داده شده است.

شکل 2: سرتیتر نوت بوک.
بدنه- Body
بدنه یک نوت بوک از سلول ها تشکیل شده است. سلولها را می توان به هر ترتیبی وارد و به دلخواه ویرایش کرد. محتویات سلولها در انواع زیر قرار می گیرند:
- سلولهای مارک داون Markdown : اینها حاوی متنی با قالب بندی نشانه گذاری ، توضیح کد یا حاوی سایر محتوای رسانه های غنی هستند.
- سلول های کد Code cells : اینها شامل کد اجرایی هستند.
- سلول های خام Raw cells : این موارد زمانی مورد استفاده قرار می گیرند که نیاز به افزودن متن به صورت خام ، بدون اجرا یا تغییر باشد.
کاربران می توانند سلول های نشانه گذاری و متن را بخوانند و سلول های کد را اجرا کنند. شکل 3 نمونه هایی از سلول ها را نشان می دهد.

شکل 3: نمونه هایی از سلول ها.
ویرایش و اجرای سلول
رابط کاربری نوت بوک مودال است. این بدان معناست که صفحه کلید بسته به نوع حالت نوت بوک عملکرد متفاوتی دارد. یک نوت بوک دارای دو حالت است: ویرایش و فرمان.
هنگامی که یک سلول در حالت ویرایش است ، در قسمت ویرایشگر است و دارای حاشیه سلول سبز ، همانطور که در شکل 4 نشان داده شده است . در این حالت ، شما می توانید مانند یک ویرایشگر متنی معمولی در سلول تایپ کنید.

شکل 4: یک سلول در حالت ویرایش.
هنگامی که یک سلول در حالت فرمان است ، دارای حاشیه سلول آبی است ، همانطور که در شکل 5 نشان داده شده است. در این حالت ، می توانید از میانبرهای صفحه کلید برای انجام کارهای نوت بوک و سلول استفاده کنید. به عنوان مثال ، فشار دادن Shift+Enter در حالت فرمان ، سلول فعلی را اجرا می کند.

شکل 5: یک سلول در حالت فرمان.
سلول های کد در حال اجرا
برای اجرای سلول کد:
روی هر نقطه در قسمت [] در سمت چپ بالای سلول کد کلیک کنید. با این کار سلول وارد حالت فرمان می شود.
Shift+Enter را فشار دهید یا Cell—> Run را انتخاب کنید.
سلول های کد به ترتیب اجرا می شوند. یعنی هر سلول کد تنها پس از اجرا شدن تمام سلول های کد قبل از آن اجرا می شود.
شروع کار با نوت بوک ژوپیتر
پروژه نوت بوک ژوپیتر از بسیاری از زبان های برنامه نویسی پشتیبانی می کند. ما در این مثال از IPython استفاده می کنیم. این زبان مشابه پایتون است اما تجربه تعاملی بیشتری را ارائه می دهد. برای انجام محاسبات ریاضی مورد نیاز برای یادگیری ماشین به کتابخانه های پایتون زیر نیاز دارید:
- NumPy : برای ایجاد و دستکاری بردارها و ماتریس ها.
- Pandas: برای تجزیه و تحلیل داده ها و درگیری و یا خراب کردن داده ها. پاندا داده هایی مانند فایل CSV یا پایگاه داده را می گیرد و از آن یک شی پایتون به نام DataFrame ایجاد می کند. دیتا فریم ساختار داده مرکزی در API Pandas است و شبیه صفحه گستردهای به شرح زیر است:
- DataFrame : داده ها را در سلول ها ذخیره می کند.
- یک DataFrame ستونها (معمولاً) و سطرهای شماره گذاری شده را نامگذاری کرده است.
- Matplotlib: برای تجسم داده ها.
- اسکلرن Sklern: برای یادگیری تحت نظارت و بدون نظارت. این کتابخانه ابزارهای مختلفی را برای انطباق مدل model fitting ، پیش پردازش داده ها ، انتخاب مدل و ارزیابی مدل ارائه می دهد. دارای الگوریتم ها و مدلهای یادگیری ماشین داخلی به نام برآوردگر estimators است. هر برآوردگر را می توان با استفاده از روش برازش خود بر روی برخی داده ها نصب کرد.
استفاده از نوت بوک ژوپیتر برای یادگیری ماشین
در این مقاله ما از مدل MANUela ML به عنوان نمونه نوت بوک برای بررسی اجزای مختلف مورد نیاز برای یادگیری ماشین استفاده خواهیم کرد. داده های مورد استفاده برای آموزش مدل در فایل raw-data.csv قرار دارد.
این نوت بوک از روند کاری که در شکل 6 نشان داده شده است پیروی می کند.

شکل 6: گردش کار نوت بوک برای یادگیری ماشین.
مرحله 1: داده های خام را کاوش کنید
از یک سلول کد برای وارد کردن کتابخانه های مورد نیاز پایتون استفاده کنید. سپس ، فایل داده های خام (raw-data.csv ) را به DataFrame با سری زمانی ، شناسه پمپ ، مقدار ارتعاش و برچسب نشان دهنده ناهنجاری تبدیل کنید. کد پایتون مورد نیاز در سلول 7 در شکل 7 نشان داده شده است.

شکل 7: وارد کردن کتابخانه ها و تبدیل داده های خام.
اجرای سلول یک DataFrame با داده های خام تولید می کند که در شکل 8 نشان داده شده است.

شکل 8: قاب داده با داده های خام.
اکنون DataFrame را تجسم کنید. نمودار بالا در شکل 9 زیر مجموعه ای از داده های ارتعاش را نشان می دهد. نمودار پایین داده های دارای برچسب دستی با ناهنجاری (1 = ناهنجاری ، 0 = طبیعی) را نشان می دهد. اینها ناهنجاری هایی هستند که مدل یادگیری ماشین باید آنها را تشخیص دهد.

شکل 9: تجسم داده های خام و ناهنجاری ها.
قبل از تجزیه و تحلیل، داده های خام باید تغییر شکل داده ، تمیز شوند و به فرمت های مناسب تر برای تجزیه و تحلیل تبدیل شوند. این فرایند را جمع آوری داده ها یا داده کاوی می نامند.
ما داده های سری زمانی خام را به قسمت های کوچکی تبدیل می کنیم که می تواند برای یادگیری تحت نظارت استفاده شود. شکل 10 کد نشان داده شده است.

شکل 10: ایجاد یک data frame جدید.
ما می خواهیم داده ها را به یک DataFrame جدید به قسمت های با طول 5 تبدیل کنیم. شکل 11 نمونه ای از مجموعه داده های سری زمانی را نشان می دهد.

شکل 11: نمونه ای از داده های سری زمانی.
اگر داده های نمونه خود را به قسمت هایی با طول = 5 تبدیل کنیم ، به نتایج مشابه شکل 12 می رسیم.

شکل 12: data frame جدید با قسمت ها.
اکنون با استفاده از کد شکل 13 داده های سری زمانی خود را چند قسمت میکنیم.

شکل 13: تبدیل داده ها به چند قسمت
شکل 14 داده ها را با قسمت هایی به طول 5 و برچسب در ستون آخر بررسی می کند.

شکل 14: قسمت هایی به طول 5 و برچسب در ستون آخر.
توجه: در شکل 14 ، ستون F5 آخرین مقدار داده است ، در حالی که ستون F1 قدیمی ترین داده ها برای یک قسمت معین است. برچسب L نشان می دهد که آیا ناهنجاری وجود دارد یا خیر.
داده ها اکنون برای یادگیری تحت نظارت آماده است.
مرحله 2: ویژگی و ستون های هدف
مانند بسیاری از کتابخانه های یادگیری ماشین ، Sklearn به ستون های ویژگی جداگانه (X) و هدف ( Y) نیاز دارد. مطابق شکل 15 داده های شما را به ستون های ویژگی و هدف تقسیم می کند.

شکل 15: تقسیم داده ها به ستون های ویژگی و هدف.
مرحله 3: آموزش و آزمایش مجموعه داده ها
یک عمل خوب این است که مجموعه داده های خود را به دو زیر مجموعه تقسیم کنید: یکی برای آموزش یک مدل و دیگری برای آزمایش مدل آموزش دیده.
هدف ما ایجاد مدلی است که به خوبی به داده های جدید تعمیم داده شود. مجموعه آزمایشی ما به عنوان نماینده داده های جدید عمل می کند. همانطور که در شکل 16 نشان داده شده است ما مجموعه داده ها را به 67 درصد برای مجموعه های آموزشی و 33 درصد برای مجموعه آزمایش تقسیم کردهایم.

شکل 16: تقسیم داده ها به مجموعه داده های آموزشی و آزمایشی.
ما می توانیم مشاهده کنیم که میزان ناهنجاری برای هر دو مجموعه تمرین و آزمون مشابه است. یعنی مجموعه داده ها نسبتاً مساوی تقسیم شده است.
مرحله 4: آموزش مدل سازی
ما آموزش مدل را با الگوریتم درخت تصمیمگیری طبقه بندی شده DecisionTreeClassifier انجام می دهیم. درخت تصمیم گیری یک روش یادگیری تحت نظارت است که برای طبقه بندی و رگرسیون استفاده می شود. هدف ایجاد مدلی است که ارزش متغیر هدف را با یادگیری قوانین تصمیم گیری ساده که از ویژگی های داده استنباط می شود ، پیش بینی کند.
DecisionTreeClassifier کلاسی است که طبقه بندی چند کلاسی را بر روی یک مجموعه داده انجام می دهد ، اگرچه در این مثال ما از آن برای طبقه بندی در یک کلاس واحد استفاده کرده ایم. DecisionTreeClassifier دو آرایه به عنوان ورودی می گیرد: یک آرایه X به عنوان ویژگی و یک آرایه Y به عنوان برچسب. پس از نصب ، می توان از مدل برای پیش بینی برچسب مجموعه داده های آزمایش استفاده کرد. شکل 17 کد ما را نشان می دهد.

شکل 17: آموزش مدل با DecisionTreeClassifier.
ما می توانیم ببینیم که مدل از نظر دقت نمره بالایی را کسب کرده است.
مرحله 5: مدل را ذخیره کنید
مدل را ذخیره کرده و مجدداً بارگذاری کنید تا مطمئن شوید که کار می کند ، همانطور که در شکل 18 نشان داده شده است.

شکل 18: ذخیره مدل.
مرحله 6: استنباط با مدل
اکنون که مدل یادگیری ماشین را ایجاد کرده ایم ، می توانیم از آن برای استنباط در داده های زمان واقعی استفاده کنیم.
در این مثال ، ما از Seldon برای ارائه مدل استفاده می کنیم. برای اینکه مدل ما تحت سلدون اجرا شود ، ما باید کلاسی ایجاد کنیم که متد پیش بینی داشته باشد. روش پیش بینی می تواند یک آرایه NumPy را دریافت کرده و نتیجه پیش بینی را به صورت زیر بازگرداند:
- یک آرایه NumPy
- لیستی از مقادیر
- یک رشته بایت
کد ما در شکل 19 نشان داده شده است.

شکل 19: استفاده از سلدون برای ارائه مدل یادگیری ماشین.
در نهایت همانطور که در شکل 20 نشان داده شده است ، باید آزمایش کنیم که آیا مدل می تواند ناهنجاری ها را برای لیستی از مقادیر پیش بینی کند با خیر.

شکل 20: استنتاج با استفاده از مدل.
ما می توانیم ببینیم که مدل برای نتیجه گیری نمره بالایی را کسب کرده است.
حرف اخر
برای تجربه این محیط جذاب میتوانید از طریق لینک زیر اقدام کنید:
ژوپیتر لب JupyterLab جدید منتشر شد
مفتخریم به اطلاع شما برسانیم که در حال حاضر نسخه ژوپیتر لب بتا در دسترس کاربران قرار گرفته است , رابط کاربری مبتنی بر وب نسل بعدی ژوپیتر لب برای استفاده روزانه منتشر شده است. (میتوانید از طریق Binder برای نصب آن اقدام کنید). ژوپیتر لب در حقیقت یک محیط توسعه تعاملی است که کار با نوت بوک ، کدها و دادهها را میسر و به مراتب آسانتر میکند.

روند تکامل ژوپیتر نوتبوک
پروژه ژوپیتر جهت توسعه نرمافزارهای Open Source یا منبع باز ، استانداردهای باز ( (Open standard) و خدمات محاسبات تعاملی و قابل تکرار کاربرد دارد. پروژه اصلی ژوپیتر نوت بوک در ابتدا در سال 2011 و به منظور ایجاد روایتهای محاسباتی قابل تکرار ایجاد شد. ژوپیتر نوتبوک به کاربران اجازه میدهد تا اسنادی که شامل live code هستند را با متن روایی ، معادلات ریاضی ، تجسم ، کنترلهای تعاملی و سایر خروجیهای غنی مدیریت کند و به اشتراک بگذارد. ژوپیتر همچنین بلوکهای اساسی مانند مرورگر فایل ، پایانهها و ویرایشگر متن را برای محاسبه تعاملی با دادهها ایجاد میکند.
ژوپیتر نوت بوک به دلیل رشد سریع علم داده (Data Science) ) و یادگیری ماشینی و افزایش محبوبیت نرمافزارهای منبع باز در شرکتها یا دانشگاهها بسیار محبوب شده است.
- امروزه میلیونها کاربر در بسیاری از حوزهها از علم داده و یادگیری ماشینی گرفته تا موسیقی و آموزش از ژوپیتر نوتبوک استفاده میکنند و جامعه بینالمللی ژوپیتر نوتبوک تقریباً شامل تمامی کشورهای جهان میشود.
- ژوپیتر نوتبوک در حال حاضر از بیش از 100 زبان برنامهنویسی توسعه یافته پشتیبانی میکند
- بیش از 1.7 میلیون نوت بوک عمومی ژوپیتر در GitHub میزبانی شده است. نویسندگان ژوپیتر نوتبوک را همراه با تحقیقات علمی ، مجلات دانشگاهی ، روزنامه نگاری داده ، دورههای آموزشی و کتابهای مخصوص منتشر میکنند.
ناگفته نماند که نرمافزارهای دیگر مانند اجرای کد از فایلهای متنی به صورت تعاملی با نوت بوک با چالشهایی نیز روبرو شده است و عملاً سفارشی سازی و گسترش نوت بوک ژوپیتر کلاسیک که بر اساس فناوریهای وب سال 2011 ساخته شده است کمی دشوار است.
ژوپیتر لب در دسترس است

ژوپیتر لب یک محیط توسعه تعاملی برای کار با نوت بوک ها ، کد و داده است. مهمتر از همه ، ژوپیتر لب از نوت بوک های ژوپیتر پشتیبانی کاملی میکند. علاوه بر این ، ژوپیتر لب این امکان را برای شما فراهم میکند که از ویرایشگرهای متن ، پایانهها ، نمایشگرهای داده و سایر اجزای سفارشی سازی درکنار نوت بوک ها استفاده کنید.
ژوپیتر لب سطح بالایی از یکپارچگی بین نوت بوک ها ، اسناد و فعالیتها را ایجاد میکند. مثل :
- کشیدن و رها کردن (درگ اند دراپ Drag-and-drop ) برای مرتب سازی مجدد سلولهای نوت بوک و کپی آنها بین نوت بوک ها.
- اجرای کدها به صورت تعاملی از فایلهای متنی (.py ، .R ، .md ، .tex ، و غیره)
- با اتصال یک کنسول کد به یک هسته نوت بوک میتوانید کدها را به صورت تعاملی و بدون درهم ریختگی جستجو کنید.
- امکان ویرایش فرمتهای محبوب مانند Markdown ، JSON ، CSV ، Vega ، VegaLite و موارد دیگر با پیش نمایش زنده
بیش از سه سال است که ژوپیتر لب با بیش از 11000 تعهد و 2000 نسخه از بستههای npm و پایتون در حال ساخت است. همچنین علاوه بر توسعه دهندگان اصلی ، بیش از 100 مشارکت کننده از جامعه برنامه نویسی ، به ساخت ژوپیتر لب کمک کرده اند.
برای شروع ، مستندات ژوپیتر لب را برای بررسی دستورالعملهای نصب و راهحل حتماً مطالعه کنید و یا از JupyterLab with Binder استفاده کنید. همچنین میتوانید از ژوپیتر هاب برای استفاده بهتر از ژوپیتر لب بهره بگیرید.
امکان سفارشی سازی ژوپیتر لب
ژوپیتر لب بر روی یک سیستم افزونه ساخته شده است که به شما امکان میدهد که ان را با نصب پلاگین های اضافی سفارشی سازی کنید و یا حتی آن را ارتقا دهید. در واقع ، قابلیت داخلی خود ژوپیتر نوتبوک، پایانهها، نرمافزار مدیریت فایل، سیستم منو و غیره توسط مجموعهای از پسوندهای اصلی ارائه میشود.
- همچنین پلاگین های دیگر میتوانند در موارد زیر نیز به شما کمک کنند:
- ارائه موضوعات جدید ، ویرایشگران فایل و بینندگان یا ارائهدهندگان خروجیها در نوت بوک ها.
- افزودن موارد منو ، میانبرهای صفحه کلید یا گزینههای تنظیمات پیشرفته
- ارائه یک API برای سایر برنامههای افزودنی
برنامههای افزودنی ایجاد شده توسط انجمن در GitHub با موضوع ژوپیتر اکستنشن به صورت اختصاصی برچسب گذاری شدهاند و در حال حاضر شامل نرمافزار مدیریت فایل (GeoJSON ، FASTA و غیره) ، ادغام Google Drive ، مرورگر GitHub و پشتیبانی ipywidgets است.
اکستنش های ژوپیتر لب

در حالی که بسیاری از کاربران ژوپیتر لب افزونههای اضافی را نصب میکنند، شاید برخی از شما بخواهید اکستنش اختصاصی خود را ایجاد کنید. API اکستنش ژوپیتر لب در طول سری انتشار بتا در حال تکامل است و در JupyterLab 1.0 تثبیت میشود. برای ساخت اکستنش های اختصاصی ژوپیتر لب لازم است به راهنمای توسعه دهنده ژوپیتر اکستنش و قالبهای افزونه TypeScript یا JavaScript مراجعه کنید.
PhosphorJS، یک کتابخانه جدید جاوا اسکریپت برای ایجاد برنامههای کاربردی وب با قابلیت توسعه، عملکرد بالا و رومیزی توسعه یافته برای ژوپیتر لب ساخته است که از فناوریهای جاوا اسکریپت مدرن مانند TypeScript ، React ، Lerna Yarn و webpack استفاده میکند. آزمایشهای واحد ، مستندات، استانداردهای برنامه نویسی سازگار و تحقیقات تجربه کاربری همه و همه برای ارائه برنامهای با کیفیت بالا لحاظ شده است.
حرف اخر
با قابلیت هایی جذابی که ژوپیتر لب دارد توجه همه را به خود جلب میکند . در این مقاله یکسری از ویژگی های جذاب ژوپیتر لب را با هم مرور کردیم برای اشنایی بیشتر با سایر این ویژگی ها باما همراه باشید.
10 دلیلی که شما را متقاعد میکند از JupyterLab برای کدنویسی علم داده استفاده کنید
مرور کلی
JupyterLab یک محیط کدنویسی فوق العاده برای انجام کارهای مربوط به علم داده میباشد.این 10 دلیل افراد را قانع میکند که برای کدنویسی علم داده به جای نوتبوکهای Jupyter از JupyterLab استفاده کنند.
با Jupyter اخت شدهاید؟ زمان آن رسیده که به JupyterLab روی بیاورید!
از برنامهنویسان پایتون بپرسید که کدام محیط کدنویسی را ترجیح میدهند، جواب همواره نوتبوکهای Jupyter خواهد بود. صادقانه زمانی که در مورد علم داده صحبت میکنیم Jupyter بخشی جداییناپذیر است. ما پذیرفتهایم که این بهترین محیط کدنویسی پایتون است. حتی من هم فریب این طرز فکر را خورده بودم.
اجازه دهید حرفی که چندی پیش یکی از مربیانم در حوزهی علم داده به من گفت را با شما به اشتراک بگذارم – “وقت آن رسیده که از نوتبوکهای Jupyter گذر کنیم، چیزی بهتر از آن وجود دارد”. غافلگیر شدم. بهتر از نوتبوکهای Jupyter؟ من اولین گامهای خود را در علم داده به کمک Jupyter برداشتم، چطور میتوانستم از آن عبور کنم؟
حالا محیط کدنویسی جایگزین چه هست؟ JupyterLab که ارتقا یافته است. Jupyter تا آنجا که میدانیم با ارتقاهایی که شدیدا به آن نیاز بود و با وجود تمام ویژگیهای خوب گذشته به JupyterLab تبدیل شده است و باور کنید که شما عاشق کار کردن با JupyterLab برای انجام کارهای علم داده خواهد شد.
بنابراین در این مقاله، من 10 دلیل به شما ارائه میکنم که باعث میشود بخواهید بلافاصله به JupyterLab کوچ کنید.
اگر در صنعت علم داده تازه وارد هستید یا پیش از این هیچوقت از Jupyter استفاده نکردهاید، پیشنهاد میکنم که این مقاله را تا انتها بخوانید چرا که معرفی خوبی برای نوتبوکهای Jupyter محسوب میشود. همچنین، شما باید این دورهی جذاب و رایگان در مورد ترفندها، راهنماییها و فوتوفنهای علم داده را مشاهده کنید.

فهرست مطالب
دلیل #1 – همهچیز زیر یک سقف
دلیل #2 – طرحبندی انعطافپذیر
دلیل #3 – بازآرایی سلولها
دلیل #4 – کپی کردن سلولها بین نوتبوکها
دلیل #5 – دفترچههای یکسان، دیدگاههای بیشتر
دلیل #6 – کنسولهای کد
دلیل #7 – تمها همهجا
دلیل #8 – اجرای کد از یک فایل متنی
دلیل #9 – پیشنمایش همزمان برای Markdown
دلیل#10 – تغییر آسان به نمایش کلاسیک نوتبوک
دلیل #1 – همهچیز زیر یک سقف
آیا میدانستید که نوتبوک کلاسیک Jupyter پشتیبانی برای ویرایش متن و ترمینال بعلاوهی نوتبوکهای محبوب را ارائه میدهد؟ بسیاری از دانشمندان علم داده از این نکته بیخبر هستند! اما این تقصیر ما نیست چرا که این ویژگیها یکپارچه نبوده و لذتی در استفاده از آنها وجود نداشت. صادقانه، احساس میشد که آدم با سه نرمافزار متفاوت کار میکند، نه یک نرمافزار. اما به لطف JupyterLab کار کردن با این ویژگیهای متفاوت تجربهی بسیار بهتری را برای شما به ارمغان خواهد آورد.
JupyterLab نوتبوکهای کلاسیک، ویرایشگر متن، ترمینال و نمایشگر راهنما را زیر یک سقف آورده است! این یک تجربهی یکپارچه است که شما عاشقش خواهید شد. JupyterLab نیز از دیگر فرمتهای فایل برای نمایش jpeg، pdf، CSV و دیگر فرمتها پیشتیبانی میکند.
دلیل #2 – طرحبندی انعطافپذیر
اما مشاهدهی بسیاری از این پنجرهها میتواند طاقتفرسا باشد. خب به همین دلیل است که JupyterLab با طرحبندی انعطافپذیر ارائه شده است که میتوانید فضای کاری خود را به هر نحوی که دوست دارید سازماندهی کنید. تمام آنچه که نیاز است انجام دهید کشیدن (drag)، انداختن (drop) و تغییر سایز تبها به هر نحوی که میخواهید است. این به شما اجازه میدهد که همزمان با چندین تب به آسانی کار کنید:
JupyterLab یک نوار کناری در سمت چپ که قابلیت جمع شدن دارد را ارائه میدهد که شامل برخی از تبهایی است که بیشترین استفاده را داشتهاند مثل مرورگرهای فایل، کرنلهای در حال اجرا و پالت فرمان (command palette) که کار را برای شما بسیار کارآمدتر میکند:
JupyterLab: نوار کناری
دلیل #3 – بازآرایی سلولها
به عنوان یک دانشمند علم داده، اغلب کار و نتایج خود را در نوتبوکهای Jupyter ارائه میدهم. و معمولا در آخر باید سلولهای خود را بازآرایی کنیم تا برای مخاطبان خود مفهوم باشد. در چنین وقتهایی است که آرزو میکنیم یک عامل ذاتی در Jupyter وجود داشت که به ما اجازه میداد به راحتی سلولها را هر کجا که میخواهیم بکشیم و بیندازیم (drag and drop) به جای آنکه از روش قدیمی برش و چسباندن (copy and paste) استفاده کنیم. خب اکنون در JupyterLab این قابلیت وجود دارد.
میتوانید سلول کد را بکشید و بیندازد و هر کجا که خواستید قرار دهید، که کار بازآرایی را مثل آب خوردن کرده است. اکنون کار شما مورد ستایش بیشتری قرار خواهد گرفت چرا که نوتبوکهای شما ظاهر فوقالعادهای دارد و بیش از پیش مفهومی است.
دلیل #4 – کپی کردن سلولها بین نوتبوکها
کشیدن و انداختن سلول در یک نوتبوک یک چیز است، اما انجام همین کار بین نوتبوکهای مختلف بطور کلی یک چیز دیگر است. JupyterLab به شما اجازه میدهد که سلولها را تنها با گزینهی کشیدن و انداختن از یک نوتبوک به نوتبوک دیگر کپی کنید.

دلیل #5 – نوتبوکهای یکسان، نمایشهای بیشتر
بعضی اوقات کار کردن با نوتبوکهای طولانی آزاردهنده است، مخصوصا زمانی که میخواهید بخشهای مختلف نوتبوک را بطور همزمان وارسی کنید. اینجاست که عملکرد چند نمایشی به کار میآید. اکنون میتوانید چندین نمایش از یک نوتبوک را در JupyterLab بصورت کنار هم برای مقایسه داشته باشید.
نه تنها میتوانید یک نمایش جدید ایجاد کنید، بلکه هر تغییری که در هر یک از نمایشها ایجاد کنید در تمام آنها منعکس میشود و در نوتبوک ذخیره خواهد شد! من این عملکرد را هنگام انتخاب ستونهای مشخصی از فریم داده (dataframe) کاربردی میدانم اما اسم دقیق آنها را به یاد نمیآورم. بنابراین، به جای چاپ فریمداده بصورت مکرر، فقط فریمداده را با یک نمایش جداگانه باز میکنم. با وجود این ویژگی دیگر لازم نیست کدهای تکراری را در حالیکه اطلاعات ضروری را همزمان مشاهده میکنم بنویسم – با یک سنگ دو نشان زدن!
دلیل #6 – کنسولهای کد
همهی ما کنسولهای کد را بخاطر سادگیای که ارائه میدهند دوست داریم. میخواهید قسمتی از کد را امتحان کنید یا بررسی کنید که چگونه عمل میکند؟ از کنسولهای کد استفاده کنید. آنها بخاطر تعاملی بودن جایی برای تست کردن هستند.
یکی از دلایلی که هنگام استفاده از کنسولهای کد در JupyterLab دوست دارم این است که میتوانید از آنها به عنوان log محاسباتی که در نوتبوک انجام دادهاید استفاده کنید. این ویژگی هنگامی که میخواهید به تارخچهی کد خود نگاهی بیندازید کاربردی میباشد. تمام آنچه که باید انجام دهید کلیکراست در هر جایی از نوتبوک و انتخاب New Console برای نوتبوک است. سپس در جهت کنسول جدید حرکت کرده و Show Kernel Activity را انتخاب کنید و تمام. حالا تمام logها برای نوتبوک شما در کنسول ذخیره خواهد شد.
دلیل #7 – تمها همهجا
چه کسی تمها را دوست ندارد؟ JupyterLab تم داخلی تیره برای نوتبوک دارد، چیزی که همهی ما آرزویش را دارید مخصوصا زمانی که آخر شبها زیر نور کم در حال کار کردن هستیم. اما Jupyter در اینجا متوقف نمیشود. آنها نه تنها برای ویرایشگرهای متن، بلکه برای ترمینالها هم تم دارند. آنها حقیقتا میخواهند که شما با هر آنچه که در حال کار کردن با آن هستید راحت باشید.
دلیل #8 – اجرای کد از یک فایل متنی
میخواهید یک فایل متنی را با بخشی از یک کد که در آن نوشته شده است به اشتراک بگذارید؟ قبل از ارسال دوباره بررسی کنید – یک کد باگ دار تجربهی پایداری را به ارمغان نمیآورد. JupyterLab به شما اجازه میدهد که برای فایل متنی یک کنسول بسازید. از اینجا شما میتوانید به سادگی بخشی از کد خود را در فایل متنی هایلایت کنید، Shift + Enter را فشار داده و بررسی کنید که کار میکند یا نه:
دلیل #9 – پیشنمایش همزمان برای Markdown
اغلب اوقات میخواهید پروژهی علم دادهی خود را با گروه کاری به اشتراک بگذارید و در این مواقع است که برای مستند سازی کار خود به فایل markdown روی میآورید.
فایلهای markdown بخاطر تمام انعطافپذیری و عملکردی که ارائه میدهند عالی هستند. اما در Jupyter کار کردن با آنها کمی خستهکننده میشود، هنگامی که باید سلول خود را دوباره و دوباره اجرا کنید فقط برای اینکه ببینید فایل شما چطور به نظر میرسد یا اینکه آیا ترکیب درست را به کار بردهاید یا نه.
برای غلبه بر این مشکل، JupyterLab به شما اجازه میدهد که فایل markdown خود را همزمان با کار کردن با آن از پیش رویت کنید. این نه تنها بسیار کارآمدتر است بلکه همچنین کار کردن با یک فایل markdown را لذتبخش میکند.
دلیل #10 – تغییر آسان به نمایش کلاسیک نوتبوک
برای اضافه کردن این ویژگی آخر کمی بیمیل بودم چون نمیخواهم به کار کردن با Jupyter برگردید. اما میفهمم که برای برخی از شما سخت است که از چیزی که سفر علم دادهی خود را با آن شروع کردهاید دل بکنید.
بنابراین، برای روزها که دلتنگ کار کردن با نوتبوکهای خوب و قدیمی Jupyter میشوید، راهی خوب و آسان برای بازگشت به محیط کاری قدیمی وجود دارد. تنها کاری که باید انجام دهید این است که /lab در URL را با /tree جایگزین کنید.
حرف اخر
در این مقاله ما متوجه ویژگی های منحصر به فرد ژوپیتر لب از جمله تجربه یک پارچه، طرح بندی انعطاف پذیر، بازآرایی سلولها، کپی کردن سلول ها بین نوت بوک ها و … اشنا شدیم تا به انتخاب بهتری برسیم .
آیا در یادگیری عمیق به GPU احتیاج داریم؟
به نظر میرسد در یادگیری عمیق همه استفاده از GPU را پیشنهاد میکنند، اما GPU چیست؟ میتوان بدون آن یادگیری عمیق انجام داد؟ و اینکه دقیقا به درد چه کسی میخورد؟
هر متخصص علم داده یا علاقهمند به یادگیری ماشین که تلاش میکند عملکرد مدل های درحال آموزش را فراهم کند در یک مقطعی از زمان به سرش میزند که درجه های مختلفی از تاخیر(lag) پردازش را تجربه کند. کار هایی که چند دقیقه طول میکشند و آموزش کمتری احتیاج دارند ممکن است درصورت بزرگتر شدن مجموعه داده چندین ساعت طول بکشد (یادر برخی موارد چندین هفته).
اما GPU ها چه هستند؟ چه تفاوتی با CPU دارند؟ آیا من در پروژه های یادگیری عمیق خود به آن احتیاج دارم؟
اگر تا به حال این سوالات را از خود پرسیده اید، به خواندن ادامه دهید…..
هر متخصص علم داده یا علاقه مند به یادگیری حداقل یک بار درطول زندگی خود شنیده است که یادگیری عمیق به سخت افزار زیادی نیاز دارد. برخی افراد روز ها برای آموزش مدل های ساده یادگیری ماشین روی لپتاپ خود وقت صرف می کنند(عموما بدون GPU) باعث میشود این تصویر پدید آید که انجام یادگیری عمیق به سیستم های بزرگ احتیاج دارد. این اتفاق باعث ایجاد افسانه ای پیرامون یادگیری عمیق شده است که مانعی برای تازه واردها ایجاد میکند. در هر کتابی که در سالهای اخیر به آن رجوع کرده ام مولف همیشه به نکته زیر اشاره کرده است:
یادگیری عمیق برای تداوم عملکرد به قدرت محاسبه بسیار زیادی نیاز دارد.
اما من مرکز داده ای در اختیار ندارم و زمانی که اولین مدل یادگیری عمیق خود را روی یک لب تاب بزرگ ساختم، میدانستم که این اتفاق نظر یا اشتباه است یا تنها بخشی ازحقیقت را نشان میدهد. نیازی نیست که کل گوگل را زیر و رو کنید تا به یک متخصص یادگیری عمیق تبدیل شوید.

چرا برای یادگیری عمیق به سخت افزار بیشتر نیاز داریم؟
برای هرشبکه عصبی، فاز آموزش مدل یادگیری عمیق به منابع بسیاری نیاز دارد. در هنگام آموزش، شبکهی عصبی دادهی ورودی را دریافت میکند، سپس در لایههای پنهان با استفاده از وزنههایی که هنگام آموزش تنظیم شدهاند پردازش میشوند و بعد یک پیشبینی بیرون میدهد. وزنهها برای یافتن الگوها تنظیم شدهاند تا پیشبینیهای بهتری انجام دهند. همهی این عملیاتها اساسا ضرب ماتریسها هستند. یک ضرب ماتریس ساده را میتوان به کمک عکس زیر نمایش داد: در یک شبکهی عصبی، (ما میتوانیم) آرایهی اول درونداد شبکهی عصبی است در حالیکه آرایهی دوم وزن آن را تشکیل میدهد.
آسان است، نه؟
بله، اگر شبکهی عصبی شما حدودا 10,000 یا حتی 100,000 پارامتر داشته باشد. یک کامپیوتر همچنان میتواند این کار را در عرض چند دقیقه یا حداکثر چند ساعت انجام دهد. اما اگر شبکهی عصبی شما بیش از 10 میلیارد پارامتر داشت چه؟ سالها طول میکشد تا با استفاده از رویکرد سنتی این نوع سیستمها را آموزش داد. کامپیوتر شما احتمالا پیش از آنکه به یک دهم راه رسیده باشید، از کار میافتد.
به گفتهی یک دانشجوی دکترا در دانشگاه رایس: “یک شبکهی عصبی که درونداد جستجوی را دریافت میکند و از 100 میلیون برونداد یا محصول پیشبینی میکند بطور معمول به 2,000 پارامتر برای هر محصول ختم میشود. پس اگر آنها را ضرب کنید، اکنون لایهی نهایی شبکهی عصبی 200 میلیارد پارامتر خواهد داشت. و من کار پیچیدهای انجام ندادهام. من دارم در مورد یک مدل شبکهی عصبی بسیار ساده صحبت میکنم.”
راهی برای آموزش سریعتر مدلهای یادگیری عمیق
مدلهای یادگیری عمیق میتوانند با پیش بردن همزمان تمام عملیاتها در یک زمان به جای آنکه بصورت متوالی انجام شوند، سریعتر آموزش ببینند. شما میتوانید با استفاده از یک GPU برای آموزش مدل خود به این هدف دست پیدا کنید. یک GPU(واحد پردازش گرافیکی) یک پردازشگر تخصصی است با حافظهای اختصاصی است که بطور قراردادی عملیاتهای ممیز شناور که برای رندر کردن گرافیکها مورد نیاز است را انجام میدهد. به بیان دیگر، یک پردازشگر با تراشهای واحد است که برای محاسبات گستردهی گرافیکی و ریاضی استفاده میشود که در نتیجه سیکلهای واحد پردازش مرکزی (CPU) را برای کارهای دیگر آزاد میکند.
تفاوت عمده بین GPUها و CPUها این است که GPUها در مقایسه با CPUها به تناسب ترانزیستورهای بیشتری را به واحدهای حساب و منطق و تعداد کمتری را به حافظهی میانجی (caches) و کنترل جریان اختصاص میدهند. در حالیکه CPUها بیشتر برای مشکلاتی که به تجزیه یا تحلیل منطق پیچیده در کد نیاز دارند کاربردی است، GPUها به منظور رندر کردن گرافیکی بازیهای کامپیوتری طراحی شدهاند که بعدها پیشرفت یافتند تا محاسبات هندسی دیگر را سرعت بخشند (بطور مثال، تبدیل کردن چندضلعیها یا خطوط قائم دوار به سیستمهای مختصات مختلف مثل 3D). یک GPU کوچکتر از یک CPU است اما قادر است در مقایسه با CPU هستههای منطقی بیشتری داشته باشد (واحدهای حساب و منطق یا ALUها، واحدهای کنترل و حافظهی میانجی (caches)).
در نمودار بالا میتوانید ببینید که GPUها (قرمز و سبز) میتوانند بطور نظری 10 تا 15 برابر عملهای CPUها (آبی) را انجام دهند. این افزایش سرعت در عمل نیز تا حد زیادی قابل اعمال است. اگر CPU را مازراتی در نظر بگیرید، GPU را میتوان به عنوان یک کامیون بزرگ در نظر گرفت.
CPU(مازراتی) میتوانند مقادیر کمی از پکیجها (3 تا 4 مسافر) را در RAM با سرعت جا به جا کند در حالیکه که یک GPU(کامیون) آهستهتر است اما میتوانند مقادیر بیشتری از حافظه (حدودا 20 مسافر) را در یک نوبت جا به جا کند. این مفهوم در فیلم بطور مختصر بیان شده است:
چرا برای یادگیری عمیق GPUها را انتخاب کنیم؟
GPUها برای آموزش مدلهای هوش مصنوعی و یادگیری عمیق بهینهسازی شدهاند چرا که میتوانند چندین محاسبه را بطور همزمان پردازش کنند. آنها تعداد زیادی هسته دارند که اجازه میدهد محاسبهی چندین پردازش موازی بهتر صورت بپذیرد. بعلاوه، محاسبات در یادگیری عمیق با مقادیر بسیاری داده سر و کار دارند که باعث میشود پهنای باند حافظهی GPU مناسبتر باشد. تعدادی پارامتر تعیین کننده برای معین کردن استفاده از CPU یا GPU برای آموزش مدل یادگیری عمیق وجود دارد:
پهنای باند حافظه
یکی از دلایل عمده که GPUها برای محاسبه سریعتر از CPU هستند، پهنای باند میباشد. با وجود مجموعه دادههای بزرگ، CPU حافظهی زیادی را هنگام آموزش مدل اشغال میکند. محاسبهی کارهای بزرگ و پیچیده تعداد زیادی چرخهی ساعت در CPU را در برمیگیرد _ CPU کارها را به ترتیب انجام میدهد و نسبت به همتای خود یعنی GPU هستههای کمتری دارد. از سوی دیگر، GPU مستقل دارای حافظهی اختصاصی VRAM (Video RAM) است. بنابراین حافظهی CPU میتواند برای انجام کارهای دیگر به کار رود.
اندازهی مجموعه داده
آموزش یک مدل در یادگیری عمیق نیازمند مجموعه دادهی بزرگی است، از این رو از لحاظ حافظه عملیاتهای محاسباتی بسیاری را در بر دارد. هر چقدر که محاسبات بیشتر باشد، مزیت GPU نسبت به CPU بیشتر احساس میشود.
بهینهسازی
بهینهسازی کارها در CPU بسیار آسانتر است. هستههای CPU کمتر اما قدرتمندتر از هزاران هستهی GPU هستند. هر هستهی CPU میتواند روی دستورالعملهای مختلف (معماری MIMD) کار کند، در حالیکه هستههای GPU که عموما در در بلوکهای 32هستهای مرتب شدهاند، دستورالعملهای مشابه را در یک زمان مشخص بصورت موازی انجام میدهد (معماری SIMD). این موازی سازی در شبکههای عصبی متراکم با توجه به زحمتی که در بر دارند، بسیار مشکل است. از این رو، اجرای تکنیکهای بهینهسازی پیچیده در GPU در مقایسه با CPU دشوارتر است.
آیا باید از GPU استفاده کنم؟
در جواب به این سوال مثل تمام پروژههای علم داده باید گفت که بستگی دارد. روابطی هست بین سرعت، اعتمادپذیری و هزینه که باید در نظر گرفته شود.
1. اگر شبکهی عصبی شما تا حدودی در ابعاد کوچک باشد، میتوانید آن را بدون GPU انجام دهید.
2. اگر شبکهی عصبی شما محاسبات زیادی را شامل صدها هزار پارامتر در بربگیرد، ممکن است بخواهید سرمایهگذاری نسبت به GPU را در نظر بگیرید.
طبق یک قاعدهی کلی، GPUها برای یادگیری ماشین امنتر هستند چون در باطن مدل در حال آموزش علم داده شامل محاسبات ماتریسی ساده است و اگر این محاسبات بصورت موازی انجام شوند، سرعت هر یک ممکن است به میزان زیادی بهبود پیدا کند.
نمونههای GPUی ابری
باید GPUهای ابری را نیز در نظر داشته باشید. اگر نمیخواهید تعدادی GPUی گران قیمت بخرید، میتوانید در صورت تقاضا از GPUهای کمپانیهایی با فضای ابری استفاده کنید. در این صورت میتوانید در هزینههای تهیهی سختافزار صرفه جویی کرده و از همه بهتر اینکه چندان گران قیمت نیستند، هزینهها میتواند کمتر از 0.25 دلار برای هر ساعت استفاده از آنها باشد. زمانی که کارتان تمام شد، یادتان باشد که نمونهی ابری خود را ببندید.
شما یک کامپیوتر یا سرور خارجی را اجاره میکنید، چیزی نیست که بطور مستقل آن را اجرا کنید. تنها بستن مرورگر یا خاموش کردن کامپیوترتان کافی نیست، این کارها تنها ارتباط بین دستگاه شما و این سرور از راه دور را قطع میکنند و چیزی را که شما دارید برای آن هزینه میکنید را نمیبندد. در غیر اینصورت، شما برای تمام زمانی که این سرور کار میکند متحمل هزینه میشوید و با دیدن یک صورت حساب سنگین غافلگیر خواهید شد!
CPUها برای محاسبات واحد و پیچیدهتر بصورت ترتیبی عالی هستند، در حالیکه GPUها در انجام تعداد زیادی محاسبهی ساده بصورت موازی بهتر عمل میکنند. نمونههای محاسبهی GPU عموما دو تا سه برابر هزینهی نمونههای محاسبهی CPU میباشید، بنابراین پیشنهاد میکنم از CPUها استفاده کنید، مگر اینکه در آموزش مدلهای مبتنی بر GPUی خود عملکرد دو تا سه برابری مشاهده کنید.
حرف اخر
ما در مقاله قبل فهمیدیم GPU چیست و این مقاله ما را بیشتر با دنیای جذاب GPU آشنا کرد.و به عنوان محصولی جدید اهمیت بالایی در استفاده ما دارد
GPU چیست ؟ و چه تفاوتی با CPU دارد؟
GPU مخفف Graphics Processing Unit و به معنای واحد پردازش گرافیکی می باشد.
مسئولیت اصلی این واحد در گذشته تضمین نمایش محتویات روی صفحه نمایش بوده است. اما امروزه GPU علاوه بر اینکه ابزاری اختصاصی برای رندر کردن گرافیکی است، در کلیه پردازشها و محاسبات گرافیکی سنگین در کامپیوترهای شخصی، ایستگاههای کاری، سرورهای پردازشی و یا کنسول های بازی مورد استفاده قرار می گیرد.
مطرح شدن GPUها به عنوان پردازندهای همهمنظوره، قدرت رایانهرومیزی را به پای یک ابررایانه ساده میرساند، زیرا این پردازندهها بیش از ۱۶ هسته دارند. بدونشک آینده در دست برنامههایی است که مخصوص GPUها به صورت موازی نوشته شدهاند.
تفاوت CPU و GPU
در نگاه اول CPU و GPU هر دو به عنوان پردازنده شناخته می شوند. در معماری CPU هسته های پردازشی به گونه ای طراحی شده اند که پردازش داده های پیچیده در سریع ترین زمان ممکن و به صورت سری انجام شوند، از این رو تعداد هسته ها محدود (حداکثر 50 عدد) و قدرت آن ها افزایش پیدا کرده است. با افزایش پیچیدگی الگوریتمهای گرافیکی، نیاز به توسعه سختافزارها و محیطهای برنامهنویسی با انعطافپذیری بیشتری به وجود آمد. در نتیجه این امر سختافزارهایی توسعه یافتند که در آنها قابلیت برنامهنویسی توسط کاربر ایجاد شد.
این در حالیست که GPU از تعداد هسته بیشتری (بیش از 4000 عدد) تشکیل شده است و میتواند تعداد زیادی پردازش را به صورت موازی انجام دهد. اگر CPU را به یک ماشین مسابقهای تشبیه کنیم، GPU یک کامیون حمل بار است.
وجود پهنای باند بیشتر در GPU در کنار تکنولوژیهای بهینه سازی پردازی مانند CUDA سبب شده است که امکان انجام پردازشهای سنگین مانند شبیهسازیهای سهبعدی، هوش مصنوعی، یادگیری عمیق و … با قدرت بیشتری انجام شوند.
پردازش حجم بالایی از اطلاعات به صورت موازی علاوه بر افزایش سرعت محاسبات باعث خواهد شد تا کاهش هزینه عملیاتی با استفاده از GPU به شکل چشم گیری کاهش پیدا کند.
مزایای استفاده از پردازنده گرافیکی
- اجرای سریعتر برخی الگوریتمها از ۱۰ تا ۱۰۰ برابر
- افزایش تعداد هستهها
- دستیابی به توانهای محاسباتی بالا
- کارایی بسیار بالا
- استفاده از محاسبات ناهمگن
- کاهش استفاده از برق
- کاهش هزینه نگهداری
- کمترین هزینه برای محاسبات
- قابلیت برنامهپذیری بالا
جامعه هدف GPU (مشتریان سرویس)
- دانشگاهها
- شتاب دهندهها و استارتاپهای هوش مصنوعی
- سازمانهای بزرگ (مانند بانکها و ارگان نظامی، راهنمایی رانندگی)
- تولیدکنندههای بازیهای گرافیکی
- پژوهشگران علوم داده و یادگیری ماشین
- شرکتهای حوزه تجارت الکترونیک و پردازش تصویر
حوزه های استفاده GPU
- کلان دادهها
- شبیه سازی
- اینترنت اشیا
- یادگیری ماشین
- انالیز تصاویر پزشکی
- هوش مصنوعی
- رندرینگ تصویر
- پردازش تصویر
انواع کارتهای GPU و مقایسهشان
GeForce RTX 3090
GeForce RTX 3090 یک کارت گرافیک پیشرفته مبتنی بر معماری Ampere است. این کارت گرافیک در بردارنده معمار نسل دوم RTX است که عملکرد برای رهگیری پرتو و انجام وظایف هوشمصنوعی را دو برابر می کند. کارت گرافیک جدید شامل ۱۰۴۹۶ هسته CUDA و ۲۴ گیگابایت حافظه GDDR6X است که امکانات کاملاً جدیدی را در یادگیری ماشین و رندرینگ باز می کند.
کارتهای گرافیک RTX 3090 برای موارد زیر مناسب است:
- مدل سازی سه بعدی
- یادگیری عمیق
- محاسبات با کارایی بالا (HPC)
پردازنده گرافیکی: نسل دوم معماری RTX
حافظه: ۲۴ گیگابایت GDDR6X
تعداد هستههای کودا: ۱۰۴۹۶
پهنای باند حافظه: ۹۳۶ گیگابایت در ثانیه
GeForce RTX 2080Ti
کارت گرافیک های GeForce RTX از معماری Turing و پلتفرم کاملاً جدید گرافیکی RTX پشتیبانی میکنند. اینها عملکردی تا شش برابر کارتهای گرافیک نسل قبل را به شما میدهند و به شما امکان می دهند با قدرت پردازشهای هوش مصنوعی و یا مدلهای سهبعدی خود را انجام دهید.
کارت های گرافیک RTX 2080Ti برای موارد زیر مناسب است:
- مدل سازی سه بعدی
- یادگیری عمیق
- محاسبات با کارایی بالا (HPC)
پردازنده گرافیکی: نسل اول معماری RTX
حافظه: ۱۴ گیگابایت GDDR6X
تعداد هستههای کودا: ۴۳۵۲
پهنای باند حافظه: ۶۱۶ گیگابایت در ثانیه
NVIDIA Tesla V100
NVIDIA Tesla V100 کارآمدترین پردازنده گرافیکی، مبتنی بر معماری NVIDIA Volta میباشد. در این کارت گرافیک با اتصال به فناوری NVLink، ظرفیت پردازشی ۱۶۰ گیگابایت بر ثانیه را فراهم می کند که به شما امکان می دهد مجموعه ای از مشکلها، از رندرینگ و محاسبات با کارایی بالا گرفته تا آموزش الگوریتمهای هوش مصنوعی را حل کنید.
کارت گرافیک Tesla V100 می تواند برای هر هدفی استفاده شود.
کارت گرافیک Tesla V100 برای موارد زیر مناسب است:
- یادگیری عمیق
- رندرینگ
- محاسبات با کارایی بالا (HPC)
پردازنده گرافیکی: معماری Volta GV100
حافظه: ۱۶ گیگابایت HBM2
تعداد هستههای کودا: ۵۱۲۰
پهنای باند حافظه: ۹۰۰ گیگابایت در ثانیه
NVIDIA Tesla K80
یک کارت گرافیک حرفه ای توسط NVIDIA ارائه شده بود که براساس پردازنده گرافیکی GK210 ساخته شده است. در این کارت گرافیک دو پردازنده گرافیکی برای افزایش کارایی ترکیب شده است. انویدیا حافظه 24 گیگابایتی GDDR5 را با تسلا K80 ارائه کرده است، که با استفاده از یک رابط حافظه 384 بیتی در هر کارت گرافیک به هم متصل می شوند (هر کارت گرافیک ۱۲.۲۸۸ مگابایت را مدیریت می کند).
کارت گرافیک Tesla K80 برای موارد زیر مناسب است:
- رندرینگ
- یادگیری عمیق
- استقرار مدلهای هوش مصنوعی
پردازنده گرافیکی: معماری Kepler 2xGK120
حافظه: ۲۴ گیگابایت GDDR5
تعداد هستههای کودا: ۴۹۹۲
پهنای باند حافظه: ۲۴۰ گیگابایت در ثانیه