امروزه به دلیل رشد فزاینده علم و تکنولوژی، داده های تولید شده در سازمانها هم فراتر از ساختار معمول خود رفته و با سرعت و تنوع بسیار بالا و در اندازه های خیلی کلانی تولید می شوند. بهمین خاطر دانشمندان داده نیز می بایست خود را به ابزارهای اختصاصی این داده ها تجهیز کرده و توانایی تحلیل این نوع داده ها را داشته باشند.
کد دوره: BD-1901
- مدت دوره: 24 ساعت
- مخاطب دوره: دانشجویان، پژوهشگران و متخصصان علاقه منده به حوزه داده
- دوره های پیش نیاز: داده کاوی در Python . مبانی یادگیری ماشین
- مدرسین دوره: حسن احمدخانی
دستاورد دوره
شرکت کنندگان در این دوره با اکوسیستم هادوپ و اسپارک آشنا شده و می توانند مهارت های تحلیلی خود را بر بستر داده های کلان با حجم، سرعت و تنوع بالا به کار گرفته و از قابلیت های هادوپ و اسپارک جهت هندل کردن فرایندهای تحلیلی خود استفاده نمایند.
محتوای دوره
1- مقدمه و معرفی
- انواع داده
- پایگاه داده های رابطه ای و انبارهای داده OLTP / OLAP
- فرایندهای ETL و ELT چیست؟
- محاسبات توزیع شده و ذخیره سازی توزیع شده به چه معناست؟
- پایگاه داده های No-SQL چیست و چرا استفاده می شود؟
- کلان داده چیست؟
- مسائل پایگاه داده ها با داده های کلان!؟
- منابع کلان داده ها
- داده های جریانی و پردازش جریانی به چه معناست؟
2- معرفی Apache Hadoop و اکوسیستم هادوپ
- مروری بر آپاچی هادوپ
- پردازش داده
- ذخیره فایل در آپاچی هادوپ
- عناصر کلاستر در آپاچی هادوپ
- معماری HDFS و کاربرد آن
- پردازش توزیع شده بر روی یک کلاستر هادوپ
- معماری YARN و روش کار با آن
- مروری بر مدل پردازشی Map-Reduce
3- مروری بر اسپارک
- قابلیت های اسپارک
- اکوسیستم اسپارک
- عناصر اصلی اسپارک
- کلاسترها و فایلها در اسپارک
- مثالهای رایج از کاربرد آپاچی اسپارک
4- هسته اسپارک
- معرفی و مروری بر RDD
- منابع داده ای RDD
- ایجاد و ذخیره سازی RDD ها و عملیات مختلف مربوط به آن
- نوشتن یک برنامه اسپارک
- ساخت و اجرا و توسعه یک برنامه اسپارک
- رابط کاربری وب برای برنامه اسپارک
- کانفیگ کردن برنامه
5- Spark SQL و Data Frame
- کاربرد Spark SQL، Data Frame و Data Set
- خواندن و نوشتن داده در Spark SQL
- مفهوم Data Frame, Data Set و SQL API
- بهینه سازی Catalyst Query
- فرایند ETL و ELT در اسپارک
- ساخت دیتافریم ها
- تبدیل بین دیتافریم ها و RDD ها
- کوئری زدن با دیتافریم
- کوئری زدن با SQL
- الحاق (Join) کردن دیتافریم ها
- مفهوم Caching
- مصورسازی
6- Spark Machine Learning
- الگوریتم های تکرار شونده در آپاچی اسپارک
- Built-in Featurizing & Algorithms
- Spark ML and MLlib Pipeline API
- NLP/Text Classification with Logistic Regression
- Cross-Validation and Grid Search for Hyperparameter Tuning
- شاخص های ارزیابی
- خوشه بندی با الگوریتم K-Means
- استراتژی های پارتیشن بندی داده
- شبکه های عصبی
- یکپارچه سازی اسپارک با Scikit-learn
7- Spark Structured Streaming
- Introduction Structured Streaming
- Streaming Sources and Sinks
- Structured Streaming APIs
- Windowing & Aggregation
- Check pointing
- Watermarking
- Reliability and Fault Tolerance
برای مشاهده برنامه زمانی این دوره در تقویم آموزشی دایکه کلیک کنید.