دوره حرفه‌ای تحلیل کلان داده‌ها‌ درHadoop&spark

کد دوره: BD-1901

مدت دوره: 24 ساعت
مخاطب دوره: دانشجویان، پژوهشگران و متخصصان علاقه منده به حوزه داده
دوره های پیش نیاز: داده کاوی در Python . مبانی یادگیری ماشین
مدرسین دوره: حسن احمدخانی

دستاورد دوره

شرکت کنندگان در این دوره با اکوسیستم هادوپ و اسپارک آشنا شده و می توانند مهارت های تحلیلی خود را بر بستر داده های کلان با حجم، سرعت و تنوع بالا به کار گرفته و از قابلیت های هادوپ و اسپارک جهت هندل کردن فرایندهای تحلیلی خود استفاده نمایند.

محتوای دوره

1- مقدمه و معرفی

انواع داده
پایگاه داده های رابطه ای و انبارهای داده OLTP / OLAP
فرایندهای ETL و ELT چیست؟
محاسبات توزیع شده و ذخیره سازی توزیع شده به چه معناست؟
پایگاه داده های No-SQL چیست و چرا استفاده می شود؟
کلان داده چیست؟
مسائل پایگاه داده ها با داده های کلان!؟
منابع کلان داده ها
داده های جریانی و پردازش جریانی به چه معناست؟

2- معرفی Apache Hadoop و اکوسیستم هادوپ

مروری بر آپاچی هادوپ
پردازش داده
ذخیره فایل در آپاچی هادوپ
عناصر کلاستر در آپاچی هادوپ
معماری HDFS و کاربرد آن
پردازش توزیع شده بر روی یک کلاستر هادوپ
معماری YARN و روش کار با آن
مروری بر مدل پردازشی Map-Reduce

3- مروری بر اسپارک

قابلیت های اسپارک
اکوسیستم اسپارک
عناصر اصلی اسپارک
کلاسترها و فایلها در اسپارک
مثالهای رایج از کاربرد آپاچی اسپارک

4- هسته اسپارک

معرفی و مروری بر RDD
منابع داده ای RDD
ایجاد و ذخیره سازی RDD ها و عملیات مختلف مربوط به آن
نوشتن یک برنامه اسپارک
ساخت و اجرا و توسعه یک برنامه اسپارک
رابط کاربری وب برای برنامه اسپارک
کانفیگ کردن برنامه

5- Spark SQL و Data Frame

کاربرد Spark SQL، Data Frame و Data Set
خواندن و نوشتن داده در Spark SQL
مفهوم Data Frame, Data Set و SQL API
بهینه سازی Catalyst Query
فرایند ETL و ELT در اسپارک
ساخت دیتافریم ها
تبدیل بین دیتافریم ها و RDD ها
کوئری زدن با دیتافریم
کوئری زدن با SQL
الحاق (Join) کردن دیتافریم ها
مفهوم Caching
مصورسازی

6- Spark Machine Learning

الگوریتم های تکرار شونده در آپاچی اسپارک
Built-in Featurizing & Algorithms
Spark ML and MLlib Pipeline API
NLP/Text Classification with Logistic Regression
Cross-Validation and Grid Search for Hyperparameter Tuning
شاخص های ارزیابی
خوشه بندی با الگوریتم K-Means
استراتژی های پارتیشن بندی داده
شبکه های عصبی
یکپارچه سازی اسپارک با Scikit-learn

7- Spark Structured Streaming

Introduction Structured Streaming
Streaming Sources and Sinks
Structured Streaming APIs
Windowing & Aggregation
Check pointing
Watermarking
Reliability and Fault Tolerance

برای مشاهده برنامه زمانی این دوره در تقویم آموزشی دایکه کلیک کنید.

اطلاعیه مهم: کلیه کلاس های گروه دایکه از 22 فروردین ادامه خواهد یافت و کانال هماهنگی موقت در پلتفرم "بله" با آیدی dayche@ در دسترس می باشد.

دوره حرفه‌ای تحلیل کلان داده‌ها‌ درHadoop&spark

کد دوره: BD-1901

دستاورد دوره

محتوای دوره

شرکت ندای کهن پرداز . گروه دایکه

تاسیس: ۱۳۹۱ . شماره ثبت: ۴۳۱۵۸۴
تهران، بزرگراه حکیم، بزرگراه ستاری، پیامبر مرکزی، جواهریان، شماره ۱۶
(مراجعه حضوری با هماهنگی قبلی)
تلفن: ۹۶۱۲۲-۹۱۰-۰۲۱

اطلاعیه مهم: کلیه کلاس های گروه دایکه از 22 فروردین ادامه خواهد یافت و کانال هماهنگی موقت در پلتفرم "بله" با آیدی dayche@ در دسترس می باشد.

کد دوره: BD-1901

دستاورد دوره

محتوای دوره

شرکت ندای کهن پرداز . گروه دایکه

تاسیس: ۱۳۹۱ . شماره ثبت: ۴۳۱۵۸۴ تهران، بزرگراه حکیم، بزرگراه ستاری، پیامبر مرکزی، جواهریان، شماره ۱۶ (مراجعه حضوری با هماهنگی قبلی) تلفن: ۹۶۱۲۲-۹۱۰-۰۲۱

ورود به حساب کاربری

ساخت حساب کاربری

تاسیس: ۱۳۹۱ . شماره ثبت: ۴۳۱۵۸۴
تهران، بزرگراه حکیم، بزرگراه ستاری، پیامبر مرکزی، جواهریان، شماره ۱۶
(مراجعه حضوری با هماهنگی قبلی)
تلفن: ۹۶۱۲۲-۹۱۰-۰۲۱