مشاوره رایگان

امروزه به دلیل رشد فزاینده علم و تکنولوژی، داده های تولید شده در سازمانها هم فراتر از ساختار معمول خود رفته و با سرعت و تنوع بسیار بالا و در اندازه های خیلی کلانی تولید می شوند. بهمین خاطر دانشمندان داده نیز می بایست خود را به ابزارهای اختصاصی این داده ها تجهیز کرده و توانایی تحلیل این نوع داده ها را داشته باشند.

کد دوره: BD-1901

مباحث ویژه علوم داده - گروه داده کاوی دایکه

دستاورد دوره

شرکت کنندگان در این دوره با اکوسیستم هادوپ و اسپارک آشنا شده و می توانند مهارت های تحلیلی خود را بر بستر داده های کلان با حجم، سرعت و تنوع بالا به کار گرفته و از قابلیت های هادوپ و اسپارک جهت هندل کردن فرایندهای تحلیلی خود استفاده نمایند.

محتوای دوره

1- مقدمه و معرفی

  • انواع داده
  • پایگاه داده های رابطه ای و انبارهای داده OLTP / OLAP
  • فرایندهای ETL و ELT چیست؟
  • محاسبات توزیع شده و ذخیره سازی توزیع شده به چه معناست؟
  • پایگاه داده های No-SQL چیست و چرا استفاده می شود؟
  • کلان داده چیست؟
  • مسائل پایگاه داده ها با داده های کلان!؟
  • منابع کلان داده ها
  • داده های جریانی و پردازش جریانی به چه معناست؟

2- معرفی Apache Hadoop و اکوسیستم هادوپ

  • مروری بر آپاچی هادوپ
  • پردازش داده
  • ذخیره فایل در آپاچی هادوپ
  • عناصر کلاستر در آپاچی هادوپ
  • معماری HDFS و کاربرد آن
  • پردازش توزیع شده بر روی یک کلاستر هادوپ
  • معماری YARN و روش کار با آن
  • مروری بر مدل پردازشی Map-Reduce

3- مروری بر اسپارک

  • قابلیت های اسپارک
  • اکوسیستم اسپارک
  • عناصر اصلی اسپارک
  • کلاسترها و فایلها در اسپارک
  • مثالهای رایج از کاربرد آپاچی اسپارک

4- هسته اسپارک

  • معرفی و مروری بر RDD
  • منابع داده ای RDD
  • ایجاد و ذخیره سازی RDD ها و عملیات مختلف مربوط به آن
  • نوشتن یک برنامه اسپارک
  • ساخت و اجرا و توسعه یک برنامه اسپارک
  • رابط کاربری وب برای برنامه اسپارک
  • کانفیگ کردن برنامه

5- Spark SQL و Data Frame

  • کاربرد Spark SQL، Data Frame و Data Set
  • خواندن و نوشتن داده در Spark SQL
  • مفهوم Data Frame, Data Set و  SQL API
  • بهینه سازی Catalyst Query
  • فرایند ETL و ELT در اسپارک
  • ساخت دیتافریم ها
  • تبدیل بین دیتافریم ها و RDD ها
  • کوئری زدن با دیتافریم
  • کوئری زدن با SQL
  • الحاق (Join) کردن دیتافریم ها
  • مفهوم Caching
  • مصورسازی

6- Spark Machine Learning

  • الگوریتم های تکرار شونده در آپاچی اسپارک
  • Built-in Featurizing & Algorithms
  • Spark ML and MLlib Pipeline API
  • NLP/Text Classification with Logistic Regression
  • Cross-Validation and Grid Search for Hyperparameter Tuning
  • شاخص های ارزیابی
  • خوشه بندی با الگوریتم K-Means
  • استراتژی های پارتیشن بندی داده
  • شبکه های عصبی
  • یکپارچه سازی اسپارک با Scikit-learn

7- Spark Structured Streaming

  • Introduction Structured Streaming
  • Streaming Sources and Sinks
  • Structured Streaming APIs
  • Windowing & Aggregation
  • Check pointing
  • Watermarking
  • Reliability and Fault Tolerance

برای مشاهده برنامه زمانی این دوره در تقویم آموزشی دایکه کلیک کنید.