در میان نرم افزارهای متن باز تحلیل داده کاوی، R جزو پرکاربردترین آنها می باشد. وجود کتابخانه ای غنی از انواع مدل ها و تکنیک ها و همچنین زبان برنامه نویسی ویژه آن، R را تبدیل به ابزاری قدرتمند برای پیاده سازی انواع ایده ها در اجرای فرآیند داده کاوی نموده است. همین موضوع باعث شده تا اغلب دانشگاه های طراز اول دنیا و همچنین دانشمندان و تحلیلگران داده، R را به عنوان یکی از ابزارهای اصلی خود در پروژه های پیشرفته داده کاوی بکار ببرند.
کد دوره: R-1801
- مدت دوره: 32 ساعت
- مخاطب دوره: دانشجویان، پژوهشگران و متخصصان علاقهمند به حوزه داده
- دوره های پیش نیاز: داده کاوی در SPSS Modeler ، تحلیل آماری در SPSS Statistics
- مدرسین دوره: شبنم فیروز
دستاورد دوره
طی این دوره دانشجویان با اصول برنامه نویسی در R آشنا شده و قادر خواهند بود مراحل پاکسازی و آماده سازی داده ها به همراه ساخت مدل های پیش بینانه و اکتشافی را در این محیط اجرا نمایند. محتوای دوره بطور کلی دارای دو بخش اصلی می باشد. در بخش اول، ابتدا مفاهیم و استاندارد های اجرایی داده کاوی مورد بحث قرار گرفته و با ارائه مثال های موردی از برخی پروژه های اجرایی سعی در ایجاد درک درست از مراحل اجرا و نوع خروجی های حاصل از داده کاوی می گردد.
در ادامه به آموزش برنامه نویسی در محیط R و نحوه نوشتن برنامه و تابع نویسی در آن پرداخته می شود تا توانایی نسبی جهت استفاده از این زبان برنامه نویسی در حوزه علوم داده کسب گردد. در بخش دوم نیز به صورت عملی و پرکتیکال، مفاهیم و تکنیک های داده کاوی و چگونگی استفاده از کتابخانه های مفید برای حل انواع مسائل داده کاوی ارائه می گردد.
محتوای دوره
بخش اول: مقدمات و برنامه نویسی به زبان R
این بخش از دوره برای آشنایی و کسب مهارت برنامه نویسی در محیط R و همینطور الزامات و پیش نیازهای لازم جهت ورود به بخش دوم (فرآیند داده کاوی در R) می باشد.
آشنایی با داده کاوی
- مروری بر وظایف داده کاوی
- فرآیند داده کاوی DM-CRISP
آشنایی با R و چگونگی برنامه نویسی با آن
- مقدمه ای بر R
- انواع داده ها در R
- خواندن و نوشتن داده ها در R
- نوشتن توابع
- عیب یابی برنامه
شناسایی و آماده سازی داده ها
- تغییر، ساخت و تبدیل داده ها
- انواع آزمون فرض
- خلاصه سازی
- Boot-Strapping
- رسم انواع نمودار در R
- کاهش ابعاد: انتخاب متغیرهای موثر، PCA
بخش دوم: پیاده سازی فرایند داده کاوی در R
این بخش از دوره کاملا بصورت عملی و پرکتیکال بوده و توانایی نسبی در برنامه نویسی R و همچنین آشنایی با مفاهیم و الگوریتم های داده کاوی برای شرکت در آن ضروری می باشد.
مدل سازی پیش بینانه و ارزیابی آنها
- مدل های پیش بینانه
- درخت های تصمیم و رگرسیونی
- شبکه های عصبی مصنوعی
- الگوریتم K-NN
- مدل پیش بینی سری زمانی ARIMA در R
- مدل های تجمیعی
- روش های Bagging و Boosting و..
- الگوریتم XGBoost
- ارزیابی مدل ها (Cross Validation, Hold Out)
مدل های بدون راهنما
- خوشه بندی یا Clustering
- خوشه بندی سلسله مراتبی
- الگوریتم K-Means
- روش های Anomaly Detection
- قوانین پیوند
- الگوریتم Appriori
کاربردهای خاص داده کاوی در R
- جمع آوری داده از وب (Data Crawling)
- متن کاوی در R
- آشنایی با نظرکاوی یا تحلیل احساس (Sentiment Analysis)
برای مشاهده برنامه زمانی این دوره در تقویم آموزشی دایکه کلیک کنید.