توضیحات
آنچه که در این پروژه یاد میگیرید:
-
-
-
-
-
-
مقدمهای بر درختهای تصمیم
درک معیارهای ناخالصی
درک نحوه عملکرد الگوریتم درخت تصمیم
درختهای طبقهبندی و رگرسیون (CART) چیست؟
الگوریتم C5.0 و الگوریتم CHAID چیست؟
مقایسه انواع درختهای تصمیم از نظر معیارهای ناخالصی
استفاده از کتابخانههای پایتون مانند matplotlib برای تفسیر دادهها و تجسمهای پیشرفته
بازبینی و پاکسازی دادهها
استفاده از کتابخانه sklearn برای ساخت مدل درخت تصمیم
تقسیم دادهها به مجموعههای آموزشی و آزمایشی با استفاده از sklearn
انجام پیشبینی با استفاده از مدل آموزشدیده
بهدستآوردن اعتماد به مدل با استفاده از معیارهایی مانند امتیاز دقت، ماتریس سردرگمی، فراخوانی، دقت و امتیاز f1
مدیریت دادههای نامتوازن با استفاده از روش SMOTE
انجام اهمیت ویژگیها
-
-
-
-
-
توضیحات پروژه
پیشبینی یک پاسخ کیفی برای یک مشاهده به معنای دستهبندی آن مشاهده است، زیرا این فرآیند شامل اختصاص دادن مشاهده به یک دسته یا کلاس خاص میباشد. دستهبندی اساس رگرسیون لجستیک را تشکیل میدهد. رگرسیون لجستیک یک الگوریتم نظارتشده است که برای پیشبینی یک متغیر وابسته که کیفی یا گسسته است، استفاده میشود. این روش دادهها را با استفاده از تابع سیگموئید مدلسازی میکند.
مشتریانی که قرارداد خود را با شرکت پایان دادهاند، بهعنوان مشتریان از دسترفته (Churned Customers) شناخته میشوند. در مطالعه موردی ما، بر روی یک مجموعه داده مربوط به مشتریان از دسترفته (Churn Dataset) کار خواهیم کرد.
شرکت XYZ یک شرکت ارائهدهنده خدمات است که به مشتریان خود یک برنامه اشتراک یکساله برای محصول خود ارائه میدهد. این شرکت میخواهد بداند که آیا مشتریان اشتراک خود را برای سال آینده تمدید خواهند کرد یا خیر.
مجموعه داده پروژه
این دادهها اطلاعاتی دربارهی یک شرکت ارائهدهنده خدمات پخش ویدئو ارائه میدهد که هدف آن پیشبینی این است که آیا مشتری از خدمات انصراف خواهد داد یا خیر. این فایل CSV شامل حدود 2000 ردیف و 16 ستون است.
فناوریهای استفادهشده
-
-
- زبان: پایتون
- کتابخانهها: numpy, pandas, matplotlib, seaborn, sklearn, pickle, imblearn, statsmodel
-
مراحل حل پروژه
-
-
- وارد کردن کتابخانههای مورد نیاز و خواندن مجموعه داده
- بازبینی و پاکسازی دادهها
- انجام رمزگذاری روی متغیرهای دستهای
- تحلیل دادههای اکتشافی (EDA)
- بصریسازی دادهها
- مهندسی ویژگیها
- حذف ستونهای غیرضروری
- ساخت مدل
- استفاده از کتابخانه
statsmodel
- تقسیم داده به مجموعههای آموزش و تست
- ایجاد مدل رگرسیون لجستیک
- استفاده از کتابخانه
- اعتبارسنجی مدل (پیشبینیها)
- امتیاز دقت (Accuracy score)
- ماتریس درهمریختگی (Confusion matrix)
- ROC و AUC
- امتیاز Recall
- امتیاز Precision
- F1-score
- مدیریت دادههای نامتوازن
- استفاده از وزنهای متوازن
- وزنهای تصادفی
- تنظیم دادههای نامتوازن
- استفاده از SMOTE
- انتخاب ویژگیها
- انتخاب آستانه مانع (Barrier threshold)
- استفاده از روش RFE
- ذخیره مدل به صورت فایل pickle
-