پروژه: ساخت مدل پیش‌بینی ریزش مشتری با استفاده از درخت‌های تصمیم

تومان

در این پروژه به ساخت مدل پیش‌بینی ریزش مشتری با استفاده از الگوریتم‌های یادگیری ماشین درخت تصمیم و علم داده بر روی داده‌های یک پلتفرم پخش ویدیو خواهیم پرداخت.

  •  درجه سختی: Easy
  •  نوع بیزینس: Entertainment
  •  ابزار مورد استفاده: Python
  •  کلاس الگوریتم: Classification

قابل سفارش نیست

شناسه محصول: p-015-1 دسته: برچسب: , , ,

توضیحات

آنچه که در این پروژه یاد می‌گیرید:

            • مقدمه‌ای بر درخت‌های تصمیم
              درک معیارهای ناخالصی
              درک نحوه عملکرد الگوریتم درخت تصمیم
              درخت‌های طبقه‌بندی و رگرسیون (CART) چیست؟
              الگوریتم C5.0 و الگوریتم CHAID چیست؟
              مقایسه انواع درخت‌های تصمیم از نظر معیارهای ناخالصی
              استفاده از کتابخانه‌های پایتون مانند matplotlib برای تفسیر داده‌ها و تجسم‌های پیشرفته
              بازبینی و پاکسازی داده‌ها
              استفاده از کتابخانه sklearn برای ساخت مدل درخت تصمیم
              تقسیم داده‌ها به مجموعه‌های آموزشی و آزمایشی با استفاده از sklearn
              انجام پیش‌بینی با استفاده از مدل آموزش‌دیده
              به‌دست‌آوردن اعتماد به مدل با استفاده از معیارهایی مانند امتیاز دقت، ماتریس سردرگمی، فراخوانی، دقت و امتیاز f1
              مدیریت داده‌های نامتوازن با استفاده از روش SMOTE
              انجام اهمیت ویژگی‌ها

توضیحات پروژه

پیش‌بینی یک پاسخ کیفی برای یک مشاهده به معنای دسته‌بندی آن مشاهده است، زیرا این فرآیند شامل اختصاص دادن مشاهده به یک دسته یا کلاس خاص می‌باشد. دسته‌بندی اساس رگرسیون لجستیک را تشکیل می‌دهد. رگرسیون لجستیک یک الگوریتم نظارت‌شده است که برای پیش‌بینی یک متغیر وابسته که کیفی یا گسسته است، استفاده می‌شود. این روش داده‌ها را با استفاده از تابع سیگموئید مدل‌سازی می‌کند.

مشتریانی که قرارداد خود را با شرکت پایان داده‌اند، به‌عنوان مشتریان از دست‌رفته (Churned Customers) شناخته می‌شوند. در مطالعه موردی ما، بر روی یک مجموعه داده مربوط به مشتریان از دست‌رفته (Churn Dataset) کار خواهیم کرد.

شرکت XYZ یک شرکت ارائه‌دهنده خدمات است که به مشتریان خود یک برنامه اشتراک یک‌ساله برای محصول خود ارائه می‌دهد. این شرکت می‌خواهد بداند که آیا مشتریان اشتراک خود را برای سال آینده تمدید خواهند کرد یا خیر.

مجموعه داده پروژه

این داده‌ها اطلاعاتی درباره‌ی یک شرکت ارائه‌دهنده خدمات پخش ویدئو ارائه می‌دهد که هدف آن پیش‌بینی این است که آیا مشتری از خدمات انصراف خواهد داد یا خیر. این فایل CSV شامل حدود 2000 ردیف و 16 ستون است.

فناوری‌های استفاده‌شده

      • زبان: پایتون
      • کتابخانه‌ها: numpy, pandas, matplotlib, seaborn, sklearn, pickle, imblearn, statsmodel

مراحل حل پروژه

      • وارد کردن کتابخانه‌های مورد نیاز و خواندن مجموعه داده
      • بازبینی و پاک‌سازی داده‌ها
      • انجام رمزگذاری روی متغیرهای دسته‌ای
      • تحلیل داده‌های اکتشافی (EDA)
        • بصری‌سازی داده‌ها
      • مهندسی ویژگی‌ها
        • حذف ستون‌های غیرضروری
      • ساخت مدل
        • استفاده از کتابخانه statsmodel
        • تقسیم داده به مجموعه‌های آموزش و تست
        • ایجاد مدل رگرسیون لجستیک
      • اعتبارسنجی مدل (پیش‌بینی‌ها)
        • امتیاز دقت (Accuracy score)
        • ماتریس درهم‌ریختگی (Confusion matrix)
        • ROC و AUC
        • امتیاز Recall
        • امتیاز Precision
        • F1-score
      • مدیریت داده‌های نامتوازن
        • استفاده از وزن‌های متوازن
        • وزن‌های تصادفی
        • تنظیم داده‌های نامتوازن
        • استفاده از SMOTE
      • انتخاب ویژگی‌ها
        • انتخاب آستانه مانع (Barrier threshold)
        • استفاده از روش RFE
      • ذخیره مدل به صورت فایل pickle