پروژه: ساخت یک مدل رگرسیون چندجمله‌ای از ابتدا

تومان

در این پروژه رگرسیون یادگیری ماشین، شما یاد خواهید گرفت که چگونه یک مدل رگرسیون چندجمله‌ای برای پیش‌بینی امتیازات کسب‌شده توسط تیم ورزشی ایجاد کنید.

  •  درجه سختی: Easy
  •  نوع بیزینس: Entertainment
  •  ابزار مورد استفاده: Python
  •  کلاس الگوریتم: Regression

قابل سفارش نیست

شناسه محصول: p-003 دسته: برچسب: , , ,

توضیحات

آنچه که در این پروژه یاد می‌گیرید:

      • نمودار توزیع (Distribution Plot) چیست؟
      • نمودار جعبه‌ای (Boxplot) چیست؟
      • نمودار ویولن (Violin Plot) چیست؟
      • چگونه می‌توان داده‌های پرت (Outliers) را شناسایی کرد؟
      • چگونه می‌توان داده‌های پرت را اصلاح کرد؟
      • پانداس ایمپیوتر (Pandas Imputer) چیست؟
      • ایمپیوتر تکراری (Iterative Imputer) چیست؟
      • ایمپیوتر KNN چیست؟
      • ایمپیوتر LGBM چیست؟
      • تحلیل تک‌متغیره (Univariate Analysis)
      • همبستگی چاترجی (Chatterjee Correlation)
      • ANOVA چیست؟
      • پیاده‌سازی ANOVA
      • پیش‌پردازش داده‌ها (Data Preprocessing)
      • AIC چیست؟
      • Likelihood چیست؟

توضیحات پروژه

رگرسیون چندجمله‌ای (Polynomial Regression) نوعی تحلیل رگرسیون است که در آن رابطه بین متغیر وابسته و متغیر مستقل با استفاده از چندجمله‌ای درجه n مدل‌سازی می‌شود. اگر رگرسیون خطی بر روی داده‌های خطی اعمال شود، نتایج خوبی ارائه می‌دهد. اما اگر رگرسیون خطی برای داده‌های غیرخطی استفاده شود، نتایج ناامیدکننده خواهد بود. بنابراین، در چنین مواردی به رگرسیون چندجمله‌ای نیاز داریم که رابطه غیرخطی موجود در داده‌ها را ثبت کند.

در رگرسیون چندجمله‌ای، ویژگی‌های اصلی به ویژگی‌های چندجمله‌ای با درجه مورد نظر تبدیل شده و با استفاده از یک مدل خطی مدل‌سازی می‌شوند.

در این پروژه، یک مدل رگرسیون چندجمله‌ای برای پیش‌بینی امتیازات کسب‌شده توسط تیم ورزشی ایجاد خواهیم کرد. این پروژه شامل درک عمیق از مسئله کسب‌وکار، تحلیل اکتشافی داده‌ها، پیش‌پردازش داده‌ها و ساخت مدل خواهد بود. همچنین، توضیح مفصلی از متریک‌های مختلف رگرسیون در این پروژه ارائه خواهد شد.

مجموعه داده پروژه

این مجموعه داده شامل اطلاعاتی درباره امتیازات کسب‌شده توسط تیم‌های ورزشی بر اساس ویژگی‌های مختلف است.

فناوری‌های استفاده‌شده

      • زبان: پایتون
      • کتابخانه‌ها: pandas, numpy, scipy, matplotlib, seaborn, sklearn, statsmodel

مراحل حل پروژه

      • پیش‌پردازش داده‌ها (Data Preprocessing)
        • حذف داده‌های پرت (Outlier Removal)
        • جایگزینی مقادیر تهی (Imputing Null Values)
        • کدگذاری تک‌داغ (One-Hot Encoding)
      • ساخت مدل (Model Building)
        • ساخت مدل رگرسیون خطی (Linear Regression Model Building)
        • ساخت مدل رگرسیون چندجمله‌ای (Polynomial Regression Model Building)
      • ارزیابی مدل (Model Evaluation)
        • ارزیابی مدل بر روی داده‌های آزمایشی (Evaluation of Model on Test Data)
        • بحث درباره معیارهای مختلف رگرسیون مانند R2R^2، AIC، AICC، و آماره F (F-Statistics)