توضیحات
آنچه که در این پروژه یاد میگیرید:
-
-
- نمودار توزیع (Distribution Plot) چیست؟
- نمودار جعبهای (Boxplot) چیست؟
- نمودار ویولن (Violin Plot) چیست؟
- چگونه میتوان دادههای پرت (Outliers) را شناسایی کرد؟
- چگونه میتوان دادههای پرت را اصلاح کرد؟
- پانداس ایمپیوتر (Pandas Imputer) چیست؟
- ایمپیوتر تکراری (Iterative Imputer) چیست؟
- ایمپیوتر KNN چیست؟
- ایمپیوتر LGBM چیست؟
- تحلیل تکمتغیره (Univariate Analysis)
- همبستگی چاترجی (Chatterjee Correlation)
- ANOVA چیست؟
- پیادهسازی ANOVA
- پیشپردازش دادهها (Data Preprocessing)
- AIC چیست؟
- Likelihood چیست؟
-
توضیحات پروژه
رگرسیون چندجملهای (Polynomial Regression) نوعی تحلیل رگرسیون است که در آن رابطه بین متغیر وابسته و متغیر مستقل با استفاده از چندجملهای درجه n مدلسازی میشود. اگر رگرسیون خطی بر روی دادههای خطی اعمال شود، نتایج خوبی ارائه میدهد. اما اگر رگرسیون خطی برای دادههای غیرخطی استفاده شود، نتایج ناامیدکننده خواهد بود. بنابراین، در چنین مواردی به رگرسیون چندجملهای نیاز داریم که رابطه غیرخطی موجود در دادهها را ثبت کند.
در رگرسیون چندجملهای، ویژگیهای اصلی به ویژگیهای چندجملهای با درجه مورد نظر تبدیل شده و با استفاده از یک مدل خطی مدلسازی میشوند.
در این پروژه، یک مدل رگرسیون چندجملهای برای پیشبینی امتیازات کسبشده توسط تیم ورزشی ایجاد خواهیم کرد. این پروژه شامل درک عمیق از مسئله کسبوکار، تحلیل اکتشافی دادهها، پیشپردازش دادهها و ساخت مدل خواهد بود. همچنین، توضیح مفصلی از متریکهای مختلف رگرسیون در این پروژه ارائه خواهد شد.
مجموعه داده پروژه
این مجموعه داده شامل اطلاعاتی درباره امتیازات کسبشده توسط تیمهای ورزشی بر اساس ویژگیهای مختلف است.
فناوریهای استفادهشده
-
-
- زبان: پایتون
- کتابخانهها: pandas, numpy, scipy, matplotlib, seaborn, sklearn, statsmodel
-
مراحل حل پروژه
-
-
- پیشپردازش دادهها (Data Preprocessing)
- حذف دادههای پرت (Outlier Removal)
- جایگزینی مقادیر تهی (Imputing Null Values)
- کدگذاری تکداغ (One-Hot Encoding)
- ساخت مدل (Model Building)
- ساخت مدل رگرسیون خطی (Linear Regression Model Building)
- ساخت مدل رگرسیون چندجملهای (Polynomial Regression Model Building)
- ارزیابی مدل (Model Evaluation)
- ارزیابی مدل بر روی دادههای آزمایشی (Evaluation of Model on Test Data)
- بحث درباره معیارهای مختلف رگرسیون مانند R2R^2R2، AIC، AICC، و آماره F (F-Statistics)
- پیشپردازش دادهها (Data Preprocessing)
-