توضیحات
آنچه که در این پروژه یاد میگیرید:
-
-
- رگرسیون خطی چندگانه چیست؟
- مدل عمومی رگرسیون خطی
- نمایش ماتریسی مدل عمومی رگرسیون خطی
- نمایش ماتریسی روش حداقل مربعات (Least Squares)
- درک انواع متغیرهای پیشبینیکننده
- آزمون F (F-test)
- ضریب تعیین چندگانه
- ضریب تعیین تعدیلشده (Adjusted R-squared)
- نمودارهای پراکندگی (Scatterplots) چیست؟
- ماتریس همبستگی چیست؟
- درک چندخطیبودن (Multicollinearity)
- تقسیمبندی واریانس (Anova Partitioning)
- اقدامات تشخیصی و اصلاحی
- متغیرهای شاخص (Indicator Variables) چیست؟
- معیارهای مختلف برای انتخاب مدل مانند R2R^2R2، معیار Mallows Cp، معیار AIC/SBC، و معیار Press
- ساخت یک مدل رگرسیون خطی چندگانه
-
توضیحات پروژه
ما در اولین پروژه از این مجموعه، سفر خود را برای درک پیشزمینه و اصول اولیه رگرسیون آغاز کردیم. در آن پروژه، اصول پایهای رگرسیون را بررسی کرده و یک مدل رگرسیون خطی ساده ایجاد کردیم.
در این پروژه، با رگرسیون خطی چندگانه آشنا خواهیم شد. برخلاف رگرسیون خطی ساده، رگرسیون خطی چندگانه برای برآورد رابطه بین دو یا چند متغیر مستقل و یک متغیر هدف یا وابسته استفاده میشود. پیش از شروع این پروژه، پیشنهاد میکنیم حتماً به پروژه اول این مجموعه، پروژه مدل رگرسیون خطی در پایتون برای مبتدیان – بخش ۱، مراجعه کنید.
مجموعه داده پروژه
مجموعه داده استفادهشده، مجموعه داده بازیکنان فوتبال است. این مجموعه شامل اطلاعات مربوط به بازیکنان مختلف از باشگاههای گوناگون بوده و دادههایی درباره ده ویژگی مختلف ارائه میدهد که تعداد گلها بهعنوان متغیر هدف در نظر گرفته شده است.
فناوریهای استفادهشده
-
-
- زبان: پایتون
- کتابخانهها: numpy, pandas, statsmodel, seaborn, matplotlib, sklearn, scipy
-
مراحل حل پروژه
-
-
- وارد کردن کتابخانهها و مجموعه دادههای مورد نیاز
- بررسی همبستگی بین ویژگیها
- ترسیم نموداری برای همبستگیها
- حذف متغیرهای ضعیف همبسته و دارای چندخطیبودن زیاد
- انجام تقسیمبندی دادهها به دادههای آموزشی و آزمایشی (Train-Test Split)
- برازش مدل رگرسیون خطی چندگانه
- تبدیل متغیرهای دستهای به متغیرهای شاخص (Dummy/Indicator Variables)
- ترسیم نتایج
-