پروژه: مدل رگرسیون خطی در پایتون برای مبتدیان – بخش 2

تومان

پروژه رگرسیون خطی ماشین لرنینگ در پایتون برای ساخت یک مدل رگرسیون خطی ساده و یادگیری اصول اولیه رگرسیون برای مبتدیان.

  •  درجه سختی: Easy
  •  نوع بیزینس: Entertainment
  •  ابزار مورد استفاده: Python
  •  کلاس الگوریتم: Regression

قابل سفارش نیست

شناسه محصول: p-002 دسته: برچسب: , , ,

توضیحات

آنچه که در این پروژه یاد می‌گیرید:

      • رگرسیون خطی چندگانه چیست؟
      • مدل عمومی رگرسیون خطی
      • نمایش ماتریسی مدل عمومی رگرسیون خطی
      • نمایش ماتریسی روش حداقل مربعات (Least Squares)
      • درک انواع متغیرهای پیش‌بینی‌کننده
      • آزمون F (F-test)
      • ضریب تعیین چندگانه
      • ضریب تعیین تعدیل‌شده (Adjusted R-squared)
      • نمودارهای پراکندگی (Scatterplots) چیست؟
      • ماتریس همبستگی چیست؟
      • درک چندخطی‌بودن (Multicollinearity)
      • تقسیم‌بندی واریانس (Anova Partitioning)
      • اقدامات تشخیصی و اصلاحی
      • متغیرهای شاخص (Indicator Variables) چیست؟
      • معیارهای مختلف برای انتخاب مدل مانند R2R^2، معیار Mallows Cp، معیار AIC/SBC، و معیار Press
      • ساخت یک مدل رگرسیون خطی چندگانه

توضیحات پروژه

ما در اولین پروژه از این مجموعه، سفر خود را برای درک پیش‌زمینه و اصول اولیه رگرسیون آغاز کردیم. در آن پروژه، اصول پایه‌ای رگرسیون را بررسی کرده و یک مدل رگرسیون خطی ساده ایجاد کردیم.

در این پروژه، با رگرسیون خطی چندگانه آشنا خواهیم شد. برخلاف رگرسیون خطی ساده، رگرسیون خطی چندگانه برای برآورد رابطه بین دو یا چند متغیر مستقل و یک متغیر هدف یا وابسته استفاده می‌شود. پیش از شروع این پروژه، پیشنهاد می‌کنیم حتماً به پروژه اول این مجموعه، پروژه مدل رگرسیون خطی در پایتون برای مبتدیان – بخش ۱، مراجعه کنید.

مجموعه داده پروژه

مجموعه داده استفاده‌شده، مجموعه داده بازیکنان فوتبال است. این مجموعه شامل اطلاعات مربوط به بازیکنان مختلف از باشگاه‌های گوناگون بوده و داده‌هایی درباره ده ویژگی مختلف ارائه می‌دهد که تعداد گل‌ها به‌عنوان متغیر هدف در نظر گرفته شده است.

فناوری‌های استفاده‌شده

      • زبان: پایتون
      • کتابخانه‌ها: numpy, pandas, statsmodel, seaborn, matplotlib, sklearn, scipy

مراحل حل پروژه

      • وارد کردن کتابخانه‌ها و مجموعه داده‌های مورد نیاز
      • بررسی همبستگی بین ویژگی‌ها
      • ترسیم نموداری برای همبستگی‌ها
      • حذف متغیرهای ضعیف همبسته و دارای چندخطی‌بودن زیاد
      • انجام تقسیم‌بندی داده‌ها به داده‌های آموزشی و آزمایشی (Train-Test Split)
      • برازش مدل رگرسیون خطی چندگانه
      • تبدیل متغیرهای دسته‌ای به متغیرهای شاخص (Dummy/Indicator Variables)
      • ترسیم نتایج