پروژه: ساخت مدل‌های رگرسیون (خطی، Ridge، Lasso) در Python

تومان

در این پروژه یادگیری ماشین در حوزه رگرسیون، شما یاد خواهید گرفت که چگونه مدل‌های رگرسیون (رگرسیون خطی، رگرسیون Ridge، رگرسیون Lasso) را از ابتدا با استفاده از کتابخانه NumPy پیاده‌سازی کنید. این پروژه به شما درک عمیقی از مفاهیم کلیدی این مدل‌ها و نحوه عملکرد آن‌ها در مسائل واقعی ارائه می‌دهد.

  •  درجه سختی: Easy
  •  نوع بیزینس: Entertainment
  •  ابزار مورد استفاده: Python
  •  کلاس الگوریتم: Regression

قابل سفارش نیست

شناسه محصول: p-010 دسته: برچسب: , , ,

توضیحات

آنچه که در این پروژه یاد می‌گیرید:

      • رگرسیون چیست؟
      • کاربردهای رگرسیون چیست؟
      • انواع مختلف رگرسیون
      • تفاوت بین رگرسیون و طبقه‌بندی
      • رگرسیون خطی چیست؟
      • تابع زیان چیست؟
      • گرادیان نزولی چیست؟
      • معایب رگرسیون خطی
      • درک بایاس و واریانس
      • رگرسیون Ridge و Lasso چیست؟
      • درخت تصمیم چیست؟
      • آشنایی با اصطلاحات مختلف در درخت تصمیم
      • مزایا و معایب درخت‌های تصمیم
      • وارد کردن مجموعه داده و کتابخانه‌های موردنیاز
      • مدیریت داده‌های گمشده با استفاده از روش‌های مناسب
      • پیدا کردن همبستگی بین ویژگی‌ها
      • ساخت مدل‌های رگرسیون مختلف از ابتدا با استفاده از ماژول NumPy
      • کسب اطمینان از مدل با استفاده از معیارهایی مانند MSE و R-squared

توضیحات پروژه

رگرسیون یک الگوریتم یادگیری نظارت‌شده است. تحلیل رگرسیون برای برقراری رابطه بین یک یا چند متغیر مستقل و یک متغیر وابسته استفاده می‌شود. تحلیل رگرسیون شامل چندین نوع مختلف مانند رگرسیون خطی، رگرسیون خطی چندگانه و رگرسیون غیرخطی است. معمولاً می‌توان مدل‌های رگرسیون را با استفاده از کتابخانه‌ی قدرتمند و ارزشمند Scikit-learn در پایتون ایجاد کرد. اما در این پروژه، مدل‌ها را از ابتدا با استفاده از NumPy خواهیم ساخت. ساخت مدل به‌صورت دستی، انعطاف‌پذیری بیشتری در فرآیند آموزش فراهم می‌کند و امکان تغییر مدل برای مقاوم‌تر کردن آن و پاسخگویی بهتر به داده‌های واقعی در بازآموزی یا استفاده در تولید فراهم می‌شود.

این پروژه توضیح می‌دهد که رگرسیون خطی چگونه کار می‌کند و چگونه می‌توان مدل‌های مختلف رگرسیون مانند رگرسیون خطی، رگرسیون Ridge، رگرسیون Lasso و درخت تصمیم را از ابتدا با استفاده از ماژول NumPy ساخت.

مجموعه داده پروژه

این مجموعه داده اطلاعاتی درباره بازیکنان یک ورزش خاص ارائه می‌دهد و هدف پیش‌بینی امتیازات است. این مجموعه داده شامل حدود ۲۰۰ سطر و ۱۳ ستون است.

فناوری‌های استفاده‌شده

      • زبان: پایتون
      • کتابخانه‌ها: pandas, numpy

مراحل حل پروژه

      1. وارد کردن کتابخانه‌های مورد نیاز و خواندن مجموعه داده
      2. پیش‌پردازش داده‌ها
        • حذف داده‌های گمشده
        • حذف متغیرهای دسته‌بندی‌شده
        • بررسی چند‌هم‌خطی و حذف ویژگی‌های با همبستگی بالا
      3. ایجاد داده‌های آموزشی و آزمایشی از طریق ترتیب‌دهی تصادفی داده‌ها
      4. انجام تقسیم‌بندی داده‌های آموزشی و آزمایشی
      5. ساخت مدل با استفاده از NumPy
        • مدل رگرسیون خطی
        • رگرسیون Ridge
        • رگرسیون Lasso
        • رگرسیون درخت تصمیم
      6. اعتبارسنجی مدل
        • میانگین خطای مطلق
        • ضریب تعیین R2 squared