توضیحات
آنچه که در این پروژه یاد میگیرید:
-
-
- رگرسیون چیست؟
- کاربردهای رگرسیون چیست؟
- انواع مختلف رگرسیون
- تفاوت بین رگرسیون و طبقهبندی
- رگرسیون خطی چیست؟
- تابع زیان چیست؟
- گرادیان نزولی چیست؟
- معایب رگرسیون خطی
- درک بایاس و واریانس
- رگرسیون Ridge و Lasso چیست؟
- درخت تصمیم چیست؟
- آشنایی با اصطلاحات مختلف در درخت تصمیم
- مزایا و معایب درختهای تصمیم
- وارد کردن مجموعه داده و کتابخانههای موردنیاز
- مدیریت دادههای گمشده با استفاده از روشهای مناسب
- پیدا کردن همبستگی بین ویژگیها
- ساخت مدلهای رگرسیون مختلف از ابتدا با استفاده از ماژول NumPy
- کسب اطمینان از مدل با استفاده از معیارهایی مانند MSE و R-squared
-
توضیحات پروژه
رگرسیون یک الگوریتم یادگیری نظارتشده است. تحلیل رگرسیون برای برقراری رابطه بین یک یا چند متغیر مستقل و یک متغیر وابسته استفاده میشود. تحلیل رگرسیون شامل چندین نوع مختلف مانند رگرسیون خطی، رگرسیون خطی چندگانه و رگرسیون غیرخطی است. معمولاً میتوان مدلهای رگرسیون را با استفاده از کتابخانهی قدرتمند و ارزشمند Scikit-learn در پایتون ایجاد کرد. اما در این پروژه، مدلها را از ابتدا با استفاده از NumPy خواهیم ساخت. ساخت مدل بهصورت دستی، انعطافپذیری بیشتری در فرآیند آموزش فراهم میکند و امکان تغییر مدل برای مقاومتر کردن آن و پاسخگویی بهتر به دادههای واقعی در بازآموزی یا استفاده در تولید فراهم میشود.
این پروژه توضیح میدهد که رگرسیون خطی چگونه کار میکند و چگونه میتوان مدلهای مختلف رگرسیون مانند رگرسیون خطی، رگرسیون Ridge، رگرسیون Lasso و درخت تصمیم را از ابتدا با استفاده از ماژول NumPy ساخت.
مجموعه داده پروژه
این مجموعه داده اطلاعاتی درباره بازیکنان یک ورزش خاص ارائه میدهد و هدف پیشبینی امتیازات است. این مجموعه داده شامل حدود ۲۰۰ سطر و ۱۳ ستون است.
فناوریهای استفادهشده
-
-
- زبان: پایتون
- کتابخانهها: pandas, numpy
-
مراحل حل پروژه
-
-
- وارد کردن کتابخانههای مورد نیاز و خواندن مجموعه داده
- پیشپردازش دادهها
- حذف دادههای گمشده
- حذف متغیرهای دستهبندیشده
- بررسی چندهمخطی و حذف ویژگیهای با همبستگی بالا
- ایجاد دادههای آموزشی و آزمایشی از طریق ترتیبدهی تصادفی دادهها
- انجام تقسیمبندی دادههای آموزشی و آزمایشی
- ساخت مدل با استفاده از NumPy
- مدل رگرسیون خطی
- رگرسیون Ridge
- رگرسیون Lasso
- رگرسیون درخت تصمیم
- اعتبارسنجی مدل
- میانگین خطای مطلق
- ضریب تعیین R2 squared
-