توضیحات
آنچه که در این پروژه یاد میگیرید:
-
-
- رگرسیون چیست؟
- انواع رگرسیون
- میانگین، واریانس و انحراف معیار چیست؟
- همبستگی و علیت
- دادههای مشاهدهای و آزمایشی چیست؟
- فرمول رگرسیون
- ساخت یک مدل رگرسیون خطی ساده
- درک درونیابی (Interpolation) و برونیابی (Extrapolation)
- متغیرهای پنهان (Lurking Variables) چیست؟
- مشتقگیری برای برآورد حداقل مربعات (Least Square Estimates)
- قضیه گاوس-مارکوف (Gauss-Markov Theorem)
- تخمینگرهای نقطهای (Point Estimators) در رگرسیون
- توزیع نمونهگیری ضرایب رگرسیون
- آمار F (F-Statistics)
- تقسیمبندی واریانس (ANOVA Partitioning)
- ضریب تعیین (R-Squared)
- اقدامات تشخیصی و اصلاحی
-
توضیحات پروژه
رگرسیون یکی از تکنیکهای پایهای در یادگیری ماشین است. با اینکه این الگوریتم از جمله الگوریتمهای بسیار شناختهشده است، مبتدیان اغلب در درک برخی اصطلاحات اساسی مرتبط با رگرسیون دچار مشکل میشوند. در این مجموعه پروژهها، سعی داریم با کمک مثالهای عملی، ایدههای پایهای مفاهیم اساسی را به شما ارائه دهیم. اگر در ابتدای مسیر شغلی خود هستید یا میخواهید دانش خود را در مورد رگرسیون تقویت کنید، این دوره برای شما طراحی شده است.
این پروژه با معرفی چند مثال ساده از دنیای واقعی برای رگرسیون آغاز میشود. از یک مقدمه کوتاه بر بیشتر مفاهیم مرتبط با رگرسیون تا تجربه عملی، این پروژه درک کافی برای بهکارگیری این مفاهیم در مسائل واقعی را به شما ارائه میدهد. با کمک زمینهسازیهای انجامشده، شما مدل رگرسیون خود را در پایتون کدنویسی خواهید کرد.
مجموعه داده پروژه
مجموعه داده استفادهشده، مجموعه داده بازیکنان فوتبال است. این مجموعه شامل اطلاعات مربوط به بازیکنان مختلف از باشگاههای گوناگون بوده و دادههایی درباره ده ویژگی مختلف ارائه میدهد که امتیاز (Score) بهعنوان متغیر هدف در نظر گرفته شده است.
فناوریهای استفادهشده
-
-
- زبان: پایتون
- کتابخانهها: pandas، statsmodels، seaborn، matplotlib، sklearn، scipy
-
مراحل حل پروژه
این پروژه با یک مثال واقعی برای تحلیل رگرسیون آغاز میشود و مقدمهای بر رگرسیون خطی ساده و چندگانه ارائه میدهد. با ایجاد پایههای آماری برای رگرسیون، ایدهای مختصر از فرمول رگرسیون به شما میدهد. با این پیشزمینه، اولین مدل رگرسیون در پایتون ساخته میشود.
در ادامه، مفاهیم درونیابی (Interpolation) و برونیابی (Extrapolation) مورد بحث قرار میگیرند و همچنین خطاهای موجود در رگرسیون و متغیرهای پنهان (Lurking Variables) توضیح داده میشوند. تخمینگرهای نقطهای (Point Estimators) برای میانگین و واریانس و توزیعهای پارامترهای اساسی نیز مورد بررسی قرار میگیرند.
ضریب تعیین (Coefficient of Determination) که بهعنوان R2R^2R2 نیز شناخته میشود، بهطور مختصر توضیح داده شده است. این پروژه با تشخیص خطاها و ارائه اقدامات اصلاحی برای رگرسیون به همراه توضیحات عملی به پایان میرسد.