رگرسیون خطی یکی از پرکاربردترین الگوریتم های یادگیری آماری با هدف بررسی و مدلسازی ارتباط خطی بین یک یا چند ویژگی ورودی مستقل از هم با متغیر وابسته (پاسخ) می باشد. رگرسیون خطی از نوع یادگیری با نظارت با هدف پیش بینی مقادیر کمی است.

اگر رابطه خطی بین یک متغیر پاسخ و یک متغیر مستقل برقرار شود، تکنیک رگرسیون را رگرسیون خطی ساده (Simple Linear Regression) می‌نامند. ولی در صورت به کارگیری چندین متغیر توصیفی یا مستقل در مدل رگرسیونی، روش رگرسیونی را «چند گانه» (Multiple Linear Regression) می‌گویند.

البته روش رگرسیونی دیگری براساس چند متغیر پاسخ و مستقل نیز به کار گرفته می‌شود که به آن «رگرسیون چند متغیره» (Multivariate Regression) گفته شده و بیش از یک متغیر پاسخ مورد تحلیل و مدل‌سازی قرار می‌گیرد.

رگرسیون خطی ساده

هدف مدل رگرسیون، یافتن بهترین مقدار برای پارامترهای مدل به منظور به حداقل رساندن مجموع مجذور خطاها می باشد.

اگر برای شناسایی و پیش‌بینی متغیر وابسته فقط از یک متغیر مستقل استفاده شود، مدل را رگرسیون خطی ساده Simple Linear Regression  می‌گویند. فرم مدل رگرسیون خطی ساده به صورت زیر است:

Y=β0+β1X+ϵ

همانطور که دیده می‌شود این رابطه، معادله یک خط است که جمله خطا یا همان ϵϵ‌ به آن اضافه شده. پارامترهای این مدل خطی عرض از مبدا (β0) و شیب خط (β1) است. شیب خط در حالت رگرسیون خطی ساده، نشان می‌دهد که میزان حساسیت متغیر وابسته به متغیر مستقل چقدر است.

به این معنی که با افزایش یک واحد به مقدار متغیر مستقل چه میزان متغیر وابسته تغییر خواهد کرد. عرض از مبدا نیز بیانگر مقداری از متغیر وابسته است که به ازاء مقدار متغیر مستقل برابر با صفر محاسبه می‌شود. به شکل دیگر می‌توان مقدار ثابت یا عرض از مبدا را مقدار متوسط متغیر وابسته به ازاء حذف متغیر مستقل در نظر گرفت.

برای مثال فرض کنید کارخانه‌ای می‌خواهد میزان هزینه‌هایش را براساس ساعت کار برآورد کند. شیب خط حاصل از برآورد نشان می‌دهد به ازای یک ساعت افزایش ساعت کاری چه میزان بر هزینه‌هایش افزوده خواهد شد.

از طرفی عرض از مبدا خط رگرسیون نیز هزینه ثابت کارخانه حتی زمانی که ساعت کاری نیست نشان می‌دهد. این هزینه را می‌توان هزینه‌های ثابت مانند دستمزد نگهبانان و هزینه روشنایی فضای کارخانه فرض کرد.

گاهی مدل رگرسیونی را بدون عرض از مبدا در نظر می‌گیرند و  β0=0 محسوب می‌کنند. این کار به این معنی است که با صفر شدن مقدار متغیر مستقل، مقدار متغیر وابسته نیز باید صفر در نظر گرفته شود. زمانی که محقق مطمئن باشد که که خط رگرسیون باید از مبدا مختصات عبور کند، این گونه مدل در نظر گرفته می‌شود. فرم مدل رگرسیونی در این حالت به صورت زیر است:

Y=β1X+ϵY=β1X+ϵ

از آنجایی که پیش‌بینی رابطه بین متغیر وابسته و مستقل به شکل دقیق نیست، جمله خطا را یک «متغیر تصادفی» (Random Variable) با میانگین صفر در نظر می‌گیرند تا این رابطه دارای اریبی نباشد.

باید توجه داشت که منظور از رابطه خطی در مدل رگرسیون، وجود رابطه خطی بین ضرایب است نه بین متغیرهای مستقل. برای مثال این مدل y=β0+β1×2+ϵy=β0+β1×2+ϵ را نیز می‌توان مدل خطی در نظر گرفت در حالیکه مدل y=β0xβ1+ϵy=β0xβ1+ϵ دیگر خطی نیست و به مدل نمایی شهرت دارد.

همچنین در فرضیات این مدل، خطا یک جمله تصادفی است و تغییرات آن مستقل از متغیر X‌ است. به این ترتیب مقدار خطا وابسته به مقدار متغیر مستقل نیست.

در رگرسیون خطی سعی می‌شود، به کمک معادله خطی که توسط روش رگرسیون معرفی می‌شود، برآورد مقدار متغیر وابسته به ازای مقدارهای مختلف متغیر مستقل توسط خط رگرسیون بدست آید. به منظور برآورد پارامترهای مناسب برای مدل، کوشش می‌شود براساس داده‌های موجود، مدلی انتخاب می‌شود که کمترین خطا را داشته باشد.

روش‌های مختلفی برای تعریف خطا و حداقل کردن آن وجود دارد. معیاری که در مدل رگرسیون خطی ساده به کار می‌رود، کمینه کردن مجموع مربعات خطا است. از آنجایی که میانگین مقدارهای خطا صفر در نظر گرفته شده است، می‌دانیم زمانی مجموع مربعات خطا، حداقل ممکن را خواهد داشت که توزیع داده‌ها نرمال (Normal Distribution) باشند.

در نتیجه، نرمال بودن داده‌های متغیر وابسته یا باقی‌مانده‌ها یکی از فرضیات مهم برای مدل رگرسیونی خطی ساده است.

رگرسیون خطی چندگانه

در رگرسیون خطی چندگانه، پارامترهای یک مدل خطی به کمک یک تابع هدف و مقدارهای متغیرها، برآورد می‌شوند. در رگرسیون خطی، مدل در نظر گرفته شده، یک رابطه خطی بر حسب پارامترهای مدل است. به این ترتیب اگر nn مشاهده از متغیر مستقل pp بعدی XX داشته باشیم و بخواهیم یک رابطه خطی با متغیر پاسخ yy برقرار کنیم، می‌توانیم از مدل رگرسیون خطی زیر استفاده کنیم.

yi=β01+β1xi1+⋯+βpxip+εi,i=1,…,nyi=β01+β1xi1+⋯+βpxip+εi           i=1,…,n

از آنجایی که متغیر مستقل X دارای p  بعد است، مقدار آن را در هر بعد با یک متغیر مستقل یک بعدی جایگزین کرده‌ایم. مشخص است که اندیس ii نیز شماره مشاهده را نشان می‌دهد. در انتها نیز ε  جمله خطای مدل رگرسیونی محسوب می‌شود.

در رگرسیون خطی ساده، رابطه بین متغیر مستقل و وابسته به صورت معادله یک خط بیان می‌شود. در رگرسیون چندگانه، اگر دو متغیر مستقل با یک متغیر وابسته در رابطه خطی باشند، شکل این رابطه به صورت یک صفحه (plane) در خواهد آمد. در صورتی که بیش از دو متغیر مستقل در مدل رگرسیون خطی به کار روند، مدل به شکل یک «ابرصفحه» (Hyperplane) ظاهر می‌شود.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها