رویکرد Boosting بر اساس آموزش مدل های پایه با الگوریتم های یکسان روی داده های آموزشی یکسان با وزن های متفاوت به مدلسازی و حل مسائل رده بندی و رگرسیون می پردازد.

در این رویکرد آموزش هر یک از مدل های پایه، با وزن دادن به رکوردهایی که در مدل قبلی دچار خطای پیش بینی بوده اند، تمرکز یادگیری مدل را روی خطاهای مدل قبلی قرار می دهد.

بنابراین تفاوت مدل های پایه در تمرکز یادگیری آنها بر روی زیرمجموعه هایی از داده هاست که یادگیری الگوی آنها سخت است.

رویکرد Boosting بهترین مثال برای ایده “قدرت در یکپارچگی و وحدت ضعیف هاست”، می باشد.

کارکرد اصلی رویکرد Boosting در کاهش بایاس مدل های پیش بینانه است. بنابراین از این رویکرد عموما در مدل هایی که دارای واریانس کم بوده ولی به علت سادگی مدل، دقت آن پایین و دچار کم برازشی می باشد، استفاده می شود.

این رویکرد در چارچوب یادگیری گروهی وابسته قرار دارد و به علت وابستگی هر مدل به خطاهای مدل قبلی، پیاده سازی آن در قالب آموزش متوالی (Sequential) مدل های پایه انجام می شود. از این رو در ساخت مدل با این رویکرد، زمان آموزش با افزایش تعداد مدل های پایه نیز بصورت خطی افزایش می یابد.

نکته: هرچند رویکرد Boosting به علت ایده ترکیب مدل های پایه در یادگیری گروهی، کاهش واریانس را در پی خواهد داشت و نسبت به بیش برازشی مقاوم است، اما در صورتی که مدل های انفرادی دچار بیش برازشی باشد، توانایی حل آن را نخواهد داشت.

الگوریتم AdaBoost (Adaptive Boosting)

این الگوریتم با رویکرد Boosting و با استفاده از مدل های پایه درخت تصمیم با عمق یک (یک انشعاب روی گره ریشه) توسعه می یابد.

مدل پایه اول روی همه داده های آموزشی با وزن یکسان ایجاد می شود و با مقایسه پیش بینی و مقادیر واقعی، وزن رکوردهای آموزشی تغییر می کند، بطوریکه رکوردهای دارای خطا در مدل اول، دارای وزن بیشتری نسبت به رکوردهایی که به درستی پیش بینی شده اند می گردد.

این روند تا رسیدن به قوانین توقف (تعداد مدل های پایه یا مقدار تعیین شده از شاخص ارزیابی) ادامه پیدا می کند.

الگوریتم های مطرح دیگری همچونGradient Boosting  و نسخه بهینه شده آن XGBoost نیز در همین چارچوب توسعه داده شده که جزو الگوریتم های قدرتمند و محبوب در یادگیری گروهی می باشند.

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها