اهداف کاهش ابعاد
کاهش حجم داده ها و در پی آن افزایش سرعت پردازی، افزایش دقت الگوریتم های مورد استفاده و جلوگیری از بیش برازش، کاهش ابعاد داده منجر به کاهش فیلد ها و ساده تر شدن نتایج برای درک و تفسیر می شوند.
انتخاب ویژگی (Feature Selection)
در این رویکرد، با انتخاب زیر مجموعه مناسبی از ویژگی های مرتبط و حذف مابقی ویژگی ها، کاهش داده صورت می گیرد. از آنجا که در این روش ماهیت ویژگی ها تغییر نمی کند، در اغلب مسائلی که نیاز به تفسیر نتایج وجود دارد این روش استفاده می شود. برای انتخاب ویژگی نیاز به انجام سه گام داریم: گام اول در انتخاب ویژگی بر اساس دانش زمینه ای و نظر افراد خبره، حذف داده ای نا مرتبط با مسئله هست. گام دوم در انتخاب ویژگی بر اساس گزارش کیفی داده ها، بررسی و اقدام در شرایط زیر است:- حذف ویژگی های دارای مقادیر گمشده بسیار زیاد (فیلد هایی که بیش از 50% missing value داشته باشند)
- حذف ویژگی های دارای واریانس بسیار کم
- حذف ویژگی های کیفی دارای کلاس های زیاد

روش فیلتر (Filter Method)
رویکرد اول در این روش، با ارتباط سنجی آماری بین هر کدام از ویژگی ها با فیلد هدف (مستقل از مدل)، به انتخاب زیر مجموعه مناسبی از ویژگی های مرتبط می پردازد. نقاط قوت: سادگی محاسباتی و سریع نقاط ضعف: مشکلات افزونگی داده راحل نمی کند اثر متقابل بین ویژگی ها بررسی نمیشود

شاخص بهره اطلاعاتی (Information Gain)
وقتی که از یک فیلد برای کاهش آنتروپی استفاده می نماییم مطابق تصویر مثال زیر عمل نموده ایم.
تحلیل حساسیت (Sensitivity analysis)
این روش مبتنی بر اهمیت ویژگی است و رویکرد دیگر در روش فیلتر، محاسبه و رتبه بندی اهمیت هر ویژگی برای هر مسئله می باشد. اندازه گیری اهمیت هر ویژگی با روش تحلیل حساسیت انجام می شود. تجزیه و تحلیل یا «آنالیز حساسیت» (Sensitivity Analysis) تعیین میکند که چگونه مقادیر مختلف یک متغیر مستقل بر یک متغیر وابسته تحت مجموعهای از مفروضات تأثیر میگذارد. به عبارت دیگر، تجزیه و تحلیل حساسیت روشی برای بررسی و مطالعه چگونه تاثیر منابع مختلف (در محیط مطلق یا عدم اطمینان) در یک مدل ریاضی است. این تکنیک در حوزههایی استفاده میشود که با یک یا چند متغیر ورودی سرکار داشته و بخواهیم رفتار یک تابع یا رابطه با براساس آنها بسنجیم. در مرحله اول با ساخت مدل روی همه ویژگی ها میزان خطا محاسبه میشود و سپس در هر مرحله یکی از ویژگی ها حذف شده و با مقایسه میزان خطای جدید با مقدار اولیه، میزان اهمیت آن ویژگی برآورد می شود. نکته مهم: در روش مبتنی بر اهمیت ویژگی، به علت بررسی اثر متقابل و همبستگی بین ویژگی ها در ساخت مدل ها، اثر افزونگی داده ها توسط مدل ها کنترل می شود
تعریف ساده تحلیل حساسیت:
وقتی رفتار یک سیستم را تحلیل میکنیم، تحلیل حساسیت به این معنا خواهد بود که محاسبه و برآورد کنیم که رفتاری که برای سیستم پیش بینی کردهایم (خروجی آن سیستم) تا چه حد به مقادیر متغیرهای مستقل (ورودی آن سیستم) حساس است. مثال: فرض کنید میخواهید یک کسبوکار جدید برای خود شروع کنید. ایده شما این است که تیشرتهای بدون طرح را از یک عمدهفروش خریداری کنید و طرحهای خلاقانهای که فکر میکنید مورد استقبال بازار قرار میگیرد بر روی آنها چاپ کنید و بفروش برسانید. برای این منظور یک دستگاه چاپگر بر روی پارچه نیاز دارید که قسمت عمده هزینه ثابت (FC) شما را تشکیل میدهد. برآوردی هم از هزینه متغیر (VC) تولید هر تیشرت طرحدار شامل قیمت خرید عمدهفروشی هر تیشرت و هزینههای مربوط به چاپ دارید. با بررسی بازار، به این نتیجه میرسید که میتوانید تیشرتهای خود را با قیمت P بفروش برسانید. برآورد شما این است که بتوانید Q عدد از تیشرتهای خود را بفروشید. با داشتن این اعداد میتوانید سود خود را محاسبه کنید؛ اما در دنیای واقعی با عدم قطعیتهایی مواجه هستیم. اگر نتوانید با قیمت موردنظر محصولات خود را عرضه کنید چه تأثیری روی سود شما میگذارد؟ اگر به اندازهای که پیشبینی کردید با تقاضا مواجه نشوید چه میشود؟ و یا برعکس اگر با استقبال خریداران مواجه شدید سود شما چه تغییری میکند؟
روش بسته بند (Wrapper Method)
این روش با ساخت تعداد زیادی مدل پیش بینانه روی زیر مجموعه های مختلفی از ویژگی های ورودی، و ارزیابی عملکرد آنها بهترین زیر مجموعه از ویژگی های ورودی را انتخاب میکند. این دسته از روش های انتخاب ویژگی، در هر مرحله، زیر مجموعهای از ویژگیها در فضای ویژگی را انتخاب میکند و عملکرد الگوریتم یادگیری ماشین روی این زیر مجموعه سنجیده میشود. از نتیجه عملکرد الگوریتم یادگیری ماشین، برای ارزیابی زیرمجموعه انتخاب شده از فضای ویژگی استفاده میشود. به عنوان نمونه، مشخص میشود که کدام یک از زیر مجموعههای انتخاب شده، بیشترین تاثیر را در افزایش دقت یک مسأله دستهبندی خواهند داشت. از این روش مدلسازی و جستجوی ویژگی برای انتخاب ویژگی جهت آموزش انواع روشهای یادگیری ماشین استفاده میشود.
قابلیت بهینه سازی در انتخاب ویژگی های موثر با رویکردهای زیر:
- استفاده از الگوریتم های Search
- رویکرد Forward Selection
- رویکرد Backward Elimination
- رویکردStep-wise Selection (Bidirectional Elimination)
نکات قوت
- بررسی همبستگی و اثر متقابل بین ویژگی ها
- کنترل افزونگی داده ها
- تعیین تعداد بهینه از ویژگی های موثر
نکات ضعف
- پیچیدگی محاسباتی بیشتر نسبت به روش فیلتر
- مستعد بیش برازش به علت استفاده از مدل پیش بینانه
استفاده از الگوریتم های Search
Hill- climbing (Greedy stepwise) الگوریتم تپهنوردی (Hill climbing) الگوریتمی است که برای یافتن بهترین پاسخ یک مسئله یا برای پیدا کردن پاسخی از مسئله که به اندازهٔ کافی مناسب و بهینه باشد، استفاده میشود. در اینجا بیشتر مسئلههایی مورد بحث قرار میگیرند که چندین پاسخ با ارزش برابر دارند و هدف ما یافتن یکی از آن هاست.


رویکرد Forward Selection
- در این رویکرد، ابتدا مدل اولیه بدون هیچکدام از ویژگی ها در نظر گرفته می شود. سپس در گام بعدی ویژگی دارای بیشترین ارتباط با فیلد هدف وارد مدل می شود و بهبود کیفیت مدل ارزیابی می شود.
- در گام بعدی به شرط حضور ویژگی اول، بهترین ویژگی دوم از نظر ارتباط، به مدل اضافه شده و کیفیت مدل بررسی می شود.
- این گام ها تا شرط توقف (معنادار نبودن ارتباط ویژگی های باقیمانده) و یا ورود تمام ویژگی ها ادامه می یابد.
رویکرد Backward Elimination
- در این رویکرد، ابتدا مدل اولیه شامل تمام ویژگی ها در نظر گرفته می شود.
- سپس در گام بعدی ویژگی دارای کمترین ارتباط با فیلد هدف حذف می شود و معنادار نبودن کاهش کیفیت مدل ارزیابی می شود.
- در گام بعدی ضعیف ترین ویژگی دوم از نظر ارتباط، از مدل حذف شده و کیفیت مدل بررسی می شود.
- این گام ها تا شرط توقف (معنادار بودن ارتباط ویژگی های باقیمانده) و یا خروج تمام ویژگی ها ادامه می یابد.
رویکرد Step-wise Selection (Bidirectional Elimination)
این رویکرد به صورت هیبریدی از دو رویکرد قبل استفاده می شود. بدین صورت که در گام اول، یک ویژگی بر اساس رویکرد Forward وارد مدل می شود و در گام دوم بر اساس شرایط رویکرد Backward امکان حذف آن از مدل مورد بررسی قرار می گیرد. این گام ها تا جایی که ویژگی جدیدی شرایط ورود نداشته باشد و هیچکدام از ویژگیها شرایط حذف از مدل را نداشته باشند ادامه پیدا می کند.روش توکار (Embedded Method)
در این روش انتخاب ویژگی در فرآیند ساخت مدل ادغام شده است. این روش همانند روش فیلتر، سریع بوده و ویژگی های مرتبط با مسئله را شناسایی می کند و مانند روش بسته بند، با بررسی ویژگی ها در کنار هم از افزونگی داده ها جلوگیری می کند و با تعیین تعداد بهینه از ویژگی های موثر از بیش برازش شدن مدل نیز جلوگیری می کند. استفاده از این روش در مدلسازی با ابعاد بالا و تعداد ویژگی های زیاد منجر به ساخت مدلهای تنک (Sparse Models) می شود. جزئیات این روش و متدهای آن در مباحث پیشرفته کورس یادگیری ماشین پوشش داده می شود.Lasso regression or L1 regularization
Ridge regression or L2 regularization
Elastic nets or L1/L2 regularization