نرمال سازی داده ها که عموماً بر روی متغیر های کمی انجام می شود با دو هدف انجام می شود:

1-هم مقیاس کردن داده های کمی

2- تغییر در توزیع آماری و کاهش چولگی

نرمال سازی داده ها (Normalization) – هم مقیاس سازی

نرمال سازی یکی از تکنیک های مقیاس بندی ( Scaling )، نگاشت ( mapping ) در فرآیند داده کاوی است. در این روش می‌توانیم داده ها را از بازه فعلی آن به یک بازه دیگر نگاشت کنیم. این رویکرد می‌تواند کمک زیادی در اهداف پیش بینی و تجزیه و تحلیل های ما داشته باشد، بنابراین با توجه به تنوع مدل های پیش بینی در داده کاوی و به منظور حفظ این تنوع، تکنیک های نرمال سازی به ما کمک می‌کند تا این پیش بینی ها را به یکدیگر نزدیک کنیم.

فرض کنیم که یک دیتاست حاوی دو فیلد میزان درآمد و سن را در اختیار داریم، سن دامنه 20 تا 65 سال را دارد و دامنه درآمد از 2.5 تا 25 میلیون تومان است. در صورتیکه بخواهیم داده ها را خوشه بندی کنیم می تواند منجر به کاهش اثر ویژگی سن ( بطور کاذب) در مدل شود.

روش های نرمال سازی عمدتا دامنه داده های خام را به دامنه کنترل شده ای مانند [0,1] یا [1,1-] انتقال می دهند تا اثر واحد اندازه گیری را خنثی کنند.

روش های نرمالسازی جهت هم مقیاس سازی به معنای نرمال کردن توزیع آماری نیست

روش Min-Max

با تبدیل خطی بر روی داده ها، دامنه آنها را به بازه 0 تا 1 نگاشت می دهد.

سوال: با تغییر در رابطه فوق دامنه تبدیل MinMax را به بازه a تا b نگاشت دهید.

برای مثال فرض کنید داده‌های سن برای افراد مختلف مانند شکل زیر است و ما می‌خواهیم سنِ این افراد را در یک بازه‌ی ۰ تا ۱ قرار دهیم. با توجه به فرمول بالا نتیجه به این صورت است:

همان‌طور که می‌بینید هر کدام از نمونه‌ها با توجه به مقادیرِ کمینه (min) و بیشینه (max) به بازه‌ی ۰ تا ۱ تبدیل شده‌اند. همین کار را می‌توان برای ستون‌های دیگر مانند حقوق انجام داد. شکل اولِ این درس را ببینید. با نرمال‌سازی‌ِ داده‌ها در بازه‌ی ۰ تا ۱، نمودار در ۲ بُعدی چیزی شبیه به شکل زیر می‌شود:

یعنی مقیاسِ هر دو ویژگی در بازه‌ی ۰ تا ۱ قرار گرفته و حالا می‌توان الگوریتم‌های مختلف خوشه‌بندی و یا طبقه‌بندی را بر روی آن‌ها به صورت منصفانه اجرا کرد.

روش Z-Score

مقدار Z-score از طریق رابطه زیر محاسبه می‌شود که در آن، x̅ مقدار میانگین جمعیت آماری و s انحراف معیار جمعیت می‌باشد. مقدار قدر مطلق (absolute value) محاسبه شده برای z، فاصله آن ردیف از داده ها را از میانگین کل جمعیت بر حسب انحراف معیار نشان می‌دهد. هنگامی که این مقدار مثبت باشد، یعنی Z-score بالاتر از میانگین و اگر منفی باشد، نشان دهنده کمتر بود آن مقدار خاص، از میانگین کل داده ها می‌باشد.

نکته: تبدیل Z-Score توزیع داده ها را نرمال نمی کند و منجر به کاهش چولگی نمی شود.

روش Robust Scaling

در روش مقیاس بندی ویژگی منسجم یا همان Robust Scaling از چارک‌های اول، دوم و سوم داده‌ها استفاده می‌شود. این روش از تغییر مقیاس یا همان مقیاس بندی ویژگی در شرایطی که داده‌های پرت (Outlier) وجود داشته باشد، بسیار کارآمد خواهد بود. رابطه ریاضی موجود برای این تبدیل به صورت زیر است:

● در این روش، میانه روی صفر تنظیم می‌شود و فاصله بین چارک اول تا چارک سوم معادل یک واحد خواهد بود.

روش Decimal Scaling

مقیاس گذاری اعشاری نوع دیگری از روش‌های نرمال‌سازی است که در واقع منطق آن تغییر نقطه اعشار مقادیر موجود در مجموعه داده است. در این روش، نرمال‌سازی با استفاده از رابطه زیر انجام می‌شود:

با تبدیل خطی، با تغییر مکان اعشار به تعداد ارقام مقدار حداکثر مطلق انجام می شود. در رابطه زیر مقدار j کوچکترین عدد صحیحی است که مقدار قدر مطلق دادهای نگاشت داده شده را کوچکتر از مقدار 1 باشد.

روش های نرمال سازی با هدف تغییر توزیع آماری:

در برخی از مدل ها به خصوص مدل های آماری، نیاز به وجود فرض نرمال بودن توزیع آماری یکی از فرضیات مدل سازی است. برخی تبدیل های رایج همچون تبدیل لگاریتمی، نمایی، توانی و … با کاهش چولگی توزیع داده ها می تواند به این هدف کمک کند.

تبدیل Box-Cox

در آمار، تبدیل توانی (Power Transformation)، به خانواده‌ای از توابع گفته می‌شود که برای ایجاد یکنواختی روی داده‌ها با استفاده از توابع توانی (Power Functions) به کار می‌روند. این روش‌های تبدیل در تحلیل‌هایی که احتیاج به تثبیت واریانس دارند یا ایجاد داده‌ها با توزیع نرمال هدف است و همچنین بهبود سنجش ارتباط بین متغیرها بخصوص توسط ضریب همبستگی پیرسون و … مورد استفاده هستند.

در صورتی که ویژگی y دارای مقادیر کوچکتر از صفر باشد:

در صورتی که کلیه مقادیر ویژگی y بزرگتر از صفر باشد:

برای تعیین مقدار مناسب λدر تبدیل باکس کاکس، معمولا روش‌های تبدیل را با پارامترهای مختلف λروی داده‌ها به کار برده و با استفاده مقدار حداکثر تابع درستنمایی، بهترین مقدار پارامتر λ را انتخاب می‌کنند. البته این امر را با تکنیک‌های سنجش نرمال بودن داده‌ها نظیر Q-Q plot و یا آزمون‌های نرمال بودن نیز می‌توان مشخص کرد که کدام مقدار λ بهترین تبدیل برای ایجاد داده‌های نرمال برای نمونه اصلی است
برای تعیین بهترین مقدار پارامتر 𝜆 معمولا در دامنه 5- تا 5 الگوریتم باکس کاکس اجرا می شود تا بهترین مقدار برای نرمال سازی بر اساس آزمون آماری نیکویی برازش بدست آید.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها