کاربرد هموارسازی داه ها: در طبیعت و دنیای اطراف ما، پدیده‌هایی وجود دارند که با طول زمان دچار تغییر می‌شوند. این تغییرات می‌تواند به عوامل مختلفی وابسته باشد. گاهی ممکن است یک روند صعودی (یا نزولی) در تغییرات مربوط به ویژگی‌های یک پدیده مشاهده شود یا تغییرات فصلی باعث پدید آمدن تفاوت و اختلاف شود.

هدف تحلیل سری زمانی، تشخیص یا ایجاد یک مدل سری زمانی است که در آن، بخش تصادفی و بخش غیر تصادفی از یکدیگر جدا شده و قابل تشخیص شوند، بطوری که بتوان آینده آن پدیده تصادفی را به طور کلی مشخص کرد. از شیوه‌های جداسازی بخش تصادفی از غیرتصادفی، می‌توان به هموارسازی نمایی سری زمانی (Smoothing) اشاره کرد.

هموارسازی نمایی سری زمانی تکنیکی است که به کمک آن هموارسازی صورت گرفته و داده‌های مربوط به گذشته، رفته رفته نقش کمتری در محاسبه میانگین خواهند داشت. این سیر نزولی به صورت نمایی تغییر کرده و در نتیجه به آن هموارسازی نمایی می‌گویند.

روش های هموارسازی به منظور حذف یا کاهش اثرات تصادفی از جریان داده هاست.
در واقع بخشی از پراکندگی و تغییرات در داده ها ناشی از اثرات غیرتصادفی و کنترل پذیر (متاثر از ویژگی های دیگر) صورت می گیرد و بخشی نیز بر اساس اثرات تصادفی و غیرقابل کنترل منجر به ایجاد نویز می شود.

دو رویکرد عمده در هموارسازی

رویکرد محلی(Local): هموارسازی براساس داده های موجود در همسایگی- داده های اثر گذار در هموارسازی: تعداد محدود
رویکرد سراسری(Global): هموارسازی براساس کل داده ها و الگوهای موجود – داده های اثرگذار در هموارسازی: همه داده ها

مهمترین نقطه تمایز بین این دو روش، تعداد داده های است که در هموار سازی یک داده تاثیر می گذارند. در روش محلی معمولا تعداد داده های تاثیر گزار، کم است و این داده ها معمولا در همسایگی داده مورد نظر قرار دارند، ولی در روش سراسری معمولا سعی می شود از همه داده ها برای هموارسازی یک داده خاص استفاده شود.

روش های رایج در هموارسازی بر اساس نوع داده ها نیز میتواند در سه نوع زیر دسته بندی شود:

هموارسازی داده های سطری

این نوع داده ها مبتنی بر رکود هایی هستند که در هر سطر ذخیره می شوند و ترتیب آنها اهمیتی ندارد اما در مقابل برخی از داده ها مبتنی بر ترتیب خاصی هستند مانند رکورد هایی که در بستری از زمان قرار میگیرند و لحاظ نمودن پارامتر زمان در تحلیل مورد نیاز است به عبارت دیگر پارامتر زمان موجب خود همبستگی میان داده ها می شود.

هموارسازی داده های سطری شامل برخورد با ناسازگاری ها، داده های پرت و کاهش نویز های موجود در داده ها میباشد:
روشهای شناسایی و برخورد با داده های پرت (Outlier Detection)
روش های گسسته سازی (Binning)

هموارسازی داده های زمانی

هموارسازی داده های زمانی جهت کاهش اثر نویز و داده های پرت در مطالعه روندهای زمانی بکار میرود تا تمرکز تحلیل بر الگوی کلی روند باشد.

هموارسازی نمایی ساده (Simple Exponential Smoothing)

اگر بردار اعداد اولیه را X در نظر بگیریم، بردار مقادیر هموار شده S بر اساس ضریب هموارسازی 𝛼 با رابطه زیر محاسبه میشود:

هموارسازی میانگین متحرک ساده (Simple Moving Average Smoothing)

ساده‌ترین حالت محاسبه میانگین می‌باشد به این معنا که تغییرات در دوره زمانی مشخصی با هم جمع می شوند و بر تعداد دوره تقسیم می شود. مشکلی که در این نوع محاسبه وجود دارد این است که تفاوتی بین مقدار در گذشته و اخیر وجود ندارد. در نتیجه میانگین متحرک نمایی معرفی شد.

بنابراین اگر بردار اعداد اولیه را X در نظر بگیریم، بردار مقادیر هموار شده S براساس پارامتر K با رابطه زیر محاسبه می شود.

هموارسازی داده های مکانی

هموارسازی کرنل  (Kernel Smoothing)
در این روش با تعیین تابع کرنل  𝐾(گوسی/کوادراتیک /…) هموارسازی مقادیر اولیه بر اساس برآیندی از فاصله نقاط همسایه با رابطه زیر بدست می آید:

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها