روش (Discretization / Binning)

گسسته سازی به فرآیند تبدیل داده های پیوسته به مقادیر گسسته در قالب فواصل مجاوری که داده های پیوسته را درون خود قرار داده است، گفته می شود.

در صورتی که طیف اعداد ورودی بسیار متنوع باشد (برای نمونه داده‌های مربوط به حقوق کارکنان)، در این حالت می‌توان طبقه‌هایی را برای داده‌ها در نظر گرفت و برای هر طبقه، یک نام انتخاب کرد. (برای نمونه عبارت حقوق اندک برای افراد دارای حقوق کمتر از یک میلیون تومان).

این طبقه‌ها می‌توانند جایگزین داده‌های پیوسته قبلی یا همان مبلغ حقوق شده و با یک طیف گسسته (حقوق اندک، حقوق متوسط، حقوق بالا)، همان داده‌ها را شبیه سازی کنند. این تبدیل پیوسته به گسسته، به الگوریتم‌ها کمک می‌کند تا با یک ساده‌سازی مختصر، با طیف محدودتری از داده‌ها مواجه باشند و از پیچیدگی‌های محاسبات داده‌کاوی کاسته شود.

دلایل انجام گسسته سازی در مبحث تبدیل داده ها چیست؟

  • درک ساده تر از داده های اسمی در صورت تناسب با نوع مسئله؛ بطور مثال سطح درآمد کم، متوسط و زیاد
  • تفسیر پذیری بیشتر مدل ها از طریق روابط معنادار آماری بین مقادیر گسسته و فیلد هدف
  • تطابق بیشتر با برخی الگوریتم های یادگیری ماشین
  • حذف نویز های موجود در ثبت اندازه های کمی

رویکرد های گسسته سازی

●      Domain Knowledge

در بسیاری از موارد اطلاع از دانش زمینه ای و قواعد کسب و کار مرتبط با داده ها، جهت گسسته سازی ویژگی های کمی، تعیین کننده است.

●      Custom discretization

به عنوان مثال استفاده از هیستوگرام توزیع داده ها، ابزار رایج و قدرتمندی در انتخاب بازه های مناسب هست.

●      Unsupervised Approaches

 Equal-width discretization

روش گسسته سازی عرض برابر، این روش اساس رسم هیستوگرام ها است، در هیستوگرام ها نرم افزار داده ها را به (25 تا معموماً) کلاس همسان تقسیم می کند و سپس نمودار را رسم می کند.

 Equal-frequency discretization

در این روش جداسازی به شکلی انجام می شود که فراوانی در گروه ها یکسان شود، عملا نرم افزار بر اساس چندک ها عمل می نماید.  یعنی علی رغم روش قبلی عرض رده ها یکسان نیست.

 K-means discretization

خوشه‌بندی K-میانگین (k-means clustering) روشی در کمی‌سازی بردارهاست که در اصل از پردازش سیگنال گرفته شده و برای آنالیز خوشه بندی در داده کاوی محبوب است. کی-میانگین خوشه‌بندی با هدف تجزیه n مشاهدات به k خوشه است که در آن هر یک از مشاهدات متعلق به خوشه ای با نزدیکترین میانگین آن است، این میانگین به عنوان پیش‌نمونه استفاده می‌شود. این به پارتیشن‌بندی داده‌های به یک دیاگرام ورونوی تبدیل می‌شود.

الگوریتم k-میانگین یکی از ساده‌ترین و محبوب‌ترین الگوریتم‌هایی است که در داده‌کاوی (Data Mining) بخصوص در حوزه یادگیری نظارت نشده (Unsupervised Learning) به کار می‌رود.

●      Supervised Approach

در این روش گسسته  سازی داده ها با در نظر گرفتن هدف انجام می شود و عملا فیلد هدف راهنمایی خواهد بود تا بیان کند داده ها چطور خوشه بندی شوند.

 Discretization with correlation (ChiMerge Alg.)

این روش با استفاده از رویکرد آماری و استفاده از Chi-Square احتمال شباهت دو داده را محاسبه می کند.
این رویکرد به صورت هدایت شده بر اساس برچسب کلاس هدف، با ادغام فواصل مجاوری که میزان x2 کوچکی دارند ادامه پیدا میکند تا در نهایت دسته هایی را با توزیع آماری متمایز از برچسب کلاس هدف ایجاد نماید.

o Discretization with decision trees

گسسته‌سازی با درخت‌های تصمیم شامل استفاده از درخت تصمیم برای شناسایی نقاط تقسیم بهینه است که فواصل پیوسته را تعیین می‌کند:
مرحله 1: ابتدا یک درخت تصمیم با عمق محدود (2، 3 یا 4) را با استفاده از متغیری که می‌خواهیم گسسته سازی کنیم تا هدف را پیش‌بینی کنیم، آموزش می‌دهد.
مرحله 2: سپس مقادیر متغیر اصلی با احتمال برگردانده شده توسط درخت جایگزین می شوند.

بیش‌برازش  (Overfitting)

مدل بیش‌برازش، مدلی بسیار پیچیده برای داده‌ها است. به این معنی که در تحلیل رگرسیونی، مدلی با بیشترین پارامترها ایجاد می‌شود. در چنین حالتی،‌ مدل با تغییرات جهشی سعی در پوشش داده‌های حاصل از نمونه و حتی مقدارهای نویز می‌کند. در حالیکه چنین مدلی باید منعکس کننده رفتار جامعه باشد. در این گونه موارد، اگر مدل رگرسیون بدست آمده، برای پیش‌بینی نمونه دیگری به کار رود، مقدارهای پیش‌بینی شده اصلا مناسب به نظر نخواهند رسید.

در تصویر زیر نمودار حاصل از بیش‌برازش روی داده‌های حاصل از نمونه دیده می‌شود. خط آبی، نشان دهنده منحنی برازش شده روی داده‌ها است و خط نارنجی تابعی است که مدل واقعی جامعه آماری را نشان می‌دهد. نقاط آبی رنگ نیز نمونه‌های تصادفی از جامعه آماری را نشان می‌دهند. در مدل بیش‌برازش، نقطه‌های حاصل از نمونه‌ بهترین برازش را دارند و خط آبی تقریباً از همه آن‌ها عبور کرده است.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها