داده های خارج از بازه:

به داده ای، داده خارج از بازه گفته می شود که شرایطی که در آن یک یا چند مقدار با استانداردهای تعریف شده مطابقت ندارد و ماهیتاً آن مقدار نمی تواند درست باشد.

به طور مثال:

  • مقادیر وزن منفی یا مقدار درصد بیشتر از 100
  • مقدار سن کمتر از سن قانونی برای دریافت کننده تسهیلات بانکی

شناسایی داده های خارج از بازه

هدف شناسایی داده های ناقص، ناسازگار و غیر دقیق و رفع آنها ایجاد داده های مناسب و با کیفیت است تا بتوانیم خروجی بهتری از تکنیک های داده کاوی بگیریم. برای شناسایی این کار باید از دانش زمینه ای موضوع مساله استفاده کنیم و مقادیر ویژگی ها در یک بازه خاص و مقایسه آن با مقادیر مینیمم و ماکزیمم داده ها می توان مقادیر خارج از بازه منطقی در آن ویژگی را فیلتر نمود.

پس از شناسایی چه باید کرد؟

1- در صورتی که دسترسی به مقدار صحیح داشته باشیم باید جایگزین نمود.

2- در صورت عدم دسترسی به مقدار صحیح باید مقدار اشتباه را حذف نمود.

شناسایی مقادیر خارج از بازه منطقی اولین گام مهم در پاکسازی داده ها می باشد. چرا که بطور مستقیم در توزیع آماری داده ها اثر منفی می گذارد.

داده های ناسازگار:

ناسازگاری در داده ها به معنای عدم همخوانی با سایر داده ها می باشد.

بطور مثال:

  • تعریف کد های متفاوت برای رنگ بدنه خودرو
  • ثبت نام شهر با نوشتار های متفاوت در مجموعه داده ها

شناسایی داده های ناسازگار

خلاصه سازی آماری داده (به طور مثال استفاده از جدول فراوانی و یا نمودار توزیع داده ها، می تواند منجر به شناسایی سریع برچسب های اشتباه یا ناسازگار در مقادیر یک ویژگی شود).

پاکسازی پس از شناسایی

جهت پاکسازی داده های ناسازگار باید داده ها را اصلاح و کد ها را یکسان سازی نمود.

  • شناسایی مقادیر ناسازگار و اشتباه اولین گام مهم در پاکسازی داده ها می باشد. چرا که بطور مستقیم در توزیع آماری داده ها اثر منفی می گذارد.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها