قبل از آنکه بخواهیم به روش های توصیف و کاوش داده ها بپردازیم به موضوع گردآوری داده ها خواهیم پرداخت. فرض کنیم میخواهیم یک مسئله واقعی را حل نماییم، یکی از سوال هایی که از دیتا ساینتیست ها سوال می شود این است که به چه پارامتر های و دیتاهایی باید بیشتر اهمیت دهیم.
به نوعی باید متوجه شویم که داده های مرتبط با آن کسب و کار با چه روشی، به چه صورتی و در کجا ذخیره می شوند. در قدم اول باید روش دسترسی پذیری به آن داده ها مشخص گردند. سپس باید داده هایی که متناسب با مساله ما هستند را مشخص نماییم و داده هایی که به موضوع ما ربطی ندارند فیلتر نماییم چرا که حجم داده ها زیاد می شوند.
خیلی از اوقات پیش می آید که داده ها در یک منبع و به صورت یکپارچه ذخیره نشده باشند و نیاز است که داده ها از منابع مختلف در کنار هم تجمیع شوند. در سازمان های مختلف ممکن است عمر داده ها کم یا زیاد باشد و در شروع پروژه نیاز است که بازه زمانی و تعداد رکورد مناسب تشخیص داده شود و استفاده شود.
فرض کنیم که 4 مرحله فوق که توضیح داده شد انجام شده اند، حال نیاز به آن است که با استفاده از ابزار ها و روش های آماری شناخت دقیقی از وضعیت داده ها و روابط بین آن ها را کشف کنیم.
تعریف توصیف داده:
استفاده از روش های آماری توصیفی و مستند سازی نحوه دسترسی به داده ها و چارچوب آنها تاثیر زیادی در شناخت اولیه و دید شهودی نسب به داده ها دارد.
تعریف کاوش در داده ها:
بررسی آماری دقیق از همبستگی های موجود و روابط معنادار بین آنها قدم اول در انتخاب، ایجاد و تغییر مجموعه داده ها است.
ابزار ها و روش های شناخت داده
با توجه به اینکه عموما روش کار در همه پروژه ها و مسائل روتین نیست عموماً یک ابزار واحد برای حل مساله وجود ندارد اما برای انتخاب یک ابزار صحیح نیاز است که ابزارمان شرایط زیر را دارا باشد:
1. توصیف کاملی از فرمت داده ها، ابعاد تعداد نمونه ها و ویژگی ها و شرح هر جدول و ارتباط بین آنها اولین مرحله شناخت از داده ها، شناخت کلی از ساختار جداول داده و ارتباط بین آنها می باشد. لزوم برخی از اقدامات اولیه همچون انتخاب ابزارهای مناسب برای بارگذاری داده ها، نیاز به روش های نمونه گیری، الحاق و یکپارچه سازی داده ها بر اساس شناخت اولیه از ساختار و حجم داده ها مشخص می گردد.
2. بررسی دقیق ویژگی ها شامل تعیین نوع آن، دامنه، شاخص های مرکزی و پراکندگی و توزیع آماری آنها بررسی دقیق ویژگی ها شامل تعیین نوع آن، دامنه، شاخص های مرکزی و پراکندگی و توزیع آماری آنها؛ استفاده از خلاصه های آماری جهت توصیف ویژگی ها علاوه بر شناخت ماهیت داده ها، ایده های اولیه برای کیفیت داده ها و تبدیل های مورد نیاز را ارائه می دهد.
به عنوان مثال بتوان شاخص های مثل ماکزیمم، مینیمم، چولگی و کشیدگی را مورد سنجش قرار داد تا بتوانیم اطلاعات بیشتر و شناخت بهتری نسبت به داده های خود به دست آوریم.
3. استفاده از روش های مصورسازی داده ها برای درک بهتر از ساختار داده های مورد بررسی شناسایی الگوها به صورت بصری علاوه بر ایجاد درک شهودی از روابط بین داده ها منجر به طراحی فرضیه های تحقیق و بررسی روابط بین داده ها می شود.
با استفاده از گراف ها و تصویر سازی هایی که می توان انجام داد می شود به شکل درست تر و دقیق تری از داده های یک فیلد و یا ارتباط بین فیلد ها را درک نمود و باعث خواهد شد که دید شهودی بهتری از داده ها بدست آوریم.
پیدا کردن دید شهودی از دیتا ها می تواند باعث شود که تحلیلگر فرضیات بیشتری را در ذهنش مورد کاوش قرار دهد. به عنوان مثال هنگامی که در نمودار Scatter Plot داده های را به شکل خط می بینیم بر آن می شویم که بررسی کنیم ایا میان داده ها یک رابطه خطی وجود دارد یا خیر.
4. بررسی و تحلیل روابط دو یا چند متغیره بین ویژگی ها از طریق آزمون های فرض و سایر روش های اکتشافی بررسی روابط آماری بین ویژگی ها از طریق آزمون های فرض، علاوه بر رد یا تایید فرضیات در انتخاب ویژگی ها، تبدیل داده ها، ارزیابی و تفسیر نتایج مدل ها نقش پررنگی دارد.
شناخت داده ها در فرآیند داده کاوی
تا اینجا گفته شد که توصیف و کاوش وسیله هایی هستند که به شناخت داده ها کمک می کنند و اولین قدم از حل مساله شناخت داده ها هستند، اما باید در نظر داشت که توصیف و کاوش تنها محدود به اولین قدم حل مسئله نمی شوند و در کل فرایند داده کاوی باید توصیف و کاوش را در نظر داشته باشیم.
جهت درک بهتر اینکه چطور توصیف و کاوش می تواند در تمامی مراحل داده کاوی حائز اهمیت می باشد به مثال های زیر توجه فرمایید.
- کاربرد 1: استفاده از ابزار های شناخت داده در نقطه شروع فرآیند داده کاوی
مثال اول: گفته شد که اولین نقطه ای که توصیف و کاوش در آن کاربرد دارد، نقطه شروع است، جایی که میخواهیم نسبت به داده های مسئله پیش رو شناخت پیدا کنیم و بیشتر متوجه ابعاد موضوع و مساله بشویم، همچنین از طریق این کار می توانیم متوجه شویم آیا نیاز به ایجاد تغییرات و تبدیل داده ها داریم یا خیر.
در تصویر زیر داده های مربوط به یک پروژه واقعی در صنعت فولاد را مشاهده می کنیم، از تصویر سمت راست در می یابیم که با گذشت زمان و از یک مقطع زمانی در داده ها شکست و یا تغییر چشمگیر را مشاهده می کنیم (از تاریخ 10/1/1) و در زمانی که نمودار هیستوگرام (شکل سمت راست) متوجه می شویم که تغییر چشمگیری در یک مقطع به وجود آمده است.
در حین انجام این پروژه محقق ها متوجه این موضوع شده اند که از زمان به بعد یکی از مواد ( زغالسنگ) از منبع دیگری مورد استفاده قرار گرفت بنابراین محققین متوجه شده اند که باید دیتاهای در دست را برای بدست آوردن یک الگوی کارآمد به دو مقطع زمانی قبل از تغییر سورس زغال سنگ جدا نمایند و یا متغیری را برای تغییر نوع سورس زغال سنگ در نظر بگیرند که نتایج بتواند بر اساس آن تغییر کند و یا حتی الگویی استخراج نمایند که در شرایط مختلف بهترین نتایج را خروجی دهد.
- کاربرد 2: استفاده از ابزار های شناخت داده در نقطه شروع فرآیند داده کاوی
مثال دوم: یا به عنوان مثالی دیگر از صنعت کشاورزی نمودار زیر را مشاهده می نماییم دو داده میزان آب زهکشی شده و میزان آبی که زمین دریافت کرده است در دست داشته ایم. هنگامی که دو شاخص به صورت جداگانه مورد بررسی قرار داده شد نکته ای در کیفیت داده ها مشاهده نمی شد و پارامتری هایی مثل واریانس طبیعی به نظر می رسیدند.
اما هنگامی که شاخص جدیدی از ترکیب دو شاخص قبل به نام درصد آب زهکشی شده که حاصل تقسیم دو شاخص قبلی بر هم بود در نظر گرفته شد، دیده شد که این شاخص 4 مقدار مجزا را خروجی می دهد در حالی که تیم داده کاوی انتظار یک مقدار پیوسته را داشت.
در هر حال تیم داده کاوی با وارد نمودن پارامتر سال متوجه شد که این شاخص جدید (درصد زهکشی) برای هر سال یک عدد ثابت است و این موضوع برای تیم داده کاوی تعجب برانگیز بود، پس از برقراری ارتباط با تیم کارفرما و مطرح نمودن موضوع پیش آمده مشخص شد که تیم کارشناسی کارفرما بر اساس مباحث فنی خود از قبل این اعداد درصد های ثابت را در دیتا ها لحاظ نموده است.
با توجه به اینکه تیم داده کاوی متوجه این موضوع شد که میزان آب زهکشی به صورت اعداد مهندسی شده به وجود آمده اند و برای انجام این پروژه نباید مورد استفاده قرار گیرد.
● کاربرد 2: استفاده از ابزارهای شناخت داده در بررسی کیفی داده ها
مثال: داده های ناسازگار، در یک دیتاست در اختیار قرار گرفته که وضعیت جعبه دنده را نمایش می دهد، دیده شد که وضعیت آمار نوع جعبه دنده با مقدار کمی آن به نمایش گذاشته شد؛ اما در نوع جعبه دنده Manual یا همان دستی از دو نوع املای لغتی متفاوت استفاده شده است که باعث شد که داده ها به جای اینکه به دو بخش دنده اتوماتیک و دستی تقسیم شوند به سه قسمت تقسیم شده اند که پس از مشاهده این مشکل کلمات جایگزین یکدیگر شدند به این حالت “ناسازگاری دیتا” گفته می شود.
مثال: استفاده از نمودارهای Box Plot و Scatter Plot جهت شناسایی نقاط پرت و داده های پرت و سپس برخورد مناسب با این دسته از دیتاها
مثال: استفاده از آزمون فرض جهت تعیین استراتژی مناسب برای برخورد با مقادیر گمشده
- کاربرد 3: استفاده از ابزارهای شناخت داده در تبدیل و شاخص سازی داده ها
مثال مربوط به فاز درک و شناخت دیتا است و نیاز به این داریم که تصمیم گیری های اولیه را انجام دهیم. در فاز آماده سازی نیز این بررسی هایی برای درک بهتر بین فیلد ها وجود دارد و میتوان از این طریق کیفیت داده ها را با اضافه کردن شاخص جدید بالا برد.
در تصویر زیر نقاط مشخص شده مربوط به بیمارانی است که میزان سدیم و پتاسیم آنها سنجیده شده است و در کنار شاخص های دیگر نوع داروی مورد نیاز برای تجویز مشخص شده است. پس از آنکه از کیفیت اولیه داده ها اطمینان پیدا شد، یک scatter plot مطابق تصویر زیر رسم شد و دیده می شود که گویی داروی Y را توسط یک خط کاملا جدا نماید.
در نتیجه می توان معادله و ضریبی را انتظار داشت که بتوان رابطه بین نوع دارو، سدیم و پتاسیم را مشخص کند.
- کاربرد 4: استفاده از ابزارهای شناخت داده در انتخاب ویژگی های موثر
مثال مربوط به امتیاز و اعتبار دهی به مشتریان است و می توان به صورت صفر (بد) و یک (خوب) مشتریان را دید که یکی از پارامتر های کمی نمایانگر سابقه و قدمت مشتری است. با توجه به دیتا و مشاهده چولگی در نمودار تصمیم بر این شد که پارامتر کیفی سابقه کار بالا و سابقه کار پایین به عنوان تو پارامتر توصیفی مد نظر قرار داده شود؛ از این طریق رابطه بین مشتری خوب و بد و مشتری با سابقه کار پایین و بالا مورد با استفاده از آزمون استقلال سنجش قرار گرفت. بنابراین یک ویژگی جدید در دیتا ها به وجود آمد.
- کاربرد 5: استفاده از ابزارهای شناخت داده در بررسی روابط و الگوها
مثال در مرحله مدل سازی با استفاده از آزمون فرض، معمولا قبل از ساخت مدل ارتباط بین فیلد ها با فیلد هدف مورد سنجش قرار می گیرد. حال اگر ارتباط موجود باشد آن ارتباط به چه صورت است. معمولا در انتها نتایج داده کاوی باید رد و اثری از ارتباط در خود داشته باشد و این می تواند معیاری بر این باشد که تیم داده کاوی مسیر تحلیل خود را درست رفته است یا خیر.
کاربرد 6: استفاده از ابزارهای شناخت داده در کسب بینش از مدل ها
به عنوان مثال در تصویر زیر در سنجش وفاداری مشتریان با استفاده از ایجاد خوشه بندی و شاخص RSM و از سوی دیگر فیلد کیفی دیگری به نام جنسیت که رفتار مشتریان خانم و آقا را در خوشه های بدست آماده مورد بررسی قرار داده است.
همانطور که در موارد مطرح شده با هم دیدیم از زمان ورود دیتا ها و پس از مدلسازی و در سایر مراحل چرخه CRISP می توان از ابزار توصیف و کاوش داده ها استفاده نمود تا به درک و بینش موضوع و بهتر شدن روند کار و در نتیجه افزایش نتیجه کیفیت کار کمک نماید.