یکپارچه سازی منابع مختلف داده یکی از اولین اقدامات در جهت حل مسئله و پیشبرد فرآیند داده کاوی می باشد. زیرا عموما داده های مورد نیاز در حل یک مسئله در منابع متفاوت جداگانه ثبت و نگهداری می شوند.

توجه: بایستی توجه شود کلیه روش ها و اقداماتی که تاکنون جهت آماده سازی داده ها گفته شده پس از یکپارچه سازی داده ها انجام می شود.

چسباندن داده ها (Append)

زمانی که از گزینه Append استفاده میکنیم به این معنی است که دو دیتاست (یا بیشتر) با شرایط زیر صرفا به هم متصل میشوند و تبدیل به یک دیتاست میشوند:
● ردیف های تمام دیتاست ها به هم متصل میشوند. به این معنی که اگر یک دیتاست 50 ردیف و دیتاست دیگر 100 ردیف داشته باشد، حاصل استفاده از Append برای این دو، 150 ردیف خواهد داشت.
● تعداد ستون ها برای هرکدام از دیتاست ها بعد از عملیات Append تغییر نخواهد داشت.

 ادغام کردن داده ها (Merge)

یکی دیگر از شیوه های ترکیب دیتاست ها، استفاده از گزینه Merge یا ادغام دیتاست هاست. در نتیجه ادغام نیز یک دیتاست واحد ایجاد خواهد شد، البته با شرایط زیر:
● برای ادغام (Merge) دو دیتاست می بایست یک معیار مشترک بین دو دیتاست وجود داشته باشد.
● تعداد ردیف ها، بستگی به معیار مشترک بین دیتاست ها خواهد داشت.

انواع روش های Merge

یه نکته کلی که در انواع روش های مرج کردن همواره برقرار است این است که وقتی که 2 تا دیتاست را با هم مرج می کنیم، اگر ریزدانگی آن دیتاست ها با هم متفاوت باشد آنگاه دیتای مرج شده پایین ترین سطح ریزدانگی را برای ما حفظ می کند.

توضیح انواع روش های Merge

روش اشتراکی یا Inner Join

همه ID هایی که هم در دیتاست 1 و هم در دیتاست 2 باشند را در نظر می گیرد.

اگر فرض کنیم جدول 1 لیست کد ملی افرادی است ک به کرونا مبتلا شده اند و جدول 2 لیست همه افرادی است که تحت پوشش بیمه هستند. در این صورت افرادی که هم کرونا گرفته اند و هم بیمه داشته اند به این صورت خواهد بود:

روش اجتماع یا Full outer join

همه ID های موجود در دستاست اول و دوم را با هم در نظر می گیرد.

در مثال ذکر شده در روش قبل، همه افرادی که یا کرونا گرفته اند یا بیمه داشته اند به این صورت خواهد بود:

روش Left join

در این روش، دیتاست اول را به عنوان دیتاست اصلی در نظر می گیرد و مرج را فقط برای دیتاهایی انجام می دهد که در دیتاست اول هستند.

در همان مثال، افرادی که به کرونا مبتلا شده اند و بیمه نیز دارند به این صورت است.

روش Right join

این روش مانند حالت قبلی است با این تفاوت که دیتاست دوم را به عنوان دیتاست اصلی در نظر می گیرد و مرج را فقط برای دیتاهایی انجام می دهد که در دیتاست دوم هستند.

باز هم برای همان مثال مذکور، بخشی از  افراد تحت پوشش بیمه که دچار کرونا شده اند به این صورت است:

روش Anti join

در این حالت اگر فرض کنید دیتاست اصلی، دیتاست اول باشد، پس از مرج کردن ID هایی را خواهیم داشت که در دیتاست اول هستند ولی در دیتاست دوم نیستند. شبیه حالت A-B

در مثال فرض ما، افرادی که به کرونا مبتلا شده اند اما بیمه نداشتند به این صورت خواهد بود:

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها