انواع داده ها را می توانیم از 2 بعد بررسی کنیم:

1- موضوع داده

2- ساختار داده

موضوع داده مثل: مالی، پزشکی، کسب و کار، حوزه های علم مانند فیزیک، نجوم و …

ساختار داده یعنی: 1- ساخت یافته  2- نیمه ساخت یافته   3- غیرساخت یافته

انواع داده

بر اساس موضوع داده

هرجا داده ای وجود داشته باشد علم داده می تواند آنجا نقش داشته باشد و ارزش خلق کند و محدودیتی در نوع موضوع نداریم. زیرا ما در علم داده یکسری ابزارها و الگوریتم هایی داریم که فارغ از دامنه و موضوع مورد بررسی، می‌تواند بدون نیاز به تغییر و یا با حداقل تغییر مورد استفاده قرار گیرد.

 بر اساس ساختار داده ها

اولین دسته داده های ساخت‌یافته است که راحت‌ترین و دم دست ترین دیتاها هستند که فارغ از سادگی یا پیچیدگی آنها، ساختار مشخصی دارند که الگوریتم ها و کامپیوترها می توانند آنها را شناسایی کنند و با آنها ارتباط برقرار کنند: مثلا دیتاهای موجود در یک شیت اکسل که واضح و شفاف است.

اندکی پیچیده تر بشود مثلا داده های موجود در پایگاه داده ها. که مثلا بتوانیم بر اساس داده های 2جدول شفاف و ارتباطی که بین این 2 ایجاد کرده ایم، جدول سومی را داشته باشیم که اطلاعات جدیدی از آن دیتاها به ما بدهد.

داده های ساخت یافته

می توان از دید دیگری به این دیتاها نگاه کرد مثلا پایگاه داده های جغرافیایی (GIS) . در شکل زیر اگر هرکدام از سلول ها نشان دهنده مختصات جغرافیایی باشد، آنگاه مثلا می توانیم بگوییم که در یک لایه جاده ها را نشان می دهیم، لایه بعدی ساختمان ها، لایه بعدی فضای سبز و در لایه دیگری همه این لایه ها را در کنار هم داریم. اشتراک همه آنها طول و عرض جغرافیایی است. مثلا در یک شعاع جغرافیایی می توانیم ببینیم که چندمدرسه، بیمارستان، فضای سبز، بزرگراه و … وجود دارد.

داده های ساخت یافته2

دسته دوم داده های نیمه‌ساخت‌یافته هستند مثل فایل های XML  یا Json بر اساس تگ ها و لیبل هایی که دارند، به نوعی یک ساختاری دارند که کمک می کنند تا کامپیوتر آنها را بشناسد. ما به عنوان یک انسان ساختاری مثل شیت اکسل را بهتر درک می کنیم  و با این ساختارهایی شبیه XML زیاد راحت نیستیم و این بیشتر برای نرم افزار و الگوریتم مناسب است.

از آنجایی که این فایل ها به صورت تکست و متن هستند، حجم کمتری دارند نسبت به مثلا اکسل دارند به همین دلیل یکی از انواع فایل های رایج به عنوان واسط بین نرم افزارها هستند. یعنی مثلا خروجی یک کار را با فرمت XML  یا Json دریافت می کنیم و به عنوان ورودی به نرم افزار دیگری می دهیم. به ویژه زمانی که نقش انسانی در این فرایند وجود نداشته باشد، این داده ها بسیار مناسب و رایج هستند.

داده های نیمه ساخت یافته

رایج ترین داده هایی که ما در اطراف خود داریم داده های غیرساخت‌یافته هستند مانند انواع تصاویر، متن، ویدیو، صداها و … . واکشی اطلاعات از این دیتاها برای کامپیوتر کار دشواری است و پیچیدگی های بالایی دارد. مثلا نرم افزار یک صدایی را میشنود و احساس پشت آن را تشخیص میدهد. یا نزدیکترین موزیک شبیه به آن را پیدا میکند. یا … .

مدرس: محمد روزبه (مدیرعامل گروه دایکه)

مستندساز: ساره واحدی

برگرفته از محتوای آموزشی پانزدهمین دوره علم داده دایکه

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *