هنگامی که از “علم داده” صحبت می‌کنیم، باید مشخص کنیم که منظور از “داده” چیست. علاوه بر این، بخش “علم” که قبلاً به آن اشاره شد، شامل چه رویکردهایی است؟ این دو مفهوم، پایه‌های اصلی علوم داده هستند و عمدتاً در رویکردهای تحلیلی شامل آمار، احتمال و یادگیری ماشین تعریف می‌شوند. در ابتدا، به بررسی داده‌ها می‌پردازیم.

انواع داده‌ها

داده‌ها را می‌توان از دو منظر دسته‌بندی کرد:

  1. موضوع داده‌ها: داده‌ها ممکن است از حوزه‌های مختلفی مانند مالی، پزشکی، بازاریابی، مدیریت یا علوم دیگر استخراج شوند.
  2. ساختار داده‌ها: داده‌ها از نظر ساختاری به سه دسته تقسیم می‌شوند: داده‌های ساخت‌یافته، نیمه‌ساخت‌یافته و غیرساخت‌یافته.

داده‌های ساخت‌یافته

یکی از ساده‌ترین نمونه‌های داده‌های ساخت‌یافته، جداول موجود در فایل‌های اکسل است. هر سطر نشان‌دهنده یک رکورد و هر ستون نشان‌دهنده ویژگی‌های آن رکورد است. به عنوان مثال، اطلاعات مشتریان در یک جدول شامل نام، جنسیت، سن و درآمد آن‌ها ذخیره می‌شود. علاوه بر این، پایگاه‌های داده رابطه‌ای نیز نمونه‌ای از داده‌های ساخت‌یافته هستند که شامل جداول مرتبط با یکدیگرند.

در این پایگاه‌ها، اطلاعات تکراری کاهش یافته و مدیریت داده‌ها بهینه می‌شود. برای مثال، اطلاعات دانشجویان و دروس آن‌ها در جداول جداگانه‌ای ذخیره می‌شوند و با استفاده از کلیدهای ارتباطی مانند “Student ID” به یکدیگر مرتبط می‌شوند. این ساختار امکان مدیریت مؤثر داده‌ها را بدون تکرار فراهم می‌کند.

پایگاه داده‌های جغرافیایی (GIS)

پایگاه‌های داده جغرافیایی شامل داده‌هایی هستند که مختصات جغرافیایی (طول و عرض) در آن‌ها اهمیت ویژه‌ای دارد. به عنوان مثال، یک لایه از داده‌های جغرافیایی ممکن است شامل خیابان‌ها باشد، لایه دیگری ساختمان‌ها و لایه‌ای دیگر فضاهای سبز. این لایه‌ها ترکیب شده و نمای کاملی از منطقه ارائه می‌دهند. در این پایگاه‌ها، مختصات جغرافیایی وابستگی خاصی را میان داده‌ها ایجاد می‌کند. برای مثال، فاصله یک ساختمان با خیابان مجاور یا نزدیکی آن به فضای سبز تأثیر مستقیمی بر تحلیل داده‌ها دارد.

داده‌های سری زمانی

داده‌های سری زمانی یکی دیگر از انواع داده‌های ساخت‌یافته هستند. به عنوان مثال، قیمت دلار در روزهای مختلف نمونه‌ای از این نوع داده‌ها است. این داده‌ها به دلیل وابستگی زمانی، نیازمند تحلیل پیچیده‌تری هستند. هر تغییری در ترتیب این داده‌ها می‌تواند الگوها و روندها را تغییر دهد. داده‌های سری زمانی به تاریخچه خود وابسته بوده و نیازمند پردازش دقیق هستند. به عنوان مثال، پیش‌بینی نرخ ارز مستلزم تحلیل دقیق این وابستگی‌ها است.

داده‌های نیمه‌ساخت‌یافته

داده‌های نیمه‌ساخت‌یافته مانند JSON یا XML دارای ساختاری مشخص اما انعطاف‌پذیر هستند. این داده‌ها معمولاً به‌عنوان واسطه بین نرم‌افزارها عمل کرده و پردازش آن‌ها را ساده‌تر می‌کنند. برای مثال، اطلاعات مشتریان و سفارشات آن‌ها در قالب JSON شامل “Customer ID”، “Order Date” و “Product ID” ذخیره می‌شود. اگرچه این داده‌ها قابل درک هستند، اما ترجیح داده می‌شود که در قالب جداول ذخیره شوند.

در فایل‌های JSON، داده‌ها معمولاً در قالب برچسب‌ها ذخیره می‌شوند که به هر عنصر یک مقدار خاص اختصاص می‌دهند. این فرمت برای انتقال داده‌ها بین نرم‌افزارها مناسب است و به دلیل سبک بودن، عملکرد بهتری در مقایسه با XML دارد.

داده‌های غیرساخت‌یافته

داده‌های غیرساخت‌یافته شامل تصاویر، ویدئوها، متون و سیگنال‌های صوتی هستند. این داده‌ها فاقد فرمت مشخصی هستند، اما در الگوریتم‌های یادگیری ماشین قابل استفاده‌اند. برای پردازش این نوع داده‌ها، ابتدا باید آن‌ها را به فرمت عددی تبدیل کرد. به عنوان مثال:

  • تصاویر به ماتریس‌هایی از اعداد تبدیل می‌شوند که هر عدد نمایانگر شدت نور در یک نقطه از تصویر است.
  • متون به بردارهای عددی تبدیل می‌شوند که معمولاً با استفاده از تکنیک‌هایی مانند Word Embedding صورت می‌گیرد.
  • سیگنال‌های صوتی نیز به مقادیر دیجیتال مناسب برای پردازش تبدیل می‌شوند.

برای مثال، در پردازش تصویر، تکنیک‌هایی مانند فیلترهای کانولوشن یا الگوریتم‌های یادگیری عمیق مورد استفاده قرار می‌گیرند. این الگوریتم‌ها می‌توانند ویژگی‌های مختلف تصاویر را شناسایی و تحلیل کنند.

پردازش و تحلیل داده‌ها

فارغ از نوع داده‌ها (ساخت‌یافته، نیمه‌ساخت‌یافته یا غیرساخت‌یافته)، علوم داده این امکان را فراهم می‌کند که این داده‌ها در پروژه‌ها مورد استفاده قرار گیرند. اگرچه پیچیدگی‌های اولیه بسته به نوع داده ممکن است متفاوت باشد، اما الگوریتم‌ها و تکنیک‌های علوم داده برای تحلیل انواع داده‌ها طراحی شده‌اند.

تمامی داده‌ها، حتی پیچیده‌ترین انواع آن‌ها، با پیش‌پردازش مناسب می‌توانند وارد الگوریتم‌های یادگیری ماشین شوند. تکنیک‌هایی مانند پردازش تصویر یا الگوریتم‌های پیشرفته یادگیری عمیق به تحلیل خودکار داده‌های غیرساخت‌یافته کمک شایانی می‌کنند.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها