در حوزه داده‌کاوی، دو بال اصلی برای تحلیل داده وجود دارد:

  1. رویکردهای مبتنی بر آمار و احتمال
  2. رویکردهای مبتنی بر یادگیری ماشین

هرکدام از این رویکردها نقشی اساسی در حل مسائل داده‌محور دارند. در این بخش، به بررسی ساختار، تعاریف و تاریخچه‌ای مختصر از این رویکردها پرداخته و جمع‌بندی کلی ارائه می‌دهیم.

مبانی آمار و احتمال

اهمیت تئوری احتمالات

برای تحلیل داده، نیاز به ابزاری داریم که بتواند عدم قطعیت را مدیریت کند. زبان ریاضی برای این عدم قطعیت، تئوری احتمالات است. این تئوری زیربنای تحلیل داده‌ها در حوزه دیتا ساینس محسوب می‌شود و ابزارها و روش‌های آماری بر اساس آن شکل گرفته‌اند. احتمال به ما امکان می‌دهد که شانس رخدادهای مختلف را ارزیابی کرده و پیش‌بینی‌های مؤثری انجام دهیم.

تفاوت آمار و احتمال

احتمالات را می‌توان به عنوان یک فضای انتزاعی در نظر گرفت که مفاهیمی همچون احتمال شرطی، احتمال توأم، استقلال و ناسازگاری را شامل می‌شود. در مقابل، آمار بر پایه داده‌های واقعی کار می‌کند و به تجزیه‌وتحلیل این داده‌ها برای استخراج بینش‌های عملی می‌پردازد. به عبارت دیگر، آمار ابزارهای عملیاتی را فراهم می‌کند که بر پایه مفاهیم انتزاعی احتمالات توسعه یافته‌اند.

نقش متخصصین آمار و تحلیلگران داده

توسعه ابزارها توسط متخصصین آمار ریاضی

متخصصین آمار ریاضی ابزارهایی مانند میانگین، واریانس و آزمون‌های مختلف را توسعه می‌دهند. این ابزارها به ما اجازه می‌دهند داده‌ها را خلاصه کرده و تحلیل کنیم. به عنوان مثال، میانگین به ما کمک می‌کند که یک نماینده عددی برای یک مجموعه داده بزرگ داشته باشیم.

استفاده از ابزارها توسط تحلیلگران آماری

تحلیلگران آماری از ابزارهای توسعه‌یافته برای حل مسائل واقعی استفاده می‌کنند. وظیفه آن‌ها اجرای این ابزارها، تحلیل خروجی‌ها و به‌کارگیری آن‌ها در حوزه‌هایی همچون مالی، پزشکی و مارکتینگ است.

نگرش آماری و اهمیت آن

تفاوت نگرش آماری و ریاضیات قطعی

نگرش آماری ما را از دنیای قطعیت به دنیای عدم قطعیت می‌برد. در آمار، هیچ عددی به طور مطلق درست یا غلط نیست. به عنوان مثال، در منطق ریاضی، اگر X = Y و Y = Z، آنگاه X = Z. اما در آمار، ممکن است X با Y برابر باشد، Y با Z برابر باشد، اما X و Z برابر نباشند. این تغییر نگرش به ما کمک می‌کند که داده‌ها را به صورت گروهی تحلیل کنیم، نه به صورت تک‌تک.

تاریخچه آمار و احتمال

شروع آمار و احتمال از قرون 16 و 17

مباحث آمار و احتمال از اواخر قرن 16 و به‌خصوص قرن 17 آغاز شد. چالش‌هایی مانند تحلیل بازی‌های قمار از اولین موضوعاتی بود که باعث شکل‌گیری این حوزه شد. در قرن 18، شخصیت‌هایی همچون تام بیز و برنولی ابزارهای اولیه آماری را توسعه دادند.

گسترش آمار در قرن 19 و بلوغ در قرن 20

در قرن 19، آمار وارد حوزه علوم اجتماعی و تجربی شد. ابزارهای آماری مانند همبستگی و درست‌نمایی توسعه یافتند. در قرن 20، با رشد علوم کامپیوتر و فناوری‌های مرتبط، آمار به بلوغ رسید و به شکل امروزی خود درآمد.

مبانی اصلی در آمار و احتمال

دیتا ساینتیست‌ها برای تحلیل داده نیازی به دانش عمیق در سطح دکتری آمار ندارند، اما باید نسبت به سایرین درک بهتری از مفاهیم آماری و احتمالاتی داشته باشند. مباحث کلیدی که باید در این حوزه مسلط شوند عبارت‌اند از:

  1. تئوری و مفاهیم احتمالات: شامل تعاریفی مانند احتمال شرطی، احتمال توأم و توزیع احتمالات.
  2. خلاصه‌سازی داده‌ها: ابزارهایی مانند میانگین و شاخص‌های آماری که داده‌ها را فشرده کرده و نماینده‌ای عددی برای مجموعه داده‌ها ارائه می‌دهند.
  3. ارتباط‌سنجی: بررسی روابط میان متغیرهایی همچون سن و درآمد.
  4. مدل‌سازی: شامل تکنیک‌هایی مانند رگرسیون که برای پیش‌بینی و تحلیل داده‌ها استفاده می‌شوند.

اهمیت نگرش آماری و تکنیک‌های مرتبط

نگرش تکنیکال

در ارتباط‌سنجی، ابزارها و آزمون‌های آماری نقش مهمی ایفا می‌کنند. به‌عنوان‌مثال، آزمون فرض آماری برای بررسی رابطه میان متغیرها به کار می‌رود. دیتا ساینتیست‌ها باید یاد بگیرند که چگونه از این ابزارها استفاده کرده و خروجی آن‌ها را تحلیل کنند.

نگرش آماری و تفاوت با منطق قطعی

آمار برخلاف ریاضیات سنتی، بر مفاهیم عدم قطعیت استوار است. برای مثال:

  • در ریاضیات، اگر X=YX = YX=Y و Y=ZY = ZY=Z، آنگاه X=ZX = ZX=Z.
  • اما در آمار، ممکن است XXX با YYY برابر باشد، YYY با ZZZ برابر باشد، اما XXX با ZZZ برابر نباشد.

این نگرش آماری ما را از دنیای قطعیت به دنیای گروه‌ها و رفتارهای آماری سوق می‌دهد.

محدودیت‌های آمار و داده‌های کمی

کار با داده‌های کمی

آمار عموماً بر داده‌های کمی تمرکز دارد و به همین دلیل محدودیت‌هایی دارد. برای مثال، دو تصویر نمی‌توانند به راحتی با روش‌های آماری سنتی مقایسه شوند، مگر آنکه با پیش‌پردازش خاص به داده‌های کمی تبدیل شوند.

نمونه‌هایی از کاربرد آمار در پردازش داده‌های مختلف

  • پردازش ویدیو: از چهره یک فرد می‌توان الگویی استخراج کرد که نشان دهد آیا او عصبانی است یا خوشحال.
  • پرسشنامه‌ها: داده‌های کمی و کیفی که از طریق نظرسنجی‌ها جمع‌آوری می‌شوند، مبنای تحلیل آماری قرار می‌گیرند.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها