در حوزه دادهکاوی، دو بال اصلی برای تحلیل داده وجود دارد:
- رویکردهای مبتنی بر آمار و احتمال
- رویکردهای مبتنی بر یادگیری ماشین
هرکدام از این رویکردها نقشی اساسی در حل مسائل دادهمحور دارند. در این بخش، به بررسی ساختار، تعاریف و تاریخچهای مختصر از این رویکردها پرداخته و جمعبندی کلی ارائه میدهیم.
مبانی آمار و احتمال
اهمیت تئوری احتمالات
برای تحلیل داده، نیاز به ابزاری داریم که بتواند عدم قطعیت را مدیریت کند. زبان ریاضی برای این عدم قطعیت، تئوری احتمالات است. این تئوری زیربنای تحلیل دادهها در حوزه دیتا ساینس محسوب میشود و ابزارها و روشهای آماری بر اساس آن شکل گرفتهاند. احتمال به ما امکان میدهد که شانس رخدادهای مختلف را ارزیابی کرده و پیشبینیهای مؤثری انجام دهیم.
تفاوت آمار و احتمال
احتمالات را میتوان به عنوان یک فضای انتزاعی در نظر گرفت که مفاهیمی همچون احتمال شرطی، احتمال توأم، استقلال و ناسازگاری را شامل میشود. در مقابل، آمار بر پایه دادههای واقعی کار میکند و به تجزیهوتحلیل این دادهها برای استخراج بینشهای عملی میپردازد. به عبارت دیگر، آمار ابزارهای عملیاتی را فراهم میکند که بر پایه مفاهیم انتزاعی احتمالات توسعه یافتهاند.
نقش متخصصین آمار و تحلیلگران داده
توسعه ابزارها توسط متخصصین آمار ریاضی
متخصصین آمار ریاضی ابزارهایی مانند میانگین، واریانس و آزمونهای مختلف را توسعه میدهند. این ابزارها به ما اجازه میدهند دادهها را خلاصه کرده و تحلیل کنیم. به عنوان مثال، میانگین به ما کمک میکند که یک نماینده عددی برای یک مجموعه داده بزرگ داشته باشیم.
استفاده از ابزارها توسط تحلیلگران آماری
تحلیلگران آماری از ابزارهای توسعهیافته برای حل مسائل واقعی استفاده میکنند. وظیفه آنها اجرای این ابزارها، تحلیل خروجیها و بهکارگیری آنها در حوزههایی همچون مالی، پزشکی و مارکتینگ است.
نگرش آماری و اهمیت آن
تفاوت نگرش آماری و ریاضیات قطعی
نگرش آماری ما را از دنیای قطعیت به دنیای عدم قطعیت میبرد. در آمار، هیچ عددی به طور مطلق درست یا غلط نیست. به عنوان مثال، در منطق ریاضی، اگر X = Y و Y = Z، آنگاه X = Z. اما در آمار، ممکن است X با Y برابر باشد، Y با Z برابر باشد، اما X و Z برابر نباشند. این تغییر نگرش به ما کمک میکند که دادهها را به صورت گروهی تحلیل کنیم، نه به صورت تکتک.
تاریخچه آمار و احتمال
شروع آمار و احتمال از قرون 16 و 17
مباحث آمار و احتمال از اواخر قرن 16 و بهخصوص قرن 17 آغاز شد. چالشهایی مانند تحلیل بازیهای قمار از اولین موضوعاتی بود که باعث شکلگیری این حوزه شد. در قرن 18، شخصیتهایی همچون تام بیز و برنولی ابزارهای اولیه آماری را توسعه دادند.
گسترش آمار در قرن 19 و بلوغ در قرن 20
در قرن 19، آمار وارد حوزه علوم اجتماعی و تجربی شد. ابزارهای آماری مانند همبستگی و درستنمایی توسعه یافتند. در قرن 20، با رشد علوم کامپیوتر و فناوریهای مرتبط، آمار به بلوغ رسید و به شکل امروزی خود درآمد.
مبانی اصلی در آمار و احتمال
دیتا ساینتیستها برای تحلیل داده نیازی به دانش عمیق در سطح دکتری آمار ندارند، اما باید نسبت به سایرین درک بهتری از مفاهیم آماری و احتمالاتی داشته باشند. مباحث کلیدی که باید در این حوزه مسلط شوند عبارتاند از:
- تئوری و مفاهیم احتمالات: شامل تعاریفی مانند احتمال شرطی، احتمال توأم و توزیع احتمالات.
- خلاصهسازی دادهها: ابزارهایی مانند میانگین و شاخصهای آماری که دادهها را فشرده کرده و نمایندهای عددی برای مجموعه دادهها ارائه میدهند.
- ارتباطسنجی: بررسی روابط میان متغیرهایی همچون سن و درآمد.
- مدلسازی: شامل تکنیکهایی مانند رگرسیون که برای پیشبینی و تحلیل دادهها استفاده میشوند.
اهمیت نگرش آماری و تکنیکهای مرتبط
نگرش تکنیکال
در ارتباطسنجی، ابزارها و آزمونهای آماری نقش مهمی ایفا میکنند. بهعنوانمثال، آزمون فرض آماری برای بررسی رابطه میان متغیرها به کار میرود. دیتا ساینتیستها باید یاد بگیرند که چگونه از این ابزارها استفاده کرده و خروجی آنها را تحلیل کنند.
نگرش آماری و تفاوت با منطق قطعی
آمار برخلاف ریاضیات سنتی، بر مفاهیم عدم قطعیت استوار است. برای مثال:
- در ریاضیات، اگر X=YX = YX=Y و Y=ZY = ZY=Z، آنگاه X=ZX = ZX=Z.
- اما در آمار، ممکن است XXX با YYY برابر باشد، YYY با ZZZ برابر باشد، اما XXX با ZZZ برابر نباشد.
این نگرش آماری ما را از دنیای قطعیت به دنیای گروهها و رفتارهای آماری سوق میدهد.
محدودیتهای آمار و دادههای کمی
کار با دادههای کمی
آمار عموماً بر دادههای کمی تمرکز دارد و به همین دلیل محدودیتهایی دارد. برای مثال، دو تصویر نمیتوانند به راحتی با روشهای آماری سنتی مقایسه شوند، مگر آنکه با پیشپردازش خاص به دادههای کمی تبدیل شوند.
نمونههایی از کاربرد آمار در پردازش دادههای مختلف
- پردازش ویدیو: از چهره یک فرد میتوان الگویی استخراج کرد که نشان دهد آیا او عصبانی است یا خوشحال.
- پرسشنامهها: دادههای کمی و کیفی که از طریق نظرسنجیها جمعآوری میشوند، مبنای تحلیل آماری قرار میگیرند.