2 رویکرد مهم در علم داده وجود دارد:

1- رویکردهای مبتنی بر آمار و احتمال

2- رویکردهای مبتنی بر یادگیری ماشین

آمار و احتمال

احتمال شاخه ای از ریاضیات است که به مطالعه فضای عدم قطعیت می پردازد. با اینکه ما در خیلی از اوقات فرض هایی رو انجام میدهیم و در علوم مختلف با فرض قطعیت با مسائل سر و کار داریم اما به طور کلی دنیای ما دنیای عدم قطعیت است. درست است که گاهی ما همه فرض های ممکن را پیش بینی می کنیم اما اینکه کدام فرض اتفاق بیفتد عدم قطعیت دارد. هرکدام از این فرض ها، یک احتمال و شانس وقوع دارند، اگر ما همه این ها را شناسایی کنیم و بررسی کنیم می توانیم تصمیماتی با ریسک کمتر بگیریم. و این فلسفه وجودی علم آمار است.

آمار رشته ای است بر پایه نظریه احتمالات به منظور جمع آوری، تجزیه و تحلیل، تفسیر و ارائه اطلاعات مفید از داده ها.

قرن 17 شروع تئوری احتمال بوده است؛ افرادی مثل کاردانو، گالیله، پیر فرما و پاسکال در قرن 17 به نوعی شروع کننده احتمال بوده اند. علاقمندی این افراد به مطالعه شانس و تقلب در بازی قمار باعث شد که نامه نگاری هایی بین آنها صورت بگیرد و مورد بحث قرار بگیرد و حاصل آنها کتاب هایی است مثل: کتاب بازی با تاس از کاردانو و گالیله و همینطور کتاب توسعه نظریه ترکیبات که حاصل نامه نگاری های پاسکال و فرما است.

آمار 1

قرن 18:

  • معرفی قانون اعداد بزرگ توسط برنولی
  • معرفی قانون بیز توسط تایم بیز
  • پایه های علم آمار در قرن 18 شکل گرفت و بر اساس تئوری احتمال توانست نتایج حاصل از نمونه های کوچک را به یک جامعه بسار بزرگتر تعمیم بدهد.

آمار 2

قرن 19:

  • علم آمار توسط افرادی مثل گوس، لاپلاس و کوئتلت در حوزه های مختلف علوم کاربردی مثل علوم اجتماعی توسط کوئتلت و در حوزه های علمی مثل فیزیک و زیست شناسی بسیار گسترش یافت.
  • ابزارهای مهم تحلیل آماری مانند همبستگی، رگرسیون، درستنمایی و … در این قرن معرفی شدند.

آمار 3

قرن 20 :

آمار در قرن بیستم به بلوغ رسید؛

  • به ویژه با نابغه ای مثل رونالد فیشر که قضیه حدی را توسعه داد که در مطالعه داده های پرت مورد استفاده قرار می گیرد.
  • شانون که پدر نظریه اطلاعات است این نظریه را مطرح کرد و دریچه های جدیدی باز کرد.
  • بسیاری از روش های پیشرفته آماری از قرن بیستم معرفی شدند مانند واریانس و کواریانس، تحلیل آزمایش، تحلیل داده های بزرگ با استفاده از روش های آماری.

شانون

نقش آمار و احتمال در علم داده از دو جنبه مهم است:

  • روشهای آماری: مانند شاخص های مرکزی و پراکندگی، فاصله اطمینان، آزمون های فرضی، دلیل همبستگی و …
  • نگرش آماری: ما به عنوان یک دیتا ساینتیست لازم است که نگرش آماری خود را تقویت کنیم. تمامی مباحثی که در مدرسه و دانشگاه خوانده ایم عموماً در فضای قطعیت بوده‌اند در صورتی که ما در دیتا ساینس کاملاً در فضای عدم قطعیت به سر می بریم. مادر آمار و یاد بگیریم که هیچ نقطه ای به تنهایی با نقطه دیگری مقایسه نمیشود بلکه هر نقطه برآیندی از یک گروه است و ما عموما گروه ها را با همدیگر مقایسه میکنیم، نه نقاط را.

نقش آمار و احتمال در علم داده

محدودیت های آمار و احتمال:

  • صرفا برای داده های کاربرد دارد که کمی باشند یا قابلیت کمی شدن داشته باشند.
  • ما همیشه با فشرده سازی اطلاعات رفتار گروهی داده ها را تحلیل می کنیم در هنگام این فشرده سازی طبیعتاً بخش زیادی از دیتاها از دست می‌رود.
  • از آنجایی که ما فقط می توانیم از دیتاهایی که قابلیت کمی شدن داشته باشند استفاده کنیم بنابراین اگر بررسی ما تحت تاثیر عواملی باشد که قابلیت کمی شدن ندارند تحلیل ما تحت تاثیر آن قرار می گیرد و بسیار دقیق نخواهد بود.
  • در روشهای آماری از آنجایی که ما آماره های متفاوتی برای اندازه گیری یک شاخص داریم و آن آمار ها ممکن است عدد های متفاوتی را داشته باشند در نتیجه خروجی های متفاوتی خواهیم داشت. ما باید این نگرش را بپذیریم و با توجه به این موضوع انتخاب درستی از شاخص های متفاوت داشته باشیم تا نتایج ما واقعی تر و بهتر باشد.

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *