در این جلسه به مباحث پایه‌ای و بنیادی تئوری احتمال می‌پردازیم. پیش‌تر درباره‌ی تفاوت میان آمار و احتمال صحبت شد و اکنون قصد داریم به‌صورت عمیق‌تر وارد مفاهیم تئوری احتمال شویم. این بخش در واقع همان بخش انتزاعی و نظری است که زیرساخت تمام ابزارهای آماری و مدل‌های مورد استفاده در علم داده محسوب می‌شود.

تفاوت آمار و احتمال

  • تئوری احتمال: فضایی انتزاعی و ریاضیاتی دارد. در آن، مدل‌ها و اثبات‌های ریاضی مطرح می‌شوند که مبنای نظری ابزارهای آماری هستند.

  • آمار: داده‌ها را از دنیای واقعی (صنعت، کسب‌وکار و …) جمع‌آوری کرده و با استفاده از ابزارهای ساخته‌شده بر مبنای تئوری احتمال، تجزیه‌وتحلیل انجام می‌دهد.

به بیان دیگر:

  • احتمال از کل به جزء حرکت می‌کند؛ یعنی از جامعه (Population) به نمونه (Sample).

  • آمار از جزء به کل حرکت می‌کند؛ یعنی از نمونه به جامعه تعمیم می‌دهد.

جامعه و نمونه

در دنیای واقعی معمولاً به کل جامعه دسترسی نداریم؛ زیرا جامعه بزرگ است و بررسی تمام اعضا بسیار زمان‌بر، پرهزینه و در بسیاری موارد غیرممکن است. برای مثال، سرشماری جمعیت یک کشور هر ماه یا هر سال انجام نمی‌شود؛ بلکه معمولاً هر ۵ یا ۱۰ سال یک‌بار اجرا می‌گردد، چرا که پروژه‌ای ملی، زمان‌بر و پرهزینه است.

بنابراین در تحلیل داده‌ها اغلب با نمونه (Sample) سروکار داریم. نمونه زیرمجموعه‌ای از جامعه است که از آن برای تخمین ویژگی‌های جامعه استفاده می‌کنیم. پارامترهای جامعه غالباً ناشناخته‌اند و آمار با تحلیل نمونه‌ها تلاش می‌کند این پارامترها را تخمین بزند.

تعریف احتمال

احتمال به زبان ساده، نسبت فراوانی وقوع یک رویداد به کل فضای نمونه است.

مثال ساده: تاس

اگر یک تاس سالم پرتاب کنیم:

  • فضای نمونه شامل شش حالت (۱ تا ۶) است.

  • احتمال آمدن عدد ۱ برابر با 1/6 است.

  • این تعریف زمانی صادق است که تاس منصفانه باشد (بایاس یا انحراف نداشته باشد).

مثال کاربردی: داده‌های دارو

در داده‌های مربوط به بیماران کلینیک، برای داروی Y مشاهده کردیم که از مجموع ۲۰۰ بیمار، ۹۱ نفر آن را دریافت کرده‌اند.

  • احتمال تجویز داروی Y برابر با ۴۵٪ است.

  • احتمال تجویز داروی X برابر با ۲۷٪ بود (۵۴ نفر از ۲۰۰ نفر).

  • داروی A حدود ۱۱–۱۲٪، داروی C حدود ۸٪ و داروی B نیز حدود ۸٪ احتمال داشتند.

اگر بیماری وارد کلینیک شود و هیچ اطلاعی از شرایطش نداشته باشیم، محتمل‌ترین پیش‌بینی این است که داروی Y برای او تجویز شود، زیرا بیشترین احتمال (۴۵٪) را دارد.

ارتباط با مدل‌سازی

این همان کاری است که مدل‌های آماری و یادگیری ماشین در نهایت انجام می‌دهند: محاسبه‌ی احتمال وقوع رویدادها.

  • در یک مسئله‌ی دسته‌بندی (Classification)، اگر احتمال وقوع هر کلاس محاسبه شود، کلاس با بیشترین احتمال به عنوان پیش‌بینی انتخاب می‌شود.

  • در مثال ما، بدون استفاده از هیچ متغیر کمکی، تنها با مشاهده‌ی توزیع داده‌ها توانستیم مدلی بسازیم که دقت آن حدود ۴۵٪ است.

این در حقیقت اولین نمونه‌ی ساده از یک مدل داده‌کاوی است.

احتمال و ویژگی‌های دیگر داده

مثال: جنسیت بیماران

  • در داده‌ها، ۱۰۴ نفر مرد (۵۲٪) و ۹۶ نفر زن (۴۸٪) بودند.

  • بنابراین:

    • احتمال مرد بودن = ۰.۵۲

    • احتمال زن بودن = ۰.۴۸

 احتمال همیشه عددی بین ۰ و ۱ است:

  • احتمال صفر یعنی وقوع پدیده غیرممکن است.

  • احتمال یک یعنی وقوع پدیده قطعی است.

  • هیچ‌گاه احتمال منفی یا بزرگ‌تر از یک وجود ندارد.

مفهوم احتمال توأم (Joint Probability)

گاهی می‌خواهیم احتمال وقوع همزمان دو رویداد را بررسی کنیم. این همان احتمال توأم یا Joint Probability است.

مثال: داروی Y و جنسیت

  • رویداد A = تجویز داروی Y (۹۱ نفر از ۲۰۰).

  • رویداد B = مرد بودن (۱۰۴ نفر از ۲۰۰).

  • اشتراک A و B: بیمارانی که هم مرد بودند و هم داروی Y دریافت کردند. این تعداد ۴۴ نفر از ۲۰۰ نفر است.

    • احتمال توأم = ۲۲٪.

  • برای زنان نیز، ۴۷ نفر از ۲۰۰ نفر داروی Y دریافت کرده بودند:

    • احتمال توأم =  ۲۳.۵٪.

ارتقای مدل با احتمال توأم

در مدل اولیه صرفاً داروی Y بیشترین احتمال را داشت. اما اکنون با اطلاع از جنسیت، می‌توانیم دقیق‌تر پیش‌بینی کنیم.

  • اگر بیمار مرد باشد، احتمال‌ها را برای هر دارو مشروط به مرد بودن محاسبه می‌کنیم.

  • اگر بیمار زن باشد، همین کار را برای زنان انجام می‌دهیم.

این کار باعث ارتقای مدل و افزایش دقت پیش‌بینی می‌شود.

قانون استقلال رویدادها

اگر دو رویداد مستقل از یکدیگر باشند، احتمال توأم آن‌ها برابر است با حاصل‌ضرب احتمال‌هایشان:

مثال

  • احتمال تجویز Y = ۰.۴۵

  • احتمال مرد بودن = ۰.۵۲

  • حاصل‌ضرب این دو = ۰.۲۳۴ (تقریباً برابر با ۰.۲۲ مشاهده‌شده).

این نشان می‌دهد که در این داده‌ها، جنسیت و داروی Y تقریباً مستقل از هم هستند.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها