تا اینجا درباره‌ی مفهوم احتمال ساده و احتمال توأم صحبت کردیم و درک اولیه‌ای از احتمال توأم به دست آوردیم. یاد گرفتیم که احتمال توأم به معنای محاسبه‌ی احتمال وقوع همزمان چند پدیده است. برای مثال در داده‌های مربوط به کلینیک:

  • احتمال آنکه یک بیمار مرد باشد،

  • همزمان داروی خاصی برای او تجویز شود،

  • و سطح کلسترول و فشار خون مشخصی نیز داشته باشد.

این همان مفهوم احتمال توأم است. اما پرسشی مطرح می‌شود: آیا همیشه نیاز داریم تمام ترکیب‌های ممکن از ویژگی‌ها را بررسی کنیم؟

چالش محاسبه‌ی توزیع توأم

فرض کنید پنج نوع دارو داریم و دو جنسیت (زن و مرد). این یعنی ۱۰ حالت ممکن. حال اگر سه سطح برای کلسترول و دو سطح برای فشار خون نیز در نظر بگیریم، تعداد حالت‌ها ۶۰ خواهد شد.

اگر بخواهیم احتمال توأم تمام این ۶۰ حالت را محاسبه کنیم، باید:

  • برای هر ترکیب (مثلاً: داروی Y + جنسیت مرد + فشار خون پایین + کلسترول نرمال) فراوانی مشاهده‌شده را محاسبه کنیم.

  • سپس احتمال آن ترکیب را بر اساس نسبت فراوانی به دست آوریم.

این کار در مثال ساده‌ی ما شدنی است، اما در مسائل واقعی که ده‌ها یا صدها ویژگی (Feature) وجود دارد، تعداد ترکیب‌های ممکن به هزاران و میلیون‌ها حالت می‌رسد. محاسبه‌ی توزیع توأم در چنین شرایطی بسیار پیچیده، زمان‌بر و نیازمند حجم عظیمی از داده است.

ارتباط توزیع توأم با مدل‌های مولد

اساس کار بسیاری از مدل‌های مدرن در یادگیری ماشین، به‌ویژه مدل‌های مولد (Generative Models)، بر محاسبه‌ی توزیع توأم است.

  • نمونه‌ی بارز: ChatGPT و DALL·E که بر اساس حجم عظیمی از داده‌های متنی و تصویری آموزش دیده‌اند.

  • این مدل‌ها فضای احتمالی داده‌ها را بر اساس ترکیب‌های ممکن (توزیع توأم) می‌سازند.

  • سپس قادرند متن یا تصویر جدیدی تولید کنند، زیرا تمام الگوهای احتمالی داده‌ها را فراگرفته‌اند.

چالش اصلی مدل‌های مولد

  1. نیاز به حجم بسیار زیاد داده برای پوشش تمام ترکیب‌های ممکن.

  2. نیاز به قدرت پردازشی بالا برای محاسبه و ذخیره‌سازی این توزیع.

رشد اینترنت و افزایش حجم داده‌ها در دهه‌ی ۲۰۰۰، همراه با پیشرفت سخت‌افزار (به‌ویژه کارت‌های گرافیک)، زمینه را برای توسعه‌ی مدل‌های عمیق (Deep Learning) و مدل‌های مولد فراهم کرد.

ورود به مفهوم احتمال شرطی

اگرچه مدل‌های مولد دقت بالایی دارند، اما در عمل همیشه امکان دسترسی به داده‌ی بسیار بزرگ وجود ندارد. در بسیاری از پروژه‌های سازمانی و کسب‌وکاری، داده‌های ما محدود است.

اینجاست که احتمال شرطی اهمیت پیدا می‌کند!

تعریف

احتمال شرطی یعنی محاسبه‌ی احتمال وقوع یک پدیده، با توجه به دانستن وقوع پدیده‌ای دیگر.

نماد:

یعنی احتمال وقوع A به شرط وقوع B، برابر است با احتمال توأم A و B تقسیم بر احتمال B.

مثال: داروی Y و جنسیت

  • احتمال توأم (Y و مرد): ۴۴ نفر از ۲۰۰ نفر = ۲۲٪.

    • احتمال تجویز داروی Y به شرط مرد بودن =42%

    • احتمال تجویز داروی Y به شرط زن بودن

در اینجا به‌جای آنکه کل ۲۰۰ نفر مبنای محاسبه باشند، فقط زیرمجموعه‌ی موردنظر (مردان یا زنان) در نظر گرفته می‌شود.

مزیت احتمال شرطی

به‌جای محاسبه‌ی توزیع توأم برای تمام ترکیب‌ها (که بسیار دشوار است)، می‌توان با تمرکز بر زیرمجموعه‌های مرتبط احتمال‌ها را ساده‌تر و سریع‌تر محاسبه کرد.

این رویکرد:

  • پیچیدگی محاسباتی را کاهش می‌دهد.

  • نیاز به داده‌ی حجیم ندارد.

  • همچنان امکان پیش‌بینی دقیق را فراهم می‌کند.

ارتباط احتمال شرطی با الگوریتم‌های یادگیری ماشین

مدل‌های یادگیری ماشین معمولاً به دو دسته تقسیم می‌شوند:

  1. مدل‌های مولد (Generative): بر اساس توزیع توأم کار می‌کنند. (مانند Naive Bayes یا مدل‌های بییزین، و همچنین مدل‌های مدرن مانند GPT).

  2. مدل‌های تمایزگر (Discriminative): بر اساس احتمال شرطی کار می‌کنند.

ویژگی مدل‌های تمایزگر

  • هدفشان تولید داده‌ی جدید نیست.

  • تنها یاد می‌گیرند چگونه یک نمونه‌ی داده را در یکی از دسته‌ها قرار دهند یا مقدار عددی پیش‌بینی کنند.

  • مثال‌ها: رگرسیون لجستیک، درخت تصمیم، شبکه‌های عصبی، SVM.

  • این الگوریتم‌ها در عمل بیشترین استفاده را در مسائل دسته‌بندی (Classification) و پیش‌بینی دارند.


کاربرد گسترده احتمال شرطی

احتمال شرطی زیربنای بسیاری از الگوریتم‌های پرکاربرد است:

  • Logistic Regression: بر مبنای محاسبه‌ی P(Y∣X)P(Y|X).

  • Decision Trees: در هر گره احتمال شرطی کلاس‌ها محاسبه می‌شود.

  • Neural Networks: خروجی شبکه در واقع تخمینی از احتمال شرطی کلاس‌هاست.

  • Naïve Bayes: یک مدل مولد است که ساده‌سازی‌های زیادی بر پایه‌ی احتمال شرطی انجام می‌دهد.

به این ترتیب می‌توان گفت تقریباً تمام الگوریتم‌های یادگیری ماشین، به نوعی بر مبنای محاسبه‌ی احتمال شرطی طراحی شده‌اند.

تعمیم احتمال شرطی

شرط می‌تواند شامل بیش از یک ویژگی باشد. برای مثال در داده‌های کلینیک می‌توان گفت:

  • «احتمال تجویز داروی C، مشروط بر اینکه بیمار مرد باشد، کلسترول بالا داشته باشد، فشار خون نرمال داشته باشد و سن زیر ۴۵ سال داشته باشد.»

در این حالت، زیرمجموعه‌ی داده کوچک‌تر و خاص‌تر می‌شود و احتمال در همان زیرمجموعه محاسبه خواهد شد.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها