تا اینجا دربارهی مفهوم احتمال ساده و احتمال توأم صحبت کردیم و درک اولیهای از احتمال توأم به دست آوردیم. یاد گرفتیم که احتمال توأم به معنای محاسبهی احتمال وقوع همزمان چند پدیده است. برای مثال در دادههای مربوط به کلینیک:
-
احتمال آنکه یک بیمار مرد باشد،
-
همزمان داروی خاصی برای او تجویز شود،
-
و سطح کلسترول و فشار خون مشخصی نیز داشته باشد.
این همان مفهوم احتمال توأم است. اما پرسشی مطرح میشود: آیا همیشه نیاز داریم تمام ترکیبهای ممکن از ویژگیها را بررسی کنیم؟
چالش محاسبهی توزیع توأم
فرض کنید پنج نوع دارو داریم و دو جنسیت (زن و مرد). این یعنی ۱۰ حالت ممکن. حال اگر سه سطح برای کلسترول و دو سطح برای فشار خون نیز در نظر بگیریم، تعداد حالتها ۶۰ خواهد شد.
اگر بخواهیم احتمال توأم تمام این ۶۰ حالت را محاسبه کنیم، باید:
-
برای هر ترکیب (مثلاً: داروی Y + جنسیت مرد + فشار خون پایین + کلسترول نرمال) فراوانی مشاهدهشده را محاسبه کنیم.
-
سپس احتمال آن ترکیب را بر اساس نسبت فراوانی به دست آوریم.
این کار در مثال سادهی ما شدنی است، اما در مسائل واقعی که دهها یا صدها ویژگی (Feature) وجود دارد، تعداد ترکیبهای ممکن به هزاران و میلیونها حالت میرسد. محاسبهی توزیع توأم در چنین شرایطی بسیار پیچیده، زمانبر و نیازمند حجم عظیمی از داده است.
ارتباط توزیع توأم با مدلهای مولد
اساس کار بسیاری از مدلهای مدرن در یادگیری ماشین، بهویژه مدلهای مولد (Generative Models)، بر محاسبهی توزیع توأم است.
-
نمونهی بارز: ChatGPT و DALL·E که بر اساس حجم عظیمی از دادههای متنی و تصویری آموزش دیدهاند.
-
این مدلها فضای احتمالی دادهها را بر اساس ترکیبهای ممکن (توزیع توأم) میسازند.
-
سپس قادرند متن یا تصویر جدیدی تولید کنند، زیرا تمام الگوهای احتمالی دادهها را فراگرفتهاند.
چالش اصلی مدلهای مولد
-
نیاز به حجم بسیار زیاد داده برای پوشش تمام ترکیبهای ممکن.
-
نیاز به قدرت پردازشی بالا برای محاسبه و ذخیرهسازی این توزیع.
رشد اینترنت و افزایش حجم دادهها در دههی ۲۰۰۰، همراه با پیشرفت سختافزار (بهویژه کارتهای گرافیک)، زمینه را برای توسعهی مدلهای عمیق (Deep Learning) و مدلهای مولد فراهم کرد.
ورود به مفهوم احتمال شرطی
اگرچه مدلهای مولد دقت بالایی دارند، اما در عمل همیشه امکان دسترسی به دادهی بسیار بزرگ وجود ندارد. در بسیاری از پروژههای سازمانی و کسبوکاری، دادههای ما محدود است.
اینجاست که احتمال شرطی اهمیت پیدا میکند!
تعریف
احتمال شرطی یعنی محاسبهی احتمال وقوع یک پدیده، با توجه به دانستن وقوع پدیدهای دیگر.
نماد:
یعنی احتمال وقوع A به شرط وقوع B، برابر است با احتمال توأم A و B تقسیم بر احتمال B.
مثال: داروی Y و جنسیت
-
احتمال توأم (Y و مرد): ۴۴ نفر از ۲۰۰ نفر = ۲۲٪.
-
احتمال تجویز داروی Y به شرط مرد بودن =42%
-
احتمال تجویز داروی Y به شرط زن بودن
-
در اینجا بهجای آنکه کل ۲۰۰ نفر مبنای محاسبه باشند، فقط زیرمجموعهی موردنظر (مردان یا زنان) در نظر گرفته میشود.
مزیت احتمال شرطی
بهجای محاسبهی توزیع توأم برای تمام ترکیبها (که بسیار دشوار است)، میتوان با تمرکز بر زیرمجموعههای مرتبط احتمالها را سادهتر و سریعتر محاسبه کرد.
این رویکرد:
-
پیچیدگی محاسباتی را کاهش میدهد.
-
نیاز به دادهی حجیم ندارد.
-
همچنان امکان پیشبینی دقیق را فراهم میکند.
ارتباط احتمال شرطی با الگوریتمهای یادگیری ماشین
مدلهای یادگیری ماشین معمولاً به دو دسته تقسیم میشوند:
-
مدلهای مولد (Generative): بر اساس توزیع توأم کار میکنند. (مانند Naive Bayes یا مدلهای بییزین، و همچنین مدلهای مدرن مانند GPT).
-
مدلهای تمایزگر (Discriminative): بر اساس احتمال شرطی کار میکنند.
ویژگی مدلهای تمایزگر
-
هدفشان تولید دادهی جدید نیست.
-
تنها یاد میگیرند چگونه یک نمونهی داده را در یکی از دستهها قرار دهند یا مقدار عددی پیشبینی کنند.
-
مثالها: رگرسیون لجستیک، درخت تصمیم، شبکههای عصبی، SVM.
-
این الگوریتمها در عمل بیشترین استفاده را در مسائل دستهبندی (Classification) و پیشبینی دارند.
کاربرد گسترده احتمال شرطی
احتمال شرطی زیربنای بسیاری از الگوریتمهای پرکاربرد است:
-
Logistic Regression: بر مبنای محاسبهی P(Y∣X)P(Y|X).
-
Decision Trees: در هر گره احتمال شرطی کلاسها محاسبه میشود.
-
Neural Networks: خروجی شبکه در واقع تخمینی از احتمال شرطی کلاسهاست.
-
Naïve Bayes: یک مدل مولد است که سادهسازیهای زیادی بر پایهی احتمال شرطی انجام میدهد.
به این ترتیب میتوان گفت تقریباً تمام الگوریتمهای یادگیری ماشین، به نوعی بر مبنای محاسبهی احتمال شرطی طراحی شدهاند.
تعمیم احتمال شرطی
شرط میتواند شامل بیش از یک ویژگی باشد. برای مثال در دادههای کلینیک میتوان گفت:
-
«احتمال تجویز داروی C، مشروط بر اینکه بیمار مرد باشد، کلسترول بالا داشته باشد، فشار خون نرمال داشته باشد و سن زیر ۴۵ سال داشته باشد.»
در این حالت، زیرمجموعهی داده کوچکتر و خاصتر میشود و احتمال در همان زیرمجموعه محاسبه خواهد شد.