در ادامه مباحث آماری، قصد داریم انواع توزیع را معرفی نماییم:

توزیع های احتمالی

برخی از متغییر های تصادفی از تابع احتمال، با تابع چگالی خاصی پیروی می کنند که به توزیع های احتمالی استاندارد شناخته می شوند.

شناخت و درک درست از ساختار مدلی احتمالی این توزیع ها ، منجر به درک درست و دقیق از رفتار متغیر تصادفی در حل مسائل خواهد شد.

به عنوان مثال اگر دو تاس را همزمان پرتاب کنیم و این را یک آزمایش تصادفی فرض کنیم، جمع اعداد ظاهر شده همواره بین اعداد 2 تا 12 خواهد بود. در صورتی که نتایج این آزمون را نظر بگیریم فرمی که احتمال پیدا می کند برای x های مختلف را توزیع احتمال گویند.

توزیع های احتمالی

توزیع برنولی

در صورتی که آزمایشی داشته باشیم که دو برآمد داشته باشد (مثلاً شکست یا پیروزی) به آن آزمایش ازمایش برنولی گفته می شود. اگر x نمایانگر تعداد پیروزی ها باشد،  x  دارای توزیع برنولی با پارامتر p (احتمال پیروزی) است.

P(X=x) = px(1-p)1-x

 یک سکه را به هوا پرتاب می‌کنیم. یا شیر می‌آید یا خط. اگر شیر بیاید پیروز می‌شویم (success) و اگر خط بیاید، می‌بازیم (fail). احتمالِ هر کدام هم ۵۰ درصد است. این ساده‌ترین مثال از توزیع برنولی بود. در این توزیع که دو حالت دارد، با احتمال‌های مشخصی یا برنده می‌شویم یا می‌بازیم و مجموع احتمالاتِ برد و باخت هم برابر یک می‌شود.

فرض کنید شخصی که دارای بیماریِ خاصی هست، سکته‌ی مغزی می‌کند و بر اساس داده‌های قبلی در بیمارستان، ۲۰ درصد از افرادِ بیماری که سکته‌ی مغزی کرده‌اند، فوت می‌کنند (fail). پس ۸۰ درصد از آن‌ها زنده مانده‌اند (success). این هم نوعی توزیع برنولی بود. با این تفاوت که احتمالات در این مثال برابر نبودند.

اگر احتمال برنده شدن (در این مثال زنده ماندن) را برابر p در نظر بگیریم، پس p = 0.8 است و اگر احتمال شکست (در این مثال فوت کردن) را برابر q در نظر بگیریم، پس q = 0.2 است. شکل زیر نیز همین توزیع را بر روی نمودار با ۱ به معنای پیروی و ۰ به معنای شکست، مشخص می‌کند.

توزیع برنولی

توزیع دو جمله ای

 توزیع دو جمله ای بسطی از توزیع برنولی است با این تفاوت که در این توزیع یک آزمایش n بار تکرار می شود  و x نمایانگر تعداد پیروزی ها سات. X دارای توزیع دوجمله ای با پارامترهای n و p (احتمال پیروزی) است.

توزیع دوجمله ای از حاصل جمع n توزیع برنولی (به شرط آن که مستقل باشند) به دست می آید. در واقع توزیع برنولی حالت خاصی از توزیع دو جمله ای محسوب می شود که در آن n برابر با یک باشد.

P(X=x) = px(1-p)n-x

 فرض کنید ۱۰ بیمار سکته‌ی مغزی می‌کنند. بر اساس داده‌های قبلیِ بیمارستان هم می‌دانیم که بیماری که سکته می‌کند به احتمال ۸۰ درصد زنده مانده و به احتمال ۲۰ درصد فوت می‌کند. حالا اگر بخواهیم بدانیم که با چه احتمالی، دقیقاً ۷ نفر از ۱۰ نفر بیماری که سکته کرده‌اند، زنده می‌مانند، بایستی از توزیع دو جمله‌ای استفاده کنیم.

این توزیع برای پاسخگویی به همین دست سوالات به وجود آمده است. فرمولِ به دست آوردن احتمال موفقیت (success) در توزیع دو جمله‌ای به صورت زیر است:

توزیع دو جمله ای
برای پاسخ به مسئله‌ی بالا، n = 10 است. x = 7 یعنی به دنبال تعدادِ دقیقاً ۷ مشاهده که success شوند، هستم و p = 0.8 است. با جایگذاریِ این اعداد در فرمول بالا، می‌توانیم احتمال این‌که دقیقاً ۷ نفر از این ۱۰ بیمار که سکته‌ی مغزی کرده‌اند، زنده بمانند را به دست بیاوریم:

توزیع دو جمله ای
که نتیجه برابر ۰.۲۰ خواهد شد. یعنی به احتمال ۲۰ درصد، دقیقاً ۷ نفر زنده می‌مانند. البته این‌که داده‌های ما از توزیع دو جمله‌ای پیروی کنند، نیازمند چند شرط است. مثلاً این‌که هر کدام از پیشامدها مستقل از دیگری باشند. در مثال بالا، مثلاً اگر یک بیمار جدید که سکته کرده بود، رسید، زنده ماندن یا فوت کردنِ این بیمار ارتباطی با زنده ماندن یا فوت کردنِ بیمار قبلی نداشته باشد.

شرط دیگر هم این است که حتماً هر کدام از پیشامدها در دو حالت قرار بگیرند و حالت سومی وجود نداشته باشد. و شرط آخر هم این‌که احتمال موفقیت یا شکست در هر بار از پیشامدها برابر باشد. در مثال بالا، مثلاً احتمال زنده ماندنِ یک بیمار ۸۰ درصد و احتمال زنده ماندن بیماری دیگر ۹۰ درصد نباشد. همه یک احتمال برای زنده ماندن داشته باشند.

در مثالِ بالا، اگر بخواهیم ببینیم احتمالِ این‌که از بین این ۱۰ بیمار، ۰ یا ۱ بیمار زنده بمانند بایستی احتمال ۰ را حساب کرده، سپس احتمال ۱ را هم حساب کرده و آن‌ها را با هم جمع کنیم.
همان‌طور که دیدید توزیع برنولی و دو جمله‌ای از توزیع‌های گسسته‌ای هستند که کاربردهای فراوانی در بین داده‌ها و فرآیند‌های مختلف و حل مسائل گوناگون دارند.

توزیع نرمال

در نظریه آمار و احتمال، توزیع نرمال (Normal Distribution) یکی از مهم‌ترین توزیع‌های آماری است. البته به این توزیع گاهی «توزیع گاوسی» (Gaussian Distribution) یا توزیع «گاوس-لاپلاس» (Laplace-Gauss) گفته می‌شود. از آنجایی که این توزیع دارای منحنی به شکل زنگ است، گاهی به آن «منحنی زنگی شکل» (Bell Curve) نیز گفته می‌شود.

به عنوان مثال، قد افراد در یک جامعه توزیع نرمال است و یا میزان دمای هوا در طول یک سال توزیع نرمال است.

توزیع نرمال

تابع چگالی

تابعِ چگالیِ احتمالِ یک متغیر تصادفی پیوسته به تابعی گفته می‌شود که انتگرال آن در هر بازه معین، برابر با احتمال قرار داشتن متغیر تصادفی در آن بازه است.

تایع چگالی

تایع چگالی 1تایع چگالی

مشاهدات پرت

مشاهدات پرت مشاهداتی هستند که غلط نیستند اما از بدنه توزیع داده ها دور افتاده و پرت هستند.

مشاهدات پرت

محاسبه چندک و احتمال تجمعی

فرض کنید در توزیع نرمال قد افراد بخواهیم پیدا کنیم که مثلا پیدا کنیم که چند درصد از  افراد ایرانی قد زیر 180 دارند یا به عبارت دیگر احتمال اینکه یک فرد ایرانی قدش زیر 180 باشد چقدر است؟ یعنی بازه ای که در محور x ها a کمتر از 180 باشد.

در این مثال باید پیدا کرد که مساحت فضای آبی رنگ چقدر است، بنابر این باید انتگرال F(x) را پیدا کنیم.

یا فرض کنیم که بخواهیم پیدا کنیم که چه قدی هست که 90% مرد های ایرانی کوچکتر از آن باشد؟ بنابر این باید چندک توزیع را نداریم ولی احتمال را داریم و به وسیله آن احتمال می شود آن قد را پیدا کرد.

چندک و احتمال تجمعی

یکی از راه هایی که بخواهیم این سوالات را حل نماییم این است که از جداول توزیع نرمال که معمولا انتهای کتاب های آماری قرار دارد و نرم افزار ها نیز قابلیت محاسبه آن را دارند.

به عنوان مثال در تصویر زیر اگر بخواهیم، به دنبال چندکی از محور x هستیم که احتمال کمتر از آن برابر 0.975 باشد، کافی است که عدد 0.975 را در جدول پیدا کنیم و وصل کنیم به دو ستون و ردیف اصلی. بنابر این در این

سوال آن برابر است با 1.90 و 0.6 که می شود 1.96

چندک و احتمال تجمعی

تبدیل توزیع

نکته: تبدیل های خطی توزیع را حفظ می کند؛ یعنی اگر یک توزیع در عبارت ax+b ضرب شود آن توزیع حفظ می شود.

برای تبدیل یک توزیع به توزیع نرمال از تابع Z  استفاده می نماییم:

تبدیل توزیع

بنابراین استفاده از تابع Z توزیع را تغییر نمی دهد. Z هیچ وقت توزیعی که نرمال نیست را تبدیل به توزیع نرمال نمی کند و تبدیل Z فقط یک توزیع نرمال را تبدیل به توزیع نرمال استاندارد می کند.

تبدیل توزیع تبدیل توزیع

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها