انواع توزیع در مباحث آماری؛ بخش 1

در ادامه مباحث آماری، قصد داریم انواع توزیع را معرفی نماییم:

توزیع های احتمالی

برخی از متغییر های تصادفی از تابع احتمال، با تابع چگالی خاصی پیروی می کنند که به توزیع های احتمالی استاندارد شناخته می شوند.

شناخت و درک درست از ساختار مدلی احتمالی این توزیع ها ، منجر به درک درست و دقیق از رفتار متغیر تصادفی در حل مسائل خواهد شد.

به عنوان مثال اگر دو تاس را همزمان پرتاب کنیم و این را یک آزمایش تصادفی فرض کنیم، جمع اعداد ظاهر شده همواره بین اعداد 2 تا 12 خواهد بود. در صورتی که نتایج این آزمون را نظر بگیریم فرمی که احتمال پیدا می کند برای x های مختلف را توزیع احتمال گویند.

توزیع برنولی

در صورتی که آزمایشی داشته باشیم که دو برآمد داشته باشد (مثلاً شکست یا پیروزی) به آن آزمایش ازمایش برنولی گفته می شود. اگر x نمایانگر تعداد پیروزی ها باشد، x دارای توزیع برنولی با پارامتر p (احتمال پیروزی) است.

P(X=x) = p^x(1-p)^1-x

یک سکه را به هوا پرتاب می‌کنیم. یا شیر می‌آید یا خط. اگر شیر بیاید پیروز می‌شویم (success) و اگر خط بیاید، می‌بازیم (fail). احتمالِ هر کدام هم ۵۰ درصد است. این ساده‌ترین مثال از توزیع برنولی بود. در این توزیع که دو حالت دارد، با احتمال‌های مشخصی یا برنده می‌شویم یا می‌بازیم و مجموع احتمالاتِ برد و باخت هم برابر یک می‌شود.

فرض کنید شخصی که دارای بیماریِ خاصی هست، سکته‌ی مغزی می‌کند و بر اساس داده‌های قبلی در بیمارستان، ۲۰ درصد از افرادِ بیماری که سکته‌ی مغزی کرده‌اند، فوت می‌کنند (fail). پس ۸۰ درصد از آن‌ها زنده مانده‌اند (success). این هم نوعی توزیع برنولی بود. با این تفاوت که احتمالات در این مثال برابر نبودند.

اگر احتمال برنده شدن (در این مثال زنده ماندن) را برابر p در نظر بگیریم، پس p = 0.8 است و اگر احتمال شکست (در این مثال فوت کردن) را برابر q در نظر بگیریم، پس q = 0.2 است. شکل زیر نیز همین توزیع را بر روی نمودار با ۱ به معنای پیروی و ۰ به معنای شکست، مشخص می‌کند.

توزیع دو جمله ای

توزیع دو جمله ای بسطی از توزیع برنولی است با این تفاوت که در این توزیع یک آزمایش n بار تکرار می شود و x نمایانگر تعداد پیروزی ها سات. X دارای توزیع دوجمله ای با پارامترهای n و p (احتمال پیروزی) است.

توزیع دوجمله ای از حاصل جمع n توزیع برنولی (به شرط آن که مستقل باشند) به دست می آید. در واقع توزیع برنولی حالت خاصی از توزیع دو جمله ای محسوب می شود که در آن n برابر با یک باشد.

P(X=x) = p^x(1-p)^n-x

فرض کنید ۱۰ بیمار سکته‌ی مغزی می‌کنند. بر اساس داده‌های قبلیِ بیمارستان هم می‌دانیم که بیماری که سکته می‌کند به احتمال ۸۰ درصد زنده مانده و به احتمال ۲۰ درصد فوت می‌کند. حالا اگر بخواهیم بدانیم که با چه احتمالی، دقیقاً ۷ نفر از ۱۰ نفر بیماری که سکته کرده‌اند، زنده می‌مانند، بایستی از توزیع دو جمله‌ای استفاده کنیم.

این توزیع برای پاسخگویی به همین دست سوالات به وجود آمده است. فرمولِ به دست آوردن احتمال موفقیت (success) در توزیع دو جمله‌ای به صورت زیر است:

برای پاسخ به مسئله‌ی بالا، n = 10 است. x = 7 یعنی به دنبال تعدادِ دقیقاً ۷ مشاهده که success شوند، هستم و p = 0.8 است. با جایگذاریِ این اعداد در فرمول بالا، می‌توانیم احتمال این‌که دقیقاً ۷ نفر از این ۱۰ بیمار که سکته‌ی مغزی کرده‌اند، زنده بمانند را به دست بیاوریم:

که نتیجه برابر ۰.۲۰ خواهد شد. یعنی به احتمال ۲۰ درصد، دقیقاً ۷ نفر زنده می‌مانند. البته این‌که داده‌های ما از توزیع دو جمله‌ای پیروی کنند، نیازمند چند شرط است. مثلاً این‌که هر کدام از پیشامدها مستقل از دیگری باشند. در مثال بالا، مثلاً اگر یک بیمار جدید که سکته کرده بود، رسید، زنده ماندن یا فوت کردنِ این بیمار ارتباطی با زنده ماندن یا فوت کردنِ بیمار قبلی نداشته باشد.

شرط دیگر هم این است که حتماً هر کدام از پیشامدها در دو حالت قرار بگیرند و حالت سومی وجود نداشته باشد. و شرط آخر هم این‌که احتمال موفقیت یا شکست در هر بار از پیشامدها برابر باشد. در مثال بالا، مثلاً احتمال زنده ماندنِ یک بیمار ۸۰ درصد و احتمال زنده ماندن بیماری دیگر ۹۰ درصد نباشد. همه یک احتمال برای زنده ماندن داشته باشند.

در مثالِ بالا، اگر بخواهیم ببینیم احتمالِ این‌که از بین این ۱۰ بیمار، ۰ یا ۱ بیمار زنده بمانند بایستی احتمال ۰ را حساب کرده، سپس احتمال ۱ را هم حساب کرده و آن‌ها را با هم جمع کنیم.
همان‌طور که دیدید توزیع برنولی و دو جمله‌ای از توزیع‌های گسسته‌ای هستند که کاربردهای فراوانی در بین داده‌ها و فرآیند‌های مختلف و حل مسائل گوناگون دارند.

توزیع نرمال

در نظریه آمار و احتمال، توزیع نرمال (Normal Distribution) یکی از مهم‌ترین توزیع‌های آماری است. البته به این توزیع گاهی «توزیع گاوسی» (Gaussian Distribution) یا توزیع «گاوس-لاپلاس» (Laplace-Gauss) گفته می‌شود. از آنجایی که این توزیع دارای منحنی به شکل زنگ است، گاهی به آن «منحنی زنگی شکل» (Bell Curve) نیز گفته می‌شود.

به عنوان مثال، قد افراد در یک جامعه توزیع نرمال است و یا میزان دمای هوا در طول یک سال توزیع نرمال است.

تابع چگالی

تابعِ چگالیِ احتمالِ یک متغیر تصادفی پیوسته به تابعی گفته می‌شود که انتگرال آن در هر بازه معین، برابر با احتمال قرار داشتن متغیر تصادفی در آن بازه است.

مشاهدات پرت

مشاهدات پرت مشاهداتی هستند که غلط نیستند اما از بدنه توزیع داده ها دور افتاده و پرت هستند.

محاسبه چندک و احتمال تجمعی

فرض کنید در توزیع نرمال قد افراد بخواهیم پیدا کنیم که مثلا پیدا کنیم که چند درصد از افراد ایرانی قد زیر 180 دارند یا به عبارت دیگر احتمال اینکه یک فرد ایرانی قدش زیر 180 باشد چقدر است؟ یعنی بازه ای که در محور x ها a کمتر از 180 باشد.

در این مثال باید پیدا کرد که مساحت فضای آبی رنگ چقدر است، بنابر این باید انتگرال F(x) را پیدا کنیم.

یا فرض کنیم که بخواهیم پیدا کنیم که چه قدی هست که 90% مرد های ایرانی کوچکتر از آن باشد؟ بنابر این باید چندک توزیع را نداریم ولی احتمال را داریم و به وسیله آن احتمال می شود آن قد را پیدا کرد.

یکی از راه هایی که بخواهیم این سوالات را حل نماییم این است که از جداول توزیع نرمال که معمولا انتهای کتاب های آماری قرار دارد و نرم افزار ها نیز قابلیت محاسبه آن را دارند.

به عنوان مثال در تصویر زیر اگر بخواهیم، به دنبال چندکی از محور x هستیم که احتمال کمتر از آن برابر 0.975 باشد، کافی است که عدد 0.975 را در جدول پیدا کنیم و وصل کنیم به دو ستون و ردیف اصلی. بنابر این در این

سوال آن برابر است با 1.90 و 0.6 که می شود 1.96

تبدیل توزیع

نکته: تبدیل های خطی توزیع را حفظ می کند؛ یعنی اگر یک توزیع در عبارت ax+b ضرب شود آن توزیع حفظ می شود.

برای تبدیل یک توزیع به توزیع نرمال از تابع Z استفاده می نماییم:

بنابراین استفاده از تابع Z توزیع را تغییر نمی دهد. Z هیچ وقت توزیعی که نرمال نیست را تبدیل به توزیع نرمال نمی کند و تبدیل Z فقط یک توزیع نرمال را تبدیل به توزیع نرمال استاندارد می کند.