اگر 2 فیلد کیفی داشته باشیم که بخواهیم ارتباط میان دو فیلد را بسنجیم از آزمون استقلال استفاده می نماییم.  به عنوان مثال در دیتاست Breast Cancer دو فیلد Inpos و Status  فیلد های کیفی هستند که هر کدام دو حالت دارند.

در درس های بررسی توصیفی دیده ایم که در کلاس افرادی که Inpos آن ها درگیر است درصد افراد فوت شده نیز بیشتر است. بنابراین برای درک بهتر ارتباط موضوع از آزمون فرض برای بررسی ارتباط این دو فیلد استفاده می نماییم.

آزمون فرض:

داریم که P(Y) = 0.3 ، P(N) = 0.7،  P(D) = 0.2 و P(C) = 0.8 است، بنابر این

آماره کای-دو پیرسون(Pearson Chi-Square Value ): هرچقدر که فاصله بین  Ei (مقادیر امید ریاضی) و Oi (مقادیر مشاهده)ها بیشتر باشد از فرض صفر فاصله (در اینجا فرض استقلال) خواهیم گرفت.

مساحت ناحیه رد = α

نقطه بحرانی را می توان از جداول آماری بدست آورد و یا از طریق نرم افزار بدست آورد، به عنوان مثال برای مورد فوق از جداول کای-دو باید ببینیم کدام چندک کای – دو است که مقدار آلفا در آن 0.05 شود و یا کدام چندک کای-دو هست که احتمال سمت راست آن برابر 3.2 شود.

در نرم افزار این امکان وجود دارد که در صورتیکه در آماره آزمون بدست آید (مثلا در اینجا عدد 5 بدست آمد)، نرم افزار می تواند محاسبه نماید که احتمال سمت راست عدد 5 که بدست آمده تحت توزیع کای-دو چقدر است و آن را به عنوان P-Value درنرم افزارSPSS با عنوان SIG نمایش می دهد.

در صورتیکه P-Value کمتر از آلفا باشد فرض صفر رد شده و در صورتیکه بیشتر باشد فرض صفر برقرار است.

P-Value < 0.05         رد فرض صفر

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها