در ادامه مبحث آزمون فرض ها برای بررسی ارتباط بین فیلد ها به موضوع آزمون همبستگی می پردازیم که به عنوان آخرین مبحث این بخش می باشد.
دیدیم که در آزمون استقلال ارتباط دو فیلد کیفی و را بررسی می کردیم و برای بررسی ارتباط یک فیلد کیفی و یک فیلد کمی بنا بر شرایط از آزمون t و ANOVA و ANCOVA استفاده می کردیم، حال برای بررسی ارتباط میان دو فیلد کمی از آزمون همبستگی استفاده می کنیم.

به عنوان مثال در دیتاست Breast Cancer ارتباط زمان بقا و سن تشخیص را به عنوان دو فیلد کمی می تواند مورد بررسی قرارداد و فهمید که آیا رفتار این دو فیلد به هم وابسته هستند یا خیر.

برای بررسی این موضوع از ابزار گرافیکی Scatter Plot می توان استفاده کرد  در تصویر زیر ضریب همبستگی پیرسون و مقایسه مقدارهای آن با رابطه خطی را می بینیم.

اگر P-Value < 0.05  باشد فرض صفر رد می شود.

معادله فوق تنها ارتباط خطی بین x و y را مورد بررسی قرار می دهد و در صورتیکه دو پارامتر ارتباط داشته باشند اما ارتباط آنها خطی نباشد این معادله نمیتواند آن را مورد بررسی قرار دهد.
به عنوان مثال اگر x و y یک ارتباط سهمی داشته باشند باید ارتباط میان پارمتر x2 و y مورد آزمون قرار گیرد.
پیش فرض آزمون همبستگی پیرسون x و y باید نرمال باشند. برای سنجش نرمال بودن توزیع x و y از آزمون آزمون کولموگروف–اسمیرنف (Kolmogorov–Smirnov test) یا همان test K–S استفاده می کنیم.
اگر x وy نرمال بودند از آزمون همبستگی پیرسون استفاده می کنیم اما اگر نرمال نبودند از آزمون اسپیرمن استفاده می کنیم.

کاربرد آزمون کولموگوروف – اسمیرنف

در انتخاب یک آزمون آماری برای تحقیق، باید تصمیم بگیریم که آیا از آزمون‌های پارامتریک استفاده کنیم یا آزمون‌های ناپارامتریک. یکی از اصلی‌ترین ملاک‌ها برای این انتخاب، انجام آزمون کولموگروف-اسمیرنوف است. آزمون کولموگروف-اسمیرنوف، نرمال نبودن توزیع داده‌ها را نشان می‌دهد.

یعنی اینکه توزیع یک صفت در یک نمونه را (مثلا سن در بین ۱۰۰ نفر نمونه پرستاران) با توزیعی که برای جامعه، مفروض است (برای مثال سن تمام پرستاران) مقایسه می‌کند. اگر تست کولموگروف- اسمیرنوف رد شود، داده‌ها دارای توزیع نرمال می‌باشند، و امکان استفاده از آزمون‌های آماری پارمتریک برای تحقیق، وجود دارد. بالعکس، اگر تست کولموگروف-اسمیرنوف تأیید شود، یعنی داده‌ها دارای توزیع نرمال نیستند، بنابراین باید از آزمون‌های ناپارمتریک در تحقیق استفاده کنیم.

نکته مهم: در نرم‌افزار spss، در صفحه نتیجه آزمون کولموگروف – اسمیرنوف، اگر این آزمون معنی دار بود (یعنی p کوچک‌تر از ۵ صدم بود)، به معنی این است که توزیع داده‌ها، نرمال نیست و می‌توان از آزمون‌های ناپارمتریک استفاده کنیم، و بالعکس. چون تأیید شدن این آزمون، نشانه ناپارامتریک بودن داده‌ها است.

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها