در این بخش با تحلیل واریانس یا همان ANOVA آشنا خواهیم شد و در ادامه آنچه تا کنون آموخته ایم به یاد داریم که در صورتی که یک فیلد کمی را با یک فیلد کیفی با دو متغییر با استفاده از آزمون t مورد آزمون قرار می دادیم؛حال میخواهیم آزمون را در شرایطی انجام دهیم که یک فیلد کمی را با یک فیلد کیفی با بیش از دو حالت مقایسه نماییم.
به عنوان مثال در دیتاست Breast Cancer اگر بخواهیم Time را با PathCat مورد آزمون قراردهیم از آنالیز ANOVA استفاده می نماییم.
صحیح بودن فرض صفر بیانگر برابر بودن میانگینها با یکدیگر خواهد بود. برای انجام این بررسی ممکن است از آزمون مقایسه میانگین در بین دو جامعه استفاده کنیم و به صورت ترکیبهای دوتایی مسئله را تحلیل کنیم. هرچند این کار امکان پذیر است ولی خطای حاصل از انجام چنین آزمونهایی از خطای آزمون تحلیل واریانس خیلی بیشتر است. برای نشان دادن این موضوع سه جامعه را در نظر بگیرید.
با توجه به ترکیبهای دو تایی سه میانگین این جوامع، آزمونهای فرض به صورت زیر درخواهند آمد:
بدیهی است که انجام دو به دوی این آزمون فرض ها کار ساده ای نیست و از سوی دیگر میتوان در نظر گرفت که مفهوم مقایسه میانگین دو به دوی هر گروه می تواند مفهوم مقایسه واریانس بین X1و X2 و X3 را در بر داشته باشد زیرا از مفهوم واریانس استفاده می نماییم تا درک کنیم که آیا میانگین ها از یکدیگر متفاوت هستند یا خیر.
از این رو دو آماره SSB و SSW در نظر گرفته می شود.
SSB: این آماره واریانس بین گروه ها را نشان می دهد.
هرچقدر این ها به هم نزدیکتر باشند و حاصل این کسر به یک نزدیکتر باشد به این معناست که SSB که میبینیم همان واریانس ذاتی است که بین داده ها وجود دارد و گروه تفاوتی ایجاد نکرده است و ارتباطی با زمان بقا ندارد.
اگر فرض کنیم که درجه آزاد g باشد:
اگر فرض صفر برقرار باشد توزیع زیر تحت H0 در آماره آزمون خواهیم داشت:
به طور معمول، وقتی میخواهید تعیین کنید که سه یا چند گروه با هم متفاوت هستند، از شاخص آماری مرکزی مانند میانگین برای مقایسه استفاده کرده و تحلیل یا آنالیز واریانس (ANOVA) را اجرا خواهیم کرد. آمارشناسان از آزمون F در جدول تحلیل واریانس به عنوان یک آماره آزمون استفاده میکنند و چنین روشی را آزمون تحلیل کلینگر (Omnibus ANOVA) مینامند.
منظور از اصطلاح «کلینگر» (Omnibus)، آن است که آزمون تحلیل واریانس، همه میانگینها را به صورت یک کل، مورد بررسی قرار میدهد و به جزئیات یا مقایسههای دوتایی یا زوجی از گروهها نمیپردازد. به بیان دیگر آزمون کلینگر، نتایج کلی را برای دادههای شما ارائه میدهد و فقط قادر است به پرسشی به صورت «آیا تفاوت بین میانگین آماری گروهها معنی دار است بله یا خیر؟» پاسخ بدهد.
قاعده تصمیم برای چنین آزمونی براساس مقدار احتمال صورت میگیرد. اگر «مقدار احتمال» (p-value) کمتر از میزان احتمال خطا یا سطح آزمون باشد، فرض صفر را رد میکنیم. همچنین طبق آماره آزمون F یا «آماره ولچ» نیز فقط میتوانیم پرسش مطرح شده را پاسخ داده و نسبت به رد فرض صفر تصمیم بگیریم.