در این بخش با تحلیل واریانس یا همان ANOVA آشنا خواهیم شد و در ادامه آنچه تا کنون آموخته ایم به یاد داریم که در صورتی که یک فیلد کمی را با یک فیلد کیفی با دو متغییر با استفاده از آزمون t مورد آزمون قرار می دادیم؛حال میخواهیم آزمون را در شرایطی انجام دهیم که یک فیلد کمی را با یک فیلد کیفی با بیش از دو حالت مقایسه نماییم.

به عنوان مثال در دیتاست Breast Cancer اگر بخواهیم Time را با PathCat مورد آزمون قراردهیم از  آنالیز ANOVA استفاده می نماییم.

صحیح بودن فرض صفر بیانگر برابر بودن میانگین‌ها با یکدیگر خواهد بود. برای انجام این بررسی ممکن است از آزمون مقایسه میانگین در بین دو جامعه استفاده کنیم و به صورت ترکیب‌های دوتایی مسئله را تحلیل کنیم. هرچند این کار امکان پذیر است ولی خطای حاصل از انجام چنین آزمون‌هایی از خطای آزمون تحلیل واریانس خیلی بیشتر است. برای نشان دادن این موضوع سه جامعه را در نظر بگیرید.

با توجه به ترکیب‌های دو تایی سه میانگین این جوامع، آزمون‌های فرض به صورت زیر درخواهند آمد:

بدیهی است که انجام دو به دوی این آزمون فرض ها کار ساده ای نیست و از سوی دیگر میتوان در نظر گرفت که مفهوم مقایسه میانگین دو به دوی هر گروه می تواند مفهوم مقایسه واریانس بین  X1و X2  و X3  را در بر داشته باشد زیرا از مفهوم واریانس استفاده می نماییم تا درک کنیم که آیا میانگین ها از یکدیگر متفاوت هستند یا خیر.

از این رو دو آماره SSB و SSW در نظر گرفته می شود.

SSB: این آماره واریانس بین گروه ها را نشان می دهد.

هرچقدر این ها به هم نزدیکتر باشند و حاصل این کسر به یک نزدیکتر باشد به این معناست که SSB که می‌بینیم همان واریانس ذاتی است که بین داده ها وجود دارد و گروه تفاوتی ایجاد نکرده است و ارتباطی با زمان بقا ندارد.

اگر فرض کنیم که درجه آزاد g  باشد:

اگر فرض صفر برقرار باشد توزیع زیر تحت H0 در آماره آزمون خواهیم داشت:

به طور معمول، وقتی می‌خواهید تعیین کنید که سه یا چند گروه با هم متفاوت هستند، از شاخص آماری مرکزی مانند میانگین برای مقایسه استفاده کرده و تحلیل یا آنالیز واریانس (ANOVA) را اجرا خواهیم کرد. آمارشناسان از آزمون F در جدول تحلیل واریانس به عنوان یک آماره آزمون استفاده می‌کنند و چنین روشی را آزمون تحلیل کلی‌نگر (Omnibus ANOVA) می‌نامند.

منظور از اصطلاح «کلی‌نگر» (Omnibus)، آن است که آزمون تحلیل واریانس، همه میانگین‌ها را به صورت یک کل، مورد بررسی قرار می‌دهد و به جزئیات یا مقایسه‌های دوتایی یا زوجی از گروه‌ها نمی‌پردازد. به بیان دیگر آزمون کلی‌نگر، نتایج کلی را برای داده‌های شما ارائه می‌دهد و فقط قادر است به پرسشی به صورت «آیا تفاوت بین میانگین آماری گروه‌ها معنی دار است بله یا خیر؟» پاسخ بدهد.

قاعده تصمیم برای چنین آزمونی براساس مقدار احتمال صورت می‌گیرد. اگر «مقدار احتمال» (p-value) کمتر از میزان احتمال خطا یا سطح آزمون باشد، فرض صفر را رد می‌کنیم. همچنین طبق آماره آزمون F یا «آماره ولچ» نیز فقط می‌توانیم پرسش مطرح شده را پاسخ داده و نسبت به رد فرض صفر تصمیم بگیریم.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها