آزمون دقیق فیشر یک آزمون اهمیت آماری در تجزیه و تحلیل جداول احتمالی است. اگرچه در عمل وقتی که نمونه اندازه کوچک باشد استفاده می شود، اما برای همه اندازه نمونه ها معتبر است. نام آن از نام مخترع آن، رونالد فیشر گرفته شده است، و یکی از کلاس های آزمون های دقیق است که به این دلیل نامیده می شود زیرا اهمیت انحراف از فرضیه صفر (به عنوان مثال، مقدارP) دقیقاً قابل محاسبه است، نه اینکه به بسیاری از آزمایشات آماری اعتماد کنید که با بزرگ شدن اندازه نمونه تا حد بی نهایت دقیق شود.

گفته می شود که فیشر به دنبال اظهار نظری از موریل بریستول، که ادعا می کند قادر به تشخیص اینکه چای یا شیر ابتدا به فنجان خود اضافه شده است، آزمایش را انجام داده است. او ادعای خود را در آزمایش “چای مزه زن” آزمایش کرد.

او به زنی در یک مهمانی عصرانه، یک فنجان چای تعارف می‌کند (در انگلستان عمدتاً چای را با شیر مخلوط کرده و می‌نوشند). زن از او می‌پرسد که آیا او ابتدا شیر را در فنجان ریخته و سپس چای را با آن مخلوط کرده و یا ابتدا چای را ریخته و سپس شیر را با آن مخلوط کرده است؟ فیشر از این سؤال تعجب می‌کند و می‌گوید مگر فرقی هم می‌کند؛ وقتی چای و شیر باهم مخلوط شوند ممکن نیست تفاوتشان در مزه مشخص شود.

زن در مقابل ادعا می‌کند او قادر است تفاوت فنجان چایی که ابتدا شیر در آن ریخته شده را با آنکه ابتدا در آن چای ریخته شده، تشخیص دهد. چگونه بفهمیم ادعای زن درست است؟ آیا او واقعاً استعدادی در شناسایی تفاوت این دو حالت دارد؟

پاسخ فیشر برای آزمایش ادعای زن آن است که جلوی او هشت فنجان قرار دهیم. چهار فنجان مخلوط شیر و چای که ابتدا شیر در آن ریخته شده و بعد چای و چهار فنجان دیگر که ابتدا چای و سپس شیر در آن ریخته شده است. این هشت فنجان را در یک سینی به‌صورت تصادفی بچینیم.

توجه کنید که این هشت فنجان باید تا حد ممکن از بقیه نظرها مانند دمای فنجان، میزان شیرین بودن و غیره یکسان باشند و تنها در ترتیب ریختن چای و شیر باهم تفاوت کنند. در گام بعد زن باید بگوید که هر فنجان به کدام حالت تعلق دارد؟

اما چرا هشت فنجان؟ فیشر محاسبه کرده بود که ۷۰ حالت مختلف برای چینش این هشت فنجان در کنار یکدیگر وجود دارد

اگر آن زن دارای استعدادی نباشد، مجبور است شانسی حدس بزند که در سینی که جلوی او گذاشته‌ شده هر فنجان به کدام حالت تعلق دارد. به‌این‌ترتیب او به ۷۰ روش مختلف می‌تواند ترکیب فنجان‌ها را حدس بزند ولی فقط یکی از این ۷۰ حالت مختلف ترکیب درست است.

یعنی اگر او بخواهد ترکیب فنجان‌ها را صرفاً با حدس زدن تشخیص دهد، با احتمال ۱ به ۷۰ (در حدود ۱٫۴ درصد) شانس موفقیت دارد. در علم آمار به این احتمال، مقدار p و یا p-value گفته می‌شود. این مقدار نشان می‌دهد چه میزان احتمال دارد نتایج به‌دست‌آمده، صرفاً تحت یک فرآیند  تصادفی تولید شده باشد.

چون تحت شرایط بالا درست حدس زدن همه فنجان‌ها مقدار p بسیار کوچکی دارد (معادل ۱٫۴ درصد)، فیشر نتیجه گرفت اگر آن زن همه فنجان‌ها را درست تشخیص دهد، می‌توان گفت ادعای زن درست است. پرسشی که پیش می‌آید این است که مقدار p باید با چه معیاری مقایسه شود؟ درواقع به چه احتمالی کوچک گفته می‌شود؟

فیشر این مقدار را ۵ درصد پیشنهاد کرد که امروزه یک معیار پذیرفته‌شده است. به این مقدار حاشیه خطا گفته می‌شود. اگر حاشیه خطا ۵ درصد باشد، مفهومش این است که شما با احتمال ۹۵ درصد می‌توانید مطمئن باشید که نتایج به‌دست‌آمده بر اساس تصادف حاصل نشده است.

اگر در این مثال، فرد تنها یک اشتباه داشته باشد، مقدار p نزدیک ۲۴ درصد می‌شود که از حاشیه خطای ۵ درصد بزرگ‌تر است. به‌این‌ترتیب نمی‌توان گفت این فرد با کسی که صرفاً بر اساس تصادف حدس می‌زند، به لحاظ آماری تفاوت معنی‌داری دارد. به‌عبارت‌دیگر نمی‌توانیم نتیجه بگیریم این فرد دارای استعداد ویژه‌ای است و ادعای او را رد می‌کنیم. جالب است بدانید این داستان در عمل اتفاق افتاد و آن زن توانست همه فنجان‌ها را درست تشخیص دهد.

در حالت سخت‌گیرانه‌تر حاشیه خطا را ۱ درصد در نظر می‌گیرند. در حالت سخت‌گیرانه با آزمایش بالا نمی‌توان ادعای زن را سنجید، چراکه اگر همه فنجان‌ها را هم درست تشخیص دهد، همچنان مقدار p بالاتر از ۱ درصد است. در این حالت باید تعداد فنجان‌ها را افزایش داد تا بتوان ادعای او را با ۱ درصد خطا سنجش کرد. شاید پیشنهاد شود بهتر است تعداد فنجان‌ها را آن‌قدر زیاد کنیم تا میزان خطا به صفر نزدیک شود. به نظر شما این پیشنهاد چه مشکل دیگری در ارزیابی ادعای زن ایجاد می‌کند؟

عملا در این تست دیده می شود که زن تعداد قابل قبولی از پاسخ ها را درست جواب داد (80% موارد) اما زمانی که تست کای-دو را اجرا می نماییم خواهیم دید که همه خانه های جدول expected value کوچکتر از 5 را دارند و در صورتیکه در نرم افزار این حالت برا بررسی نماییم در پایین جدول اشاره خواهد شد که 100% اعداد expected value کمتر از 5 را دارند و آزمون استقلال برقرار نخواهد شد.

بنابر این فیشر آزمون این قاعده را خواهد گذاشت که expected value ها باید کمتر از 20% باشد و آماره دیگری را طراحی نموده است و P-Value را با آن حساب می نماید.

بنابراین در حالت هایی که expected value بیشتر از 20% است باید از روش آزمون دقیق فیشر استفاده نماییم.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها