مقدمه

در ادامه مباحث، وارد بخش عملی پروژه‌ی EDA بر روی داده‌های مربوط به بیماران کلینیک شدیم. تا اینجا در ویدیوی قبلی به مرحله‌ی ارتباط‌سنجی میان برخی ویژگی‌ها با متغیر هدف رسیدیم. به‌ویژه به بررسی فیلدهای سدیم و پتاسیم پرداختیم.

این دو متغیر عددی ماهیتی نزدیک به هم داشتند. بنابراین مطرح کردیم که آیا بین این دو ارتباطی وجود دارد یا خیر. اهمیت این موضوع در آن است که در مدل‌سازی معمولاً تمایل داریم ورودی‌ها از یکدیگر مستقل باشند. چنانچه میان دو ویژگی عددی (مانند سدیم و پتاسیم) رابطه‌ی خطی قوی وجود داشته باشد، ترجیح می‌دهیم تنها یکی از آن‌ها را در مدل استفاده کنیم و هرگز هر دو را به‌طور همزمان وارد مدل نمی‌کنیم. از همین رو، بررسی این موضوع در فرایند EDA اهمیت ویژه‌ای دارد.

بررسی ارتباط بین سدیم و پتاسیم

در ویدیوی قبلی نمودار مربوط به این بررسی را اجرا کردیم اما با خطایی مواجه شدیم که به دلیل مشکل پردازشی (CPU) بود. با تغییراتی در کد این مشکل رفع شد و نمودار رسم گردید.

نتایج نشان داد که هیچ ارتباط خطی یا غیرخطی میان سدیم و پتاسیم وجود ندارد. در فضای دوبعدی تشکیل‌شده از این دو متغیر، نقاط به‌صورت پراکنده و بدون الگوی مشخص قرار گرفته‌اند. بنابراین نگرانی از بابت همبستگی خطی شدید میان این دو متغیر وجود ندارد.

بررسی ترکیب سدیم و پتاسیم در ارتباط با دارو

پس از رسم نمودار، این پرسش مطرح شد که آیا ترکیب این دو متغیر می‌تواند در ارتباط با نوع داروی تجویزی معنادار باشد یا خیر. برای این منظور نمودار دوبعدی سدیم و پتاسیم مجدداً رسم شد، اما این بار نقاط بر اساس نوع دارو با رنگ‌های مختلف نمایش داده شدند.

نتیجه جالب توجه بود:

  • در بخش‌هایی از نمودار که داروی Y تجویز شده بود، تقریباً هیچ داروی دیگری دیده نمی‌شد.

  • در مقابل، در بخش‌های دیگر نمودار، داروی Y مشاهده نمی‌شد و سایر داروها حضور داشتند.

این موضوع نشان می‌دهد که پزشک احتمالاً بر اساس نسبتی میان سدیم و پتاسیم تصمیم به تجویز داروی Y می‌گیرد.

ایده‌ی ایجاد ویژگی جدید

از مشاهده‌ی نمودار می‌توان نتیجه گرفت که نسبت سدیم به پتاسیم می‌تواند یک ویژگی مهم در مدل‌سازی باشد. به جای استفاده از دو ستون جداگانه، می‌توان ویژگی جدیدی به‌صورت نسبت سدیم به پتاسیم ایجاد کرد. این کار می‌تواند به مدل کمک کند تا سریع‌تر و دقیق‌تر الگوی تصمیم‌گیری پزشک را شناسایی کند.

سایر متغیرها و ارتباط با داروها

علاوه بر سدیم و پتاسیم، سایر متغیرها نیز بررسی شدند:

  • کلسترول: در نمودار مربوطه مشاهده شد که برای داروی C توزیع متفاوتی نسبت به سایر داروها وجود دارد.

  • فشار خون: ارتباطات معنادار و تفاوت‌های محسوس در تجویز دارو دیده شد.

  • جنسیت: در توزیع داروها تفاوت قابل توجهی میان زنان و مردان دیده نشد. به عبارت دیگر، به نظر می‌رسد جنسیت بر نوع داروی تجویزی اثرگذار نباشد.

آزمون‌های آماری برای تأیید نتایج

برای اطمینان بیشتر از یافته‌ها، نیاز به استفاده از آزمون‌های آماری داریم. به عنوان نمونه، در بررسی جنسیت و دارو از آزمون استقلال کای-دو (Chi-Square Test of Independence) استفاده شد.

مراحل آزمون

  1. ابتدا جدول توافقی میان جنسیت و نوع دارو تشکیل شد. این جدول نشان می‌داد برای هر جنسیت چه تعداد از هر دارو تجویز شده است.

  2. سپس آزمون کای-دو اجرا شد.

    • آماره آزمون (X²) و درجه آزادی (df) محاسبه شد.

    • p-value به دست آمد.

تفسیر p-value

با توجه به اینکه مقدار p-value بسیار بزرگ‌تر از سطح معناداری متداول (۵٪) بود، نتیجه گرفتیم که فرض اولیه (عدم ارتباط میان جنسیت و دارو) رد نمی‌شود. بنابراین می‌توان گفت:
جنسیت و دارو مستقل از یکدیگر هستند و جنسیت عامل تعیین‌کننده‌ای در تجویز دارو نیست.

اهمیت بررسی فرضیات آزمون‌ها

آزمون‌های آماری بر پایه‌ی یک‌سری فرضیات بنا شده‌اند. بنابراین هنگام استفاده از آن‌ها باید از صحت فرضیات اطمینان حاصل کنیم. برای مثال در آزمون کای-دو، بررسی فراوانی‌های مورد انتظار اهمیت دارد. مقادیر واقعی با مقادیر مورد انتظار مقایسه می‌شوند و اختلاف میان آن‌ها مبنای محاسبات آزمون است.

اگر این اختلاف‌ها کوچک باشند، فرض استقلال تقویت می‌شود. در این مثال نیز اختلاف‌ها کوچک بودند و نتیجه‌ی آزمون اعتبار کافی داشت.

جمع‌بندی و نتیجه‌گیری

در این جلسه از کلاس، فرایند تحلیل اکتشافی داده‌ها (EDA) به مراحل پایانی رسید. در این مسیر توانستیم:

  • ارتباط میان متغیرهای عددی (مانند سدیم و پتاسیم) را بررسی کنیم.

  • ارتباط این متغیرها با داروی تجویزی را تحلیل نماییم.

  • ایده‌ی ایجاد ویژگی‌های جدید (مانند نسبت سدیم به پتاسیم) را مطرح کنیم.

  • متغیرهای دیگری مانند کلسترول، فشار خون و جنسیت را در ارتباط با داروها بسنجیم.

  • از آزمون‌های آماری (مانند کای-دو) برای تأیید یا رد فرضیات استفاده کنیم.

به این ترتیب، می‌توان گفت مرحله‌ی EDA یا همان فاز Data Understanding به‌خوبی پیش رفت و ما به شناخت مناسبی از داده‌ها رسیدیم.

هدف اصلی EDA تنها تحلیل و گزارش‌گیری نیست، بلکه ایجاد شناختی عمیق برای ورود به مرحله‌ی بعدی یعنی Data Preparation (آماده‌سازی داده‌ها) است.

همچنین مجموعه‌ای از ویدیوهای بعدی به مرور مباحث تئوری آمار و احتمال اختصاص می‌یابد تا درک عمیق‌تری از مفاهیم آماری داشته باشیم و بتوانیم آن‌ها را در پروژه‌های عملی بهتر به‌کار ببریم.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها