پروژه: پیش‌بینی قیمت بیمه با استفاده از مدل رگرسیون XGBoost

تومان

هدف این پروژه توسعه یک مدل یادگیری ماشین، به‌ویژه رگرسیون XGBoost، برای پیش‌بینی هزینه‌های درمانی و قیمت بیمه بر اساس ویژگی‌هایی مانند سن، شاخص توده بدنی (BMI)، سیگار کشیدن و غیره است. همچنین از یک مدل رگرسیون خطی به‌عنوان پایه برای مقایسه استفاده خواهد شد.

  •  درجه سختی: Easy
  •  نوع بیزینس: Banking & Finance
  •  ابزار مورد استفاده: Python
  •  کلاس الگوریتم: Regression

قابل سفارش نیست

شناسه محصول: p-008 دسته: برچسب: , , , ,

توضیحات

آنچه که در این پروژه یاد می‌گیرید:

      • درک صورت‌مسئله قیمت‌گذاری بیمه
      • تحلیل اکتشافی داده‌ها (EDA) برای متغیرهای دسته‌ای و پیوسته
      • تحلیل تک‌متغیره (Univariate Analysis)
      • تحلیل دو‌متغیره (Bivariate Analysis)
      • درک تحلیل همبستگی (Correlation Analysis)
      • بررسی همبستگی متغیرهای دسته‌ای با استفاده از آزمون کای-اسکوئر (Chi-squared Test)
      • بررسی همبستگی بین متغیرهای دسته‌ای و متغیر هدف با استفاده از آزمون ANOVA
      • برچسب‌گذاری متغیرهای دسته‌ای با Label Encoding
      • بررسی پیش‌فرض‌های رگرسیون خطی (Linear Regression Assumptions)
      • پیاده‌سازی مدل رگرسیون خطی (Linear Regression)
      • اعتبارسنجی پیش‌فرض‌های رگرسیون خطی
      • آشنایی با مدل رگرسیون XGBoost
      • پیاده‌سازی مدل XGBoost Regressor
      • ایجاد پایپ‌لاین (Pipeline) با استفاده از ماژول Pipeline در Sklearn
      • بهینه‌سازی هایپرپارامترهای XGBoost با استفاده از BayesSearchCV
      • ارزیابی مدل‌ها با استفاده از معیارهای رگرسیون مانند RMSE
      • ارائه گزارش‌های غیرتخصصی (Non-Technical Metrics) به ذینفعان

توضیحات پروژه

شرکت‌های بیمه هزینه‌هایی را که بیمه‌گذار در اثر خسارات به سلامت یا اموال متحمل می‌شود، پوشش می‌دهند. بیمه‌های رایج شامل هزینه‌های درمانی، خانه، وسیله نقلیه، آتش‌سوزی و زیان‌های مالی (مانند از دست دادن درآمد) است که در قبال پرداخت حق بیمه توسط مشتری ارائه می‌شود. روش‌های سنتی برای محاسبه حق بیمه نیازمند نیروی انسانی زیادی هستند و با پیچیده‌تر شدن تعاملات داده‌ها روزبه‌روز دشوارتر می‌شوند.

برای سودآوری، شرکت‌های بیمه باید حق بیمه‌ای بیشتر از مبالغ پرداختی به بیمه‌گذاران در هنگام ارائه خسارات معتبر جمع‌آوری کنند. این امر مستلزم وجود یک مکانیزم کارآمد برای پیش‌بینی دقیق هزینه‌های درمانی است که برای تعیین حق بیمه ضروری است.

هدف این پروژه توسعه یک مدل یادگیری ماشین، به‌ویژه رگرسیون XGBoost، برای پیش‌بینی هزینه‌های درمانی بر اساس ویژگی‌هایی مانند سن، شاخص توده بدنی (BMI)، سیگار کشیدن و غیره است. همچنین از یک مدل رگرسیون خطی به‌عنوان پایه برای مقایسه استفاده خواهد شد. این پروژه بر اهمیت انتقال نتایج فنی به ذینفعان غیرتخصصی نیز تأکید می‌کند.این تحلیل به شرکت بیمه کمک می‌کند تا یک برنامه حق بیمه استراتژیک طراحی کند که به حداکثر کردن سود کمک کند.

مجموعه داده پروژه

مجموعه داده پیش‌بینی قیمت بیمه شامل سوابق تاریخی 1338 بیمه‌شده است. تعریف ستون‌های این مجموعه داده به شرح زیر است:

      • age: سن بیمه‌شده اصلی.
      • sex: جنسیت بیمه‌شده اصلی.
      • BMI: شاخص توده بدنی بیمه‌شده اصلی.
      • children: تعداد فرزندان بیمه‌شده اصلی.
      • smoker: آیا بیمه‌شده اصلی سیگار می‌کشد؟
      • region: منطقه سکونت بیمه‌شده اصلی در ایالات متحده.
      • charges: هزینه‌های درمانی فردی که توسط بیمه سلامت محاسبه شده است.

فناوری‌های استفاده‌شده

      • زبان: پایتون
      • کتابخانه‌ها: pandas، numpy، matplotlib، plotly، statsmodels، sklearn، xgboost، skopt

مراحل حل پروژه

1- تحلیل اکتشافی داده‌ها (EDA)
      • بررسی توزیع‌ها
      • تحلیل تک‌متغیره
      • تحلیل دومتغیره
      • همبستگی
        • همبستگی پیرسون
        • آزمون کای-اسکوئر
        • ANOVA
2- ساخت و ارزیابی مدل خطی پایه
      • بررسی پیش‌فرض‌های رگرسیون خطی
      • پیش‌پردازش داده‌ها
      • آموزش مدل
      • ارزیابی مدل با استفاده از RMSE
3- بهبود مدل پایه خطی
      • معرفی مدل غیرخطی – XGBoost
      • پیش‌پردازش داده‌ها
      • استفاده از Pipeline کتابخانه Sklearn برای بهینه‌سازی فرآیند آموزش
      • ارزیابی مدل با استفاده از RMSE
      • مقایسه با مدل پایه خطی
4- ارائه نتایج به ذینفعان غیرتخصصی