توضیحات پروژه
شرکتهای بیمه هزینههایی را که بیمهگذار در اثر خسارات به سلامت یا اموال متحمل میشود، پوشش میدهند. بیمههای رایج شامل هزینههای درمانی، خانه، وسیله نقلیه، آتشسوزی و زیانهای مالی (مانند از دست دادن درآمد) است که در قبال پرداخت حق بیمه توسط مشتری ارائه میشود. روشهای سنتی برای محاسبه حق بیمه نیازمند نیروی انسانی زیادی هستند و با پیچیدهتر شدن تعاملات دادهها روزبهروز دشوارتر میشوند.
برای سودآوری، شرکتهای بیمه باید حق بیمهای بیشتر از مبالغ پرداختی به بیمهگذاران در هنگام ارائه خسارات معتبر جمعآوری کنند. این امر مستلزم وجود یک مکانیزم کارآمد برای پیشبینی دقیق هزینههای درمانی است که برای تعیین حق بیمه ضروری است.
هدف این پروژه توسعه یک مدل یادگیری ماشین، بهویژه رگرسیون XGBoost، برای پیشبینی هزینههای درمانی بر اساس ویژگیهایی مانند سن، شاخص توده بدنی (BMI)، سیگار کشیدن و غیره است. همچنین از یک مدل رگرسیون خطی بهعنوان پایه برای مقایسه استفاده خواهد شد. این پروژه بر اهمیت انتقال نتایج فنی به ذینفعان غیرتخصصی نیز تأکید میکند.این تحلیل به شرکت بیمه کمک میکند تا یک برنامه حق بیمه استراتژیک طراحی کند که به حداکثر کردن سود کمک کند.
مجموعه داده پروژه
مجموعه داده پیشبینی قیمت بیمه شامل سوابق تاریخی 1338 بیمهشده است. تعریف ستونهای این مجموعه داده به شرح زیر است:
-
-
- age: سن بیمهشده اصلی.
- sex: جنسیت بیمهشده اصلی.
- BMI: شاخص توده بدنی بیمهشده اصلی.
- children: تعداد فرزندان بیمهشده اصلی.
- smoker: آیا بیمهشده اصلی سیگار میکشد؟
- region: منطقه سکونت بیمهشده اصلی در ایالات متحده.
- charges: هزینههای درمانی فردی که توسط بیمه سلامت محاسبه شده است.
فناوریهای استفادهشده
-
-
- زبان: پایتون
- کتابخانهها: pandas، numpy، matplotlib، plotly، statsmodels، sklearn، xgboost، skopt
مراحل حل پروژه
1- تحلیل اکتشافی دادهها (EDA)
-
-
- بررسی توزیعها
- تحلیل تکمتغیره
- تحلیل دومتغیره
- همبستگی
- همبستگی پیرسون
- آزمون کای-اسکوئر
- ANOVA
2- ساخت و ارزیابی مدل خطی پایه
-
-
- بررسی پیشفرضهای رگرسیون خطی
- پیشپردازش دادهها
- آموزش مدل
- ارزیابی مدل با استفاده از RMSE
3- بهبود مدل پایه خطی
-
-
- معرفی مدل غیرخطی – XGBoost
- پیشپردازش دادهها
- استفاده از Pipeline کتابخانه Sklearn برای بهینهسازی فرآیند آموزش
- ارزیابی مدل با استفاده از RMSE
- مقایسه با مدل پایه خطی
4- ارائه نتایج به ذینفعان غیرتخصصی
نقد و بررسیها
هنوز بررسیای ثبت نشده است.