پروژه: پیشبینی قیمت بیمه با استفاده از مدل رگرسیون XGBoost
0 تومان
هدف این پروژه توسعه یک مدل یادگیری ماشین، بهویژه رگرسیون XGBoost، برای پیشبینی هزینههای درمانی و قیمت بیمه بر اساس ویژگیهایی مانند سن، شاخص توده بدنی (BMI)، سیگار کشیدن و غیره است. همچنین از یک مدل رگرسیون خطی بهعنوان پایه برای مقایسه استفاده خواهد شد.
- درجه سختی: Easy
- نوع بیزینس: Banking & Finance
- ابزار مورد استفاده: Python
- کلاس الگوریتم: Regression
ویژگیهامشاهده همه
- 4
پایه دسترسی - 2
ساعت منتورینگ - 156
جلسه - 3
ساعت ویدئو - 26
پروژه - 347
ساعت - 2
هفته - 5
روش برگزاری - 16
کورس - 4
روش بازآموزی - 6
پایه پشتیبانی - 17
روش پرداخت - 3
پایه دشواری - 3
تاریخ شروع - 7
مدرس - 4
نوع دوره
ثبت نام به پایان رسید
توضیحات
آنچه که در این پروژه یاد میگیرید:
-
-
- درک صورتمسئله قیمتگذاری بیمه
- تحلیل اکتشافی دادهها (EDA) برای متغیرهای دستهای و پیوسته
- تحلیل تکمتغیره (Univariate Analysis)
- تحلیل دومتغیره (Bivariate Analysis)
- درک تحلیل همبستگی (Correlation Analysis)
- بررسی همبستگی متغیرهای دستهای با استفاده از آزمون کای-اسکوئر (Chi-squared Test)
- بررسی همبستگی بین متغیرهای دستهای و متغیر هدف با استفاده از آزمون ANOVA
- برچسبگذاری متغیرهای دستهای با Label Encoding
- بررسی پیشفرضهای رگرسیون خطی (Linear Regression Assumptions)
- پیادهسازی مدل رگرسیون خطی (Linear Regression)
- اعتبارسنجی پیشفرضهای رگرسیون خطی
- آشنایی با مدل رگرسیون XGBoost
- پیادهسازی مدل XGBoost Regressor
- ایجاد پایپلاین (Pipeline) با استفاده از ماژول Pipeline در Sklearn
- بهینهسازی هایپرپارامترهای XGBoost با استفاده از BayesSearchCV
- ارزیابی مدلها با استفاده از معیارهای رگرسیون مانند RMSE
- ارائه گزارشهای غیرتخصصی (Non-Technical Metrics) به ذینفعان
-
توضیحات پروژه
شرکتهای بیمه هزینههایی را که بیمهگذار در اثر خسارات به سلامت یا اموال متحمل میشود، پوشش میدهند. بیمههای رایج شامل هزینههای درمانی، خانه، وسیله نقلیه، آتشسوزی و زیانهای مالی (مانند از دست دادن درآمد) است که در قبال پرداخت حق بیمه توسط مشتری ارائه میشود. روشهای سنتی برای محاسبه حق بیمه نیازمند نیروی انسانی زیادی هستند و با پیچیدهتر شدن تعاملات دادهها روزبهروز دشوارتر میشوند.
برای سودآوری، شرکتهای بیمه باید حق بیمهای بیشتر از مبالغ پرداختی به بیمهگذاران در هنگام ارائه خسارات معتبر جمعآوری کنند. این امر مستلزم وجود یک مکانیزم کارآمد برای پیشبینی دقیق هزینههای درمانی است که برای تعیین حق بیمه ضروری است.
هدف این پروژه توسعه یک مدل یادگیری ماشین، بهویژه رگرسیون XGBoost، برای پیشبینی هزینههای درمانی بر اساس ویژگیهایی مانند سن، شاخص توده بدنی (BMI)، سیگار کشیدن و غیره است. همچنین از یک مدل رگرسیون خطی بهعنوان پایه برای مقایسه استفاده خواهد شد. این پروژه بر اهمیت انتقال نتایج فنی به ذینفعان غیرتخصصی نیز تأکید میکند.این تحلیل به شرکت بیمه کمک میکند تا یک برنامه حق بیمه استراتژیک طراحی کند که به حداکثر کردن سود کمک کند.
مجموعه داده پروژه
مجموعه داده پیشبینی قیمت بیمه شامل سوابق تاریخی 1338 بیمهشده است. تعریف ستونهای این مجموعه داده به شرح زیر است:
-
-
- age: سن بیمهشده اصلی.
- sex: جنسیت بیمهشده اصلی.
- BMI: شاخص توده بدنی بیمهشده اصلی.
- children: تعداد فرزندان بیمهشده اصلی.
- smoker: آیا بیمهشده اصلی سیگار میکشد؟
- region: منطقه سکونت بیمهشده اصلی در ایالات متحده.
- charges: هزینههای درمانی فردی که توسط بیمه سلامت محاسبه شده است.
-
فناوریهای استفادهشده
-
-
- زبان: پایتون
- کتابخانهها: pandas، numpy، matplotlib، plotly، statsmodels، sklearn، xgboost، skopt
-
مراحل حل پروژه
1- تحلیل اکتشافی دادهها (EDA)
-
-
- بررسی توزیعها
- تحلیل تکمتغیره
- تحلیل دومتغیره
- همبستگی
- همبستگی پیرسون
- آزمون کای-اسکوئر
- ANOVA
-
2- ساخت و ارزیابی مدل خطی پایه
-
-
- بررسی پیشفرضهای رگرسیون خطی
- پیشپردازش دادهها
- آموزش مدل
- ارزیابی مدل با استفاده از RMSE
-
3- بهبود مدل پایه خطی
-
-
- معرفی مدل غیرخطی – XGBoost
- پیشپردازش دادهها
- استفاده از Pipeline کتابخانه Sklearn برای بهینهسازی فرآیند آموزش
- ارزیابی مدل با استفاده از RMSE
- مقایسه با مدل پایه خطی
-
4- ارائه نتایج به ذینفعان غیرتخصصی
پروژه: پیشبینی قیمت بیمه با استفاده از مدل رگرسیون XGBoost
سرفصلها
پروژه: پیشبینی قیمت بیمه با استفاده از مدل رگرسیون XGBoost
فرم ثبت نام
ثبت نام به پایان رسید