انتخاب مدل

- ماشینهای بردار پشتیبان[1]
- جنگل تصادفی[2]
- شبکههای عصبی مصنوعی
- تحلیل تشخیصی
- مدل تجمیعی boosting
- دستهبندی بیز ساده[3]
وظایف علم داده
اساساً وظایفی که دانشمندان داده انجام میدهند را میتوان به شش دستهی گسترده (همانطور که در زیر ارائه شده است) گروهبندی کرد. لطفاً توجه کنید که حتی وظایف علم دادهی مدرن، مثل تحلیلهای وب و رسانههای اجتماعی، متنکاوی، تحلیلهای تصویری و شناسایی الگوی صوت از این شش دستهی گسترده استفاده کردهاند.وظایف علم داده
انتخاب مدل – مثال مطالعهی موردی خردهفروشی
به مثال مطالعهی موردی خردهفروشیمان برمیگردیم؛ در این مثال، شما مدیر ارشد تحلیل و رئیس راهبرد کسبوکار فروشگاه آنلاینی بهنام درساسمارت هستید که در عرضهی پوشاک تخصص دارد. ازطریق تحلیل کاوشگرانهی دقیق دادهها، چندین عامل که نقش حیاتیای در واکنش مشتریان به کمپین بازاریابی ایفا میکنند را پیدا میکنید؛ برخی از این فاکتورها عبارتند از:- تازگی: # بازدیدها و خریدهای اخیر از وبسایت شرکت
- توالی خریدها: تأخیر زمانی بین خریدها در ۶ ماه گذشته
- روش پرداخت بهکاررفته: پرداخت نقدی هنگام تحویل، پرداخت با کارت اعتباری، بانکداری اینترنتی و غیره
- دادههای بازاریابی گردآوری شده: گروهبندی برمبنای سبک زندگی (یعنی، دوستداران کالاهای لوکس، سالخوردگان طرفدار کالاهای بسیار گرانقیمت و مزدبگیران دائمی).
- روند مخارج سال گذشته: مقدار پول خرجشده در سال گذشته
- الگوی کاربرد کوپن توسط مشتری
۱. قدرت پیشگویانهی مدلها
عامل اول در انتخاب مدل، قدرت پیشگویانهی کلی مدل موردنظر در مقایسه با سایر مدلها است. برای این مسئلهی دستهبندی، ناحیهی زیر منحنی عملیاتی گیرنده ([4] AUROC) احتمالاً بهترین روش برای ارزیابی قدرت پیشگویانهی مدلها است (راجع به AUROC بیشتر بخوانید). گاهی اوقات از ضریب جینی[5] برای ارزیابی قدرت پیشگویانهی مدلها استفاده میشود؛ جینی نوع دیگری از AUROC است و از لحاظ ریاضی بهصورت زیر بیان میشود:
مدل |
AUROC |
درخت تصمیم |
۷۲٪ |
رگرسیون لجستیک |
۷۶٪ |
شبکههای عصبی مصنوعی |
۷۷٪ |
ناحیهی زیر ROC برای مدلهای مختلف
۲. یکپارچگی عملیاتها و کسبوکار
این جنبه از انتخاب مدل هم به اندازهی عامل بالا، اگر نه بیشتر، مهم است. انتخاب مدل باید برمبنای زایایی[6] مدل برای کاربرد تجاری در بلندمدت صورت گیرد. بهخاطرسپردن عوامل زیر در شروع فرایند مدلسازی مفید است:۱) دسترسپذیری مستمر دادهها برای کلیهی متغیرهای پیشبین: بسیاری اوقات، مدلها برمبنای متغیرهای پیشبینی توسعه مییابند که دستیابی منظم و مستمر به آنها دشوار است. نگهداشتن چنین متغیرهایی در مدل، حتی اگر روی قدرت پیشگویانهی بالا نیز تأثیرگذار باشند، توصیه نمیشود. این موضوع مخصوصاً راجع به دادههای شخص ثالث که هر از گاهی خریداری میشوند واقعیت دارد.
۲) مدل باید به اندازهی کافی برای کالیبرهکردن ساده باشد: هدف هر مدلی یکپارچهشدن خوب با سیستمهای IT بهکاررفته توسط کاربران کسبوکار است. تحلیلگران باید زایایی مدل برای یکپارچهسازی فرایند کسبوکار در شروع پروژه را لحاظ کنند تا از دوبارهکاری غیرضروری در تکمیل پروژه بپرهیزند.
۳) تعهد کابران کسبوکار به کاربرد منظم مدلها: علم داده صرفاً نوعی تمرین فکری نیست. مهمترین جنبهی موفقیت علم داده، تولید ارزش کسبوکار ازطریق بینشهای شدنی و تعهد کاربران کسبوکار به عملکردن به این بینشهاست. این تعهد کاربران کسبوکار، از مشارکت و درکشان از فرایند ساخت مدل نشأت میگیرد. دانشمندان علم داده باید رابطهی خوبی با کابران کسبوکار برقرارکنند تا اعتمادشان را جلب نمایند.
مخلص کلام
در این مقاله، متوجه شدیم که شبکههای عصبی مصنوعی، برای مجموعهدادهی ما کمی بهتر از رگرسیون لجستیک و الگوریتمهای درخت تصمیم عمل میکنند. پیش از پرداختن به ادامهی بخش بعدی این مطالعهی موردیِ دایکه، یعنی برآوردها ازطریق رگرسیون، شبکههای عصبی مصنوعی را در مقالهی بعدی مطرح میکنیم. تا بعد![1] Support Vector Machines [2] Random Forest [3] Naïve Bayes Classifiers [4] area under receiver operating curve [5] Gini coefficient [6] productionization