بخش حاضر ادامهی مطالعهی موردی بانکداریمان برای توسعهی کارتهای امتیاز است. در این بخش، راجع به ارزش اطلاعات (IV)[1]و وزن شواهد بحث میکنیم. این مفاهیم در انتخاب متغیر هنگام توسعهی کارتهای امتیاز اعتباری بهدرد میخوردند. همچنین، نحوهی استفاده از وزن شواهد ([2]WOE) در مدلسازی رگرسیون لجستیک را یاد میگیریم. برای مطالعهی بخشهای قبلی میتوانید به لینکهای بخش ۱، بخش ۲ و بخش ۳ مراجعه کنید.
متخصصینی با کت و شلوارهای گرانقیمت
چند هفته پیش داشتم نمایشی بهنام «بازیهای فکری[3]» را روی کانال نشنال جئوگرافیک[4] تماشا میکردم. در یکی از قسمتها، کمدینی اجرا میکرد که مثل گزارشگر اخبار تلوزیونی لباس پوشیده بود. عوامل دوربین کاملی همراه این کمدین بود. او به مردمی که از پاساژی در کالیفرنیا بیرون میآمدند اطلاع میداد که تگزاس تصمیم گرفته است کشوری مستقل تشکیل دهد و دیگر بخشی از ایالات متحده نباشد. بهعلاوه، روی دوربین نظر مردم راجع به این موضوع را جویا میشد.
پس از مسخرهبازیهای اولیه، مردم او را جدی میگرفتند و شروع به بیان دیدگاههای جدیشان میکردند. این پدیدهای است که روانشناسان بهعنوان «سفسطهی متخصص[5]» یا اطاعت از قدرت حاکم، صرفنظر از اینکه اولیاء امور چقدر غیرمنطقی باشند، توصیف میکنند. مردم پس از فهمیدن حقیقت، در این نمایش تلوزیونی گفتند که حرفهای این کمدین را باور کردند، چون کت و شلوار گرانقیمتی پوشیده بود و عوامل تلوزیونی همراهش داشت.
نیت سیلور[6] در کتابش، «سیگنال و نویز[7]»، پدیدهی مشابهی را توصیف میکند. او پیشبینیهای انجامشده توسط هیئتی از متخصصین در برنامهی تلوزیونی «گروه مکلَفلین[8]» را تحلیل کرد. معلوم شد که این پیشبینیها فقط در ۵۰ درصد موارد واقعیت دارند؛ شما هم میتوانستید با پرتاب سکه همین پیشگویی را بکنید. ما متخصصینی که کت و شلوار گران میپوشند را جدی میگیریم، نه؟ اینها مثالهای مربوط به یکی دو نفر نیستند. مردان کت و شلوارپوش یا یونیفورمپوش در فرمهای مختلفی – از ژنرالهای ارتش گرفته تا نگهبانهای امنیتی پاساژها – ظاهر میشوند. همهی اینها را خیلی جدی میگیریم.
همین الان کشف کردیم که بهجای پذیرش نظر متخصص، بهتر است ارزش اطلاعات را بررسی کنیم و خودمان تصمیم بگیریم. اجازه دهید موضوع را ادامه دهیم و سعی کنیم نحوهی انتساب مقدار به اطلاعات را با استفاده از ارزش اطلاعات و وزن شواهد بررسی کنیم. سپس، با استفاده از WOE (وزن شواهد)، مدل رگرسیون لجستیکی میسازیم. هرچند، پیش از این کار، بیایید به مطالعهی موردیمان برگردیم…
ادامهی مطالعهی موردی…
این بخش ادامهی مطالعهی موردیمان روی بانک سیندیکت است. این بانک ۶۰۸۱۶ وام خودرو با حدود ۲.۵ درصد نرخ بد در سهماههی بین آوریل-ژوئن ۲۰۱۲ اعطا کرده بود. ما با استفاده از تصویرسازی دادهها در دو بخش اول (بخش ۱ و بخش۲)، چند تحلیل کاوشگرانهی داده (EDA) انجام دادیم. در مقالهی قبلی، مدل رگرسیون لجستیک سادهای با متغیر سن (بخش ۳) ساختیم. اینبار، از بخش پایانی مقالهی قبلی مبحث را ادامه میدهیم و از وزن شواهد (WOE) سن برای توسعهی مدل جدید استفاده میکنیم. بهعلاوه، قدرت پیشگویانه متغیر (سن) را ازطریق ارزش اطلاعات بررسی میکنیم.
ارزش اطلاعات (IV) و وزن شواهد (WOE)
ارزش اطلاعات مفهوم بسیار مفیدی در انتخاب متغیر طی ساخت مدل است. فکر میکنم منشأ ارزش اطلاعات، نظریهی اطلاعات پیشنهادشده توسط کلاوده شانون است. دلیلش هم شباهت ارزش اطلاعات با مفهوم پرکاربرد آنتروپی در نظریهی اطلاعات است. مقدار مربع کای، مقیاس پرکاربردی در آمار، جایگزین خوبی برای IV (ارزش اطلاعات) است. هرچند، IV مقیاس رایج و پرکاربردی در صنعت است. دلیل این امر برخی قوانین بسیار راحت در انتخاب متغیرهای مربوط به IV است؛ همانطور که بعدا در همین مقاله خواهید دید، اینها متغیرهای بسیار مفیدی هستند. فرمول ارزش اطلاعات در زیر ارائه شده است:
مفهوم توزیع خوب/ بد بهزودی، زمانیکه IV را برای مطالعهی موردیمان محاسبه میکنیم روشن میشود. حالا احتمالاً زمان مناسبی برای تعریف وزن شواهد (WOE) است که جزء لگاریتمی ارزش اطلاعات محسوب میشود.
بنابراین، در ادامه میتوان IV را بهصورت زیر نوشت:
اگر هم ارزش اطلاعات و هم وزن شواهد را بهدقت بررسی کنید، پس متوجه خواهید شد زمانیکه یا توزیع خوب یا توزیع بد صفر میشود، هر دوی این مقادیر تجزیه میشوند. یک ریاضیدان از این مسئله متنفر است. فرض، یک فرض درست، این است که این مسئله هنگام توسعهی کارت امتیاز بهدلیل اندازهی منطقی نمونه هیچگاه رخ نمیدهد. احتیاط! اگر کارتهای امتیاز غیراستانداردی با اندازهی نمونهی کوچکتر میسازید، در استفاده از IV دقت کنید.
به مطالعهی موردی برمیگردیم
در مقالهی قبلی، دستههای نادقیقی برای متغیر سن در مطالعهی موردیمان خلق کردیم. حالا، هم ارزش اطلاعات و هم وزن شواهد را برای این دستههای نادقیق حساب میکنیم.
بیایید این جدول را بررسی کنیم. توزیع وامها در اینجا، نسبت وامها دستهی نادقیق به کل وامها است. برای گروه ۳۰-۲۱، این نسبت ۰.۰۷۹ = ۶۰۸۰۱/۴۸۲۱ میشود. همینطور، توزیع بد (DB)، ۱۳۵ = ۱۵۲۲/۲۰۶ و توزیع خوب (DG)، ۰.۰۷۸ = ۵۹۲۷۹/۴۶۱۵ میشود. بهعلاوه، ۰.۰۵۷- = ۰.۱۳۵ – ۰.۰۷۸ = DB – DG. در ادامه، ۰.۵۵۳- = (۰.۱۳۵/۰.۰۷۸)ln = WOE.
نهایتاً، جزء IV این گروه ۰.۰۳۱۸ = (۰.۵۵۳-)*(۰.۰۵۷-) میشود. به همین ترتیب، اجزاء IV سایر دستههای نادقیق را حساب کنید. از افزودن این اجزاء، مقدار IV ۰.۱۰۹۳ (ستون آخر جدول) حاصل میشود. حالا سؤال این است که این مقدار IV را چطور تفسیر کنیم؟ پاسخ قانون سادهایست که در زیر توصیف شده است:
معمولاً متغیرهایی با قدرت پیشگویانهی قوی و متوسط بر ای توسعهی مدل انتخاب میشوند. هرچند، برخی محققان معتقدند که فقط متغیرهایی با IV متوسط باید برای توسعهی مدل مبتنی بر گستردگی استفاده شوند. توجه کنید که ارزش اطلاعات سن، ۰.۱۰۹۳ است، پس بهندرت در محدودهی پیشبینهای متوسط قرار میگیرد.
رگرسیون لجستیک با وزن شواهد (WOE)
در پایان، بیایید مدل رگرسیون لجستیکی با وزن شواهد دستههای نادقیق بهعنوان مقدار متغیر مستقل سن خلق کنیم. جدول زیر، نتایج حاصل از نرمافزاری آماری را ارائه میدهد:
اگر مقدار نرخ بد گروه سنی ۳۰-۲۱ را با استفاده از اطلاعات فوق برآورد کنیم:
این دقیقاً همان مقداری است که آخرین بار بهدست آوردیم (به بخش قبلی نگاهی بیندازید) و با نرخ بد این گروه سنی سازگار است.
مخلص کلام
آرزو داشتم ابزاری شبیه ارزش اطلاعات وجود داشت تا ارزش اطلاعات ارائهشده توسط این افرادِ بهاصطلاح متخصص را برآورد کنیم. هرچند، دفعهی بعد، وقتی متخصصی در کانال کسبوکار پیشنهاد خرید سهام خاصی را به شما میدهد، خیلی حرف او را باور نکنید.
[3] Brain Games
[4] National Geographic
[5] expert fallacy
[6] Nate Silver
[7] The Signal and The Noise
[8] The McLaughlin Group