شرلوک هولمز و تصویرسازی داده‌ها

وقتی بچه بودم، یکی از دوستانم کیت اسباب‌بازی شرلوک هولمز – منبع انگیزش حسادت سایر دوستان – داشت. این کیت حاوی کلاه شرلوک هولمز، پیپ، ساعت و ذره‌بین بود. ذره‌بین خواستنی‌ترین شیئ داخل کیت بود. لذت فوکوس‌کردن ذره‌بین روی شیئ و دیدن جزئیات آن به‌منظور استخراج معانی اولین درسم در تحقیقات جنایی – چیزی که هنوز هم به‌عنوان تحلیل‌گر از آن خوشم می‌آید – بود. این هسته‌ی تصویر سازی داده‌ها هم بود. بعدها، با خواندن کتاب‌های سِر آرتور کانن دویل[1]، چیزهای بیشتری راجع به آقای هولمز یاد گرفتم.

کتاب اول، پرونده‌ی اسکارلت[2]، علاقه‌ی آقای هولمز به دانش علمی و علم تحلیل استنتاجی را توصیف می‌کرد. من فهمیدم که کاراگاه‌بودن با دانشمند تجربی یا تحلیل‌گربودن خیلی فرق ندارد. شما کارتان را با جمع‌آوری مجموعه‌ای از مشاهدات شروع می‌کنید و براساس این مشاهدات و ازطریق منطق و استنتاج پرونده تشکیل می‌دهید. این نقل‌قول آقای هولمز «زمانی‌که ناممکن را حذف می‌کنید، چیزی که باقی می‌ماند، هرچقدر هم غیرمحتمل، باید حقیقت باشد»، فرایند تحقیقات را به‌طور کامل شرح می‌دهد.

تصویرسازی داده‌ها – مثال مطالعه‌ی موردی

در مقاله‌ی قبلی از سری مقالات دایکه، بحث را با مثال مطالعه‌ی موردی‌ای راجع به بانک سیندیکت شروع کردیم که ۶۰۸۱۶ وام خودرو در سه‌ماه‌ی بین آوریل-ژوئن ۲۰۱۲ اعطا کرده بود. شما نقش مدیر ارشد ریسک (CRO) را برای این بانک ایفا می‌کردید. به‌علاوه، متوجه شدید که از بین ۶۰۸۱۶ وام اعطاشده،  ۲.۵ درصد نرخ بد یا ۱۵۲۴ وام بد وجود داشت. کارتان را با گمانه‌زنی‌هایی راجع به رابطه‌ی بین سن وام‌گیرندگان و نرخ‌های بد شروع کردید. پس از انجام تحلیل، رابطه‌ی جمعیتی کامل معکوسی بین این دو مشاهده کردید. سن وام‌گیرندگان قطعاً‌ حریف قدری برای مدل ریسک اعتبارتان بود. حس خوبی پیدا می‌کنید و قصد دارید متغیرهای بیشتری برای مدل چندمتغیره‌تان پیدا کنید (مقاله‌ی قبلی را مطالعه کنید).

 

ادامه‌ی مثال مطالعه‌ی موردی

همچنین معتقدید که درآمد متقاضیان باید به نوعی با نرخ‌های بد رابطه داشته باشد. راجع به درک‌تان از ابزارهایی که آخرین بار به‌کار بردید، یعنی هیستوگرام و هیستوگرام نرمال (همپوشی‌شده با وام‌گیرندگان خوب/ بد) مطمئن بودید. کار را بلافاصله با رسم هیستوگرام بازه‌ی یکسان شروع می‌کنید و به نتیجه‌ی زیر می‌رسید:

آخ آخ! این اصلاً‌ شبیه هیستوگرام منحنی زنگوله‌ای ملایمی که برای گروه‌های سنی مشاهده کردید نیست. حتی هیستوگرام نرمال زیر هم کاملاً ناکارامد است.

پس، اینجا چه خبر است؟ درآمد، برخلاف سن، دارای تعداد محدودی نقاط بسیار پرت می باشد که تقریباً در هیستوگرام دیده نمی‌شوند. فردی با شاخص ([3]HNI) معادل ۱.۴۷ میلیون حقوق سالانه و موارد پرت دیگری در وسط رؤیت می‌شوند. برحسب اتفاق، اعطای این وام به متقاضی بالاترین HNI بد پیش رفته است – و این به ضرر بانک است. به جدول توزیع زیر نگاهی بیندازید؛ تقریباً ۹۹.۸ درصد از جمعیت در دو باکت اول درآمد جای می‌گیرند.

اینجا، به‌عنوان تحلیل‌گر، باید تصمیم بگیرید که آیا می‌خواهید این موارد کرانی، با داده‌های ناچیز را در مدل‌تان جای دهید یا مرز درآمدی بسازید که به‌واسطه‌ی آن، مدل برای اکثریت متقاضیان مناسب است یا نه. به‌نظر من، گزینه‌ی دوم انتخاب معقولانه‌ای است. با ادامه‌ی تحلیل کاوشگرانه و تصویر سازی داده‌ها تصمیم گرفتیم روی نواحی دارای تعداد نقاط داده‌ای فراوان‌تر، یعنی دو باکت اول تمرکز و هیستوگرام را از نو رسم کنید. هیستوگرام زیر همان چیزی‌ست که مشاهده کردید:

* تصحیح: محور x را به‌عنوان گروه‌های درآمد (نه گروه‌های سنی) درنظر بگیرید.

این‌بار، هیستوگرام نسبتاً ملایم است و از این‌رو، مستلزم تبدیل نیست. شکل زیر، هیستوگرام نرمال هسیتوگرام فوق است:

نتایج زیر را می‌توان از هیستوگرام بالا استخراج کرد:

  • روند قطعی‌ای در رابطه با نرخ‌های بد و گروه‌های درآمد وجود دارد. هرچه میزان کسب درآمد وام‌گیرندگان بالاتر باشد، احتمال نکول وام‌شان کمتر می‌شود. این بینش خوبی به‌نظر می‌رسد.
  • برای باکت آخر، یعنی ۱۵۰ هزار<، خطر افزایش می‌یابد؛ یعنی در روند وقفه ایجاد می‌شود. این مسئله به داده‌های ناچیز در این باکت مرتبط است؛ این داده‌ها نه فقط با توجه به شمارش داده‌ها، بلکه در بازه‌های خیلی بزرگ ۱۵۰ تا ۱۵۰۰ هزار نیز پراکنده می‌شوند.

حالا دو متغیر – سن و درآمد – دارید که نرخ‌های بد حاکم احتمالی برای وام‌گیرندگان هستند. هرچند، تحلیل بیشتر راجع به درآمد با سن نشان می‌دهد که همبستگی بالایی – دقیقاً ۰.۷۶ – بین دو متغیر وجود دارد. نمی‌توانید از هر دو متغیر در مدل استفاده کنید، چون به‌دلیل هم‌خطی چندگانه، مسئله‌ساز می‌شود. همبستگی بین سن و درآمد منطقی است. از آنجایی‌که درآمد تابعی از سال‌های تجربه برای فردی حرفه‌ای است، پس بیشتر به سن این فرد بستگی دارد. بنابراین، تصمیم می‌گیرید درآمد را از مدل حذف کنید. این امر به مطرح‌شدن این پرسش منجر می‌شود: راهی برای بازگرداندن درآمد به مدل چندمتغیره‌مان وجود دارد؟

نسبت‌های مالی

زمانی‌که تحلیل‌گران شرکت می‌کوشند امور مالی شرکتی را تحلیل کنند، اغلب با چندین نسبت مالی کار می‌کنند. کارکردن با نسبت‌ها مزیت محرزی در مقایسه با کارکردن با متغیرهای ساده دارد. متغیرهای ترکیبی اغلب اطلاعات بیشتری ارائه می‌دهند. تحلیل‌گران بی‌تجربه این موضوع را کاملاً می‌فهمند. به‌علاوه، خلق متغیر تمرین خلاقانه‌ای است که مستلزم دانشی مستدل است. برای تحلیل اعتباری، نسبت مجموع [تعهد] بدهی‌ها به درآمد خیلی آموزنده است، چرا که این امر بینشی راجع به درصد درآمد قابل‌عرضه برای وام‌گیرندگان مهیا می‌کند.

بیایید سعی کنیم این موضوع را با مثال بفهمیم. درآمد سالانه‌ی سوزان ۱۰۰ هزار دلار است. او وام مسکنی با بدهی سالانه‌ی (EMI) ۴۰ هزار دلار و وام خودرویی با بدهی سالانه‌ی ۱۰ هزار دلار دارد. بنابراین، سوزان  ۴۰ + ۱۰ هزار دلار از ۱۰۰ هزار دلار درآمدش را روی پرداخت EMIها خرج می‌کند. نسبت بدهی ثابت به درآمد ([4]FOIR) سوزان در این مورد، ۵۰ درصد = ۱۰۰/۵۰ است. پس فقط ۵۰ درصد از درآمد سوزان برای تأمین سایر مخارجش باقی می‌ماند.

شکل زیر، نمودار هسیتوگرام نرمال FOIR است:

بدیهی‌ست که رابطه‌ی متناسب مستقیمی بین FOIR و نرخ بد وجود دارد. به‌علاوه، FOIR همبستگی ناچیزی – فقط ۰.۱۸ – با سن دارد. حالا، علاوه بر سن متغیر دیگری به‌نام FOIR برای مدل چندمتغیره‌تان دارید. تبریک! شما هم مثل شرلوک هولمز دارید پرونده‌تان را با بررسی مدرک به مدرک – فرایندی در علم – می‌سازید.

مخلص کلام

امیدوارم پس از مطالعه‌ی این بخش ترغیب شوید ذره‌بین را بردارید و میراث شرلوک هولمز کبیر را پی بگیرید – این‌بار اسرار در داده‌ها نهفته‌اند!

[1] Sir Arthur Conon Doyle

[2] A Study in Scarlet

[3] High-Net worth-Individual

[4] Fixed Obligation to Income Ratio