بخش حاضر ادامهی مطالعهی موردی بانکداری برای خلق کارتهای امتیاز ریسک یا خطر کاربردی است که در مقالات قبلی بحث کردیم. سایر بخشهای این مجموعه را میتوانید در لینکهای بخش ۱، بخش ۲، بخش ۳ و بخش ۴ پیدا کنید.
استنتاج رد موضوعی است که رتبهبندی اعتبار را از سایر مسائل دستهبندی، مثل مدلهای تمایل بازاریابی برای بیشفروشی/ فروش جانبی و غیره متمایز میکند. همچنانکه بعدها خواهید فهمید، استنتاج رد راجع به بستن شکافهای اطلاعات است که طی توسعهی کارتهای امتیاز کابردی وجود دارند. بیایید سعی کنیم دیدگاه همهجانبهتری راجع به بستن شکافهای اطلاعات ازطریق شیوهی تکامل بشر کسب کنیم.
اتصال نقاط
اخیراً یک فیلم هندی بهنام «آنخون دخی[1]» تماشا کردم؛ ترجمهی عنوان فیلم «دیدهشده با چشمان شما» است. در آغاز فیلم، شخصیت اصلی، پس از رویدادی درام در زندگیاش، تصمیم میگیرد فقط چیزهایی را باور کند که با چشمانش میبیند. در ادامه، با همین دیدگاه ماجراجوییها/ حوادث ناگواری برایش پیش میآید. گرچه موضوع این فیلم از توانمندی بالایی برخوردار است، اما فکر میکنم خصوصاً در پایان فیلم، نمایش موضوع کمی ریاکارانه میشود. ایدهی باورکردن چشمان ظاهراً درست است، اما معایبی هم دارد. تکامل به مغزمان یاد داده است جایگزین دیدمان شود تا تصمیمات ثانویهی مجزایی بگیرد. بسیاری از توهمات بصری شاهدی بر این پدیده هستند. برخی از توهمات بصری/ تصاویری که بر نحوهی کارکردن مغز و چشمانمان تأکید میکنند را در این مقاله بررسی میکنیم. اما پیش از آن، مثالی از تصمیمگیری ثانویهی مجزا بهمثابه ضرورتی برای بقا را ارائه میدهیم.
جد بشر را تصور کنید که در تاریکی ایستاده است. جدمان گرسنه است، چند روز هیچ غذایی نخورده است. او شبحی از موجودی میبینید که در مقابلش کمین کرده است. این موجود میتوانست وعدهی غذایی بعدی او باشد. از سوی دیگر، این موجود میتوانست موجودی شکارچی باشد و جد ما غذای خوشمزهای برای آن شود. دلیل زندهمانی و تداوم حیات بشر روی این سیاره، این است که چشمان و مغز اجدادمان قوانین سادهای خلق کردهاند تا با چنین موقعیتی دستوپنجه نرم کنند. یکی از ابزارهایی که تکامل در اختیار بشر قرار داد …:
قدرت پس زمینه[2]
همانطور که قبلاً قول دادم، اجازه دهید چندین تصویر ارائه دهم تا قدرت پس زمینه را کاملاً روشن کنم. در تصویر اول (تصویر زیر)، سعی کنید طول دو خط زردرنگ را مقایسه کنید و بگویید کدام خط بلندتر است. در این مورد، به احتمال زیاد میگویید خط بالایی بلندتر از خط پایینی است. در این توهم، مغزتان اعتبار اطلاعات دریافتشده ازطریق چشمانتان را براساس زمینه یا الگوهای محیطی پیرامون خطوط زردرنگ ساقط میکند. همچنانکه میدانید دنیای سهبعدیمان احتمالاً هیچگاه یا بهندرت الگویی شبیه توهم بصری تصویر ۱ ارائه میدهد. بنابراین، مغزمان، بهخاطر اهداف عملیتر، تصمیم درست را گرفت، گرچه شاید در این مورد احمقانه بهنظر برسد.
حالا، بیایید به تصویر دوم (زیر) نگاهی بیندازیم. به B و ۱۳ در وسط توالیهای بالا و پایین توجه کنید، آنها شبیه هماند. توالی بالا را ABC میخوانید و توالی پایین را 12، 13، 14. این حیرتانگیز است، کاری که مغزتان در کسری از ثانیه انجام داد چیزی است که متنکاوی و الگوریتمهای هوش مصنوعی به سختی انجام میدهند. باید خاطرنشان کنم که CAPTCHA شاهدی بر این امر است که بیشتر الگوریتمها در دستیابی به چیزی که طبیعت در وجودمان قرار داده است – توانایی متصلکردن لینکهای گمشده – شکست میخورند.
مغز ما سعی میکند شکاف موجود در اطلاعاتمان را با استفاده از اطلاعات موجود پر کند. این دقیقاً همان کاریست که میکوشیم هنگام استفاده از استنتاج رد برای رتبهبندی اعتباری انجام دهیم.
استنتاج رد
بیایید سعی کنیم دینامیکهای (پویاییهای) فرایند درخواست وام را پیش از تعیین لزوم استنتاج رد بشناسیم. درخواستهای «مستقیم» وام توسط محاسبها ارزیابی میشوند تا اعتبارمندی متقاضیان تعیین گردد. محاسبها براساس اعتبارنامههای متقاضیان، یا درخواستها را میپذیرند یا آنها را رد میکنند. بهعلاوه، متقاضیان دارای درخواستهای پذیرفته یا از وام بهرهگیری میکنند یا نمیکنند. این موضوع بهصورت شماتیک در زیر ارائه شده است:
همانطور که در شکل بالا میبینید، ما فقط اطلاعات مربوط به وامهای پرداختشده را داریم تا برمبنای عملکردشان آنها را وام خوب یا بد بنامیم. هرچند، برای خلق کارتهای امتیاز همهجانبه برای کل جمعیت متقاضی، باید کارکرد وامهای ردشده را استنتاج کنیم. این فرایند تکمیل اطلاعات استنتاج رد نامیده میشود و برای تولید کارتهای امتیاز همهجانبه ضروری است. در قسمتهای بعدی، چندین شیوهی رایج اجرای استنتاج رد مطرح میشود. همچنین باید اشاره کنم که روشهای زیر علیرغم کاربرد گستردهای که در صنعت دارند، عاری از نقص نیستند.
استفاده از دفاتر اعتباری
این روش مستلزم بهکارگیری اطلاعات حاصل از دفاتر اعتباری برای پرکردن شکافها است. اگر سایر وامدهندگان وامهای پرداختشدهای برای متقاضیان ردشده (مردود) شما دارند، پس برچسبگذاری متقاضیان ردشده با عناوین خوب یا بد برمبنای عملکردشان با سایر وامدهندگان منطقی است. گرچه این روش احتمالاً بهترین شیوهی استنتاج رد بهواسطهی اطلاعات ملموس است، اما چالشهای زیر را هم دارد:
۱. نامحتمل است که متقاضیان ردشده بتوانند طی دورهی توسعهی کارت امتیاز از سایر وامدهندگان وام بگیرند
۲. تفاوت در فرایند گردآوری و گزارشکردن بین وامدهندگان میتواند روی برچسبگذاری نامطمئن عملکرد متقاضیان تأثیرگذار باشد
در بیشتر موارد، استفاده از اطلاعات دفاتر اعتباری برای برچسبگذاری کل جمعیت متقاضی بهتنهایی کافی نیستند. بههمین دلیل برای استنتاج رد، همانطور که در قسمت بعدی بحث میشود، به روشهای تحلیلی نیازمندیم.
ازدیاد ازطریق تفکیککردن
ازدیاد به شکلهای مختلف، رایجترین روش برای استنتاج رد است. حالا همانطور که در طرح کلی بالا میبینید، برچسبگذاری نسبتاً ملموسی از وامهای خوب و بد برای کلیهی وامهای پرداختشده داریم. خیلی ساده میتوانیم الگوریتم دستهبندیای نظیر رگرسیون لجستیک (بخش ۳)، شبکههای عصبی یا درخت تصمیم اجرا کنیم تا مدل معلوم-خوب-بد ([3]KGB) بسازیم. از همین مدل KGB برای رتبهبندی وامهای ردشده استفاده میکنیم. پس از تکمیل رتبهبندی، تحلیلگر میتواند جدولی مثل جدول زیر سرهم کند:
همانطور که احتمالاً در جدول فوق متوجه شدید، ما درخواستهای ردشده را به همان نسبت خوب/بد، مثل وامهای پرداختشده برای محدودهی امتیاز، تقسیمبندی کردیم. برای مثال، محدودهی امتیاز ۲۴۱-۲۳۲، ۲۲ درصد وام بد دارد. ۲۲۹۵ متقاضی ردشده در این باکت را به ۵۰۵ وام بد (این یعنی ۲۲ درصد از ۲۲۹۵) و ۱۷۹۰ وام خوب تقسیم کردیم. ۵۰۵ درخواست ردشده در محدودهی امتیاز ۲۴۱-۲۳۲ را بهطور تصادفی انتخاب و بهعنوان وام بد منسوب میکنیم (به بقیهی وامهای این باکت، وام خوب اطلاق میشود). حالا با اجرای مجدد الگوریتم دستهبندی، یعنی رگرسیون لجستیک روی کل جمعیت متقاضی، کارت امتیاز همهجانبهای خلق میکنیم.
امیدوارم متوجه شده باشید که با بهکارگیری محدودههای امتیاز بهعنوان معیارهای ازدیاد، از اصول قدرت پس زمنیهی بحثشده در بالا استفاده کردیم.
ازدیاد فازی
ازدیاد فازی، شکل توسعهیافتهای از تفکیککردن است؛ در اینجا، بهجای انتساب تصادفی وامها بهعنوان خوب و بد، چندین کپی از وامهای ردشده در نسبت خوب/بد ٪ در محدودهی امتیاز خلق میکنیم. برای مثال، ۲۲ کپی از یک وام ردشده در محدودهی امتیاز ۲۴۱-۲۳۲ بهعنوان بد و ۷۸ کپی بهعنوان خوب برچسبگذاری خواهند شد. این فرایند برای کلیهی وامهای ردشده تکرار میشود. این شبیه عملکرد منطق فازی است. بسیاری معتقدند که ازدیاد فازی روشی عالی برای استنتاج رد در تولید کارتهای امتیاز همهجانبه است.
مخلص کلام
میدانم که همهی روشهای بالا برای استنتاج رد معایبی دارند. به چندین کارشناس و دانشگاهی برخوردهام که با شنیدن روشهای بالا برای استنتاج رد یکه میخورند. هرچند، تا به امروز، اینها بهترین روشهایی هستند که با توجه به دانش فعلیمان از ریاضیات و منطق برای استنتاج رد داریم. باید بگویم که طبیعت هنوز هم یک سری حقههای زیرکانه را زیر آستینش قایم میکند، درست مثل توانایی خود ما در رمزگشایی CAPTCHAs. یک روزی، وقتی راجع به عملکرد داخلی مغزمان بیشتر یاد گرفتیم، شاید بتوانیم کد بزرگتر استنتاج رد و میلیونها مشکل مشابه را بشکنیم. طبیعت خود را بهصورت تدریجی فاش میکند، پس هنوز خیلی امید هست!
[1] Ankhon Dekhi
[2] Power of Context
[3] Known-Good-Bad (KGB) model