طبق ساختار درخت تصمیم، مسیر شروط و تصمیم هایی که از گره ریشه به گره پایانی (برگ) می رسد، یکی از  قوانین در نظر گرفته می شود. بنابراین بر اساس نحوه رشد و توسعه درخت تصمیم، کل فضای داده های اولیه به مجموعه قوانین بدست آمده افراز می شود.

در نتیجه هر قانون، یک زیر مجموعه از کل داده های آموزشی می باشد و افزایش تعداد برگ ها در درخت تصمیم، به معنی تعداد قوانین بیشتر و در نتیجه ایجاد زیرمجموعه های کوچکتر (با تعداد رکورد کمتر) می باشد.

همچنین بر اساس معیارهای انتخاب ویژگی در ساختار درخت، هر انشعاب به سمت خلوص بیشتر در توزیع مقادیر فیلد هدف حرکت میکند. بدین ترتیب با ایجاد انشعاب بیشتر، پیش بینی مقدار هدف با دقت بالاتری انجام میشود.

در نتیجه افزایش تعداد انشعاب، منجر به افزایش تعداد برگ ها شده که تعداد قوانین بدست آمده از درخت را بیشتر می کند و این موضوع به صورت مستقیم منجر به افزایش دقت قوانین و مدل درخت تصمیم می شود.

شاخص های ارزیابی کیفیت قوانین

●معیارپشتیبانی (Support Index)

این معیار به نسبت تعداد رکوردهای یک قانون به کل داده های آموزشی/آزمایشی اشاره دارد و نشان دهنده قدرت تعمیم پذیری آن قانون می باشد.

بدیهی است افزایش میزان پشتیبانی قوانین در جهت کاهش پیچیدگی مدل و کوچکتر کردن درخت تصمیم است. در این حالت میزان تعمیم پذیری مدل افزایش می یابد و شانس بیش برازشی مدل کاهش می یابد.

●معیار اطمینان (Confidence Index)

این معیار به نسبت تعداد رکوردهای با برچسب های واقعی کلاس هدف و تعداد کل رکوردهای گره پایانی(برگ) گفته میشود و نشان دهنده اطمینان قانون میباشد.

بدیهی است افزایش میزان اطمینان قوانین در جهت افزایش پیچیدگی مدل و بزرگتر کردن درخت تصمیم است. در این حالت میزان صحت مدل افزایش می یابد ولی باید توجه نمود شانس بیش برازشی مدل نیز افزایش می یابد.

● معیار ارتقا (Lift Index)

این معیار به نسبت اطمینان حاصل از یک قانون به احتمال وقوع اولیه مقدار پیشبینی شده توسط آن قانون گفته می شود و نشان دهنده میزان بدیع بودن یک قانون می باشد.

بدیهی است مقدار Lift برابر یا نزدیک به یک به این معنی می باشد که قانون حاصل شده تاثیری بر شانس وقوع B نداشته است. هرچقدر عدد Lift از مقدار یک فاصله بگیرد قانون بدست آمده جذابیت بیشتری خواهد داشت.

مقایسه شاخص های ارزیابی و رتبه بندی قوانین

طبق تعریفی که از شاخص های ارزیابی کیفیت قوانین گفته شده میزان شاخص های پشتیبانی و اطمینان در تقابل با یکدیگر هستند و افزایش یکی از آنها میتواند منجر به کاهش دیگری گردد.

O در انتخاب و رتبه بندی قوانین معمولا مقدار حداقل شاخص پشتیبانی بر اساس شرایط مسئله و کسب و کار تعیین شده و سپس قوانین منتخب بر مبنای میزان شاخص اطمینان و یا شاخص ارتقا رتبه بندی می شوند.

O در مسائل رده بندی با کلاس های نامتوازن، معمولا میزان شاخص اطمینان برای کلاس مینور عدد کوچکتری می باشد و شاخص ارتقا درک بهتری از کیفیت قوانین بدست آمده می دهد.

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها