
مفاهیم اولیه درخت تصمیم
همانطور که اشاره شد، درخت تصمیم دارای گرههای متفاوتی است که در ادامه با انواع آنها به عنوان ابزارهای اولیه رشد درخت تصمیم آشنا میشویم. در حقیقت یک درخت تصمیم از گرههای مختلفی تشکیل شده است. اتصال گرههای مختلف و البته با وظایف متفاوت، یک درخت تصمیم را تشکیل میدهد. ● گره (Node): گره ساختاری است که میتواند دارای یک ارزش یا مقدار خاص یا بیان یک شرط باشد. ● ریشه (Root): اولین و بالاترین گره در یک درخت تصمیم، ریشه نامیده میشود. بخشهای دیگر درخت تصمیم از ریشه آغاز و نشأت میگیرند. ● والد (Parent): گرهای که دارای فرزند باشد. به این معنی که گرهای در سطح پایینتر به آن متصل است. ● فرزند (Child): گرهای است که به طور مستقیم به گره دیگری متصل است و در سطح پایینتری از گره والد قرار گرفته است. ● شاخه (Branch): شاخه، گرهای است که حداقل دارای یک فرزند (Child) است.ساختار فلوچارتی درخت تصمیم دارای سه جزء اصلی زیر می باشد:
- گره ریشه (Root Node)
- گره تصمیم (Decision Node)
- گره پایانی – برگ (Terminal Node – Leaf)

تمام داده ها در گره ریشه قرار دارند و هر رکورد بر اساس پاسخ به سوالات گره تصمیم به مسیر خود ادامه می دهد تا وارد گره پایانی شود. مسیر طی شده از ریشه تابرگ نشان دهنده یک الگو در قالب قانون اگر–آنگاه می باشد. به هر قسمت از درخت اصطلاحا sub-Tree یا Branch می گوییم.جهت توسعه درخت تصمیم باید به سوالات زیر پاسخ داد:
- کدام ویژگی برای انشعاب انتخاب شود؟
- حدود آستانه ای برای انشعاب هر ویژگی چه مقادیری باشد؟
- تعداد انشعاب ها تا کجا ادامه پیدا کند؟
𝒊𝒇𝑜𝑢𝑡𝑙𝑜𝑜𝑘 = 𝑠𝑢𝑛𝑛𝑦&ℎ𝑢𝑚𝑖𝑑𝑖𝑡𝑦 ≤ 75 𝒕𝒉𝒆𝒏 𝑇𝑎𝑟𝑔𝑒𝑡 = 𝑌𝑒𝑠


مزایا و نقاط قوت درخت تصمیم:
- ماهیت جعبه سفید بودن این روش و استخراج قوانین منجر به درک ساده و سریع از الگوهای به دست آمده میشود.
- نسبت به بسیاری از الگوریتم های دیگر نیاز به مراحل آماده سازی داده کمتری دارد. به طور مثال روش های نرمال سازی و یا تبدیل داده ای کیفی به عددی در توسعه درختهای تصمیم چندان مسئله ساز نیست.
- ماهیت انتخاب ویژگی به صورت درونی در ماهیت این الگوریتم وجود دارد و به همین دلیل نسبت به مشکلات کیفی مانند داده های نامرتبط و افزونگی داده ها مقاوم می باشد.
- ماهیت ناپارامتری این الگوریتم باعث می شود نیاز به فرضیات محدود کننده ای مانند برقراری فرض توزیع نرمال، استقلال ویژگی ها، تثبیت واریانس و … نداشته باشیم.
- به علت ساختار فلوچارتی، جهت مدلسازی رفتار یا تصمیمات انسانی گزینه مطلوبی میباشد و قابلیت استفاده از آزمون های آماری برای پایداری نتایج را دارد.
معایب و محدودیت های درخت تصمیم
- در مقابل تغییرات در داده های آموزشی الگوریتم مقاومی محسوب نمیشود و با تغییرات کم در داده های ورودی امکان تغییر در خروجی ها وجود دارد.
- به علت ماهیت جستجوی حریصانه (Greedy Search) در انشعاب های انجام شده، تضمینی برای بهینه بودن سراسری الگوها نیست.
- به طور کلی ایجاد سادگی و شفافیت بالا در این الگوریتم، منجر به کاهش صحت مدل (Accuracy) نسبت به برخی الگوریتم های دیگر می شود.