در ابتدای مبحث قوانین انجمنی باید گفت که مدل های اکتشافی در فرآیند داده کاوی که با عنوان مدل های توصیفی (Descriptive Models) نیز شناخته می شود، در دسته یادگیری بدون نظارت قرار می گیرد.

الگوهای تکرار شونده، یکی از انواع الگوهای جذاب در مجموعه داده ها می باشد که شامل ترکیبی از اقلام یا اشیا است که به صورت مکرر، با هم یا در طول هم اتفاق می افتند. مانند مجموعه‌ای از اقلام در فروشگاه که به صورت مکرر با هم در سبد خرید مشتریان قرار می گیرد.(تحلیل سبد بازار: Market Basket Analysis)

الگوهای تکرار شونده به معنی وجود وابستگی در میان داده ها می باشد و به قوانینی که چنین روابطی را نشان می دهند، قوانین وابستگی یا قوانین انجمنی گفته می شود.

مثال 1: در صورت خرید تلفن همراه، با احتمال 80% محافظ صفحه نمایش هم خریداری می شود.

مثال 2: در صورت وجود ریسک فاکتورهای X و Y در بیمار، با احتمال 45% شانس وقوع عارضه Z پس از عمل جراحی قلب وجود دارد.

مثال 3: در صورت خرید یک دستگاه کامپیوتر شخصی توسط مشتری، با احتمال 35% پس از یک ماه برای خرید پرینتر خانگی برخواهد گشت.

مثال 4: در صورت وجود نشتی مایع خنک کننده از رادیاتور خودرو، با احتمال 65% ترموستات نیاز به تعمیر یا تعویض دارد.

شناسایی الگوهای تکرار شونده، با جستجو در تراکنش های ثبت شده در پایگاه داده، به دنبال روابط تکراری بین اقلام تراکنش ها می‌باشد.

معمولا تراکنش ها، به صورت برداری از اقلام مورد بررسی با مقادیر بولین (Boolean) نمایش داده می شود و هدف الگوریتم، یافتن روابط تکراری در وقوع همزمان زیرمجموعه ای از اقلام و استخراج قوانین انجمنی می باشد.

بنابراین شناسایی الگو ها در این مسئله شامل دو گام اصلی می باشد:

  • تعیین مجموعه اقلام مکرر (Frequent Itemset)
  • استخراج قانون (Rule Extraction)

ساده ترین روش تولید مجموعه اقلام مکرر این است که تمامی ترکیب های ممکن بین اقلام در مجموعه داده ها، اسکن شده و فراوانی تکرار آنها مورد بررسی قرار گیرد. بدین معنی که برای n قلم کالا، بایستی دو به توان n حالت ممکن در مجموعه داده ها جستجو شود. طبیعی است هزینه محاسباتی این فرآیند در تعداد زیاد اقلام بسیار بالاست و نیاز به روش های سریعتر وجود دارد.

الگوریتم Apriori در سال 1994 به عنوان روشی سریع، جهت تولید قوانین انجمنی توسط آگراوال معرفی شد.

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها