تجمیع و فشرده سازی (Aggregation)

تجمیع داده ها با ترکیب دو یا چند رکورد داده و خلاصه سازی آنها با اهداف زیر انجام میشود:

1. تغییر مقیاس و زاویه نگاه به داده ها

به طور مثال با تجمیع داده های مشتریان بانک به تفکیک هر شعبه می توان زاویه نگاه تحلیل را از سطح مشتری به سطح شعب تغییر داد.

2. افزایش ثبات و پایداری در الگوها

به طور مثال با تجمیع داده های بدست آمده از تردد هر خیابان به سطح هر محله میتوان به الگوهای پایدارتری از تردد شهری دسترسی پیدا کرد.

 کاهش داده ها

به طور مثال تجمیع داده های تراکنشی بانک و خلاصه سازی آنها برای هر مشتری میتواند حجم داده های اولیه را به مقدار زیادی کاهش دهد.

برای عملیات تجمیع داده ها دو مفهوم اساسی را باید در نظر داشت:

●  انتخاب فیلد کلیدی (Key Field)

در یک مجموعه داده موجودیت های مختلفی می تواند وجود داشته باشد. بطور مثال، کد مشتری، کد سفارش، کد فروشگاه و… که هر کدام از آنها نشان دهنده سطح ریزدانگی در داده ها می باشد.

نکته 1: با داشتن مجموعه داده در پایین ترین سطح ریزدانگی، می توان با عملیات تجمیع، داده ها را به سطح ریزدانگی بالاتر تغییر داد، اما به صورت برعکس این امکان وجود نخواهد داشت.

نکته 2: فیلد های کلیدی عموماً از نوع اسمی هستند اما الزامی برای آن وجود ندارد.

نکته 3: در برخی از تحلیل ها، امکان ترکیب چند موجودیت برای ایجاد مجموعه داده های مناسب وجود دارد. بطور مثال، ترکیب کد مشتری و تاریخ، منجر به ریزدانگی داده ها در سطح تراکنش های روزانه هر مشتری میشود.

  • انتخاب موجودیت (Entity)
    نکته 2: موجودیت ها عموما از نوع اسمی هستند و اندازه های (Measure) مختلفی در سطوح متفاوتی از ابعاد (Dimension) برای آنها ثبت می شود.

● انتخاب تابع خلاصه سازی
توابع خلاصه سازی، همان شاخص های خلاصه سازی شناخته شده در آمار هستند:
مجموع، میانگین، مد، تعداد رکورد، حداقل و حداکثر، میانه، چارک های اول و سوم.انحراف معیار، واریانس و …
با انتخاب چند تابع خلاصه سازی برای هر موجودیت، یک بردار جدید از داده های فشرده شده ایجاد می شود. این بردارها نشان دهنده رفتار موجودیت در مسئله مورد نظر می باشد.

● تحلیل RFM (Recency,Frequency,Monetary)
RFM از حرف اول سه کلمه Recency و Frequency و Monetary value ایجاد شده است. این کلمات بیانگر ویژگی‌های کلیدی مشتری هستند.
در واقع تحلیل RFM یک مدل تحقیقات بازار، مبتنی بر پایگاه داده مشتریان و بازاریابی مستقیم است که بیشتر در مورد محصولات خرده فروشی و خدمات حرفه‌ای مورد توجه قرار می‌گیرد.

عکس

تحلیل RFM این اطلاعات را در اختیارتان می‌گذارد:
3. هرچه آخرین خرید مشتری جدیدتر باشد، مشتری بیشتر تحت تأثیر تبلیغات قرار گرفته است.
4. هرچه تعداد خرید مشتری بیشتر باشد، مشتری احساس رضایت بیشتری دارد.
5. ارزش خرید، متمایزکننده‌ی مصرف‌کنندگان است. با استفاده از این معیار کسانی که زیاد خرید می‌کنند را از کسانی که محصولات ارزان‌تر یا کمتری می‌خرند، جدا می‌کنید.

Published by

mm

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها