بیگ دیتا چیست؟
در جامعه امروز روزانه حجم گستردهای از دادهها ایجاد شده و حجم دادههای تولیدی لحظهبهلحظه بیشتر میشود. مطمئناً با افزایش باورنکردنی تعداد سیستمها و دستگاههای دیجیتالی و گسترش استفاده از فناوریهایی مانند اینترنت اشیا و هوش مصنوعی، در آینده در تمام حوزههای دیجیتالی با سونامی عظیمی از دادهها مواجه خواهیم شد.
اگرچه با بهرهمندی از دادههای مختلف میتوان به تصمیمگیری بهتر، اتخاذ رویکرد و راهحلهای مناسب و همچنین بهبود عملکرد کسبوکارها و صنایع مختلف کمک کرد، اما برای تحقق این هدف باید دادهها بهشکل مناسبی پردازش و تجزیهوتحلیل شوند. مطمئناً در آینده روشهای قدیمی یا حتی روشهای متداول کنونی برای پردازش و تجزیهوتحلیل حجم گستردهای دادهها کافی نیستند. اینجاست که بیگ دیتا به کمک ما میآید.
کلمه بیگ دیتا یا کلان داده برای تعریف دادههای گسترده و پیچیده پردازشنشده استفاده میشود. این دادههای جزئی درباره موضوعات و حوزههای مختلف شاید به تنهایی دارای ارزش نباشند. بلکه تجمیع، سازماندهی و تجزیه و تحلیل آنها است که باعث ایجاد ارزش میشود. در دنیای دیجیتال، دادهها از منابع گوناگونی تولید میشوند و رشد سریع فناوریهای دیجیتال منجر به افزایش نرخ تولید و ایجاد حجم انبوهی از دادهها شده است.
این دادهها از تراکنشهای آنلاین، ایمیل ها، ویدیوها، صوت ها، متون، اسناد، تصاویر، کلیک بر روی لینک ها، پستها، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم، ایستگاههای هواشناسی، سامانههای امواج رادیویی، مبادلات شبکههای اجتماعی آنلاین، متون و اسناد اینترنتی، دادههای نجوم، اطلاعات پزشکی و سلامت بیماران، اطلاعات سامانههای خرید از فروشگاهها و هزاران عمل دیگری که ما در طول شبانه روز انجام میدهیم تولید میشوند.
از این گفته به خوبی پیداست که ما تا چه حجم داده را در روز میتوانیم تولید کنیم. حجم اطلاعاتی که تا سال ۲۰۰۳ توسط انسان ایجاد شد، تنها ۵ اگزابایت است؛ اما امروزه این حجم از اطلاعات، تنها در عرض دو روز ایجاد میشود.
IBM در تحقیقی نشان داد هر روز ۵/۲ اگزابایت داده تولید میشود که حدود %۹۰ دادههای موجود، فقط در دو سال اخیر تولید شده است. شرکتی مانند گوگل، بیلیونها سِروِر در سطح جهان دارد. حدود ۶ بیلیون مشترک تلفن همراه در جهان همه روزه ۱۰ میلیون پیام متنی ارسال و دریافت میکنند و تا سال ۲۰۲۰ حدود ۵۰ بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت.
ویژگی های کلان داده ها:
حجم داده (Volume): حجم داده های درون سازمان و خارج آن به مدد پدیده اینترنت، دستگاه های الکترونیکی و موبایل ها، زیر ساخت های شبکه و سایر منابع هر ساله رشد نمایی دارد و پیش بینی شده است که تا سال ۲۰۲۰ ما ده زتابایت داده در جهان خواهیم داشت.
نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.
تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بیساختار و بسیار متنوع است. بخشی از دادهها امروزه در بانکهای اطلاعاتی، بخشی در صفحات وب، بخشی به صورت XML و JSON و بقیه نیز در فایلها با قالب های متفاوت ذخیره شده اند که عمل پردازش آنها را پیچیده میکند.
صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت.
اعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.
نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.
نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.
ارزش (Value): آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟
به طور کلی، تفاوتهای اصلی کلان داده و داده های سنتی در جدول زیر بیان شده است.
معیار | داده های سنتی | کلان داده |
اندازه | گیگا بایت تا ترابایت | پتابایت تا اگزابایت |
معماری | متمرکز | توزیع شده |
ساختار | دارای ساختار | بیساختار یا نیمساختار |
مدل داده | مدل داده ثابت | بدون شِمای مشخص |
ارتباط داخلی | ارتباطات پیچیده بین رکوردها | فاقد ارتباطات داخلی پیچیده |
دسته بندی کلان داده ها
دسته اول، دادههای دارای ساختار یا ساختیافته (structured big data) هستند که میتوان آنها را در قالب مجموعه دادهها (Data sets) بهصورت مرتب (مثلاً در ستونها و ردیفهای مشخص) در پایگاههای داده و صفحات گسترده (اسپریت شیتها) ذخیره کرد. خواندن و پردازش چنین اطلاعاتی برای ابزارهای متداول طراحیشده برای این منظور، کار سادهای است.
اطلاعاتی مانند اسامی، دادهها، آدرسها، شماره کارتهای بانکی، اطلاعات سهام و موقعیت جغرافیایی، مثالهایی از کلان دادههای دارای ساختار هستند.
دسته دوم کلان دادهها، دادههای بدون ساختار یا ساختنیافته (unstructured big data) هستند. این دادهها با فرمت پایگاه داده ذخیره نمیشوند و دارای ساختار نیستند؛ البته دادههای بدون ساختار، یک ساختار داخلی مختص به خود دارند؛ اما چنین ساختاری در مدلهای دادهها قابل پیشبینی نیست. این دسته از کلان دادهها ممکن است توسط انسان یا ماشین با فرمت متنی یا غیرمتنی ایجاد شده باشند. تبدیل دادههای بدون ساختار به دادههای دارای ساختار امکانپذیر است؛ اما فرایند زمانبری دارد.
اطلاعاتی مانند اطلاعات مرتبط با سرگرمی و رسانهها، اینترنت اشیا، دادههای مرتبط با سنسورها، اطلاعات اسناد، صورتحسابها، اطلاعات ثبتشده و اطلاعات مرتبط با هوش مصنوعی و یادگیری ماشینی، مثالهایی از کلان دادههای بدون ساختار هستند.
دسته سومی از کلان دادهها نیز وجود دارد که کلان دادههای نیمهساختیافته (semi-structured) نام دارند و میتوان آنها را جزو کلان دادههای دارای ساختار دستهبندی کرد. این دادهها بهدلیل عدم برخورداری از ساختار دارای فرمت، نمیتوانند در جداول و مدلهای دادهای قرار گیرند و ارائه شوند، اما بدون ساختار هم نیستند؛ این دادهها دارای تگها، علامتها و شاخصهایی هستند که میتوانند برای دستهبندی دادهها و ایجاد فیلدها استفاده شوند.
دادههای مرتبط با ایمیلها، XML و دیگر زبانهای نشانهگذاری، فایلهای زیپشده، دادههای ادغامشده و استخراجشده از منابع مختلف و دادههای مرتبط با صفحات وب، مثالهایی از دادههای نیمهساختیافته هستند.
انواع تحلیل کلان داده
برای اینکه بتوانید بعد از دادهکاوی بیگ دیتا به بهترین شکل آنها را تحلیل کرده و از اطلاعات به دست آمده استفاده کنید، میتوانید سراغ روشهای تحلیلی زیر بروید:
- توصیفی: با ارائه تحلیلهای توصیفی براساس جداول یا نمودارها میتوانید مشخص کنید در اتفاقات گذشته چه رخدادهایی پیش آمده است و در هر مرحله چه شده است.
- تجویزی: یکی دیگر از روشهای تحلیل بیگ دیتا، روش تجویزی است که در واقع باید آن را پیچیدهترین و گرانترین نوع تحلیل کلان دادهها بدانیم. در این تحلیل شما علاوه بر مشخص کردن وضعیت رخدادهای قبلی، پیشنهادات خود برای اتفاقات آتی را نیز ارائه میکنید.
- پیشبینی: اگر بتوانید به خوبی از دادههای به دست آمده استفاده کرده و آنها را درست تحلیل کنید، به کمک هوش مصنوعی و الگوریتمهای حرفهای میتوان نسبت به اتفاقات و مشکلات آتی پیشبینی خوبی داشت.
- تشخیصی: اگر دنبال ریشه اتفاقات و مشکلات هستید باید از تحلیل تشخیصی استفاده کنید که براساس سیستمهای هوش مصنوعی و یادگیری ماشین کار میکند.
منابع اصلی دسترسی به کلان دادهها
همانطور که گفتیم بیگ دیتا از منابع مختلف جمعآوری میشود. اما اگر میخواهید سریعتر به نتیجه برسید، چند منبع اصلی برای دسترسی به کلان دادهها وجود دارد که در ادامه میبینید:
- منابع عمومی: یکی از راحتترین روشها برای دستیابی به بیگ دیتا، استفاده از رسانهها و منابعی است که عموم مردم به آنها دسترسی دارند. خبرگزاریها، سایتهای خبری، مجلههای اینترنتی، وبسایتهای اطلاعاتی و آماری از جمله مواردی هستند که در این بخش به شما کمک میکنند.
- جریان دادههای آنلاین: وقتی بتوانید دستگاههای مختلف را به هم وصل کرده و به صورت هوشمند از آنها استفاده کنید، میتوانی به کمک استریم دیتا، به صورت کاملا یکپارچه به حجم زیادی از اطلاعات و دادهها دسترسی داشته باشید. سرورهای کامپیوتری، مراکز تماس یا دستگاههای متصل و مبتنی بر اینترنت اشیا به خوبی در این قسمت کاربرد دارند.
- شبکههای اجتماعی: بیشترین تعامل مخاطبان در شبکههای اجتماعی رخ میدهد و در طول روز حجم زیادی از اطلاعات و دادهها تبادل میشود. به همین دلیل میتوانید با دادهکاوی از شبکههای اجتماعی به حجم انبوهی از اطلاعات موردنیاز دسترسی داشته باشید.
چالشهای کلان دادهها (Big Data)
کاربردهای متفاوت کلان داده ها، میتواند بر اساس این فناوریهای خلاقانه یا پلتفرم ها، توسعه یابند؛ اما در این میان، موانع بسیاری در راه توسعه کاربردها و برنامههای کلان دادهها وجود دارد که به قرار ذیل اند:
– نمایش داده ها: بسیاری از دادهها در نوع، ساختار، معناشناسی، دانه دانه بودن و قابلیت دسترسی، ناهمگن هستند. از این رو، نمایش دادههای ناهمگن، بر حجم دادهها تأثیر میگذارد و حتی مانع تحلیل مؤثر دادهها نیز میشود. ازاین رو، باید گفت: نمایش دادههای مناسب و همگن، باید بر ساختار، کلاس، نوع و همچنین فناوریهای یکپارچه دادهها تأثیرگذار باشد؛ به طوری که عملیات کارآمدسازی را در مجموعه دادههای مختلف مقدور سازد.
– کاهش افزونگی و فشرده سازی داده ها: عموماً، دادهها دارای یک سطح بالایی از افزونگی هستند. کاهش افزونگی و فشرده سازی داده ها، برای کاهش هزینه غیرمستقیم در کلّ سیستم مؤثر است؛ برای مثال، بیشتر دادههایی که با شبکههای حسگر تولید میشوند، به شدت افزونه دارند که میتوانند فیلتر شده، به ترتیب بزرگی فشرده شوند.
– مکانیزم تحلیلی: سیستم تحلیلی کلان دادهها باید تودههایی از دادههای ناهمگن را در یک زمان محدود پردازش نمایند. سیستم مدیریت پایگاه داده رابطهای یا RDBMS، غیرقابل گسترش طراحی شدند؛ اما پایگاه داده غیررابطهای، مزیتهای منحصر به فردی را در پردازش دادههای ساختاربندی شده نشان داده است.
– محرمانگی داده ها: صاحبان کلانداده ها، در حال حاضر نمیتوانند چنین مجموعه دادهای بزرگی را به دلیل ظرفیت محدودشان تحلیل کنند. آنها باید به حرفه ایها و ابزارهای پیشرفته برای تحلیل چنین دادههایی متکی باشند که خطرات بالقوهای را افزایش میدهد و امنیت دادهها را مخدوش میکند.
– مدیریت انرژی: مصرف انرژی سیستم محاسباتی یک پردازنده، از نظر اقتصادی بسیار مهم است. با افزایش حجم دادهها و تقاضاهای تحلیلی، پردازش، ذخیره سازی و انتقال دادههای بزرگ، به ناچار انرژی الکتریکی بسیاری مصرف میشود. از این رو، کنترل مصرف برق سیستم باید برای دادههای بزرگ انجام شود تا قدرت گسترش و قابلیت دسترسی، تضمین شود.
– همکاری و تعاون: یک معماری شبکه دادههای بزرگ و جامع، باید برای کمک به پژوهشگران و مهندسان در زمینههای مختلف ایجاد شود که بتوانند به انوع مختلفی از دادهها دسترسی پیدا کرده، از اطلاعات و دانش خودشان استفاده کنند؛ به طوری که برای تکمیل اهداف تحلیلی با یکدیگر همکاری نمایند.
کاربرد بیگ دیتا در حوزههای مختلف
اکنون که بهخوبی میدانیم بیگ دیتا چیست، اجازه دهید ببینیم چه کاربردهایی دارد. بیگ دیتا در حوزههای مختلف کاربردهای متعددی دارد؛ البته اصلیترین کاربرد این فناوری، آنالیز دادههاست که در حوزههای مختلف با اهداف مختلف انجام میشود: مهمترین موارد کاربرد کلان داده در حوزههای مختلف به شرح زیر است:
دولت و انتخابات
بدون تردید پیوسته دادههای بسیار زیادی در بخشهای دولتی ایجاد میشود که تجزیهوتحلیل دقیق، درست و سریع آنها بسیار مهم است. میتوان با کمک فناوریهای مرتبط با کلان دادهها بهترین سیاستها، خطیمشیها، تصمیمات و اقدامات دولتی را اتخاذ کرد.
سیاستمداران میتوانند با بهرهمندی از فناوریهای مذکور، در انتخابات نیز پیروزی قاطعی بهدست آورند. حزب بهاراتیا جاناتای هند و متحدانش و نیز ستاد انتخاباتی اوباما در سال ۲۰۱۲، با این روش توانستند در انتخابات پیروز شوند.
شبکههای اجتماعی
در عصر فناوری کنونی، شبکههای اجتماعی یکی از اصلیترین منابع تولیدکننده سیلی از دادهها هستند. راهحلهای جدید زیادی برای آنالیز دادههای شبکههای اجتماعی روی پلتفرمهای بیگ دیتا ایجاد شدهاند. ابزار نرمافزاری Cognos Consumer که توسط IBM ارائه و بر پلتفرم کلان داده این شرکت با نام BigInsights اجرا شده، با همین هدف ایجاد شده است.
با آنالیز دادههای شبکه اجتماعی میتوان به نگرشهای مختلف و ارزشمند دست یافت. همچنین میتوان با این روش نگرشها و رویکردها را متناسب با شرایط و وضعیتها تغییر داد و آنها را بهروز کرد.
صاحبان کسبوکارها و صنایع مختلف و افراد فعال در حوزه تبلیغات نیز میتوانند با کمک آنالیز دقیق دادههای شبکههای اجتماعی، بهترین تصمیمات و رویکردها را در زمینههایی مثل قیمتگذاری و تعیین نوع کالا، خدمات خود و شیوه عرضه آنها اتخاذ کنند. همچنین میتوان برای بررسی دقیق پژوهش و نظرسنجیهای انجامشده در بستر شبکههای اجتماعی نیز از فناوریهای بیگ دیتا بهرهمند شد.
ارائه اطلاعات لازم به کاربران هنگام جستجوی آنها در پلتفرمهای تعاملی آنلاین
استفاده از تکنیکهای کلان داده برای ارائه اطلاعات در حوزه فناوری بسیار ضروری است. ارائه نتایج جستجوها در بخشهای مختلف ازجمله موتورهای جستجو، ارائه پیشنهادها و اطلاعات لازم به کاربران، بدون استفاده از این تکنیکها امکانپذیر نیست.
در فروشگاه اینترنتی eBay برای ارائه چنین اطلاعاتی، از دادههای موجود در یک انبار داده ۷.۵ پتابایتی و یک Hadoop cluster (محیطی توزیعشده برای ذخیرهسازی دادههای دارای ساختار) ۴۰ پتابایتی استفاده میشود.
در زیرساخت فروشگاه اینترنتی آمازون که هر روز در آن میلیونها عملیات بکاند (پردازش دادههای ورودی سایت) انجام و بیش از نیم میلیون از تقاضاهای فروشندگان شخص ثالث بررسی میشوند نیز از فناوریهای کلان داده در مقیاس بسیار گستردهای استفاده میشود. فناوری اصلی کلان داده مورد استفاده در فروشگاه آمازون بر پایه لینوکس ایجاد شده است.
سه مورد از بزرگترین پایگاههای داده لینوکس با ظرفیتهای ۷.۸، ۱۸.۵ و ۲۴.۷ ترابایت متعلق به این فروشگاه هستند. فیسبوک هم مجموعه عظیمی از تصاویر بارگذاریشده توسط کاربران (با ۵۰ میلیارد تصویر) را مدیریت میکند.
تشخیص کلاهبرداری
صاحبان برخی از کسبوکارها ازجمله بیمهگذاران همیشه با ادعاهای مختلفی مواجه هستند که معمولاً میزان قابلتوجهی از این ادعاها فریبکارانهاند و به قصد کلاهبرداری مطرح میشوند. با فناوریهای کلان داده میتوان برای شناسایی ادعاهای کلاهبردارانه و فریبکارانه، ادعاهای مطرحشده در زمینههای مختلف را لحظهبهلحظه آنالیز کرد. شناسایی رفتارهای غیرعادی از سوی کاربران نیز با این روش امکانپذیر است.
بررسی دادههای مراکز تماس
دادههای مراکز تماس نیز منبع خوبی برای دستیابی به نگرشهای و رویکردهای مناسب و سازنده در زمینه بازاریابی و تبلیغات هستند. شاید نیروی انسانی بتواند این دادهها را تجزیهوتحلیل کند، اما طبیعتاً ممکن است اطلاعات ارزشمند پنهان در میان چنین دادههایی نادیده گرفته شود یا بهموقع تشخیص داده نشود.
همچنین ممکن است تماسگیرندگان مشکلات مشابهی را گزارش کنند و نیرویهای انسانی سریعاً نتوانند به آن مشکل پی ببرند. با کمک فناوریهای کلان داده و آنالیز سریع دادهها میتوان هر دو مشکل را بهشکل مطلوبی برطرف کرد.
همچنین درصورت استفاده از این فناوریها میتوان الگوهای رفتاری مشتریان و پاسخدهندگان را در مدت کوتاهی مشخص کرد. در برخی از موارد میتوان فرایند آنالیز دادههای مراکز تماس را کاملاً خودکار کرد. این کار هم باعث کاهش هزینههای مرکز تماس در زمینه استخدام و آموزش نیروی انسانی میشود و هم به بهبود پاسخگوی این مراکز کمک میکند.
دستیابی به اطلاعات مهم در کشاورزی
کشاورزان باید به دادههای زیادی دسترسی داشته باشند تا بتوانند محصول باکیفیتی را برداشت کرده و از مواجهه با خسارات مالی شدید جلوگیری کنند. فناوریهای کلان داده میتوانند به کشاورزان برای دستیابی بهموقع به این دادهها و تصمیمگیریهای مهم بر مبنای آنها کمک کنند. این دادهها شامل اطلاعات لازم برای بهینهسازی کیفیت محصولات و اطلاعات لازم در مورد شرایط آبوهوایی، میزان دما و رطوبت، ترکیبات و شرایط خاک، سطح آبهای زیرزمینی و غیره میشود.
سایر موارد مهم کاربرد بیگ دیتا در حوزههای مختلف به شرح زیر است:
- اطلاع از شرایط بازارهای مالی
- تحلیل خطر سرمایهگذاری
- تولید محتواهای مختلف برای مخاطبین هدف
- دستیابی به اطلاعات لازم برای تجویز داروی مناسب برای هر یک از بیماران متناسب با شرایط آنها
- دستیابی به اطلاعات لازم برای انتخاب بهترین روش آموزشی در هر یک از حوزههای آموزشی
- دستیابی به اطلاعات لازم برای تصمیمگیری در مورد انتخاب بهترین روشهای تولید و همچنین دستیابی به روشهای مؤثر برای مقابله با چالشها و مشکلات مرتبط با تولید محصولات
- دستیابی به اطلاعات ضروری برای حفظ مشتریان در کسبوکارهای خدماتی مختلف (مثل بیمه) و ارتقای کیفی سرویسدهی در آنها
- اطلاع لحظهبهلحظه از موجودی زنجیرههای تأمین
- دستیابی به اطلاعات ضروری برای ارائه خدمات لجستیک با سرعت و امنیت بالا و بدون خطا
- کنترل و مدیریت بهتر ترافیک، پیشنهاد مسیرهای مناسب به رانندگان، بهبود عملکرد سیستمهای حملونقل هوشمند و همچنین تعیین تعداد لازم مراکز فروش و ارائه خدمات در هر مسیر و بخش برای صرفهجویی در مصرف سوخت وسایل نقلیه افراد و همچنین صرفهجویی در زمان آنها
- مدیریت بهتر نیروی کار، منابع و داراییها
- دستیابی به اطلاعات لازم برای انتقال و توزیع بهتر انرژی
آینده بیگ دیتا
به گفته دانشمندان در دنیای امروز هر کدام از شهروندان در هر ثانیه حجم زیادی از اطلاعات تولید میکند که حجم این دادهها در طول سال رفتهرفته بیشتر میشود. ضمن اینکه کمکم سراغ اینترنت اشیا می رویم و از دستگاههای یکپارچه و متصل استفاده خواهیم کردیم. بنابراین آینده بیگ دیتا روشن است و میدانیم روزبهروز بیشتر به آنها نیاز داریم و باید به دسترسی کلان دادهها را مدیریت کنیم.
این مطلب برگرفته از سایت های زیر است: