ما در مقاله های قبلی توضیح دادیم که «بیگدیتا چیست و چه کاربردی دارد؟» و راجع به «نقش رو به رشد بیگدیتا در علم نجوم» مطالبی را بیان کردیم. در این مقاله قصد داریم که این موضوع را صرفا در پروژه های ناسا بررسی کنیم و بدانیم که سازمان فضایی ناسا چگونه از بیگدیتا استفاده می کند؟
جالب است بدانید که اصطلاح “بیگدیتا” برای اولین بار در مقاله ای در سال 1997 توسط دانشمندان ناسا استفاده شد و چالش جالبی که آنها با تجسم مجموعه داده های بزرگ داشتند را توصیف کرد.
حجم داده هایی که ناسا باید مدیریت کند، حیرت آور است. به گفته کوین مورفی، مدیر برنامه ناسا برای سیستم های داده علوم زمین، ناسا هر روز 12.1 ترابایت داده از نزدیک به 100 ماموریت فعال فعلی و هزاران حسگر و سیستم در اطراف زمین و فضا تولید می کند. برخی از ماموریت ها می توانند در یک روز 24 ترابایت تولید کنند. ذخیره و مدیریت این داده ها یک چالش بزرگ است.
ذخیره سازی داده ها
ناسا مأموریتهای فعال متعددی در هر زمان خاص دارد: از فضاپیماهای روباتیکی که تصاویر با وضوح بالا و سایر انواع داده را از فواصل دور میگیرند، تا دیگر پروژههای مأموریت زمینی برای بررسی یخ در قطبهای زمین یا بررسی تغییرات آب و هوا در سراسر جهان. همانطور که ممکن است تصور شود، دادههایی که از همه این پروژهها تولید میشوند، به طرز شگفتآوری حجیم هستند.
ناسا بیشتر این داده ها را ذخیره می کند. به عنوان مثال، NCCS (مرکز شبیه سازی آب و هوای ناسا) یک فضای ذخیره سازی فوق العاده بزرگ با همه استانداردها است. دقیقا چقدر بزرگ؟ خوب، این منبع حاوی داده های 32 پتابایتی است و ظرفیت کل آن 37 پتابایت است.
چند سال پیش، ناسا هر روز حدود 12.1 ترابایت داده از سنسورها و سیستمهای متعددی که در سراسر جهان و فضا قرار دارند تولید میکرد. از آنجایی که ناسا فضاپیماهای خود را ارتقا میدهد تا توانایی خود را برای مدیریت انتقال دادههای بسیار بزرگتر و سریعتر با استفاده از لیزرهای نوری با ضریب حدود یک هزار نفر افزایش دهد، پیشبینی میشود که برخی از مأموریتهای آژانس فضایی تا تولید بیست و چهار ترابایت داده در روز پیش برود.
بنابراین، ناسا دقیقاً چگونه میتواند این همه داده را ذخیره کند؟ به عبارت ساده، مشابه آنچه که بخش فناوری اطلاعات هر سازمان معمولی انجام می دهد – حجم داده هایی که پیش بینی می شود تولید شوند، تقریبی می شود، و سپس آژانس بر این اساس نحوه ذخیره آن را برنامه ریزی می کند.
برای ذخیره حجم عظیمی از داده های جمع آوری شده، آژانس فضایی ناسا یک سیستم ذخیره سازی متنوع را به کار گرفته است که هر دو دارای یک پلتفرم ابری پیچیده است که بیشتر توسط سازمان های تجاری غول پیکر مانند آمازون و گوگل استفاده می شود.
همچنین، یکی دیگر از پروژههای ذخیرهسازی دادههای ناسا، سیستم دادهها و اطلاعات سیستم رصد زمین (EOSDIS) است. این به درک بهتر سطح و جو زمین اختصاص یافته است و بر روی اندازه گیری های ماهواره ای برای اتخاذ تصمیمات آگاهانه تمرکز دارد.
در سازمان فضایی، یک سوال باقی میماند: چگونه خود را برای مدیریت رشد نمایی سالانه دادههای حدود ده پتابایت در سال تجهیز میکند؟ برای بیشتر فضانوردان در آژانس، الگوریتمهای یادگیری ماشین و راهحلهای هوش مصنوعی نقش مهمی ایفا خواهند کرد.
توزیع و آرشیو اطلاعات
هنگامی که با حجم داده های نجومی مانند ناسا سروکار داریم، تعجب آور نیست که با چالش های اجتناب ناپذیر و بزرگی مواجه شویم که شامل این سوال اساسی داده های بزرگ است: چه چیزی را باید ذخیره کنیم؟
در مورد ناسا، تمام بیت های داده های دریافتی ذخیره نمی شوند! ترفندهایی به کار گرفته می شود برای تعیین اینکه چه دادههایی باید ذخیره شوند و چه دادههایی باید در استخراج مفید استفاده شوند و در نهایت چه داده هایی باید دور ریخته شوند.
در آژانس فضایی ناسا، هدف اصلی برخی از پروژههای دارای دادههای بزرگ، اساساً آرشیو دادهها است. این بدان معناست که آژانس بیتهای داده جمعآوریشده را برای انجام نظارت بر دادهها ذخیره میکند. به عنوان مثال، داده های جمع آوری شده از ماهواره های سیستم رصد زمین آژانس و سایر برنامه های اندازه گیری میدانی در تاسیسات مرکز بایگانی فعال توزیع شده ناسا (DAAC) ذخیره می شود.
ناسا از داده های بزرگ از طریق ASDC (مرکز داده های علوم جوی) استفاده می کند. ASDC، واقع در مرکز تحقیقات ناسا در لنگلی، مسئول بایگانی، پردازش و توزیع داده های علوم زمین ناسا است.
اطلاعات ASDC برای کمک به دانشمندان برای درک علل تغییرات آب و هوا و همچنین فرآیندهای جوی بسیار مهم است. بینش های ASDC همچنین می تواند به مردم کمک کند تا تأثیراتی را که اعمال انسان در سال های گذشته بر آب و هوا داشته است را درک کنند.
تجزیه و تحلیل پروژه
برخی از پروژه های کلان داده ناسا عمدتاً برای به دست آوردن داده ها برای تجزیه و تحلیل انجام می شوند تا نظارت.
یک نمونه خوب از داده های نجوم رادیویی برای تجزیه و تحلیل، آرایه کیلومتر مربعی برنامه ریزی شده (SKA) است که مستلزم تلسکوپ های متعددی است که در آفریقای جنوبی و استرالیا برای کاوش شکل گیری کهکشان ها در مراحل شکل گیری آنها، منشاء جهان و اسرار دیگر قرار دارند.
در این مورد خاص، محققان در ناسا بیشتر به استفاده از داده ها در انجام تجزیه و تحلیل های متعدد علاقه مند هستند تا صرفاً داده ها را در سیستم های آژانس ذخیره کنند.
ابررایانه Pleiades ناسا برای کمک به تجزیه و تحلیل پروژه های پیچیده مختلف مانند طرح های جامع شاتل فضایی، وقوع شعله های خورشیدی و آب و هوای فضایی، از داده های بزرگ بهره می برد. اخیراً، این ابر رایانه در ارزیابی مقادیر زیادی از داده های ستاره ای جمع آوری شده توسط فضاپیمای کپلر ناسا مورد استفاده قرار گرفت. از طریق این تجزیه و تحلیل، ناسا توانست سیاراتی به اندازه زمین را در کهکشان راه شیری کشف کند.
به غیر از آن، این ابر رایانه به توسعه شبیهسازی کیهانشناسی بولشوی کمک کرد که چگونگی تکامل ساختارها و کهکشانهای مقیاس بزرگ را ارزیابی میکند. و مبادا فراموش کنیم، حداقل 1200 نفر در سراسر ایالات متحده برای حل محاسبات بزرگ و پیچیده به Pleiades وابسته هستند.
در نتیجه
ناسا از داده های بزرگ فراتر از عملکردهایی که در اینجا ذکر شد استفاده می کند. در واقع، ناسا مسلماً پیشروترین کاربر بیگدیتا در جهان است. اما با این وجود، توجه به این نکته ضروری است که آژانس فضایی ناسا هنوز در مراحل ابتدایی خود برای کاوش کلان داده است. و با توجه به پیشرفتهای عظیم، استفاده از بیگدیتا به ناسا در رسیدن به این مرحله کمک کرده است. ما فقط می توانیم فرصت های بی پایان و غیرقابل درک پیش رو را تصور کنیم.
این مطلب برگرفته از سایت crayondata.ai می باشد.