نجوم و ژنومیک؛ 2 غول بیگ دیتا

ژنومیک، علمی مبتنی بر بیگ دیتا است و به زودی بسیار بزرگتر خواهد شد، اما مشخص نیست که نیازهای ژنومیک از سایر حوزه‌های بیگ دیتا بیشتر شود. با پیش‌بینی برای سال ۲۰۲۵، ژنومیک را با سه تولیدکننده اصلی دیگر بیگ دیتا مقایسه کردیم: نجوم، یوتیوب و توییتر.

نجوم بیش از ۲۰ سال است که با چالش‌های بیگ دیتا روبرو بوده و همچنان با مطالعات بلندپروازانه‌تر برای درک جهان هستی ادامه می‌دهد. یوتیوب در سال ۲۰۰۵ وارد صحنه شد و علاقه فوق‌العاده جهانی را برای ایجاد و به اشتراک گذاشتن تعداد زیادی از ویدیوها برانگیخت. توییتر که در سال ۲۰۰۶ تأسیس شد، به الگویی برای جنبش نوپدید علوم اجتماعی محاسباتی تبدیل شده است، با فرصت‌های بی‌سابقه‌ای برای دستیابی به بینش‌های جدید از طریق استخراج داده‌های متنی عظیم و رو به رشد مواجه است.

برای مقایسه این چهار حوزه ناهمگون، چهار مؤلفه‌ای را که «چرخه عمر» یک مجموعه داده را تشکیل می‌دهند، در نظر گرفتیم: جمع‌آوری، ذخیره‌سازی، توزیع و تحلیل.

جمع آوری داده ها

این چهار حوزه بیگ دیتا در نحوه‌ی دستیابی به داده‌ها به شدت با هم تفاوت دارند. اکثر داده‌های نجوم از چند مرکز بسیار متمرکز به دست می‌آیند. در مقابل، یوتیوب و توییتر داده‌ها را به صورت بسیار توزیع‌شده اما تحت چند پروتکل استاندارد به دست می‌آورند. انتظار می‌رود حجم داده‌های دریافتی نجوم، یوتیوب و توییتر همچنان به رشد چشمگیری ادامه دهد. انتظار می‌رود جمع آوری داده‌ها در این حوزه‌ها در دهه‌ی آینده تا دو مرتبه افزایش یابد. برای ژنومیک، جمع آوری داده‌ها به صورت بسیار توزیع‌شده و شامل فرمت‌های ناهمگنی است. همچنین، نرخ رشد در دهه‌ی گذشته واقعاً شگفت‌انگیز بوده است، به طوری که کل مقدار داده‌ی توالی‌یابی تولید شده تقریباً هر هفت ماه دو برابر شده است.

خواندن‌های خام توالی‌یابی که در اکثر مطالعات منتشر‌شده استفاده می‌شوند، در بایگانی خوانش توالی‌یابی (SRA) که توسط مرکز ملی اطلاعات زیست‌فناوری (NCBI) وابسته به مؤسسه‌ی ملی بهداشت ایالات متحده (NIH) یا یکی از همتایان بین‌المللی آن نگهداری می‌شود، بایگانی می‌شوند.

در حال حاضر، SRA حاوی بیش از ۳.۶ پتابایت داده‌ی خام توالی‌یابی است که نشان‌دهنده‌ی حدود ۳۲۰۰۰ ژنوم میکروبی و حدود ۲۵۰۰۰۰ ژنوم انسانی منفردی است که تاکنون توالی‌یابی شده‌اند یا در حال انجام هستند. با این حال، ۳.۶ پتابایت تنها بخش کوچکی از کل تولیدشده را نشان می‌دهد؛ بخش عمده‌ی آن هنوز در این بایگانی‌ها قرار نگرفته است. بر اساس مشخصات فنی سازندگان ابزارها، ما تخمین می‌زنیم که ظرفیت توالی‌یابی فعلی در سراسر جهان از ۳۵ پتابایت در سال بیشتر باشد.

انتظار می‌رود ظرفیت‌های توالی‌یابی همچنان به سرعت زیادی افزایش یابد، اگرچه هر چه پیش می‌رویم، پیش‌بینی رشد پروژه غیرقابل‌پیش‌بینی‌تر می‌شود. اگر رشد با سرعت فعلی ادامه یابد تا سال ۲۰۲۵ به یک زتاپایت توالی در سال نزدیک شویم.

ما پیش‌بینی می‌کنیم این توالی‌یابی، توالی ژنوم برای اکثر ۱.۲ میلیون گونه‌ی شناخته‌شده‌ی گیاهان و جانوران را شامل شود. با این ژنوم‌ها، به علاوه‌ی ژنوم‌های هزاران فرد از گونه‌های «با ارزش بالا» به دلایل انرژی، محیط زیست و کشاورزی، تخمین می‌زنیم که تا سال ۲۰۲۵ حداقل ۲.۵ میلیون توالی ژنوم گیاهی و جانوری وجود داشته باشد.

بنابراین، ما تخمین می‌زنیم که بین ۱۰۰ میلیون تا ۲ میلیارد ژنوم انسانی تا سال ۲۰۲۵ می‌توانند توالی‌یابی شوند، که نشان‌دهنده‌ی رشد چهار تا پنج مرتبه‌ی بزرگی و بسیار بیشتر از رشد سه حوزه‌ی دیگر بیگ دیتا است. در واقع، این عدد می‌تواند حتی بیشتر شود، به خصوص از آنجایی که فناوری‌های جدید توالی‌یابی ژنوم تک‌سلولی شروع به آشکار کردن سطوحی از تنوع ژنتیکی که قبلاً تصور نمی‌شد، به ویژه در سرطان‌ها، می‌کنند و نیازمند توالی‌یابی ژنوم‌های هزاران سلول جداگانه در یک تومور هستند.

ذخیره سازی داده ها

امروزه، بزرگ‌ترین مرکز داده‌ی نجوم حدود 100 پتابایت به ذخیره‌سازی اختصاص می‌دهد و انتظار می‌رود تکمیل پروژه‌ی آرایه کیلومتر مربعی (SKA) منجر به نیاز ذخیره‌سازی 1 اگزابایت در سال شود. یوتیوب در حال حاضر برای ذخیره‌سازی بین 100 پتابایت تا 1 اگزابایت نیاز دارد و ممکن است تا سال 2025 به 1 تا 2 اگزابایت فضای ذخیره‌سازی اضافی در سال نیاز داشته باشد. نیازهای ذخیره‌سازی توییتر امروزه حدود 0.5 پتابایت در سال تخمین زده می‌شود که ممکن است به 1.5 پتابایت افزایش یابد.

‌برای ژنومیک، ما متوجه شدیم که بیش از 100 پتابایت فضای ذخیره‌سازی در حال حاضر فقط توسط 20 مؤسسه‌ی بزرگ استفاده می‌شود.
پیش‌بینی‌های نیاز به فضای ذخیره‌سازی برای داده‌های توالی به دقت و کاربرد توالی‌یابی بستگی دارد. برای هر 3 میلیارد باز توالی ژنوم انسانی، به دلیل خطاهای توالی‌یابی، فراخوانی باز و هم‌راستا کردن ژنوم، باید 30 برابر داده‌ی بیشتر (حدود 100 گیگابایت) جمع‌آوری شود. این بدان معناست که تا سال 2025 فقط برای ژنوم‌های انسانی، به 2 تا 40 اگزابایت ظرفیت ذخیره‌سازی نیاز است.

برای اینکه جستجو و پرس و جو در چنین مجموعه‌های عظیمی عملی باشد، داده‌ها در سیستم‌های سلسله مراتبی ذخیره خواهند شد که داده‌ها و خلاصه‌های آماری آن‌ها را در سطوح مختلف فشرده‌سازی و تأخیر در دسترس قرار می‌دهند، همانطور که در نجوم و تحلیل متن استفاده می‌شود. بنابراین، اگرچه کل داده‌های ژنومی می‌توانند به مراتب از تقاضاهای سایر حوزه‌ها فراتر روند، با نوآوری‌های جدید مناسب، نیازهای خالص می‌توانند مشابه حوزه‌های نجوم و یوتیوب باشند.

توزیع داده ها

نجوم، یوتیوب، توییتر و ژنومیک همچنین از نظر الگوهای توزیع داده بسیار متفاوت هستند. نیاز اصلی پهنای باند پروژه SKA انتقال داده‌ها از 3000 آنتن آن به یک سرور مرکزی است که به 600 ترابایت بر ثانیه نیاز دارد. میزان استفاده از پهنای باند یوتیوب برای یک دانلود واحد نسبتاً کم است و به خوبی با اتصال 10 مگابیت بر ثانیه یک کاربر معمولی پشتیبانی می‌شود، اما نیازهای کل در سراسر جهان بسیار زیاد است، و تخمین‌ها تا 240 پتابایت در روز می‌رسد.

الگوهای توزیع داده‌های ژنومیکی بسیار ناهمگن‌تر هستند و شامل عناصر هر دو موقعیت می‌شوند.
داده‌های ژنومیکی در واحدهایی با اندازه‌های بسیار متنوع توزیع می‌شوند، از مقایسه چند باز یا توالی‌های ژن تا دانلودهای حجیم چند ترابایتی از مخازن مرکزی. برای تجزیه و تحلیل در مقیاس بزرگ، رایانش ابری به طور خاص برای کاهش پهنای باند توزیع داده‌های ژنومیکی مناسب است.

تنها بخش‌های کوچکی از کد آپلود می‌شوند و خروجی‌های بسیار پردازش‌شده دانلود می‌شوند و در نتیجه منابع محاسباتی مورد نیاز برای توزیع را به طور قابل توجهی کاهش می‌دهند. اما علاوه بر تطبیق دادن برنامه‌های کاربردی ژنومیک، به روش‌های جدیدی برای اطمینان از قابلیت اطمینان و امنیت داده‌ها برای تضمین حریم خصوصی، بسیار بیشتر از سه حوزه دیگر نیاز است. نقض جدی داده‌های ژنومی حساس پزشکی عواقب دائمی به دنبال خواهد داشت و می‌تواند توسعه پزشکی ژنومی را به طور جدی مختل کند.

آنالیز داده ها

نجوم، یوتیوب، توییتر و ژنومیک از نظر نیازهای محاسباتی برای تجزیه و تحلیل داده بیشترین تفاوت را دارند.
داده‌های نجومی نیازمند تجزیه و تحلیل تخصصی گسترده هستند، اما بخش عمده‌ای از این نیاز برای پردازش و کاهش داده‌ها در محل و توسط کامپیوترهای مستقر در نزدیکی تلسکوپ‌ها است. این تجزیه و تحلیل اولیه به دلیل ماهیت بلادرنگ و حجم عظیم داده‌ها دلهره‌آور است، اما اغلب می‌توان آن را به طور موازی روی هزاران هسته انجام داد.

فیلم‌های یوتیوب عمدتاً برای مشاهده، همراه با برخی تجزیه و تحلیل خودکار برای تبلیغات یا نقض حق نسخه‌برداری در نظر گرفته شده‌اند. داده‌های توییتر موضوع تحقیقات فشرده در علوم اجتماعی، به ویژه برای استخراج موضوع و احساس است که عمدتاً روی «توئیت‌های» متنی در متن متادیتای مرتبط (به عنوان مثال، اطلاعات جمعیتی کاربران و اطلاعات زمانی) انجام می‌شود.

تجزیه و تحلیل داده‌های ژنومی به دلیل تنوع مراحل درگیر در خواندن توالی ژنوم و استخراج اطلاعات مفید از آن، به طیف وسیع‌تری از رویکردها نیاز دارد. برای ژنومیک جمعیت و پزشکی، شناسایی انواع ژنومی در هر ژنوم فردی در حال حاضر یکی از پیچیده‌ترین مراحل از نظر محاسباتی است. فراخوانی واریانت روی 2 میلیارد ژنوم در سال، با 100000 CPU به صورت موازی، به روش‌هایی نیاز دارد که 2 ژنوم را در هر ساعت پردازنده پردازش کنند، یعنی سه تا چهار مرتبه سریع‌تر از قابلیت‌های فعلی.

تراز کل ژنوم شکل دیگری از تجزیه و تحلیل داده‌های ژنومی است که برای اهداف مختلف، از بازسازی تبارشناسی تا تفسیر ژنوم از طریق روش‌های مقایسه‌ای استفاده می‌شود. تنها یک تراز کل ژنوم بین انسان و موش حدود 100 ساعت CPU مصرف می‌کند. تراز کردن تمام زوج‌های 2.5 میلیون گونه‌ای که انتظار می‌رود تا سال 2025 در دسترس باشند، معادل 50 تا 100 تریلیون تراز کل ژنوم می‌شود، که نیاز به شش مرتبه سریع‌تر از حد ممکن امروز است.

راه طولانی پیش رو

ژنومیک به طور واضح برخی از شدیدترین چالش‌های محاسباتی را که در دهه آینده با آن روبرو هستیم، به ما تحمیل می‌کند.
ژنومیک یک “هیولای چهار سر” است؛ با در نظر گرفتن تقاضاهای محاسباتی در طول چرخه عمر یک مجموعه داده (جمع آوری، ذخیره سازی، توزیع و تجزیه و تحلیل داده ها). ژنومیک در سطح سایر حوزه‌های بیگ دیتا قرار دارد یا حتی از آن‌ها هم فراتر می‌رود. رویکردهای جدید یکپارچه‌ای باید توسعه یابند که چالش‌ها را در هر چهار جنبه در نظر بگیرند: بعید است که یک پیشرفت یا فناوری به تنهایی بتواند مشکل داده‌های ژنومیک را حل کند.

نیازهای کلیدی تکنولوژیکی برای بیگ دیتا در ژنومیک

جمع آوری داده ها

مهم‌ترین نیاز برای حفظ رشد انفجاری در کسب داده‌های ژنومی، پیشرفت‌های مداوم در فناوری‌های توالی‌یابی برای کاهش هزینه‌ها، بهبود توان عملیاتی و دستیابی به دقت بسیار بالا است. برای رسیدن به جمعیتی با صدها میلیون تا میلیاردها ژنوم، هزینه‌ها باید به طور قابل توجهی کاهش یابد.

برای بسیاری از کاربردهای پزشکی، زمان توالی‌یابی نیز باید کاهش یابد تا بتوان آن را تقریباً به صورت بلادرنگ تکمیل کرد، به ویژه برای تشخیص سریع عفونت‌ها و شرایط حاد. در نهایت، برای اینکه توالی ژنوم مفیدتر باشد، باید با روش‌های خودکاری برای جمع‌آوری داده‌های فرا داده و فنوتیپ همراه شود، که همه بر اساس استانداردهای مناسب باشد تا داده‌های جمع‌آوری‌شده در یک محیط بتوانند با داده‌های جمع‌آوری‌شده در محیط دیگر مقایسه شوند.

ذخیره‌سازی داده ها

جامعه باید شروع به طراحی و ساخت مراکز داده‌ی دارای سیستم‌های ذخیره‌سازی سریع و طبقه‌بندی‌شده کند تا بتواند روی مجموعه‌های بزرگی از داده‌های ژنوم جستجو و تحقیق انجام دهد. فناوری‌های جدیدی در پیش رو وجود دارند که به پشتیبانی از این نیازها کمک می‌کنند. به طور مشابه، سیستم‌های فشرده‌سازی و فهرست‌بندی کارآمد برای بهینه‌سازی استفاده از هر بایت در دسترس و در عین حال بسیار قابل دسترس کردن داده‌ها، حیاتی هستند.

همچنین انتظار داریم توسعه‌های الگوریتمی را داشته باشیم که بتوانند مجموعه‌های بزرگی از ژنوم‌های شخصی را به صورت یک گراف فشرده نشان دهند، و این مقایسه‌ی یک ژنوم با بسیاری از ژنوم‌های دیگر را کارآمدتر و قوی‌تر می‌کند. فراتر از این رویکردها، ظهور رویکردهای جریان‌سازی را برای انجام مقایسه‌های لحظه‌ای مشاهده می‌کنیم که به ما امکان می‌دهد به‌سرعت داده‌ها را دور بریزیم، به ویژه برای برنامه‌های کاربردی توالی‌یابی که از داده‌های توالی به‌عنوان وسیله‌ای برای استنتاج وفور یا سایر فعالیت‌های مولکولی استفاده می‌کنند.

توزیع داده ها

راه حل عملی و شاید تنها راه حل برای توزیع توالی‌های ژنوم در مقیاس جمعیتی، استفاده از سیستم‌های محاسبات ابری است که جابه‌جایی داده را به حداقل می‌رساند. پیشرفت‌های جدید شرکت‌های بزرگی مانند گوگل، آمازون و فیسبوک که شامل برنامه‌هایی است که برای تطبیق با چارچوب‌های مراکز داده‌ی محاسبات توزیع‌شده، ذخیره‌سازی توزیع‌شده و الگوهای محاسبات ابری ساخته شده‌اند، بخشی از راه‌حل خواهند بود.

هم اکنون منابع ژنومیکی بزرگ مبتنی بر فضای ابری با استفاده از این فناوری‌ها در حال توسعه هستند، به ویژه برای حمایت از نیازهای بزرگترین مراکز توالی‌یابی یا برای حمایت از نیازهای جوامع بزرگ. برای اینکه این سیستم‌های آنلاین بیشترین کارایی را داشته باشند، جامعه نیاز به توسعه رابط‌های برنامه‌نویسی کاربردی (API) برای کشف و جستجو از مجموعه داده‌های بزرگ در سیستم‌های از راه دور دارد.

اتحاد جهانی برای ژنومیک و سلامت و دیگر سازمان‌ها در حال شروع به توسعه چنین استانداردهایی برای داده‌های ژنومی انسانی هستند و انتظار می‌رود سایر جوامع نیز از آن‌ها پیروی کنند. در نهایت، برای اطمینان از حفظ حریم خصوصی داده‌های ژنومی، باید سیستم‌های احراز هویت، رمزگذاری و سایر تدابیر امنیتی توسعه داده شوند.

تجزیه و تحلیل

هدف نهایی ما این است که بتوانیم توالی‌های ژنومی را تفسیر کنیم و به این سوال پاسخ دهیم که چگونه جهش‌های DNA، تغییرات بیان یا سایر اندازه‌گیری‌های مولکولی با بیماری، رشد، رفتار یا تکامل مرتبط هستند. دستیابی به این هدف به طور آشکار نیازمند ادغام تخصص حوزه زیست‌شناسی، سیستم‌های یادگیری ماشینی در مقیاس بزرگ و زیرساخت محاسباتی است که بتواند از جستجوی الگوها در مجموعه‌های بسیار بزرگ در ابعاد بسیار بالا، پرسش‌های انعطاف‌پذیر و پویا را پشتیبانی کند.

جامعه همچنین از کتابخانه‌هایی از الگوریتم‌های بهینه‌سازی‌شده‌ی با رابط کاربری ساده بهره‌مند می‌شود که می‌توان آن‌ها را در بسیاری از زمینه‌ها، همانطور که مشکلات ظاهر می‌شوند، ترکیب و استفاده مجدد کرد. شرکت‌های علم داده و همچنین ابتکارهای منبع باز، قبلاً شروع به توسعه چنین اجزایی کرده‌اند، مانند سیستم پیش‌بینی «ماشین یادگیری آمازون».

از آنجایی که ژنومیک در زمینه‌های جمع آوری، توزیع، ذخیره‌سازی و به ویژه تجزیه و تحلیل داده‌ها چالش‌های منحصر به فردی را به وجود می‌آورد، انتظار برای نوآوری‌های بیرون از حوزه‌ی ما، احتمالا کافی نیست. ما باید خودمان با این چالش‌ها روبرو شویم، شروع با ادغام علم داده در برنامه‌های درسی کارشناسی ارشد، کارشناسی و دبیرستان برای آموزش نسل بعدی زیست‌شناسان کمی، زیست‌شناسان محاسباتی و مهندسان علوم کامپیوتر.

برگرفته از مقاله ای با عنوان Big Data: Astronomical or Genomical که در ژورنال plosbiology منتشر شده است.

اطلاعیه مهم: کلیه کلاس های گروه دایکه از 22 فروردین ادامه خواهد یافت و کانال هماهنگی موقت در پلتفرم "بله" با آیدی dayche@ در دسترس می باشد.

نجوم و ژنومیک؛ 2 غول بیگ دیتا

جمع آوری داده ها

ذخیره سازی داده ها

توزیع داده ها

آنالیز داده ها

راه طولانی پیش رو