ژنومیک، علمی مبتنی بر بیگ دیتا است و به زودی بسیار بزرگتر خواهد شد، اما مشخص نیست که نیازهای ژنومیک از سایر حوزههای بیگ دیتا بیشتر شود. با پیشبینی برای سال ۲۰۲۵، ژنومیک را با سه تولیدکننده اصلی دیگر بیگ دیتا مقایسه کردیم: نجوم، یوتیوب و توییتر.
نجوم بیش از ۲۰ سال است که با چالشهای بیگ دیتا روبرو بوده و همچنان با مطالعات بلندپروازانهتر برای درک جهان هستی ادامه میدهد. یوتیوب در سال ۲۰۰۵ وارد صحنه شد و علاقه فوقالعاده جهانی را برای ایجاد و به اشتراک گذاشتن تعداد زیادی از ویدیوها برانگیخت. توییتر که در سال ۲۰۰۶ تأسیس شد، به الگویی برای جنبش نوپدید علوم اجتماعی محاسباتی تبدیل شده است، با فرصتهای بیسابقهای برای دستیابی به بینشهای جدید از طریق استخراج دادههای متنی عظیم و رو به رشد مواجه است.
برای مقایسه این چهار حوزه ناهمگون، چهار مؤلفهای را که «چرخه عمر» یک مجموعه داده را تشکیل میدهند، در نظر گرفتیم: جمعآوری، ذخیرهسازی، توزیع و تحلیل.
جمع آوری داده ها
این چهار حوزه بیگ دیتا در نحوهی دستیابی به دادهها به شدت با هم تفاوت دارند. اکثر دادههای نجوم از چند مرکز بسیار متمرکز به دست میآیند. در مقابل، یوتیوب و توییتر دادهها را به صورت بسیار توزیعشده اما تحت چند پروتکل استاندارد به دست میآورند. انتظار میرود حجم دادههای دریافتی نجوم، یوتیوب و توییتر همچنان به رشد چشمگیری ادامه دهد. انتظار میرود جمع آوری دادهها در این حوزهها در دههی آینده تا دو مرتبه افزایش یابد. برای ژنومیک، جمع آوری دادهها به صورت بسیار توزیعشده و شامل فرمتهای ناهمگنی است. همچنین، نرخ رشد در دههی گذشته واقعاً شگفتانگیز بوده است، به طوری که کل مقدار دادهی توالییابی تولید شده تقریباً هر هفت ماه دو برابر شده است.
خواندنهای خام توالییابی که در اکثر مطالعات منتشرشده استفاده میشوند، در بایگانی خوانش توالییابی (SRA) که توسط مرکز ملی اطلاعات زیستفناوری (NCBI) وابسته به مؤسسهی ملی بهداشت ایالات متحده (NIH) یا یکی از همتایان بینالمللی آن نگهداری میشود، بایگانی میشوند.
در حال حاضر، SRA حاوی بیش از ۳.۶ پتابایت دادهی خام توالییابی است که نشاندهندهی حدود ۳۲۰۰۰ ژنوم میکروبی و حدود ۲۵۰۰۰۰ ژنوم انسانی منفردی است که تاکنون توالییابی شدهاند یا در حال انجام هستند. با این حال، ۳.۶ پتابایت تنها بخش کوچکی از کل تولیدشده را نشان میدهد؛ بخش عمدهی آن هنوز در این بایگانیها قرار نگرفته است. بر اساس مشخصات فنی سازندگان ابزارها، ما تخمین میزنیم که ظرفیت توالییابی فعلی در سراسر جهان از ۳۵ پتابایت در سال بیشتر باشد.
انتظار میرود ظرفیتهای توالییابی همچنان به سرعت زیادی افزایش یابد، اگرچه هر چه پیش میرویم، پیشبینی رشد پروژه غیرقابلپیشبینیتر میشود. اگر رشد با سرعت فعلی ادامه یابد تا سال ۲۰۲۵ به یک زتاپایت توالی در سال نزدیک شویم.
ما پیشبینی میکنیم این توالییابی، توالی ژنوم برای اکثر ۱.۲ میلیون گونهی شناختهشدهی گیاهان و جانوران را شامل شود. با این ژنومها، به علاوهی ژنومهای هزاران فرد از گونههای «با ارزش بالا» به دلایل انرژی، محیط زیست و کشاورزی، تخمین میزنیم که تا سال ۲۰۲۵ حداقل ۲.۵ میلیون توالی ژنوم گیاهی و جانوری وجود داشته باشد.
بنابراین، ما تخمین میزنیم که بین ۱۰۰ میلیون تا ۲ میلیارد ژنوم انسانی تا سال ۲۰۲۵ میتوانند توالییابی شوند، که نشاندهندهی رشد چهار تا پنج مرتبهی بزرگی و بسیار بیشتر از رشد سه حوزهی دیگر بیگ دیتا است. در واقع، این عدد میتواند حتی بیشتر شود، به خصوص از آنجایی که فناوریهای جدید توالییابی ژنوم تکسلولی شروع به آشکار کردن سطوحی از تنوع ژنتیکی که قبلاً تصور نمیشد، به ویژه در سرطانها، میکنند و نیازمند توالییابی ژنومهای هزاران سلول جداگانه در یک تومور هستند.
ذخیره سازی داده ها
امروزه، بزرگترین مرکز دادهی نجوم حدود 100 پتابایت به ذخیرهسازی اختصاص میدهد و انتظار میرود تکمیل پروژهی آرایه کیلومتر مربعی (SKA) منجر به نیاز ذخیرهسازی 1 اگزابایت در سال شود. یوتیوب در حال حاضر برای ذخیرهسازی بین 100 پتابایت تا 1 اگزابایت نیاز دارد و ممکن است تا سال 2025 به 1 تا 2 اگزابایت فضای ذخیرهسازی اضافی در سال نیاز داشته باشد. نیازهای ذخیرهسازی توییتر امروزه حدود 0.5 پتابایت در سال تخمین زده میشود که ممکن است به 1.5 پتابایت افزایش یابد.
برای ژنومیک، ما متوجه شدیم که بیش از 100 پتابایت فضای ذخیرهسازی در حال حاضر فقط توسط 20 مؤسسهی بزرگ استفاده میشود.
پیشبینیهای نیاز به فضای ذخیرهسازی برای دادههای توالی به دقت و کاربرد توالییابی بستگی دارد. برای هر 3 میلیارد باز توالی ژنوم انسانی، به دلیل خطاهای توالییابی، فراخوانی باز و همراستا کردن ژنوم، باید 30 برابر دادهی بیشتر (حدود 100 گیگابایت) جمعآوری شود. این بدان معناست که تا سال 2025 فقط برای ژنومهای انسانی، به 2 تا 40 اگزابایت ظرفیت ذخیرهسازی نیاز است.
برای اینکه جستجو و پرس و جو در چنین مجموعههای عظیمی عملی باشد، دادهها در سیستمهای سلسله مراتبی ذخیره خواهند شد که دادهها و خلاصههای آماری آنها را در سطوح مختلف فشردهسازی و تأخیر در دسترس قرار میدهند، همانطور که در نجوم و تحلیل متن استفاده میشود. بنابراین، اگرچه کل دادههای ژنومی میتوانند به مراتب از تقاضاهای سایر حوزهها فراتر روند، با نوآوریهای جدید مناسب، نیازهای خالص میتوانند مشابه حوزههای نجوم و یوتیوب باشند.
توزیع داده ها
نجوم، یوتیوب، توییتر و ژنومیک همچنین از نظر الگوهای توزیع داده بسیار متفاوت هستند. نیاز اصلی پهنای باند پروژه SKA انتقال دادهها از 3000 آنتن آن به یک سرور مرکزی است که به 600 ترابایت بر ثانیه نیاز دارد. میزان استفاده از پهنای باند یوتیوب برای یک دانلود واحد نسبتاً کم است و به خوبی با اتصال 10 مگابیت بر ثانیه یک کاربر معمولی پشتیبانی میشود، اما نیازهای کل در سراسر جهان بسیار زیاد است، و تخمینها تا 240 پتابایت در روز میرسد.
الگوهای توزیع دادههای ژنومیکی بسیار ناهمگنتر هستند و شامل عناصر هر دو موقعیت میشوند.
دادههای ژنومیکی در واحدهایی با اندازههای بسیار متنوع توزیع میشوند، از مقایسه چند باز یا توالیهای ژن تا دانلودهای حجیم چند ترابایتی از مخازن مرکزی. برای تجزیه و تحلیل در مقیاس بزرگ، رایانش ابری به طور خاص برای کاهش پهنای باند توزیع دادههای ژنومیکی مناسب است.
تنها بخشهای کوچکی از کد آپلود میشوند و خروجیهای بسیار پردازششده دانلود میشوند و در نتیجه منابع محاسباتی مورد نیاز برای توزیع را به طور قابل توجهی کاهش میدهند. اما علاوه بر تطبیق دادن برنامههای کاربردی ژنومیک، به روشهای جدیدی برای اطمینان از قابلیت اطمینان و امنیت دادهها برای تضمین حریم خصوصی، بسیار بیشتر از سه حوزه دیگر نیاز است. نقض جدی دادههای ژنومی حساس پزشکی عواقب دائمی به دنبال خواهد داشت و میتواند توسعه پزشکی ژنومی را به طور جدی مختل کند.
آنالیز داده ها
نجوم، یوتیوب، توییتر و ژنومیک از نظر نیازهای محاسباتی برای تجزیه و تحلیل داده بیشترین تفاوت را دارند.
دادههای نجومی نیازمند تجزیه و تحلیل تخصصی گسترده هستند، اما بخش عمدهای از این نیاز برای پردازش و کاهش دادهها در محل و توسط کامپیوترهای مستقر در نزدیکی تلسکوپها است. این تجزیه و تحلیل اولیه به دلیل ماهیت بلادرنگ و حجم عظیم دادهها دلهرهآور است، اما اغلب میتوان آن را به طور موازی روی هزاران هسته انجام داد.
فیلمهای یوتیوب عمدتاً برای مشاهده، همراه با برخی تجزیه و تحلیل خودکار برای تبلیغات یا نقض حق نسخهبرداری در نظر گرفته شدهاند. دادههای توییتر موضوع تحقیقات فشرده در علوم اجتماعی، به ویژه برای استخراج موضوع و احساس است که عمدتاً روی «توئیتهای» متنی در متن متادیتای مرتبط (به عنوان مثال، اطلاعات جمعیتی کاربران و اطلاعات زمانی) انجام میشود.
تجزیه و تحلیل دادههای ژنومی به دلیل تنوع مراحل درگیر در خواندن توالی ژنوم و استخراج اطلاعات مفید از آن، به طیف وسیعتری از رویکردها نیاز دارد. برای ژنومیک جمعیت و پزشکی، شناسایی انواع ژنومی در هر ژنوم فردی در حال حاضر یکی از پیچیدهترین مراحل از نظر محاسباتی است. فراخوانی واریانت روی 2 میلیارد ژنوم در سال، با 100000 CPU به صورت موازی، به روشهایی نیاز دارد که 2 ژنوم را در هر ساعت پردازنده پردازش کنند، یعنی سه تا چهار مرتبه سریعتر از قابلیتهای فعلی.
تراز کل ژنوم شکل دیگری از تجزیه و تحلیل دادههای ژنومی است که برای اهداف مختلف، از بازسازی تبارشناسی تا تفسیر ژنوم از طریق روشهای مقایسهای استفاده میشود. تنها یک تراز کل ژنوم بین انسان و موش حدود 100 ساعت CPU مصرف میکند. تراز کردن تمام زوجهای 2.5 میلیون گونهای که انتظار میرود تا سال 2025 در دسترس باشند، معادل 50 تا 100 تریلیون تراز کل ژنوم میشود، که نیاز به شش مرتبه سریعتر از حد ممکن امروز است.
راه طولانی پیش رو
ژنومیک به طور واضح برخی از شدیدترین چالشهای محاسباتی را که در دهه آینده با آن روبرو هستیم، به ما تحمیل میکند.
ژنومیک یک “هیولای چهار سر” است؛ با در نظر گرفتن تقاضاهای محاسباتی در طول چرخه عمر یک مجموعه داده (جمع آوری، ذخیره سازی، توزیع و تجزیه و تحلیل داده ها). ژنومیک در سطح سایر حوزههای بیگ دیتا قرار دارد یا حتی از آنها هم فراتر میرود. رویکردهای جدید یکپارچهای باید توسعه یابند که چالشها را در هر چهار جنبه در نظر بگیرند: بعید است که یک پیشرفت یا فناوری به تنهایی بتواند مشکل دادههای ژنومیک را حل کند.
نیازهای کلیدی تکنولوژیکی برای بیگ دیتا در ژنومیک
جمع آوری داده ها
مهمترین نیاز برای حفظ رشد انفجاری در کسب دادههای ژنومی، پیشرفتهای مداوم در فناوریهای توالییابی برای کاهش هزینهها، بهبود توان عملیاتی و دستیابی به دقت بسیار بالا است. برای رسیدن به جمعیتی با صدها میلیون تا میلیاردها ژنوم، هزینهها باید به طور قابل توجهی کاهش یابد.
برای بسیاری از کاربردهای پزشکی، زمان توالییابی نیز باید کاهش یابد تا بتوان آن را تقریباً به صورت بلادرنگ تکمیل کرد، به ویژه برای تشخیص سریع عفونتها و شرایط حاد. در نهایت، برای اینکه توالی ژنوم مفیدتر باشد، باید با روشهای خودکاری برای جمعآوری دادههای فرا داده و فنوتیپ همراه شود، که همه بر اساس استانداردهای مناسب باشد تا دادههای جمعآوریشده در یک محیط بتوانند با دادههای جمعآوریشده در محیط دیگر مقایسه شوند.
ذخیرهسازی داده ها
جامعه باید شروع به طراحی و ساخت مراکز دادهی دارای سیستمهای ذخیرهسازی سریع و طبقهبندیشده کند تا بتواند روی مجموعههای بزرگی از دادههای ژنوم جستجو و تحقیق انجام دهد. فناوریهای جدیدی در پیش رو وجود دارند که به پشتیبانی از این نیازها کمک میکنند. به طور مشابه، سیستمهای فشردهسازی و فهرستبندی کارآمد برای بهینهسازی استفاده از هر بایت در دسترس و در عین حال بسیار قابل دسترس کردن دادهها، حیاتی هستند.
همچنین انتظار داریم توسعههای الگوریتمی را داشته باشیم که بتوانند مجموعههای بزرگی از ژنومهای شخصی را به صورت یک گراف فشرده نشان دهند، و این مقایسهی یک ژنوم با بسیاری از ژنومهای دیگر را کارآمدتر و قویتر میکند. فراتر از این رویکردها، ظهور رویکردهای جریانسازی را برای انجام مقایسههای لحظهای مشاهده میکنیم که به ما امکان میدهد بهسرعت دادهها را دور بریزیم، به ویژه برای برنامههای کاربردی توالییابی که از دادههای توالی بهعنوان وسیلهای برای استنتاج وفور یا سایر فعالیتهای مولکولی استفاده میکنند.
توزیع داده ها
راه حل عملی و شاید تنها راه حل برای توزیع توالیهای ژنوم در مقیاس جمعیتی، استفاده از سیستمهای محاسبات ابری است که جابهجایی داده را به حداقل میرساند. پیشرفتهای جدید شرکتهای بزرگی مانند گوگل، آمازون و فیسبوک که شامل برنامههایی است که برای تطبیق با چارچوبهای مراکز دادهی محاسبات توزیعشده، ذخیرهسازی توزیعشده و الگوهای محاسبات ابری ساخته شدهاند، بخشی از راهحل خواهند بود.
هم اکنون منابع ژنومیکی بزرگ مبتنی بر فضای ابری با استفاده از این فناوریها در حال توسعه هستند، به ویژه برای حمایت از نیازهای بزرگترین مراکز توالییابی یا برای حمایت از نیازهای جوامع بزرگ. برای اینکه این سیستمهای آنلاین بیشترین کارایی را داشته باشند، جامعه نیاز به توسعه رابطهای برنامهنویسی کاربردی (API) برای کشف و جستجو از مجموعه دادههای بزرگ در سیستمهای از راه دور دارد.
اتحاد جهانی برای ژنومیک و سلامت و دیگر سازمانها در حال شروع به توسعه چنین استانداردهایی برای دادههای ژنومی انسانی هستند و انتظار میرود سایر جوامع نیز از آنها پیروی کنند. در نهایت، برای اطمینان از حفظ حریم خصوصی دادههای ژنومی، باید سیستمهای احراز هویت، رمزگذاری و سایر تدابیر امنیتی توسعه داده شوند.
تجزیه و تحلیل
هدف نهایی ما این است که بتوانیم توالیهای ژنومی را تفسیر کنیم و به این سوال پاسخ دهیم که چگونه جهشهای DNA، تغییرات بیان یا سایر اندازهگیریهای مولکولی با بیماری، رشد، رفتار یا تکامل مرتبط هستند. دستیابی به این هدف به طور آشکار نیازمند ادغام تخصص حوزه زیستشناسی، سیستمهای یادگیری ماشینی در مقیاس بزرگ و زیرساخت محاسباتی است که بتواند از جستجوی الگوها در مجموعههای بسیار بزرگ در ابعاد بسیار بالا، پرسشهای انعطافپذیر و پویا را پشتیبانی کند.
جامعه همچنین از کتابخانههایی از الگوریتمهای بهینهسازیشدهی با رابط کاربری ساده بهرهمند میشود که میتوان آنها را در بسیاری از زمینهها، همانطور که مشکلات ظاهر میشوند، ترکیب و استفاده مجدد کرد. شرکتهای علم داده و همچنین ابتکارهای منبع باز، قبلاً شروع به توسعه چنین اجزایی کردهاند، مانند سیستم پیشبینی «ماشین یادگیری آمازون».
از آنجایی که ژنومیک در زمینههای جمع آوری، توزیع، ذخیرهسازی و به ویژه تجزیه و تحلیل دادهها چالشهای منحصر به فردی را به وجود میآورد، انتظار برای نوآوریهای بیرون از حوزهی ما، احتمالا کافی نیست. ما باید خودمان با این چالشها روبرو شویم، شروع با ادغام علم داده در برنامههای درسی کارشناسی ارشد، کارشناسی و دبیرستان برای آموزش نسل بعدی زیستشناسان کمی، زیستشناسان محاسباتی و مهندسان علوم کامپیوتر.
برگرفته از مقاله ای با عنوان Big Data: Astronomical or Genomical که در ژورنال plosbiology منتشر شده است.