عبارت بیگ دیتا به اصطلاحی رایج تبدیل شده است. قبلا در این پست بیان کردیم که بیگ دیتا چیست و چه کاربردهایی دارد. و در این پست به مقایسه برخی از داده های بسیار بزرگ پرداختیم.

با وجود اینکه در روزگار ما حجم عظیمی از بیگ دیتا وجود دارد و همچنان در حال تولید شدن است، اما همچنان بزرگترین داده‌های بزرگ اطراف ما داده‌های ژنومی هستند.

داده‌های ژنومی به اطلاعات ژنتیکی درون ۳ میلیارد باز در انسان اشاره دارد. توالی ژنومی بدن برای اهداف مختلفی خوانده می‌شود، مانند آزمایش‌هایی برای تجویز درمان‌های سفارشی، تعیین خطر ژنتیکی بیماری و یا تشخیص بیماری‌های ژنتیکی نادر. گفته می‌شود حجم داده‌های ژنومی که به این روش تولید می‌شود حدود ۲۲۰ میلیون ژنوم (۴۰ اگزابایت) در سال است. این عدد ۴۰ برابر بیشتر از داده‌های تولید شده توسط یوتیوب است.

در سال ۲۰۰۳، پروژه ژنوم انسان ۳ میلیارد قطعه‌ای را که پازل بدن انسان را تشکیل می‌دهند، پیدا کرد. از طریق این پروژه، بشر آینده‌ای درخشان را ترسیم کرد که در آن همه بیماری‌ها قابل غلبه بودند، اما حل کردن رازهای تک تک ۳ میلیارد قطعه پازل کار آسانی نبود.

با پیشرفت سریع تکنولوژی، هزینه خواندن کل ژنوم فرد به شدت کاهش یافته است و در حال حاضر خواندن کل توالی نوکلئوتیدی فرد حدود ۱۰۰۰ دلار هزینه دارد. با این حال، توالی‌یابی سریع و ارزان، راه‌حل نهایی نبود. از پایان پروژه ژنوم انسان، بیست سال می‌گذرد، اما همچنان مشکلاتی وجود دارد. این مشکلات چه هستند؟

۱. زمان محاسبه

خواندن داده‌های ژنوم همه ماجرا نیست. پس از آن، باید این داده‌ها را پردازش کنیم.

در حال حاضر، خواندن ژنوم از موقعیت ۱ تا انتها به طور همزمان امکان پذیر نیست، بلکه ژنوم به قطعات کوتاه حدود ۴۰۰ جفت باز (bp) بریده می‌شود و هر دو انتها با طول تقریباً ۱۵۰ جفت باز خوانده می‌شود. این فایل‌ها با نام FASTQ شناخته می‌شوند.

سپس این فایل‌های FASTQ با تراز کردن آن‌ها با توالی مرجع، دوباره به توالی‌های بلند مونتاژ می‌شوند. این فایل‌ها بام (BAM) نامیده می‌شوند.

سپس از میان ۳ میلیارد موقعیت در ژنوم، می‌توان موقعیتی به نام واریانت (variant) را که با توالی مرجع متفاوت است، یافت.

در اینجا، خواندن کل ۳ میلیارد جفت باز ژنوم توالی‌یابی کل ژنوم (WGS) نامیده می‌شود، خواندن تمام اگزون‌های کدکننده پروتئین توالی‌یابی کل اگزوم (WES ) و خواندن فقط موقعیت‌های ژنی خاص، توالی‌یابی هدفمند (Target Sequencing) نامیده می‌شود.

هنگام توالی‌یابی فقط یک ناحیه خاص، فرایند فراخوانی واریانت تنها جهش‌ها (mutation) را در آن ناحیه خاص پوشش می‌دهد. فایل‌هایی که به این مناطق خاص اشاره می‌کنند، فایل‌های BED نامیده می‌شوند.

در فایل VCF توالی‌یابی کل ژنوم (WGS) حدود ۵ میلیون جهش به ازای هر فرد وجود دارد که معادل ۰.۱۶ درصد از کل ۳ میلیارد جفت باز است. اگرچه به آن جهش گفته می‌شود، اما برخی جهش‌ها از بیرون قابل مشاهده هستند و مشکلی ایجاد نمی‌کنند، مانند رنگ پوست یا موی انسان، در حالی که برخی جهش‌ها می‌توانند باعث بیماری شوند و زندگی را دشوار کنند.


برای ایجاد یک فایل VCF (Variant Call Format) از داده خام کل ژنوم (FASTQ) که با فرمت BAM (Binary Alignment Map) میانی پردازش شده است، حداقل به یک روز کامل (حدود 24 ساعت) زمان بر روی تجهیزات سرور نیاز است. آنالیز این داده‌ها همچنین می‌تواند بر روی رایانه‌های شخصی معمولی که معمولاً استفاده می‌کنیم انجام شود، اما مشخصات سخت‌افزاری مورد نیاز حداقل ۱۶ گیگابایت رم است و حدود دو هفته طول می‌کشد!

تجزیه و تحلیل داده‌های توالی‌یابی اگزوم (Exome sequencing) که مجموعه‌ای از نواحی اگزون (ناحیه کدکننده پروتئین) است، حدود ۲ ساعت زمان می‌برد. این در حالی است که توالی‌یابی اگزوم داده‌های کل ژنوم را پوشش نمی‌دهد و فقط بر روی نواحی کدکننده پروتئین تمرکز دارد.

۲. ذخیره‌سازی

هنگام توالی‌یابی داده‌های ژنوم یک فرد و استخراج اطلاعات جهش، فایل‌های FASTQ، BAM و VCF که قبلاً در مورد آنها صحبت کردیم، تولید می‌شوند.
با محاسبات ساده، خواندن حداقل ۳۰ بار توالی ۳ میلیارد بازی یک فرد، حدود ۹۰ میلیارد کاراکتر طول می‌کشد. شکل زیر این را از نظر اندازه فایل کامپیوتری نشان می‌دهد.

Type (Mean depth) FASTQ BAM VCF SUM
WES (100x) 5GB 8GB 0.1GB 13GB
WGS (30x) 80GB 100GB 1GB 180GB

به طور کلی، یک فیلم با مدت زمان ۱۳۵ دقیقه تقریباً ۳ گیگابایت است. بنابراین، می‌توان گفت که ژنوم یک فرد تقریباً به اندازه ۶۰ فیلم است.

حالا چه می‌شود اگر آن را ذخیره کنیم؟ می‌توانید یک هارد دیسک اکسترنال ۱ ترابایتی خریداری کنید و داده‌های ژنوم حدود ۵ نفر را ذخیره کنیم.
اما در مورد فضای ابری چطور؟ هزینه فضای ابری AWS (سرویس‌های وب آمازون) که به طور گسترده استفاده می‌شود، حدود ۰.۰۲۵ دلار به ازای هر گیگابایت در ماه است. اگر برای ژنوم یک نفر محاسبه کنید، ماهانه ۴.۵ دلار هزینه دارد، اما اگر ۱۰۰۰ نفر را در نظر بگیرید، حداقل تعداد نمونه در یک جمعیت برای فیلتر کردن واریانت‌های رایج، حتی با هزینه ماهیانه ۴۵۰۰ دلار برای صرفاً ذخیره‌سازی، مقدار قابل توجهی است.

Provider Service name Price Price per one WGS sample
AWS S3 Standard $0.025/GB $4.5
Google cloud Cloud storage $0.023/GB $4.14
Microsoft Azure Premium $0.15/GB $27.0

۳. انتقال داده ها

به طور کلی، وقتی می گوییم از شبکه سریع استفاده می کنیم، منظورمان اینترنت گیگابیتی است. اینترنت گیگابیتی به سرعتی در حدود ۱ گیگابیت (گیگابایت) در ثانیه یا ۱۲۵ مگابایت بر ثانیه هنگام تبدیل به بایت هایی که برای ما آشنا هستند، اشاره دارد. این به حداکثر سرعت تئوری اشاره می کند.

برای راحتی، فرض کنیم به حداکثر سرعت دست یافته ایم و سرعت انتقال را با استفاده از داده های ژنوم ذکر شده در بالا محاسبه کنیم. با حجم FASTQ + BAM + VCF = ۱۸۰ گیگابایت، زمان انتقال آن ۱۸۰ گیگابایت / ۱۲۵ مگابایت بر ثانیه = ۱۴۴۰ ثانیه = ۲۴ دقیقه طول می کشد.

در نگاه اول، ممکن است به نظر زمان کمی برسد. اما در واقع، شبکه ای که ما استفاده می کنیم، سرعت را در زمان ترافیک سنگین تنظیم می کند. به همین منظور، محدودیت سرعت (QoS) اعمال می شود و این ترافیک بسته به محصول، حدود ۱۰۰ گیگابایت است. اگر ۱۰۰ گیگابایت تمام شود، به ۱۰۰ مگابایت بر ثانیه کاهش می یابد که ۱/۱۰ اینترنت گیگابیتی است. یعنی، ۱۸۰ گیگابایت / ۱۲۵ مگابایت بر ثانیه + ۸۰ گیگابایت / ۱۲.۵ مگابایت بر ثانیه = ۲ ساعت.

اگر تعداد نمونه ها بیش از یک باشد، نمونه دوم باید با سرعت ۱۰۰ مگابایت بر ثانیه دریافت شود، بنابراین ۱۸۰ گیگابایت / ۱۲.۵ مگابایت بر ثانیه = ۴ ساعت طول می کشد. نه تنها دریافت داده مشکل است، بلکه ارسال آن نیز مشکل است. ۱۸۰ گیگابایت با یک فایلی که به سادگی به عنوان پیوست ایمیل ارسال می شود بسیار متفاوت است. به اشتراک گذاشتن این داده ها با همکاران چالش برانگیز است، بنابراین در عمل، داده ها اغلب در یک هارد دیسک اکسترنال ذخیره می شوند و به طور کامل منتقل می شوند.

۴. تفسیر واریانت

خواندن، ذخیره و انتقال داده های ژنوم دشوار است، اما مهمترین مرحله برای تجزیه و تحلیل داده های ژنوم همچنان باقی مانده است. خواندن داده های خام و تجزیه و تحلیل آن روی یک کامپیوتر شخصی دشوار یا غیرممکن است. هر چه مشخصات سرور برای تجزیه و تحلیل بهتر باشد، سریعتر خواهد بود، اما به طور کلی، اگر از یک CPU ۴۰ رشته ای و ۲۵۰ گیگابایت رم استفاده کنید، حدود ۲۴ ساعت طول می کشد تا داده های واریانت را از داده های کل ژنوم ایجاد کنید.

اگر از رایانش ابری استفاده می کنید، همانطور که در بالا نشان داده شد، می توانید آن را محاسبه کنید. VCF خود حاوی اطلاعاتی در مورد حدود ۵ میلیون جهش است و در میان این جهش های متعدد، باید با توجه به اطلاعات بالینی، جهشی را پیدا کرد که با بیماری مرتبط باشد.

Provider Service name* CPU (thread) RAM (GB) Price Price per one WGS sample analysis (24h)**
AWS r5.8xlarge 32 256 $2.016/h $48.384
Google Cloud c2-standard-60 60 240 $2.51/h $60.24
Microsoft Azure E32a v4 32 256 $3.712/h $89.088

نتیجه‌گیری

همانطور که قبلاً دیدیم، در برخورد با حجم زیادی از داده در یک محیط محاسباتی کوچک، مشکلات زیادی وجود دارد. کسانی که داده های ژنتیکی را از شرکت‌های توالی‌یابی دریافت کرده‌اند، می‌دانند که یافتن اطلاعات معنی‌دار در خود داده‌های خام ژنتیکی کار آسانی نیست. بنابراین، برای تفسیر داده‌های ژنتیکی، توصیه می‌کنیم گزارشی از شرکتی دریافت کنید که تجربه زیادی در مدیریت داده‌ها، به‌روزرسانیروزانه پایگاه داده خود با آخرین داده‌ها و تنظیم دقیق الگوریتم تشخیصی داشته باشد.

منبع: سایت 3billion.io

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها