همزمان با پیشرفت علم و تکنولوژی، دانشمندان به طور عمیق‌تری در علم ژنتیک کاوش می‌کنند. تجزیه و تحلیل و تفسیر این داده های ژنومیِ جمع آوری شده به درک بهتر سلامت و بیماری انسان کمک می‌کند.

برآوردها پیش‌بینی می‌کنند که تحقیقات ژنومیک در دهه آینده بین ۲ تا ۴۰ اگزابایت داده تولید خواهد کرد. توانایی ما برای تعیین توالی DNA و تولید داده، بسیار بیشتر از توانایی ما در رمزگشایی اطلاعات موجود در آن است، بنابراین Genomic Data Science برای سال های آینده یک زمینه تحقیقاتی ارزشمند خواهد بود.

 Genomic Data Science چیست؟

Genomic Data Science زمینه‌ای از مطالعات علمی است که محققان را قادر می‌سازد تا از روش‌های محاسباتی و آماریِ قدرتمند برای رمزگشایی اطلاعاتِ عملکردی که در توالی‌های DNA مخفی شده‌اند، استفاده کنند. این ابزارهای علم داده که در زمینه پزشکی ژنومی به کار می روند، به محققان و پزشکان کمک می کنند تا میزان تفاوت در DNA و چگونگی تاثیر این تفاوت‌ها بر سلامت و بیماری انسان را کشف کنند.

Genomic Data Science به عنوان یک زمینه علمی جدید در دهه 1990 ظهور کرد تا دو فعالیت آزمایشگاهی را به هم مرتبط سازد:

  1. آزمایش: تولید اطلاعات ژنتیکی از مطالعه ژنوم موجودات زنده.
  2. تجزیه و تحلیل داده ها: استفاده از ابزارهای آماری و محاسباتی برای تجزیه و تحلیل و تجسم داده های ژنومی. این تجزیه و تحلیل‌ها شامل پردازش و ذخیره داده ها و همچنین استفاده از الگوریتم ها و نرم افزارها برای پیش بینی بر اساس داده های ژنومی موجود است.

هر دو فعالیت به محققان کمک می‌کنند تا از حجم زیادی از طلاعات را از داده‌های ژنومی به دست آورند.

چرا ژنومیک شامل داده های بسیار زیادی است؟

ژنومیک انسانی در اوایل دهه 2000 توجه جریان اصلی را به خود جلب کرد، زمانی که پروژه ژنوم انسانی با موفقیت اولین توالی از پایه های شیمیایی (A، C، G و T) را در ژنوم انسان ایجاد کرد. هر یک از تریلیون ها سلول در بدن انسان حاوی یک کپی کامل از ژنوم است، یعنی نقشه DNA ما. بیشتر سلول ها در واقع دو نسخه از ژنوم دارند که روی هم حدود 6 میلیارد حرف DNA را نشان می‌دهند.

محققان در حال حاضر بیشتر از هر زمان دیگری داده های ژنومی تولید می کنند تا بفهمند ژنوم چگونه عمل می کند و بر سلامت و بیماری انسان تأثیر می گذارد؟

این داده ها از میلیون ها نفر در جمعیت های مختلف در سراسر جهان به دست می آید. اطلاعات مربوط به یک توالی ژنوم انسانی به تنهایی 200 گیگابایت را اشغال می کند. برای ذخیره داده های توالی ژنوم تولید شده در سراسر جهان تا سال 2025 به 40 اگزابایت نیاز داریم. برای مقایسه؛ تمام کلماتی را که انسان‌ها تا کنون گفته‌اند، برای ذخیره سازی فضایی حدود 5 اگزابایت احتیاج دارد.

از آنجایی که داده های پیچیده مرتبط با ژنوم انسان بسیار زیاد است و حجم عظیمی از دیتا را داریم، ژنتیک اکنون به عنوان یک زمینه “بیگ دیتا” در نظر گرفته می شود.

مطالعه و استفاده از داده های ژنومی

محققان برای یافتن و تفسیر اطلاعات بیولوژیکی پنهان در DNA هر فرد و همچنین مدیریت حجم زیادی از داده های تولید شده در پروژه های تحقیقاتی ژنومیک، به ابزارهای محاسباتی و تحلیلی خاصی نیاز دارند.

محققان از ابزارهای نرم افزاری به نام aligners برای تعیین محل قرارگیری تک تک توالی DNA در هر قسمت از یک توالی ژنوم مرجع استفاده می کنند.

در مرحله بعد، “افراد مختلفی” مکان هایی را شناسایی می کنند که یک توالی ژنوم انسانیِ مورد نظر با سایر توالی های ژنوم انسانی متفاوت است. این تفاوت‌های ژنومی ممکن است در اندازه‌های مختلفی باشند. این تفاوت ممکن است به کوچکی یک حرف DNA (به نام چندشکلی تک نوکلئوتیدی)، حروف طولانی (به نام انواع ساختاری) مانند کم یا زیاد شدن، یا ناهنجاری های کروموزومی بسیار بزرگتر باشد. این تفاوت‌های ژنومی ممکن است هیچ خطری برای سلامتی نداشته باشند، یا می‌توانند مستقیماً باعث اختلالات نادر ارثی، سرطان یا سایر بیماری‌های شایع‌تر شوند.

مدیریت و ذخیره‌سازی حجم بالای داده های ژنومی

متخصصان در هر دو فناوری رایانه و ژنومیک، داده های ژنومی را با استفاده از سیستم ها و نرم افزارهای مختلف رایانه ای مدیریت و ذخیره می کنند. مراکز تحلیل و هماهنگی داده ها به طور فزاینده ای بخشی از شبکه های تحقیقاتی هستند و این خدمات را ارائه می دهند.

تولید داده‌های ژنومی نیازمند حمایت مالی قابل توجهی از سوی مؤسسه‌هایی مانند مؤسسه ملی تحقیقات ژنوم انسانی (NHGRI) است که هر سال بیش از ۱۲۵ میلیون دلار برای حمایت از تلاش‌های مختلف علم داده‌های ژنومی ارائه می‌کند.

منابع داده های تولید شده اغلب در دسترس جامعه علمی گسترده تر قرار می گیرند تا تجزیه و تحلیل بیشتر داده ها را تسهیل کنند. آنها انواع مختلفی از اطلاعات را در مورد ژنوم انسان سازماندهی کرده و ارائه می دهند، مانند مکان ژن ها و انواع مختلف آنها در DNA.

بسیاری از پلتفرم‌های ابری خصوصی و تجاری با همکاری نهادهای دولتی و عمومی، مانند مؤسسه ملی بهداشت (NIH) از طریق ابتکار STRIDES کار می‌کنند. این طرح‌ها زیرساخت‌های ذخیره‌سازی و محاسباتی را برای میزبانی داده‌های ژنومی و ایجاد حفاظت‌های امنیتی و حریم خصوصی لازم برای داده‌های ژنومی فراهم می‌کنند. این مباحث امنیتی و حریم خصوصی برای ژنوم انسان به طور ویژه‌تری انجام می‌شود.

برخی از پیامدهای اخلاقی، قانونی و اجتماعی به اشتراک گذاری داده های ژنومی

انجام تحقیقات ژنومیک مجموعه ای از مسئولیت های اخلاقی را به همراه دارد، زیرا اطلاعات مربوط به توالی ژنوم یک فرد با مسائل پیچیده مربوط به حریم خصوصی و هویت مرتبط است.

رضایت آگاهانه: محققان معمولاً از افرادی که ژنوم آنها توالی یابی شده است، رضایت می خواهند. اما محققان باید اطلاعات روشنی در مورد نحوه استفاده و به اشتراک گذاری داده های توالی ژنوم در فرآیند کسب چنین رضایت آگاهانه ارائه دهند.

حریم خصوصی: ابزارهای محاسباتی قدرتمند می‌توانند داده‌های توالی ژنوم‌های شناسایی‌شده را بگیرند و تحت شرایط خاص، آن‌ها را به فردی که DNA او توالی‌یابی شده است، متصل کنند. بازرسان می توانند از چنین ابزارهایی برای اهداف مفیدی مانند شناسایی مجرمانی که DNA را در صحنه جرم به جا گذاشته اند، استفاده کنند. اما مزایای اجتماعی باید بر خطرات احتمالی استفاده از داده‌های ژنومی به این روش بیشتر باشد.

هوش مصنوعی (AI): ابزارهای هوش مصنوعی به طور فزاینده ای به محققان کمک می کنند تا مقادیر زیادی از داده های توالی ژنوم را پردازش کنند تا الگوهای پنهان در DNA را جستجو کنند. با این حال، از آنجایی که الگوریتم‌های هوش مصنوعی اغلب فاقد شفافیت هستند، زمانی که چنین الگوریتم‌هایی روی داده‌های DNA اعمال می‌شوند، سوگیری‌ها می‌توانند شناسایی نشده باشند.

این حوزه از علم داده‌های ژنومی به تحقیقات اخلاقی گسترده نیاز دارد تا تفاوت‌های منحصربه‌فرد بین روش‌های فعلی در علم داده‌های ژنومی (که برای تفسیر نتایج به هوش انسانی متکی است) و روش‌های جدیدتر هوش مصنوعی را بررسی کند. در حالی که روش‌های هوش مصنوعی مزایای امیدوارکننده زیادی را ارائه می‌دهند، آنها همچنین به روش‌های کاملاً متفاوتی نسبت به انسان‌ها نتیجه‌گیری می‌کنند و از این رو باید تحت نظارت دقیق اخلاقی قرار گیرند.

با تمام این ملاحظات، دانشمندان داده و محققان ژنومیک باید در مورد پیامدهای مطالعات خود آموزش ببینند و از نزدیک با محققان اخلاق همکاری کنند.

اشتراک گذاری داده های ژنوم انسان

انتظار می رود که محققان داده های ژنومی انسان را بر اساس رضایت شرکت کنندگان در تحقیق به اشتراک بگذارند. داده‌های ژنومی معمولاً از طریق منابع داده با جامعه علمی به اشتراک گذاشته می‌شوند که می‌توان به سه روش به آنها دسترسی داشت:

دسترسی آزاد یا دسترسی نامحدود گسترده ترین شکل اشتراک داده است. داده ها برای هر هدف پژوهشی در دسترس عموم است.

دسترسی ثبت شده بین دسترسی باز و دسترسی کنترل شده قرار می گیرد. محققان می توانند داده ها را برای هر هدفی به دست آورند. با این حال، آنها باید اطلاعات خود را ثبت کنند و کار آنها با داده ها ممکن است نیاز به نظارت داشته باشد.

اشتراک‌گذاری داده‌ها با دسترسی کنترل‌شده، محققین را ملزم می‌کند که هدف تحقیق خود را توصیف کنند تا یک کمیته ویژه دسترسی به داده‌ها بتواند سازگاری هدف تحقیق را با رضایت شرکت‌کننده ارزیابی کند. محقق تنها پس از دریافت تایید کمیته می تواند به داده ها دسترسی داشته باشد.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها