در دنیای علمی، «دادههای زیستی» به اطلاعاتی گفته میشود که از موجودات زنده و محیط آنها بهدست میآید. این دادهها مانند بلوکهای سازنده تحقیقات علمی عمل میکنند و شامل اطلاعات متنوعی هستند؛ از جزئیات کوچک در DNA تا نحوه عملکرد اکوسیستمها.
شناخت انواع دادههای زیستی و فرمتهای آنها برای پژوهشهای حوزه بهداشت، پزشکی و زیستفناوری ضروری است. این مقاله شما را با انواع دادههای زیستی و شیوههای ذخیرهسازی آنها برای تحقیقات مدرن آشنا میکند.
انواع داده های زیستی
1- دادههای ژنومیک
یکی از انواع مهم دادههای زیستی، دادههای ژنومیک است که شامل اطلاعات ژنتیکی یک موجود زنده میشود. توالیهای DNA، که شامل ژنها و بخشهای غیرکدکننده هستند، کلید فهم ویژگیهای ارثی و تنوع ژنتیکی را در خود دارند. در سالهای اخیر، پیشرفت فناوریهای توالییابی با توان بالا، جمعآوری دادههای ژنومیک را متحول کرده و به محققان امکان درک تنوعات ژنتیکی، جهشها و بیان ژنها را داده است. در این رابطه پیشنهاد می شود این مقاله و این مقاله را مطالعه نمایید.
2- دادههای متابولومیک
دادههای متابولومیک بر مولکولهای شیمیایی کوچک در سلولهای ما، مانند متابولیتها، تمرکز دارد که میتوانند آنتیبادی، گلوکز یا مولکولهای پیامرسان باشند. متابولومیکس بهعنوان حوزهای نوظهور، نمایی کلی از فعالیتهای شیمیایی بدن ارائه میدهد. از طریق تحلیل متابولیتها، پژوهشگران به اطلاعات ارزشمندی درباره مسیرهای متابولیکی، نشانگرهای بیماری و وضعیت فیزیولوژیکی کلی یک موجود زنده دست مییابند.
3- دادههای ترنسکریپتومیک
دادههای ترنسکریپتومیک به بیان ژنها از طریق فهرست کردن مجموعه کاملی از mRNA در یک سلول میپردازد. mRNAها پیامهای DNA را به پروتئینهای کاربردی تبدیل میکنند. مطالعه و ثبت این دادهها به «پروفایل بیان ژن» معروف است. فهم الگوهای بیان ژن برای کشف فرآیندهای سلولی، مراحل رشد و واکنشها به محرکهای خارجی حیاتی است. پژوهشگران اغلب از تکنولوژیهایی مانند توالییابی RNA برای تولید مجموعههای داده ترنسکریپتومیک و بررسی فعالیت ژنها استفاده میکنند.
4- دادههای پروتئومیک
سیستمهای زیستی از طریق پروتئینها عمل میکنند؛ از آنزیمها گرفته تا ساختارهای عضلانی و هورمونها. دادههای پروتئومیک به بررسی مجموعه متنوعی از پروتئینها در یک سلول یا موجود زنده میپردازد. این نوع دادهها اطلاعات ارزشمندی درباره ساختار، عملکرد و تعاملات پروتئینها ارائه میدهد و درک فرآیندها و مکانیسمهای سلولی را امکانپذیر میکند.
5- دادههای ساختاری
ساختارهای زیستی، از سطح میکروسکوپی پروتئینها تا سطح ماکروسکوپی موجودات زنده، بُعد دیگری از دادههای زیستی را تشکیل میدهند. تکنیکهایی مانند بلورنگاری اشعه ایکس و میکروسکوپی الکترونی کرایو دادههای ساختاری تولید میکنند و به پژوهشگران امکان میدهند تا ساختار سهبعدی مولکولها و موجودات را مشاهده کنند.
6- دادههای فضایی
دادههای فضایی در زیستشناسی به اطلاعات مربوط به چیدمان فیزیکی موجودات زیستی در یک فضا اشاره دارد. در مورد انسانها، این دادهها مشابه نقشهبرداری از موقعیت اجزاء در بدن ما هستند. دادههای فضایی میتوانند از توزیع سلولها در بافتها تا پراکندگی اکولوژیکی گونهها در یک اکوسیستم متغیر باشند.
تکنیکهایی مانند هیبریداسیون فلورسانس در محل (FISH) و ترنسکریپتومیک فضایی، دادههای فضایی را شکل میدهند تا درک عمیقتری از سازمان زیستی فراهم کنند.
فرمتهای دادههای زیستی
با وجود انواع مختلف دادههای زیستی، فرمتهای متنوعی به وجود آمدهاند تا ویژگیهای خاص هر نوع داده را در بر بگیرند. پذیرش فرمتهای استاندارد برای به اشتراکگذاری، ادغام و تحلیل دادهها در جامعه علمی بسیار مهم است.
1- فرمت FASTA
فرمت FASTA استاندارد رایجی برای نمایش توالیهای نوکلئوتید یا پروتئین است. سادگی و وضوح آن، این فرمت را به گزینهای مناسب برای ذخیره دادههای توالی ژنوم و پروتئین تبدیل کرده است. هر ورودی در یک فایل FASTA شامل یک خط توصیفی است که با نماد بزرگتر شروع میشود و پس از آن دادههای توالی قرار میگیرد.
2- فرمت SAM/BAM
فرمت ترتیبیابی/نقشهبرداری (SAM) و نسخه باینری آن (BAM) برای ذخیره ترتیبهای ژنومیک حیاتی هستند. این فرمتها بهطور کارآمد نشان میدهند که چگونه خوانشهای توالی به یک ژنوم مرجع متصل میشوند و شناسایی واریانتها مانند پلیمرفیسمهای نوکلئوتیدی (SNPs) و الحاقات/حذفها (indels) را تسهیل میکنند.
3- فرمت BED
زیستشناسان معمولاً با ویژگیهای ژنومی مانند ژنها، نواحی تنظیمی و حاشیهنویسیهای کروموزومی کار میکنند. فرمت BED روش مختصر و انعطافپذیری برای نمایش چنین ویژگیهایی ارائه میدهد. این فرمت شامل ستونهایی است که مختصات کروموزومی را مشخص میکند و تحلیل و بصریسازی حاشیهنویسیهای ژنومی را آسان میسازد.
4- فرمت CSV
برای دادههای زیستی با ساختار جدولی بیشتر، فرمت مقادیر جداسازیشده با ویرگول (CSV) گزینهای انعطافپذیر است. چه دادههای بیان ژن، اطلاعات بالینی یا متادادهها، فرمت CSV ساختاری ساده را ارائه میدهد که به راحتی توسط طیف وسیعی از ابزارهای تحلیل داده قابل دسترسی است.
دادههای زیستی شامل اشکال متنوعی است، از جزئیات کوچک در ژنهای ما تا تصاویر بزرگ از چیدمانهای فضایی سلولها. هر نوع داده زیستی بهطور منحصر به فردی به درک ما از سیستمهای زنده کمک میکند.
با پیشرفت علم، درک ما از دادههای زیستی نیز در حال گسترش است. پذیرش فرمتهایی مانند FASTA، SAM/BAM، BED و CSV همکاری، قابلیت بازتولید و تبادل آسان بینشهای زیستی را تسهیل میکند.
انواع و فرمتهای دادههای زیستی نمایانگر تلاشهای مشترک دانشمندان در سطح جهانی است. با تکامل فناوری و عمیقتر شدن درک ما، زبان دادههای زیستی به تکامل خود ادامه خواهد داد و راههای جدیدی برای کشف، نوآوری و مشاغل علوم دادههای زیستی باز خواهد کرد.
منبع: وبسایت datascienceforbio