در دنیای علمی، «داده‌های زیستی» به اطلاعاتی گفته می‌شود که از موجودات زنده و محیط آن‌ها به‌دست می‌آید. این داده‌ها مانند بلوک‌های سازنده تحقیقات علمی عمل می‌کنند و شامل اطلاعات متنوعی هستند؛ از جزئیات کوچک در DNA تا نحوه عملکرد اکوسیستم‌ها.

شناخت انواع داده‌های زیستی و فرمت‌های آن‌ها برای پژوهش‌های حوزه بهداشت، پزشکی و زیست‌فناوری ضروری است. این مقاله شما را با انواع داده‌های زیستی و شیوه‌های ذخیره‌سازی آن‌ها برای تحقیقات مدرن آشنا می‌کند.

انواع داده های زیستی

1- داده‌های ژنومیک

یکی از انواع مهم داده‌های زیستی، داده‌های ژنومیک است که شامل اطلاعات ژنتیکی یک موجود زنده می‌شود. توالی‌های DNA، که شامل ژن‌ها و بخش‌های غیرکدکننده هستند، کلید فهم ویژگی‌های ارثی و تنوع ژنتیکی را در خود دارند. در سال‌های اخیر، پیشرفت فناوری‌های توالی‌یابی با توان بالا، جمع‌آوری داده‌های ژنومیک را متحول کرده و به محققان امکان درک تنوعات ژنتیکی، جهش‌ها و بیان ژن‌ها را داده است. در این رابطه پیشنهاد می شود این مقاله و این مقاله را مطالعه نمایید.

2- داده‌های متابولومیک

داده‌های متابولومیک بر مولکول‌های شیمیایی کوچک در سلول‌های ما، مانند متابولیت‌ها، تمرکز دارد که می‌توانند آنتی‌بادی، گلوکز یا مولکول‌های پیام‌رسان باشند. متابولومیکس به‌عنوان حوزه‌ای نوظهور، نمایی کلی از فعالیت‌های شیمیایی بدن ارائه می‌دهد. از طریق تحلیل متابولیت‌ها، پژوهشگران به اطلاعات ارزشمندی درباره مسیرهای متابولیکی، نشانگرهای بیماری و وضعیت فیزیولوژیکی کلی یک موجود زنده دست می‌یابند.

3- داده‌های ترنسکریپتومیک

داده‌های ترنسکریپتومیک به بیان ژن‌ها از طریق فهرست کردن مجموعه کاملی از mRNA در یک سلول می‌پردازد. mRNA‌ها پیام‌های DNA را به پروتئین‌های کاربردی تبدیل می‌کنند. مطالعه و ثبت این داده‌ها به «پروفایل بیان ژن» معروف است. فهم الگوهای بیان ژن برای کشف فرآیندهای سلولی، مراحل رشد و واکنش‌ها به محرک‌های خارجی حیاتی است. پژوهشگران اغلب از تکنولوژی‌هایی مانند توالی‌یابی RNA برای تولید مجموعه‌های داده ترنسکریپتومیک و بررسی فعالیت ژن‌ها استفاده می‌کنند.

4- داده‌های پروتئومیک

سیستم‌های زیستی از طریق پروتئین‌ها عمل می‌کنند؛ از آنزیم‌ها گرفته تا ساختارهای عضلانی و هورمون‌ها. داده‌های پروتئومیک به بررسی مجموعه متنوعی از پروتئین‌ها در یک سلول یا موجود زنده می‌پردازد. این نوع داده‌ها اطلاعات ارزشمندی درباره ساختار، عملکرد و تعاملات پروتئین‌ها ارائه می‌دهد و درک فرآیندها و مکانیسم‌های سلولی را امکان‌پذیر می‌کند.

5- داده‌های ساختاری

ساختارهای زیستی، از سطح میکروسکوپی پروتئین‌ها تا سطح ماکروسکوپی موجودات زنده، بُعد دیگری از داده‌های زیستی را تشکیل می‌دهند. تکنیک‌هایی مانند بلورنگاری اشعه ایکس و میکروسکوپی الکترونی کرایو داده‌های ساختاری تولید می‌کنند و به پژوهشگران امکان می‌دهند تا ساختار سه‌بعدی مولکول‌ها و موجودات را مشاهده کنند.

6- داده‌های فضایی

داده‌های فضایی در زیست‌شناسی به اطلاعات مربوط به چیدمان فیزیکی موجودات زیستی در یک فضا اشاره دارد. در مورد انسان‌ها، این داده‌ها مشابه نقشه‌برداری از موقعیت اجزاء در بدن ما هستند. داده‌های فضایی می‌توانند از توزیع سلول‌ها در بافت‌ها تا پراکندگی اکولوژیکی گونه‌ها در یک اکوسیستم متغیر باشند.

تکنیک‌هایی مانند هیبریداسیون فلورسانس در محل (FISH) و ترنسکریپتومیک فضایی، داده‌های فضایی را شکل می‌دهند تا درک عمیق‌تری از سازمان زیستی فراهم کنند.

فرمت‌های داده‌های زیستی

با وجود انواع مختلف داده‌های زیستی، فرمت‌های متنوعی به وجود آمده‌اند تا ویژگی‌های خاص هر نوع داده را در بر بگیرند. پذیرش فرمت‌های استاندارد برای به اشتراک‌گذاری، ادغام و تحلیل داده‌ها در جامعه علمی بسیار مهم است.

1- فرمت FASTA

فرمت FASTA استاندارد رایجی برای نمایش توالی‌های نوکلئوتید یا پروتئین است. سادگی و وضوح آن، این فرمت را به گزینه‌ای مناسب برای ذخیره داده‌های توالی ژنوم و پروتئین تبدیل کرده است. هر ورودی در یک فایل FASTA شامل یک خط توصیفی است که با نماد بزرگ‌تر شروع می‌شود و پس از آن داده‌های توالی قرار می‌گیرد.

2- فرمت SAM/BAM

فرمت ترتیب‌یابی/نقشه‌برداری (SAM) و نسخه باینری آن (BAM) برای ذخیره ترتیب‌های ژنومیک حیاتی هستند. این فرمت‌ها به‌طور کارآمد نشان می‌دهند که چگونه خوانش‌های توالی به یک ژنوم مرجع متصل می‌شوند و شناسایی واریانت‌ها مانند پلی‌مرفیسم‌های نوکلئوتیدی (SNPs) و الحاقات/حذف‌ها (indels) را تسهیل می‌کنند.

3- فرمت BED

زیست‌شناسان معمولاً با ویژگی‌های ژنومی مانند ژن‌ها، نواحی تنظیمی و حاشیه‌نویسی‌های کروموزومی کار می‌کنند. فرمت BED روش مختصر و انعطاف‌پذیری برای نمایش چنین ویژگی‌هایی ارائه می‌دهد. این فرمت شامل ستون‌هایی است که مختصات کروموزومی را مشخص می‌کند و تحلیل و بصری‌سازی حاشیه‌نویسی‌های ژنومی را آسان می‌سازد.

4- فرمت CSV

برای داده‌های زیستی با ساختار جدولی بیشتر، فرمت مقادیر جداسازی‌شده با ویرگول (CSV) گزینه‌ای انعطاف‌پذیر است. چه داده‌های بیان ژن، اطلاعات بالینی یا متاداده‌ها، فرمت CSV ساختاری ساده را ارائه می‌دهد که به راحتی توسط طیف وسیعی از ابزارهای تحلیل داده قابل دسترسی است.

داده‌های زیستی شامل اشکال متنوعی است، از جزئیات کوچک در ژن‌های ما تا تصاویر بزرگ از چیدمان‌های فضایی سلول‌ها. هر نوع داده زیستی به‌طور منحصر به فردی به درک ما از سیستم‌های زنده کمک می‌کند.

با پیشرفت علم، درک ما از داده‌های زیستی نیز در حال گسترش است. پذیرش فرمت‌هایی مانند FASTA، SAM/BAM، BED و CSV همکاری، قابلیت بازتولید و تبادل آسان بینش‌های زیستی را تسهیل می‌کند.

انواع و فرمت‌های داده‌های زیستی نمایانگر تلاش‌های مشترک دانشمندان در سطح جهانی است. با تکامل فناوری و عمیق‌تر شدن درک ما، زبان داده‌های زیستی به تکامل خود ادامه خواهد داد و راه‌های جدیدی برای کشف، نوآوری و مشاغل علوم داده‌های زیستی باز خواهد کرد.

منبع: وبسایت datascienceforbio

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها