علم داده یک موضوع میان‌رشته‌ای است یعنی وقتی وارد این حوزه می‌شوید لازم است که موضوعات، مهارت‌ها و ابزارهای مختلفی را آموزش ببینید و از آنها استفاده کنید. برای اینکه از این دانش تئوری بتوانیم استفاده کنیم مهارت‌های مختلفی را لازم داریم از جمله:

کسب و کار:

به نوعی می توان گفت که نقطه قوت اصلی دیتا ساینتیست در این بخش است. ما باید بتوانیم هنر حل مسئله را در خودمان ارتقا بدهیم چون در نهایت دیتا ساینس به معنای مجموعه ابزارها و مهارت هایی است که بتوانید به کمک آنها و مبتنی بر داده‌ها مسئله حل کنید. پس اگر نتوانیم مسئله حل کنیم طبیعتا جمع آوری دانش و آموخته ها کمک زیادی به ما نخواهد کرد.

قبل از هر کاری ما باید فضای آن کسب و کار و چالش های آن را بشناسیم تا بتوانیم مسئله های درستی تعریف کنیم و شیوه حل مسئله درستی برای آن داشته باشیم. این موضوع آنقدر اهمیت دارد که فاز اول پروژه های دیتا ساینس عموما تحت عنوان Business Understanding یا شناسایی و درک داده ها دقیقا با همین هدف انجام می شود تا دیتا ساینتیست بتواند مسئله را به درستی بفهمد و بتواند یک فهم مشترک با کارفرما داشته باشد و سپس وارد مباحث فنی برای حل آن مسئله بشود.

فارغ از تمام آموزش هایی که برای دیتاساینس می بینیم، داشتن دانش و مهارت لازم در یک حوزه مشخص، خیلی برای ما کمک کننده است. چون دیتاساینتیست ها فقط دانش را بلد هستند و فضای آن کسب و کار را نمی شناسند. برعکس، اهالی آن کسب و کار درک کافی از دیتاساینس ندارند. وقتی ما بلد باشیم یک امتیاز رقابتی را داریم و برنده ایم.

“آمار و احتمال” و “یادگیری ماشین”:

برای اینکه مبتنی بر داده ها، مسئله حل کنیم ابزارهای ما یا در حوزه آمار و احتمال توسعه داده شده اند یا در حوزه الگوریتم یادگیری ماشین که خودش شاخه ای از هوش مصنوعی و به طور کلی علوم کامپیوتر محسوب می‌شود. بنابراین می توانیم بگوییم که یادگیری ماشین و آمار احتمال دو بال اصلی حوزه دیتاساینس هستند. ندانستن هر کدام از اینها عملاً ما را از جرگه جدی دیتا ساینس خارج میکند.

این 3 موردی که بیان شد 3 مهارت اصلی برای هر دیتاساینس است که دانستن آنها لازم و ضروری است و به هیچ وجه قابل حذف کردن یا کمرنگ شدن نیستند. سایر مهارت ها کمک کننده و ابزار هستند که به آنها می پردازیم:

ریاضیات و جبر خطی:

ریاضیات و جبر خطی مهم است چون ابزارهای ما از اینها استفاده میکند. تمام ابزارها و الگوریتم ها و روش هایی که در آمار و احتمال و یادگیری ماشین یاد میگیریم، روی یک زیرساختی ایجاد شده است که از تئوری‌هایی که در مباحث جبر خطی و آنالیز تابعی وجود دارد.

دانستن این موارد کمک میکند تا ما ابزارهای خود را خوب بشناسیم و در جای لازم اگر توسعه و یا تغییرات لازم را بدهیم. بدون دانستن این پایه ها ما صرفاً یک اپراتور از یکسری ابزار های آماده میشویم و این طبیعتاً برای هیچ کارفرمایی جالب نیست!

 یادگیری ماشین و آمار احتمال دو بال اصلی حوزه دیتاساینس هستند. ندانستن هر کدام از اینها عملاً ما را از جرگه جدی دیتا ساینس خارج میکند.

ابزارهای پیاده سازی:

برای حجم داده های بالا که در واقع به صورت دستی امکان پذیر نیست، لازم است که این کار را به کامپیوتر بسپاریم یعنی یک ابزار تعامل با کامپیوتر به عنوان واسط نیاز است.

دو رویکرد پیاده سازی داریم:

  • دسته اول؛ ابزارهایی هستند که به صورت نرم افزار آماده شده تا بدون اینکه ما را درگیر پیچیدگی‌های پشت صحنه بکند، کمک میکند تا بتوانیم از آنها استفاده کنیم. مثلا: IBM SPSS, RapidMiner و ….
  • دسته دوم: زبان های برنامه نویسی هستند که دست ما بازتر است و قابلیت ایده پردازی بیشتری به ما می دهد. مثلا زبان R و پایتون.

پایگاه داده و مهندسی نرم‌افزار:

زمانی که در پروژه‌های واقعی و اجرایی ما وارد یک سازمان می‌شویم با داده‌های مرتب و منظمی سر و کار نداریم بلکه داده‌ها در منابع مختلف، در پایگاه داده‌ها و سایت‌های مختلفی پراکنده و پخش شده است. بنابراین لازم است که ما دیتابیس را یاد بگیریم. انواع SQL یا No-SQL یا موارد دیگر را یاد بگیریم که بتوانیم با دیتا سورس‌های مختلف کار کنیم. در حین کار بخش‌هایی از مهندسی نرم‌افزار اهمیت پیدا می‌کند به عنوان مثال شاید نیاز پیدا کنیم که مدل خودمان را به یک سرویس یا نرم‌افزار تبدیل کنیم. هرچقدر که ما در حوزه‌های مختلف دانش و مهارت کمتری داشته باشیم موقعیت‌های شغلی بیشتری را از دست می‌دهیم!

قصه‌گویی و مصورسازی:

یعنی قابلیت ارائه مطلب به شکل جذاب. زیرا بخشی از خروجی کار ما قرار است به مدیران ارائه شود پس نیاز داریم که بتوانیم ارائه بهتری داشته باشیم. اینکه چطور یک مسیر بچینیم و یک داستانی را طراحی کنیم که از داده‌های خام استفاده کند و با توجه به چالش‌های آن کسب و کار یک مسیری را طی کند و دستاوردهای ما را به بهترین شکل نشان دهد تا اهمیت آن برای مدیران و تصمیم‌گیران دیده بشود. بنابراین لازم است که با زمینه کسب و کار هم تا حدی آشنا باشیم.

با توجه به موارد گفته شده، می بینیم که دیتا ساینس چتر خیلی بزرگی است که در زیر مجموعه اش مهارت های مختلفی هست و ما وقتی وارد این حیطه میشویم مجبور هستیم که با همه این ابزار ها آشنایی داشته باشیم. بنابراین می‌توان گفت که دیتاساینس یکی از مصداق‌های STEM است؛ سرواژه مهارت های Science, Technology, Engineering & Mathematics

سوالات:

1- دو بال اصلی حوزه دیتاساینس کدام‌اند؟

  • الف) جبر خطی و آمار احتمال
  • ب) آمار احتمال و یادگیری ماشین
  • ج) یادگیری ماشین و پایگاه داده
  • د) مصورسازی و قصه‌گویی

2- کدام یک از موارد زیر به اهمیت جبر خطی در دیتاساینس اشاره دارد؟

  • الف) توسعه ابزارهای نرم‌افزاری آماده
  • ب) شناخت بهتر ابزارها و توسعه الگوریتم‌ها
  • ج) افزایش مهارت در مصورسازی داده‌ها
  • د) استفاده از ابزارهای پیاده‌سازی آماده

3- چرا دیتاساینتیست‌ها باید با پایگاه داده‌ها آشنا باشند؟

    • الف) برای یادگیری ابزارهای نرم‌افزاری
    • ب) برای کار با داده‌های پراکنده و منابع مختلف
    • ج) برای بهبود داستان‌سرایی داده‌ها
    • د) برای یادگیری زبان‌های برنامه‌نویسی

4- “قصه‌گویی و مصورسازی” در دیتاساینس چه اهمیتی دارد؟

  • الف) برای استفاده از زبان‌های برنامه‌نویسی
  • ب) برای ارائه دستاوردها به مدیران به شکلی جذاب و قابل فهم
  • ج) برای یادگیری پایگاه داده‌ها
  • د) برای پیاده‌سازی مدل‌های یادگیری ماشین

5- دیتاساینس به چه دلیل یکی از مصداق‌های STEM محسوب می‌شود؟

  • الف) چون بر آمار احتمال و یادگیری ماشین تمرکز دارد
  • ب) چون ترکیبی از علوم، تکنولوژی، مهندسی و ریاضیات است
  • ج) چون در ارائه داده‌ها به مدیران موفق عمل می‌کند
  • د) چون بر مصورسازی و قصه‌گویی تأکید دارد

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها