علم داده یک موضوع میانرشتهای است یعنی وقتی وارد این حوزه میشوید لازم است که موضوعات، مهارتها و ابزارهای مختلفی را آموزش ببینید و از آنها استفاده کنید. برای اینکه از این دانش تئوری بتوانیم استفاده کنیم مهارتهای مختلفی را لازم داریم از جمله:
کسب و کار:
به نوعی می توان گفت که نقطه قوت اصلی دیتا ساینتیست در این بخش است. ما باید بتوانیم هنر حل مسئله را در خودمان ارتقا بدهیم چون در نهایت دیتا ساینس به معنای مجموعه ابزارها و مهارت هایی است که بتوانید به کمک آنها و مبتنی بر دادهها مسئله حل کنید. پس اگر نتوانیم مسئله حل کنیم طبیعتا جمع آوری دانش و آموخته ها کمک زیادی به ما نخواهد کرد.
قبل از هر کاری ما باید فضای آن کسب و کار و چالش های آن را بشناسیم تا بتوانیم مسئله های درستی تعریف کنیم و شیوه حل مسئله درستی برای آن داشته باشیم. این موضوع آنقدر اهمیت دارد که فاز اول پروژه های دیتا ساینس عموما تحت عنوان Business Understanding یا شناسایی و درک داده ها دقیقا با همین هدف انجام می شود تا دیتا ساینتیست بتواند مسئله را به درستی بفهمد و بتواند یک فهم مشترک با کارفرما داشته باشد و سپس وارد مباحث فنی برای حل آن مسئله بشود.
فارغ از تمام آموزش هایی که برای دیتاساینس می بینیم، داشتن دانش و مهارت لازم در یک حوزه مشخص، خیلی برای ما کمک کننده است. چون دیتاساینتیست ها فقط دانش را بلد هستند و فضای آن کسب و کار را نمی شناسند. برعکس، اهالی آن کسب و کار درک کافی از دیتاساینس ندارند. وقتی ما بلد باشیم یک امتیاز رقابتی را داریم و برنده ایم.
“آمار و احتمال” و “یادگیری ماشین”:
برای اینکه مبتنی بر داده ها، مسئله حل کنیم ابزارهای ما یا در حوزه آمار و احتمال توسعه داده شده اند یا در حوزه الگوریتم یادگیری ماشین که خودش شاخه ای از هوش مصنوعی و به طور کلی علوم کامپیوتر محسوب میشود. بنابراین می توانیم بگوییم که یادگیری ماشین و آمار احتمال دو بال اصلی حوزه دیتاساینس هستند. ندانستن هر کدام از اینها عملاً ما را از جرگه جدی دیتا ساینس خارج میکند.
این 3 موردی که بیان شد 3 مهارت اصلی برای هر دیتاساینس است که دانستن آنها لازم و ضروری است و به هیچ وجه قابل حذف کردن یا کمرنگ شدن نیستند. سایر مهارت ها کمک کننده و ابزار هستند که به آنها می پردازیم:
ریاضیات و جبر خطی:
ریاضیات و جبر خطی مهم است چون ابزارهای ما از اینها استفاده میکند. تمام ابزارها و الگوریتم ها و روش هایی که در آمار و احتمال و یادگیری ماشین یاد میگیریم، روی یک زیرساختی ایجاد شده است که از تئوریهایی که در مباحث جبر خطی و آنالیز تابعی وجود دارد.
دانستن این موارد کمک میکند تا ما ابزارهای خود را خوب بشناسیم و در جای لازم اگر توسعه و یا تغییرات لازم را بدهیم. بدون دانستن این پایه ها ما صرفاً یک اپراتور از یکسری ابزار های آماده میشویم و این طبیعتاً برای هیچ کارفرمایی جالب نیست!
یادگیری ماشین و آمار احتمال دو بال اصلی حوزه دیتاساینس هستند. ندانستن هر کدام از اینها عملاً ما را از جرگه جدی دیتا ساینس خارج میکند.
ابزارهای پیاده سازی:
برای حجم داده های بالا که در واقع به صورت دستی امکان پذیر نیست، لازم است که این کار را به کامپیوتر بسپاریم یعنی یک ابزار تعامل با کامپیوتر به عنوان واسط نیاز است.
دو رویکرد پیاده سازی داریم:
- دسته اول؛ ابزارهایی هستند که به صورت نرم افزار آماده شده تا بدون اینکه ما را درگیر پیچیدگیهای پشت صحنه بکند، کمک میکند تا بتوانیم از آنها استفاده کنیم. مثلا: IBM SPSS, RapidMiner و ….
- دسته دوم: زبان های برنامه نویسی هستند که دست ما بازتر است و قابلیت ایده پردازی بیشتری به ما می دهد. مثلا زبان R و پایتون.
پایگاه داده و مهندسی نرمافزار:
زمانی که در پروژههای واقعی و اجرایی ما وارد یک سازمان میشویم با دادههای مرتب و منظمی سر و کار نداریم بلکه دادهها در منابع مختلف، در پایگاه دادهها و سایتهای مختلفی پراکنده و پخش شده است. بنابراین لازم است که ما دیتابیس را یاد بگیریم. انواع SQL یا No-SQL یا موارد دیگر را یاد بگیریم که بتوانیم با دیتا سورسهای مختلف کار کنیم. در حین کار بخشهایی از مهندسی نرمافزار اهمیت پیدا میکند به عنوان مثال شاید نیاز پیدا کنیم که مدل خودمان را به یک سرویس یا نرمافزار تبدیل کنیم. هرچقدر که ما در حوزههای مختلف دانش و مهارت کمتری داشته باشیم موقعیتهای شغلی بیشتری را از دست میدهیم!
قصهگویی و مصورسازی:
یعنی قابلیت ارائه مطلب به شکل جذاب. زیرا بخشی از خروجی کار ما قرار است به مدیران ارائه شود پس نیاز داریم که بتوانیم ارائه بهتری داشته باشیم. اینکه چطور یک مسیر بچینیم و یک داستانی را طراحی کنیم که از دادههای خام استفاده کند و با توجه به چالشهای آن کسب و کار یک مسیری را طی کند و دستاوردهای ما را به بهترین شکل نشان دهد تا اهمیت آن برای مدیران و تصمیمگیران دیده بشود. بنابراین لازم است که با زمینه کسب و کار هم تا حدی آشنا باشیم.
با توجه به موارد گفته شده، می بینیم که دیتا ساینس چتر خیلی بزرگی است که در زیر مجموعه اش مهارت های مختلفی هست و ما وقتی وارد این حیطه میشویم مجبور هستیم که با همه این ابزار ها آشنایی داشته باشیم. بنابراین میتوان گفت که دیتاساینس یکی از مصداقهای STEM است؛ سرواژه مهارت های Science, Technology, Engineering & Mathematics