دانشمند داده: شخصی که آمار را بهتر از هر مهندس کامپیوتری میداند و مهندسی کامپیوتر را بهتر از هر متخصص آماری میفهمد.
لازم به ذکر است که در این تعریف، مهارتهای موردنیاز به دو بخش تقسیم شدهاند:
- مهارتهای مرتبط با مهندسی نرمافزار و علوم کامپیوتر.
- مهارتهای مرتبط با ریاضیات، آمار و الگوریتمها.
این تعریف نشان میدهد که لازم نیست متخصص علم داده در همه این حوزهها به حداکثر توانایی برسد. بلکه باید در حوزه خود نسبت به سایرین برتری داشته باشد. لازم است که در همه این حوزهها وارد شده باشد و بتواند با آنها ارتباط برقرار کند و به صورت تیمی کار کند.
دانشمند داده شخصی است که آمار را بهتر از هر مهندس کامپیوتری میداند و مهندسی کامپیوتر را بهتر از هر متخصص آماری میفهمد.
اگر شرکتی بخواهد تیم علم داده تشکیل دهد، وظایف این تیم بر اساس تخصصها تقسیم میشود. اولین عنصر مهم در این زمینه، تحلیل نیازهای کسبوکار است. در این تیم، مدیران و تحلیلگران کسبوکار نقش مهمی در تعریف اهداف و چالشها دارند.
سپس، نقش مهندس داده تعریف میشود که وظیفه آن شامل ساخت زیرساختهای دادهای، ایجاد پایگاه دادهها و یکپارچهسازی آنهاست.
این افراد وظیفه دارند که دیتاها را از منایع مختلف جمعآوری و یکپارچه کنند و پس از تبدیلات لازم آنها را در دسترس افرادی قرار دهند که طراحی و توسعه مدل را انجام میدهند.
مثلا اطلاعات مربوط به مشتریان را در فرایند تعامل با مشتریان، در یک نرمافزار crm و در دیتابیس مربوط به آن قرار میدهند. حوزه مربوط به مالی و حسابداری در یک دیتابیس دیگری است و حوزه مربوط به خود پرسنل نیز ممکن است در یک دیتابیس دیگری ذخیره شود. ولی اگر لازم شد این موارد باید بتوانند کنار هم نیز قرار بگیرند. همچنین وظیفه پاکسازی و اعتبارسنجی اولیه دادهها نیز معمولاً بر عهده مهندس داده است.
بعد از آمادهسازی دادهها، تیم علم داده یا همان دیتاساینتیست ها به تحلیل و مدلسازی دادهها میپردازد. در این بخش، ابزارهایی مانند پایتون و R برای تحلیل دادهها به کار گرفته میشود. خروجی این تحلیلها معمولاً بهصورت داشبوردهای مدیریتی یا سیستمهای پشتیبان تصمیمگیری ارائه میشود.
نکته مهم این است که در ساختار تیمهای علم داده، نیازی نیست یک نفر به تنهایی تمامی وظایف را انجام دهد. بلکه این وظایف میان متخصصان مختلف تقسیم میشود. در گذشته، تیمهای علم داده در شرکتهای ایرانی معمولاً با یک یا دو نفر شروع میشدند و انتظارات غیرواقعبینانهای از آنها داشتند که منجر به شکست پروژهها میشد. امروزه، بسیاری از سازمانها به اهمیت تخصصیسازی در این زمینه پی بردهاند.
بهطور کلی، در یک تیم علم داده، موقعیتهای شغلی زیر وجود دارد:
- تحلیلگر داده: تمرکز بر گزارشدهی، تحلیلهای توصیفی و ایجاد داشبوردهای مدیریتی.
- دانشمند داده: توسعه مدلهای تحلیلی پیشرفته و کار با دادههای ساختیافته و غیرساختیافته.
- مهندس یادگیری ماشین: خودکارسازی مدلهای یادگیری ماشین و توسعه راهکارهای نرمافزاری.
- مهندس داده: ایجاد و یکپارچهسازی زیرساختهای دادهای و پایپلاینهای داده.
با این تقسیمبندی تخصصی، مسیر پیشرفت در این حوزه منطقیتر و قابلدسترستر خواهد بود.
تحلیلگر داده (Data Analyst)
تحلیلگر داده بیشتر تمرکزش روی گزارشها و تحلیلهای توصیفی از وضعیت موجود سازمان بهصورت دادهمحور است. کار تحلیلگر داده در بستر دادهها صورت میگیرد و شامل بررسی روندها و ترندها و حتی مدلسازی اولیه میشود. هدف اصلی، ارائه گزارشدهی و داشبوردهای مدیریتی است. در این جایگاه، تحلیلگر داده بهشدت به ادبیات کسبوکار و چالشهای آن نزدیک است و یاد گرفته چطور با دادها ها کار کند، دادهها را پاکسازی و خلاصهسازی کند.
از وظایف اساسی تحلیلگر داده میتوان به داستانسرایی (Storytelling) در گزارشات، طراحی داشبوردهای مدیریتی و بصریسازی (Visualization) اشاره کرد. تحلیلگر داده باید به ابزارهایی مانند تبلو (Tableau) و پاور بیآی (Power BI) مسلط باشد تا گزارشات مدیریتی جذاب و پویا را برای ارائه آماده کند. معمولاً تحلیلگر داده به دلیل ارتباط زیاد با ادبیات کسبوکار و چالشهای آن، در کنار مدیران و تحلیلگران کسبوکار قرار دارد.
دانشمند داده (Data Scientist)
دیتا ساینتیست یا دانشمند داده، مسئول توسعه مدلهای هوشمند و پیشرفته است. برای انجام این وظایف، باید در آمار، احتمال و یادگیری ماشین (Machine Learning) مهارت عمیقی داشته باشد و با ریاضیات و مباحث جبر خطی هم تا حدی آشنایی پیدا کند. این آشنایی از منظر عملی و مسئلهمحور است و نه دید دانشگاهی یا تئوری صرف.
تفاوت مهم دانشمند داده با تحلیلگر داده این است که علاوه بر دادههای ساختاریافته، با انواع مختلف دادهها (چندمدلی) هم کار میکند؛ مانند دادههای متنی، تصویری و صوتی. بهعنوان مثال، دانشمند داده باید بتواند متنی مانند یک مقاله را تحلیل کرده، عکس را بهعنوان ورودی مدل پردازش کند یا صدای ورودی را تحلیل کند.
یک دانشمند داده در واقع تحلیلگر دادهای عمیقتر و پیشرفتهتر است و میتواند در صورت نیاز فعالیتهای تحلیلگر داده را نیز انجام دهد. اما تحلیلگر داده تا تبدیلشدن به دانشمند داده، راه طولانی در پیش دارد.
یک دانشمند داده در واقع تحلیلگر دادهای عمیقتر و پیشرفتهتر است و میتواند در صورت نیاز فعالیتهای تحلیلگر داده را نیز انجام دهد. اما تحلیلگر داده تا تبدیلشدن به دانشمند داده، راه طولانی در پیش دارد. در سازمانها، دانشمندان داده معمولاً ارتباط بیشتری با تیمهای فنی مانند توسعهدهندگان نرمافزار و تیمهای آیتی دارند و حضور پررنگتری در حوزههای کامپیوتر و فنی دارند.
بااینحال، حل مسائل کسبوکار همچنان در اولویت است و دانشمند داده باید در این زمینه نیز تسلط داشته باشد. در ساختار تیمهای حرفهای، تحلیلگران داده معمولاً بهعنوان رابط میان دانشمند داده و چالشهای بیزینسی عمل میکنند.
مهندسی یادگیری ماشین (ML Engineer)
این موقعیت شغلی که امروز بسیار پررنگتر شده است، شاید پنج سال قبل به این اندازه اهمیت نداشت. در گذشته، این وظیفه بر عهده دانشمندان داده (Data Scientists) بود. آنها پس از ساخت مدلها، مسئولیت آمادهسازی و استقرار آنها در لایه پروداکشن را نیز بر عهده داشتند.
بااینحال، بسیاری از دانشمندان داده، پسزمینه قوی در علوم کامپیوتر نداشتند و در صورت یادگیری، تجربه و تخصص بالایی در توسعه و استقرار مدلها کسب نمیکردند. در نتیجه، پروژهها اغلب در این مرحله با چالشهای جدی مواجه میشدند.
بهتدریج، شرکتهای پیشرو مانند گوگل، مایکروسافت، اپل و آمازون نیاز به موقعیتی را احساس کردند که بتواند این خلأ را پر کند. این نقش با عنوان مهندس یادگیری ماشین تعریف شد.
ویژگیهای مهندس یادگیری ماشین:
- این افراد واسط میان دانشمندان داده و تیمهای توسعه نرمافزار هستند.
- پایه علمی و مهندسی نرمافزار آنها قویتر از دانشمندان داده است.
- علاوه بر تسلط به الگوریتمها و حل مسئله، به چالشهای حوزه دادهکاوی نیز آشنا هستند.
- قادرند کدهایی که توسط دانشمندان داده نوشته میشود را بهینهسازی کرده و عملکرد آنها را ارتقا دهند.
- مدلهای طراحیشده را آماده میکنند تا در قلب نرمافزارهای سازمانی پیادهسازی شود.
- در فرآیند خودکارسازی نتایج مدلهای یادگیری ماشین، نقش کلیدی و مؤثری ایفا میکنند.
مهندسی داده (Data Engineering)
مهندسان داده زیرساختهای لازم برای دسترسی سریع و امن به دادهها را فراهم میکنند. نقش آنها، پشتیبانی از کل فرآیند دادهای در سازمان است تا سایر متخصصان این حوزه بتوانند بدون اختلال و با بالاترین سرعت ممکن به دادههای مورد نیاز خود دسترسی پیدا کنند.
جمعبندی
این چهار نقش کلیدی – دانشمند داده، تحلیلگر داده، مهندس یادگیری ماشین و مهندس داده – هرکدام در بخشی از فرآیند دادهای تمرکز دارند. مهارتهای آنها در حوزههای مشخصی پررنگ است و در سایر بخشها ممکن است نقش آنها کمرنگتر باشد. این تقسیم وظایف به سازمانها اجازه میدهد که با هماهنگی بهتر و تخصص بالاتر، از دادهها بیشترین بهره را ببرند.