دانشمند داده: شخصی که آمار را بهتر از هر مهندس کامپیوتری می‌داند و مهندسی کامپیوتر را بهتر از هر متخصص آماری می‌فهمد.

لازم به ذکر است که در این تعریف، مهارت‌های موردنیاز به دو بخش تقسیم شده‌اند:

  1. مهارت‌های مرتبط با مهندسی نرم‌افزار و علوم کامپیوتر.
  2. مهارت‌های مرتبط با ریاضیات، آمار و الگوریتم‌ها.

این تعریف نشان می‌دهد که لازم نیست متخصص علم داده در همه این حوزه‌ها به حداکثر توانایی برسد. بلکه باید در حوزه خود نسبت به سایرین برتری داشته باشد. لازم است که در همه این حوزه‌ها وارد شده باشد و بتواند با آنها ارتباط برقرار کند و به صورت تیمی کار کند.

دانشمند داده شخصی است که آمار را بهتر از هر مهندس کامپیوتری می‌داند و مهندسی کامپیوتر را بهتر از هر متخصص آماری می‌فهمد.

اگر شرکتی بخواهد تیم علم داده تشکیل دهد، وظایف این تیم بر اساس تخصص‌ها تقسیم می‌شود. اولین عنصر مهم در این زمینه، تحلیل نیازهای کسب‌وکار است. در این تیم، مدیران و تحلیلگران کسب‌وکار نقش مهمی در تعریف اهداف و چالش‌ها دارند.

سپس، نقش مهندس داده تعریف می‌شود که وظیفه آن شامل ساخت زیرساخت‌های داده‌ای، ایجاد پایگاه داده‌ها و یکپارچه‌سازی آن‌هاست.

این افراد وظیفه دارند که دیتاها را از منایع مختلف جمع‌آوری و یکپارچه کنند و پس از تبدیلات لازم آنها را در دسترس افرادی قرار دهند که طراحی و توسعه مدل را انجام می‌دهند.

مثلا اطلاعات مربوط به مشتریان را در فرایند تعامل با مشتریان، در یک نرم‌افزار crm و در دیتابیس مربوط به آن قرار می‌دهند. حوزه مربوط به مالی و حسابداری در یک دیتابیس دیگری است و حوزه مربوط به خود پرسنل  نیز ممکن است در یک دیتابیس دیگری ذخیره شود. ولی اگر لازم شد این موارد باید بتوانند کنار هم نیز قرار بگیرند. همچنین وظیفه پاکسازی و اعتبارسنجی اولیه داده‌ها نیز معمولاً بر عهده مهندس داده است.

بعد از آماده‌سازی داده‌ها، تیم علم داده یا همان دیتاساینتیست ها به تحلیل و مدل‌سازی داده‌ها می‌پردازد. در این بخش، ابزارهایی مانند پایتون و R برای تحلیل داده‌ها به کار گرفته می‌شود. خروجی این تحلیل‌ها معمولاً به‌صورت داشبوردهای مدیریتی یا سیستم‌های پشتیبان تصمیم‌گیری ارائه می‌شود.

نکته مهم این است که در ساختار تیم‌های علم داده، نیازی نیست یک نفر به تنهایی تمامی وظایف را انجام دهد. بلکه این وظایف میان متخصصان مختلف تقسیم می‌شود. در گذشته، تیم‌های علم داده در شرکت‌های ایرانی معمولاً با یک یا دو نفر شروع می‌شدند و انتظارات غیرواقع‌بینانه‌ای از آن‌ها داشتند که منجر به شکست پروژه‌ها می‌شد. امروزه، بسیاری از سازمان‌ها به اهمیت تخصصی‌سازی در این زمینه پی برده‌اند.

به‌طور کلی، در یک تیم علم داده، موقعیت‌های شغلی زیر وجود دارد:

  1. تحلیلگر داده: تمرکز بر گزارش‌دهی، تحلیل‌های توصیفی و ایجاد داشبوردهای مدیریتی.
  2. دانشمند داده: توسعه مدل‌های تحلیلی پیشرفته و کار با داده‌های ساخت‌یافته و غیرساخت‌یافته.
  3. مهندس یادگیری ماشین: خودکارسازی مدل‌های یادگیری ماشین و توسعه راهکارهای نرم‌افزاری.
  4. مهندس داده: ایجاد و یکپارچه‌سازی زیرساخت‌های داده‌ای و پایپ‌لاین‌های داده.

با این تقسیم‌بندی تخصصی، مسیر پیشرفت در این حوزه منطقی‌تر و قابل‌دسترس‌تر خواهد بود.

تحلیلگر داده (Data Analyst)
تحلیلگر داده بیشتر تمرکزش روی گزارش‌ها و تحلیل‌های توصیفی از وضعیت موجود سازمان به‌صورت داده‌محور است. کار تحلیلگر داده در بستر داده‌ها صورت می‌گیرد و شامل بررسی روندها و ترندها و حتی مدل‌سازی اولیه می‌شود. هدف اصلی، ارائه گزارش‌دهی و داشبوردهای مدیریتی است. در این جایگاه، تحلیلگر داده به‌شدت به ادبیات کسب‌وکار و چالش‌های آن نزدیک است و یاد گرفته چطور با دادها ها کار کند، داده‌ها را پاکسازی و خلاصه‌سازی کند.

از وظایف اساسی تحلیلگر داده می‌توان به داستان‌سرایی (Storytelling) در گزارشات، طراحی داشبوردهای مدیریتی و بصری‌سازی (Visualization) اشاره کرد. تحلیلگر داده باید به ابزارهایی مانند تبلو (Tableau) و پاور بی‌آی (Power BI) مسلط باشد تا گزارشات مدیریتی جذاب و پویا را برای ارائه آماده کند. معمولاً تحلیلگر داده به دلیل ارتباط زیاد با ادبیات کسب‌وکار و چالش‌های آن، در کنار مدیران و تحلیلگران کسب‌وکار قرار دارد.

دانشمند داده (Data Scientist)
دیتا ساینتیست یا دانشمند داده، مسئول توسعه مدل‌های هوشمند و پیشرفته است. برای انجام این وظایف، باید در آمار، احتمال و یادگیری ماشین (Machine Learning) مهارت عمیقی داشته باشد و با ریاضیات و مباحث جبر خطی هم تا حدی آشنایی پیدا کند. این آشنایی از منظر عملی و مسئله‌محور است و نه دید دانشگاهی یا تئوری صرف.

تفاوت مهم دانشمند داده با تحلیلگر داده این است که علاوه بر داده‌های ساختاریافته، با انواع مختلف داده‌ها (چندمدلی) هم کار می‌کند؛ مانند داده‌های متنی، تصویری و صوتی. به‌عنوان مثال، دانشمند داده باید بتواند متنی مانند یک مقاله را تحلیل کرده، عکس را به‌عنوان ورودی مدل پردازش کند یا صدای ورودی را تحلیل کند.

یک دانشمند داده در واقع تحلیلگر داده‌ای عمیق‌تر و پیشرفته‌تر است و می‌تواند در صورت نیاز فعالیت‌های تحلیلگر داده را نیز انجام دهد. اما تحلیلگر داده تا تبدیل‌شدن به دانشمند داده، راه طولانی در پیش دارد.

یک دانشمند داده در واقع تحلیلگر داده‌ای عمیق‌تر و پیشرفته‌تر است و می‌تواند در صورت نیاز فعالیت‌های تحلیلگر داده را نیز انجام دهد. اما تحلیلگر داده تا تبدیل‌شدن به دانشمند داده، راه طولانی در پیش دارد. در سازمان‌ها، دانشمندان داده معمولاً ارتباط بیشتری با تیم‌های فنی مانند توسعه‌دهندگان نرم‌افزار و تیم‌های آی‌تی دارند و حضور پررنگ‌تری در حوزه‌های کامپیوتر و فنی دارند.

بااین‌حال، حل مسائل کسب‌وکار همچنان در اولویت است و دانشمند داده باید در این زمینه نیز تسلط داشته باشد. در ساختار تیم‌های حرفه‌ای، تحلیلگران داده معمولاً به‌عنوان رابط میان دانشمند داده و چالش‌های بیزینسی عمل می‌کنند.

مهندسی یادگیری ماشین (ML Engineer)

این موقعیت شغلی که امروز بسیار پررنگ‌تر شده است، شاید پنج سال قبل به این اندازه اهمیت نداشت. در گذشته، این وظیفه بر عهده دانشمندان داده (Data Scientists) بود. آن‌ها پس از ساخت مدل‌ها، مسئولیت آماده‌سازی و استقرار آن‌ها در لایه پروداکشن را نیز بر عهده داشتند.

بااین‌حال، بسیاری از دانشمندان داده، پس‌زمینه قوی در علوم کامپیوتر نداشتند و در صورت یادگیری، تجربه و تخصص بالایی در توسعه و استقرار مدل‌ها کسب نمی‌کردند. در نتیجه، پروژه‌ها اغلب در این مرحله با چالش‌های جدی مواجه می‌شدند.

به‌تدریج، شرکت‌های پیشرو مانند گوگل، مایکروسافت، اپل و آمازون نیاز به موقعیتی را احساس کردند که بتواند این خلأ را پر کند. این نقش با عنوان مهندس یادگیری ماشین تعریف شد.

ویژگی‌های مهندس یادگیری ماشین:

  • این افراد واسط میان دانشمندان داده و تیم‌های توسعه نرم‌افزار هستند.
  • پایه علمی و مهندسی نرم‌افزار آن‌ها قوی‌تر از دانشمندان داده است.
  • علاوه بر تسلط به الگوریتم‌ها و حل مسئله، به چالش‌های حوزه داده‌کاوی نیز آشنا هستند.
  • قادرند کدهایی که توسط دانشمندان داده نوشته می‌شود را بهینه‌سازی کرده و عملکرد آن‌ها را ارتقا دهند.
  • مدل‌های طراحی‌شده را آماده می‌کنند تا در قلب نرم‌افزارهای سازمانی پیاده‌سازی شود.
  • در فرآیند خودکارسازی نتایج مدل‌های یادگیری ماشین، نقش کلیدی و مؤثری ایفا می‌کنند.

مهندسی داده (Data Engineering)

مهندسان داده زیرساخت‌های لازم برای دسترسی سریع و امن به داده‌ها را فراهم می‌کنند. نقش آن‌ها، پشتیبانی از کل فرآیند داده‌ای در سازمان است تا سایر متخصصان این حوزه بتوانند بدون اختلال و با بالاترین سرعت ممکن به داده‌های مورد نیاز خود دسترسی پیدا کنند.

جمع‌بندی

این چهار نقش کلیدی – دانشمند داده، تحلیل‌گر داده، مهندس یادگیری ماشین و مهندس داده – هرکدام در بخشی از فرآیند داده‌ای تمرکز دارند. مهارت‌های آن‌ها در حوزه‌های مشخصی پررنگ است و در سایر بخش‌ها ممکن است نقش آن‌ها کمرنگ‌تر باشد. این تقسیم وظایف به سازمان‌ها اجازه می‌دهد که با هماهنگی بهتر و تخصص بالاتر، از داده‌ها بیشترین بهره را ببرند.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها