
علم داده یکی از محبوب ترین حرفه ها در دنیای فناوری در قرن بیست و یکم است. هر صنعتی دارای ابهامات و مجهولات بسیاری است که پاسخ آن در مفهوم کلان داده خلاصه می شود. از مشاغل دولتی گرفته تا شرکت های خصوصی و موسسات تحقیقاتی، همه این مشاغل حجم زیادی از اطلاعات را تولید می کنند که نیاز به پردازش و تجزیه و تحلیل دارند. حجم به ظاهر نامحدودی از اطلاعات وجود دارد که می توان آنها را سازماندهی، تفسیر کرد و برای طیف وسیعی از اهداف استفاده کرد.
چگونه یک کسب و کار می تواند داده های خرید خود را برای اجرای یک طرح بازاریابی موفق سازماندهی کند؟ چگونه سازمانهای دولتی میتوانند از رفتارهای ناشناس و مدلهای اطلاعات مشتری برای بهبود خدمات اجتماعی جذاب استفاده کنند؟ چگونه یک شرکت تبلیغاتی می تواند بیشترین استفاده را از بودجه بازاریابی موجود برای بهبود عملیات تجاری بالقوه خود ببرد؟ همه پاسخ ها به یک شغل برمی گردد و آن یک دانشمند داده است.
متخصص داده کیست؟
دانشمندان داده افرادی هستند که وظیفه جمع آوری، سازماندهی و تجزیه و تحلیل داده ها را بر عهده دارند و به افراد در صنایع مختلف کمک می کنند تا وظایف خود را به بهترین نحو ممکن انجام دهند.
دانشمندان داده می توانند تجربیات آموزشی متنوع و تسلط کامل بر طیف گسترده ای از مهارت های فنی داشته باشند. این در حالی است که اکثر این افراد دارای مدرک لیسانس، فوق لیسانس یا دکترا در رشته های علوم کامپیوتر، ریاضیات و آمار هستند. معمولاً متخصص داده برای انجام بهتر فعالیت های خود نیاز به دانش کافی در زمینه کسب و کار به ویژه صنعتی که قصد ورود به آن را دارد دارد.
دانشمندان داده از انواع تکنیک ها و رشوه برای جمع آوری و تجزیه و تحلیل اطلاعات استفاده می کنند. دانشمندان داده می توانند داده ها را به صورت محتوای بصری، تصاویر (نمایش گرافیکی داده ها) و مدل های داده شفاف یا به صورت صفحات گسترده در نرم افزارهایی مانند Excel ارائه دهند. هدف ارائه اطلاعات به گونه ای است که برای افراد مختلف قابل درک باشد.
دانشمندان داده اغلب الگوریتمهای بسیار پیشرفتهای ایجاد میکنند که مدلها را تعریف میکنند، دادهها را از مجموعهای از اعداد و آمار میگیرند و آنچه میتواند برای یک کسبوکار یا سازمان مفید باشد استخراج میکند.
علم داده دنیای واقعی
برای اینکه تصور واضحی از این موقعیت به شما بدهیم، اجازه دهید به یک مثال ساده نگاه کنیم. فرض کنید یک شرکت گوشیهای هوشمند به دنبال این است که بفهمد کدام یک از مشتریان فعلیاش میتوانند به یک رقیب مراجعه کنند. این شرکت می تواند یک تحلیلگر داده استخدام کند تا طیف وسیعی از داده های مختلف (یا به طور خاص الگوریتمی برای پردازش این داده ها) مربوط به مشتریان را بررسی کند.
تحلیلگر داده یا دانشمند ممکن است متوجه شود که مشتریانی که از شبکه های سلولی استفاده می کنند به احتمال زیاد به گوشی هوشمندی با ظرفیت باتری بالا نیاز دارند و سپس متوجه شوند که اکثر مشتریان این شرکت بین سنین 35 تا 45 سال هستند. به همین دلیل است که آنها ترجیح می دهند گوشی هوشمندی بخرند که چنین خدماتی را ارائه می دهد. تجزیه و تحلیل و تجزیه و تحلیل داده ها به یک شرکت تلفن همراه کمک می کند تا برنامه تجاری یا محصولات تجاری خود را به گونه ای تغییر دهد که مشتریان فعلی و جدید را جذب کند.
یکی دیگر از نمونه های واقعی آن، کاربران نتفلیکس هستند که هر بار که وارد حساب کاربری خود می شوند، طیف گسترده ای از پیشنهادات جذاب را مشاهده می کنند که علایق آنها را برآورده می کند. سرویس پخش ویدیو دارای برنامه ای است که به شما پیشنهاداتی را ارائه می دهد که مطابق با ترجیحات شما باشد. این الگوریتم از اطلاعات تاریخچه مشاهده گذشته استفاده می کند تا توصیه هایی را برای نمایش هایی که ممکن است دوست داشته باشید به شما ارائه دهد. این را می توان در سرویس هایی مانند Pandora با شست بالا و پایین و از آمازون با توصیه های خرید مشاهده کرد.
علم داده در مقابل آمار
علم داده را نباید با آمار اشتباه گرفت. اگرچه این دو حوزه ترکیبی از مهارت های مشابه دارند و هر دو اهداف مشترکی را دنبال می کنند (مثلاً از حجم زیادی از داده ها برای رسیدن به نتیجه مطلوب استفاده می کنند)، اما تفاوت هایی نیز دارند.
علم داده یک رشته جدیدتر و مدرنتر است و قویاً مبتنی بر استفاده از رایانه و فناوری است. دانشمندان داده برای انجام کار خود، دستکاری داده ها از طریق کدگذاری و نمایش نتایج در نمودارها و نمودارها به پایگاه های داده بزرگ نیاز دارند.
از سوی دیگر، آمار بیشتر مبتنی بر نظریه های اثبات شده است و بیشتر بر آزمون فرضیه ها تمرکز دارد. آمار علم قدیمی تری است که بیش از 100 سال قدمت دارد و در طول سال ها تغییرات چشمگیری داشته است، در حالی که علم داده بر استفاده از رایانه و استفاده از فناوری های جدید تمرکز دارد و دائماً در حال تغییر است.
چگونه یک دانشمند شویم؟
به طور کلی، سه مرحله برای تبدیل شدن به یک دانشمند داده وجود دارد:
مدرک لیسانس در رشته هایی مانند فناوری اطلاعات، علوم کامپیوتر، ریاضیات، بازرگانی یا سایر رشته های مرتبط؛
اخذ مدرک کارشناسی ارشد در علم داده یا رشته های مرتبط؛
کسب تجربه در زمینه ای که قصد دارید در آن کار کنید (به عنوان مثال: مراقبت های بهداشتی، فیزیک، تجارت).
چه کسی کاندیدای خوبی برای شغل در علم داده است؟
ویژگی های متمایز دانشمندان داده چیست؟ چگونه می توانید مطمئن شوید که ما دانش اولیه برای ورود به این زمینه را داریم یا نه؟
معمولاً یک دانشمند داده های ذهنی کنجکاو و مشکوکی دارد که به دنبال یادگیری مداوم است.
دانشمندانی که به این رشته علاقه دارند مهارت های سازمانی قوی دارند. همانطور که قبلاً گفتیم، دانشمندان داده در حجم وسیعی از اطلاعات درگیر هستند، بنابراین آنها باید بتوانند اطلاعات را به درستی و منطقی سازماندهی کنند.
علم داده گاهی اوقات می تواند استرس زا باشد، بنابراین باید روحیه ای قوی برای مقابله با ناملایمات داشته باشید. وقتی همه چیز سخت می شود و به نظر نمی رسد پاسخی پیدا شود، یک دانشمند داده خوب به سازماندهی مجدد، تجزیه و تحلیل مجدد و کار روی داده ها به امید یافتن راه حلی جدید ادامه می دهد.
از دیگر ویژگی های این موقعیت می توان به خلاقیت، توانایی قوی برای متمرکز ماندن و توجه به جزئیات اشاره کرد.
چگونه یک دانشمند شویم؟
راه های زیادی برای ورود به این رشته و تبدیل شدن به یک متخصص داده واجد شرایط وجود دارد، اما تقریباً در هر مرحله به مدرک دانشگاهی نیاز دارید. به عبارت دقیق تر، یافتن شغل در این زمینه بدون تحصیلات عالی تقریبا غیرممکن است. دانشمندان داده حداقل به مدرک لیسانس نیاز دارند، اما به خاطر داشته باشید که 79 درصد از متخصصان صنعت دارای مدرک فوق لیسانس و 38 درصد دارای مدرک دکترا هستند. اگر به دنبال موقعیت رهبری پیشرفته هستید، باید مدرک کارشناسی ارشد یا دکترا داشته باشید. به طور کلی، مهارت هایی که یک دانشمند داده برای انجام وظایف خود به آن نیاز دارد به شرح زیر است:
آمار و احتمال و جبر خطی
برنامه نویسی کامپیوتر با زبان هایی مانند R و Python.
آشنایی با موضوعات یادگیری ماشینی
آشنایی با موضوعات استخراج داده ها
آشنایی با موضوع تجسم داده ها
آشنایی با ابزارهای قابل استفاده در این زمینه مانند PowerBI
آشنایی با سیستم های مدیریت پایگاه داده رابطه ای و غیر رابطه ای
تسلط بر مهارت های مربوط به استخراج داده ها از منابع داخلی و وب (Scrapy، Apache Nutch و JSoup)
آشنایی با مبانی کلان داده و نحوه کار با آن
امکان کار با داده های بدون ساختار مانند داده های متنی در وبلاگ ها، شبکه های اجتماعی و غیره.
تحصیلات (تحصیلات): همانطور که گفته شد، دانشمندان داده دارای تحصیلات عالی هستند. 79 درصد حداقل دارای مدرک فوق لیسانس و 38 درصد دارای مدرک دکترا هستند. فارغ التحصیلان رشته های ریاضی و آمار (32%)، علوم کامپیوتر (19%) و مهندسی فنی (16%) معمولا از جمله افرادی هستند که وارد این رشته می شوند. هر یک از این رشته ها مهارت های مورد نیاز برای کار با حجم زیادی از داده ها و پردازش اطلاعات را به دانش آموزان می آموزد. علاوه بر مدارک تحصیلی در این رشته ها، دانشمندان داده در ابزارهایی مانند Hadoop و تجزیه و تحلیل داده های بزرگ نیز آموزش می بینند.
برنامه نويسي (برنامه نويسي): زبان های برنامه نویسی پایتون، R و MATLAB معمولا ابزارهای اصلی دانشمندان داده هستند. 43 درصد از دانشمندان داده از این زبان های برنامه نویسی برای حل مسائل آماری استفاده می کنند. پایتون و R برای هر مشکلی که در علم داده با آن مواجه می شوید راه حل ارائه می دهند. با این حال، پایتون یک زبان برنامه نویسی عالی برای دانشمندان فراهم می کند. با توجه به انعطاف پذیری پایتون، می توانید از این زبان در ارتباط با جنبه های مختلف کار استفاده کنید.
زیرساخت هادوپ (پلت فرم Hadoop)به عنوان یک دانشمند داده، ممکن است با موقعیتهایی مواجه شوید که مقدار دادههای موجود از فضای آزاد موجود در حافظه بیشتر باشد، یا ممکن است لازم باشد دادهها را به سرورهای مختلف ارسال کنید. اینجا جایی است که هادوپ برای کمک به شما وارد می شود. می توانید از Hadoop برای ارسال داده ها به سیستم ها، داده های تحقیق، پالایش داده ها و داده های نمونه استفاده کنید.
کدگذاری پایگاه داده (پایگاه داده / کدنویسی SQL)برای کار با پایگاه های داده باید از زبان پرس و جو ساختاریافته (SQL) استفاده کنید. این زبان به شما امکان می دهد انواع مختلفی از دیالوگ ها را اجرا کنید، مانند افزودن، حذف و بازیابی داده ها از پایگاه داده. این زبان برنامه نویسی به شما کمک می کند تا کوئری های دقیق بنویسید و اطلاعات لازم را از پایگاه های داده به دست آورید. فرآیند بازیابی اطلاعات از پایگاه های داده برای کاربردهای مختلف را بازیابی می گویند. بنابراین برای ورود به این حوزه باید دانش SQL خود را ارتقا دهید.
آپاچی اسپارک (آپاچی اسپارک) : Apache Spark یک موتور قدرتمند توزیع داده بزرگ است. Spark می تواند از انواع سیستم های ذخیره سازی توزیع شده مانند HDFS یا Cassandra استفاده کند. اسپارک سریعتر از هادوپ است. علاوه بر این، از زبان های برنامه نویسی مختلف مانند جاوا، پایتون؛ R، Scala و SQL پشتیبانی می شوند.
یادگیری ماشین و هوش مصنوعی (یادگیری ماشینی و هوش مصنوعی)دانشمندان داده باید در زمینه هایی مانند یادگیری ماشینی و زیرشاخه هایی مانند آموزش تقویت شده مهارت داشته باشند. دانشمندان داده ای که قصد انجام کار حرفه ای را دارند، علاوه بر مهارت های مرتبط، بر مطالعه موضوعات دیگری مانند یادگیری ماشین کنترل شده، درخت تصمیم، رگرسیون و غیره تمرکز می کنند. این به آنها کمک می کند تا راه حل های موثرتری پیدا کنند.
تجسم داده ها (تجسم داده ها): در دنیای تجارت حجم زیادی داده تولید می شود که نمایش آن در قالب آمار روزانه جالب نیست. بنابراین، این داده ها باید به گونه ای قالب بندی شوند که درک آن آسان تر شود. البته معنای تصاویر و داده های ارائه شده در قالب نمودار را بهتر درک می کنیم. به همین دلیل، دانشمندان داده باید دانش کافی برای کار با ابزارهای تصویرسازی مانند ggplot، d3.js، Matplottlib و Tableau داشته باشند.
توانایی کار با داده های بدون ساختار (داده های بدون ساختار): متأسفانه، بسیاری از داده هایی که یک متخصص داده باید با آنها کار کند، ساختاری ندارند. داده های بدون ساختار به نوعی از اطلاعات اطلاق می شود که چارچوب خاصی ندارند. برای مثال می توانید متون را به صورت رکوردهای داده در پایگاه های داده ذخیره کنید و سپس روی آنها کار کنید. با این حال، دادههای بدون ساختار عمدتاً در ویدیوها، پستهای وبلاگ، تصاویر، نظرات مشتریان، پستهای رسانههای اجتماعی، صدا و غیره یافت میشوند که نمیتوان آنها را دستهبندی کرد.
مرتب سازی این نوع داده ها دشوار است و کار با آنها آسان نیست. به دلیل پیچیدگی این مدل، اکثر کارشناسان داده های بدون ساختار را سخت ترین کار برای دانشمندان داده می دانند و برای توصیف آن از اصطلاح تحلیل داده های تاریک استفاده می کنند. کار با داده های بدون ساختار به شما کمک می کند تا بینش های ارزشمندی را به دست آورید که به شما در تصمیم گیری کمک می کند.
ابزار (ابزار): ابزارهای مختلفی برای استخراج و تجزیه و تحلیل داده ها موجود است که کار دانشمندان داده را ساده می کند. از جمله این ابزارها می توان به نرم افزار weka، IBM SPSS Modeler و Rapid Miner اشاره کرد. آیا با وجود تسلط بر زبان های برنامه نویسی نیاز به یادگیری این ابزارها دارید؟ آره. در این خصوص باید گفت که نیازی به این کار نیست، اما گاهی اوقات استفاده از این ابزارها سرعت عمل را افزایش می دهد و برخی از آنها قابلیت های ویژه بازیابی اطلاعات را برای ساده سازی فرآیند بازیابی داده ها ارائه می دهند. به عنوان مثال، ابزار Google Refine یا OpenRefine گزینه های مختلفی را برای پیش پردازش داده ها (پاکسازی، ادغام و نقشه برداری) در اختیار کاربر قرار می دهد.
منبع:
https://www.geteducated.com/careers/how-to-become-a-data-scientist/
متخصص داده کیست و به چه مهارت هایی نیاز دارد؟ برای اولین بار در علم و فناوری در صبح. به نظر می رسد.