بسیاری از ما شنیدهایم که علم داده (Data Science) علمِ دنیای فرداست و متخصصان علم داده به سرعت توسط کسب و کارها جذب میشوند؛ اما شاید فرصتی پیش نیامده باشد تا دربارهی قلمرو علم داده و زیرمجموعههای آن مطالعه کنیم.
با این فرض، میخواهیم در این درس به صورت بسیار مختصر به تعریف علم داده و معرفی دانشها و مهارتهای وابسته به آن بپردازیم.
آیا ما هم با دستاوردهای علم داده سر و کار داریم؟
ممکن است در نگاه اول به نظر برسد که بحث علم داده، یک بحث تخصصی برای محققان است و انسانهای عادی، با دستاوردهای آن سر و کار ندارند (یا اینکه هنوز سر و کار ندارند)، اما چنین فرضی درست نیست:
هر بار که به جستجو در گوگل میپردازیم؛
هر بار که یک وبسایت را باز میکنیم و تبلیغاتی متناسب با سلیقهی ما نمایش داده میشود؛
هر بار که آمازون یا سایتهای خردهفروشی دیگر، بر اساس خریدهای قبلی و انتخابهای فعلی ما، پیشنهادهای جدیدی را مطرح میکنند (موتور توصیهگر)؛
در حال استفاده از دستاوردهای علم داده هستیم. ضمن اینکه در برخی کشورهای توسعهیافته، حق بیمه، مدیریت چراغهای راهنمایی و رانندگی و توزیع امکانات و فرصتهای شهری هم با تکیه بر علم داده انجام میشود.
واقعیت این است که علم داده به معنای خاص، چند دهه قدمت دارد و به معنای عام، ریشههای آن را میتوان در قرنهای گذشته هم جستجو کرد.
اما قدرت گرفتن چند «روند» طی سالهای اخیر، باعث شده که علم داده بیش از پیش مورد توجه قرار بگیرد. از جملهی این روندها میتوان به موارد زیر اشاره کرد:
افزایش حجم دادهها (در حدی که بیگ دیتا به مسئلهی بسیاری از کسب و کارها تبدیل شد)
افزایش قدرت محاسباتی سیستمهای سختافزاری (که پیادهسازی بسیاری از پروژههای علم داده را توجیهپذیر کرد)
افزایش حجم تولید داده در اینترنت (از اطلاعات تراکنشهای انسانها و فعالیت در شبکههای اجتماعی تا دادههای گردآوری شده توسط سنسورها، مثلاً اطلاعات موقعیت فیزیکی انسانها در لحظات مختلف)
خلق روشهای جدیدتر برای تحلیل دادهها
در حال حاضر، بسیاری از کسب و کارها برای حل مسائل خود و بهخصوص سیاستگذاری و انجام اقدامهای پیشگیرانه، از علم داده کمک میگیرند. به این مثال توجه کنید:
فرض کنید یک کسب و کار پوشاک، باشگاهی برای مشتریان خود راهاندازی کرده است. بیشتر مشتریانِ مکرر این کسب و کار، عضو باشگاه مشتریان هستند و از مزیتهای آن بهره میبرند.
اما اعضای هیچ باشگاهی، برای همیشه در آن باشگاه باقی نمیمانند. بلکه زمانی میرسد که تصمیم میگیرند به سراغ برندهای دیگر بروند و همهی امتیازهای جمعشده و مزایا و ساز و کارهای گیمیفیکیشن را که یک کسب و کار، برای درگیر کردن و افزایش وفاداری مشتریان خود طراحی کرده، رها کنند.
فرض کنید کسب و کار مد نظر ما، بنا به تجربه به نتیجه رسیده است که وقتی یک عضو باشگاه، برای یکسال از کارت عضویت خود هیچ استفادهای نمیکند، آن مشتری را میتوان از دست رفته دانست.
به واسطهی سیستم نرمافزاری باشگاه مشتریان، تمام دادههای مربوط به مشتریان قبلی که از دست رفتهاند نیز موجود است (از سن و جنسیت گرفته تا تعداد و زمان و مبلغ تراکنشها و نوع کالاهایی که خریدهاند و تخفیفها و مزایایی که استفاده کردهاند).
سوال اینجاست که چگونه میتوان همین امروز، کسانی را که عضو باشگاه مشتریان هستند و هنوز غیر فعال نشدهاند، اما «احتمال غیرفعالشدنشان در یک سال آینده بالاست» پیدا کرد؟
اگر این افراد با دقت نسبتاً خوبی تشخیص داده شوند، میتوان به شیوههای مختلف (از تماس تلفنی و نظرسنجی تا ارائهی امتیازها و تخفیفهای ویژه)، احتمال غیرفعالشدن آنها را کاهش داد.
این یکی از نمونه سوالهایی است که متخصص علوم داده میتواند به آن پاسخ دهد
تعریف علم داده چیست؟
میگویند علم داده گرفتارِ جنگ تعریفها است (+). به این معنا که افراد مختلف، آن را به شکلهای متفاوتی تعریف کردهاند و چون هیچکس از تعریف دیگری راضی نیست، همه مشغول نقد تعریف یکدیگر هستند.
واقعیت این است که مدعیان تخصص علم داده هم در این میان بیتقصیر نیستند. در حدی که گاهی یک نفر که صرفاً توانایی ترسیم چند نمودار در اکسل را دارد، خود را متخصص علم داده معرفی میکند و نتیجه این میشود که عدهای میگویند: «متخصص علم داده، همان کارشناس آمار است که حقوق بیشتری میخواهد.»
اگر از این اختلافنظرها و افراطها بگذریم، میتوان گفت دو تعریف زیر تقریباً در میان غالب متخصصان علم داده پذیرفته شدهاند:
تعریف علم داده توسط براشلر و همکاران (منبع)
علم داده به ترکیب منحصربهفردی از اصول و روشها، اعم از تحلیل، مهندسی، کارآفرینی و علم ارتباطات اشاره دارد که میکوشد از دادهها، ارزش اقتصادی خلق کند.
تعریف علم داده توسط کِهِلِر (منبع)
علم داده شامل مجموعهای از اصول، مسائل، الگوریتمها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابلاستفاده از حجم بزرگ دادهها بهکار گرفته میشود.
این الگوها واضح نیستند؛ به این معنا که غالباً با تحلیل شهودی کارشناسان، نمیتوان آنها را یافت و درک کرد.
این الگوها کاربردی هستند؛ به این معنا که صرفاً دادههای پیش رو را توصیف نمیکنند؛ بلکه مسیری برای اقدام عملی در اختیار ما میگذارند.