بسیاری از ما شنیده‌ایم که علم داده (Data Science) علمِ دنیای فرداست و متخصصان علم داده به سرعت توسط کسب و کارها جذب می‌شوند؛ اما شاید فرصتی پیش نیامده باشد تا درباره‌ی قلمرو علم داده و زیرمجموعه‌های آن مطالعه کنیم.

با این فرض، می‌خواهیم در این درس به صورت بسیار مختصر به تعریف علم داده و معرفی دانش‌ها و مهارتهای وابسته به آن بپردازیم.

آیا ما هم با دستاوردهای علم داده سر و کار داریم؟

ممکن است در نگاه اول به نظر برسد که بحث علم داده، یک بحث تخصصی برای محققان است و انسان‌های عادی، با دستاوردهای آن سر و کار ندارند (یا این‌که هنوز سر و کار ندارند)، اما چنین فرضی درست نیست:

هر بار که به جستجو در گوگل می‌پردازیم؛
هر بار که یک وب‌سایت را باز می‌کنیم و تبلیغاتی متناسب با سلیقه‌ی ما نمایش داده می‌شود؛

هر بار که آمازون یا سایت‌های خرده‌فروشی دیگر، بر اساس خریدهای قبلی و انتخاب‌های فعلی ما، پیشنهادهای جدیدی را مطرح می‌کنند (موتور توصیه‌گر)؛

در حال استفاده از دستاوردهای علم داده هستیم. ضمن این‌که در برخی کشورهای توسعه‌یافته، حق بیمه، مدیریت چراغ‌های راهنمایی و رانندگی و توزیع امکانات و فرصت‌های شهری هم با تکیه بر علم داده انجام می‌شود.

واقعیت این است که علم داده به معنای خاص، چند دهه قدمت دارد و به معنای عام، ریشه‌های آن را می‌توان در قرن‌های گذشته هم جستجو کرد.

اما قدرت گرفتن چند «روند» طی سال‌های اخیر، باعث شده که علم داده بیش از پیش مورد توجه قرار بگیرد. از جمله‌ی این روندها می‌توان به موارد زیر اشاره کرد:

افزایش حجم داده‌ها (در حدی که بیگ دیتا به مسئله‌ی بسیاری از کسب و کارها تبدیل شد)

افزایش قدرت محاسباتی سیستم‌های سخت‌افزاری (که پیاده‌سازی بسیاری از پروژه‌های علم داده را توجیه‌پذیر کرد)

افزایش حجم تولید داده در اینترنت (از اطلاعات تراکنش‌های انسان‌ها و فعالیت در شبکه‌های اجتماعی تا داده‌های گردآوری شده توسط سنسورها، مثلاً اطلاعات موقعیت فیزیکی انسان‌ها در لحظات مختلف)

خلق روش‌های جدیدتر برای تحلیل داده‌ها

در حال حاضر، بسیاری از کسب و کارها برای حل مسائل خود و به‌خصوص سیاست‌گذاری و انجام اقدام‌های پیشگیرانه، از علم داده کمک می‌گیرند. به این مثال توجه کنید:

فرض کنید یک کسب و کار پوشاک، باشگاهی برای مشتریان خود راه‌اندازی کرده است. بیشتر مشتریانِ مکرر این کسب و کار، عضو باشگاه مشتریان هستند و از مزیت‌های آن بهره می‌برند.

اما اعضای هیچ باشگاهی، برای همیشه در آن باشگاه باقی نمی‌مانند. بلکه زمانی می‌رسد که تصمیم می‌گیرند به سراغ برندهای دیگر بروند و همه‌ی امتیازهای جمع‌شده و مزایا و ساز و کارهای گیمیفیکیشن را که یک کسب و کار، برای درگیر کردن و افزایش وفاداری مشتریان خود طراحی کرده، رها کنند.

فرض کنید کسب و کار مد نظر ما، بنا به تجربه به نتیجه رسیده است که وقتی یک عضو باشگاه، برای یکسال از کارت عضویت خود هیچ استفاده‌ای نمی‌کند، آن مشتری را می‌توان از دست‌ رفته دانست.

به واسطه‌ی سیستم نرم‌افزاری باشگاه مشتریان، تمام داده‌های مربوط به مشتریان قبلی که از دست رفته‌اند نیز موجود است (از سن و جنسیت گرفته تا تعداد و زمان و مبلغ تراکنش‌ها و نوع کالاهایی که خریده‌اند و تخفیف‌ها و مزایایی که استفاده کرده‌اند).

سوال این‌جاست که چگونه می‌توان همین امروز، کسانی را که عضو باشگاه مشتریان هستند و هنوز غیر فعال نشده‌اند، اما «احتمال غیرفعال‌شدن‌شان در یک سال آینده بالاست» پیدا کرد؟

اگر این افراد با دقت نسبتاً خوبی تشخیص داده شوند، می‌توان به شیوه‌های مختلف (از تماس تلفنی و نظرسنجی تا ارائه‌ی امتیازها و تخفیف‌های ویژه)، احتمال غیرفعال‌شدن‌ آن‌ها را کاهش داد.

این یکی از نمونه سوال‌هایی است که متخصص علوم داده می‌تواند به آن پاسخ دهد

مأموریت QUE که یک پرسش VAS را نشان می‌دهد

تعریف علم داده چیست؟

می‌گویند علم داده گرفتارِ جنگ تعریف‌ها است (+). به این معنا که افراد مختلف، آن را به شکل‌های متفاوتی تعریف کرده‌اند و چون هیچ‌کس از تعریف دیگری راضی نیست، همه مشغول نقد تعریف یکدیگر هستند.

واقعیت این است که مدعیان تخصص علم داده هم در این میان بی‌تقصیر نیستند. در حدی که گاهی یک نفر که صرفاً توانایی ترسیم چند نمودار در اکسل را دارد، خود را متخصص علم داده معرفی می‌کند و نتیجه این می‌شود که عده‌ای می‌گویند: «متخصص علم داده، همان کارشناس آمار است که حقوق بیشتری می‌خواهد.»

اگر از این اختلاف‌نظرها و افراط‌ها بگذریم، می‌توان گفت دو تعریف زیر تقریباً در میان غالب متخصصان علم داده پذیرفته شده‌اند:

تعریف علم داده توسط براشلر و همکاران (منبع)

علم داده به ترکیب منحصر‌به‌فردی از اصول و روش‌ها، اعم از تحلیل، مهندسی، کارآفرینی و علم ارتباطات اشاره دارد که می‌کوشد از داده‌ها، ارزش اقتصادی خلق کند.

تعریف علم داده توسط کِهِلِر (منبع)

علم داده شامل مجموعه‌ای از اصول، مسائل، الگوریتم‌ها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابل‌استفاده از حجم بزرگ داده‌ها به‌کار گرفته می‌شود.

این الگوها واضح نیستند؛ به این معنا که غالباً با تحلیل شهودی کارشناسان، نمی‌توان آن‌ها را یافت و درک کرد.

این الگوها کاربردی هستند؛ به این معنا که صرفاً داده‌های پیش رو را توصیف نمی‌کنند؛ بلکه مسیری برای اقدام عملی در اختیار ما می‌گذارند.