ما در آینده (و حتی در حال حاضر) به دانشمندان علوم داده و علوم آماری به شدت نیاز خواهیم داشت. چه از جهت تحلیل داده ها و چه از جهت اعتبارسنجی داده ها، چه برای ارتقا جامعه، چه از جهت تصمیمات سیاسی و اقتصادی کلان، چه از جهت توسعهی اقتصادی و حتی پیشرفت بیزینسهای بزرگ و کوچک، دیر یا زود بایستی به سراغ دانشمندان علوم داده برویم و از آنها بخواهیم راه درست را نشانمان بدهند.
ما نه تنها از بابت پیشرفت خودمان بایستی به سراغ آنها برویم، بلکه برای اینکه دیگران (به خصوص سیاستمداران و رسانهها) نیز نتوانند سرمان کلاه بگذارند، به آنها نیاز داریم. اجازه دهید با یک مثال تاریخی اهمیت این موضوع را بررسی کنیم. فرض کنید شما یک سرمایه دار ساکن ایالات متحده است که در سال ۱۹۳۶ زندگی میکنید و تصمیم دارید برای منافع شخصیتان، از یکی از کاندیداهای انتخابات ریاست جمهوری ایالات متحده حمایت کنید تا او نیز بعدا برای شما به شکلی دیگر جبران بکند.
خب این اتفاقیست که بعضا رخ میدهد و قابل انکار نیست و شاید یکی از ضعفهای دموکراسیست که رای ثروتمندان، رایتر است. اما شما نمیخواهید سرمایهتان را هدر بدهید و میخواهید از کاندیدایی حمایت کنید که احتمال میدهید، در انتخابات پیروز میشود و چون ارزش آمار و داده را میدانید، به جستجوی نتایج نظرسنجیها میپردازید. بعد از جستجو میبینید مجلهی Literary Digest، مدتی قبل یک نظرسنجی را آغاز کرده است و ده میلیون برگه نظرسنجی را برای افراد مختلف ارسال کرده و از آنها خواسته که بگویند در انتخابات ریاست جمهوری ۱۹۳۶ به چه کسی رای میدهند؟
خب با توجه به جمعیت ۱۳۰ میلیونی آنموقع ایالات متحده، به نظر مطالعهی بدی نمیآید. از ۱۰ میلیون برگهی نظرسنجی ارسالی، ۲/۴ میلیون نفر، پاسخ را ارسال کردند. باز هم به نظر آنقدر بد نیست، چرا که ۲۵ درصد کسانی که برگهی نظرسنجی را دریافت کردهاند، به آن پاسخ داده اند.
نتایج نظرسنجی نشان میدهد که آلف لاندون جمهوری خواه با نتیجهی ۵۷ درصد در مقابل ۴۳ درصد، فرانکلین روزولت دموکرات را شکست میدهد. شما که تقریبا به نظرسنجی اطمینان پیدا کرده اید، چند میلیون دلار صرف کمپین تبلیغاتی لاندون میکنید. چند ماه بعد، شما از نتیجهی انتخابات به شدت شوکه میشوید!!! روزولت با کسب ۶۲ درصد آرا، به عنوان سی و دومین رئیس جمهور ایالات متحده انتخاب میشود.
اما کجای نظرسنجی آن مجله اشکال داشته است؟
اولا نمونهگیری مشکل داشته و مجله شرکت کنندگان را از لیست تلفنها، لیست پلاک خودروها و لیست اعضای کلوبها انتخاب کرده که اکثرا انسانهای ثروتمند و متمولی بوده اند. اما در این زمان، ایالات متحده از مشکلات اقتصادی رنج میبرد و اقتصادی که برای ثروتمندان چندان مطرح نیست، عامل تعیین کننده در انتخابات است.
مسالهی دوم عدم پاسخ اکثر شرکت کنندگان در نظرسنجیست. وقتی تنها ۲۵ درصد شرکت کنندگان پاسخ میدهند، شما نمیتوانید آن ۷۵ درصدی که پاسخ نمیدهند را نادیده بگیرید که اگر بگیرید، دچار سوگیری عدم پاسخ (nonresponse bias) شده اید. حالا شما که از مشورت با یک متخصص آمار یا علوم داده بهره نبرده اید، ماندهاید با چند میلیون دلار پول هدر رفته.
– اَبا اِباد