تحلیل داده در سرن

فرض کنید یک روز شما تصمیم می‌گیرید که ببینید مهمترین دغدغه‌ی انسان‌ها در عصر حاضر چیست. شاید راحت ترین و در دسترس ترین جایی که انسان ها را از اقصی نقاط جهان در آنجا پیدا کرد، همین شبکه‌های اجتماعی باشد. مثلا اینستاگرام را انتخاب می‌کنید و می‌گویید چون حدود ۲ میلیارد نفر از مردم جهان عضو اینستاگرام هستند این راه خوبی برای شناخت انسان‌ها و رفتار آن‌هاست. پس به اینستاگرام می‌روید. در اکسپلور اینستاگرام شروع می‌کنید و اکانت افراد مختلف را باز می‌کنید و پست‌های آن‌ها را می‌بینید. بعد از چند ساعت متوجه می‌شوید که اصلا به این شکل نمی‌توان تعداد زیادی از مردم را شناخت و راجع به نظراتشان چیزی فهمید. خیلی زود شما می‌فهمید که باید یک الگوریتم کامپیوتری این کار را برای شما انجام دهد. اما این هم کار خیلی ساده‌ای نیست.

آمارها نشان می‌دهد که کاربران اینستاگرام به طور میانگین روزانه تا ۲۰۰ میلیون عکس و فیلم در این پلتفرم آپلود می‌کنند. اگر حجم هر عکس و فیلمی را به طور میانگین ۳ مگابایت فرض کنیم که خیلی هم زیاد نیست الگوریتم شما ناچار است که در روز حدود ۶۰۰ هزار گیگابایت داده را تحلیل کند. بماند که اینستاگرام ۱۵ سال است که آغاز به کار کرده و الگوریتم شما باید حجم بالای دیتای قبلی شاید بیش از چندین میلیارد گیگابایت یا پتابایت را نیز تحلیل کند. وقتی شما با این حجم دیتا برای تحلیل روبرو می شوید فکر دیگری به ذهنتان می‌رسد. می‌گویید خب لازم نیست که اکانت تک تک آدم‌ها را ببینم. مثلا فقط کسانی که پیجشان باز است را می‌بینم. از بین اینها آن‌هایی را می‌بینم که فالور مثلا بیشتر از ۱۰۰ کا دارند. اینها حدود یک درصد یعنی حدود ۱۰ میلیون اکانت هستند. حالا می‌توان تحلیل را بدون نگرانی آغاز کرد.

حالا که شما این تجربه را به دست آورده اید یک پلتفرم دیگر نیز از شما چنین درخواستی می‌کند. فرق این پلتفرم این است که تصاویری که در این پلتفرم بارگذاری می‌شود، تصاویر یک سری تصادف است. تصاویر مربوط به حدود یک میلیارد تصادف در هر ثانیه!!! اما نگران نباشید. این یک میلیارد تصادف در ثانیه تصادف ماشین‌های انسان‌ها نیست، بلکه برخورد و تصادف پروتون‌ها با یکدیگر است که در شتابدهنده LHC اتفاق می‌افتد و توسط یکی از دتکتورها به نام ATLAS با دوربین‌های پرقدرت ثبت می‌شود. اگر حجم اطلاعات مربوط به هریک از این تصادف ها را یک مگابایت فرض کنیم، در هر ثانیه یک پتابایت اطلاعات تولید می‌شود. حالا شما می‌خواهید این بار به جای انسان‌ها ذرات را بشناسید و ببینید بعد از تصادف چه اتفاقی می‌افتد و این ذرات چکار می‌کنند و چه بلایی سرشان می‌آید. ذخیره و تحلیل این حجم از داده، کاری بسیار دشوار و زمان بر است. از طرف دیگر همه‌ی این برخوردها آنقدر مهم نیستند. بهتر است راهی پیدا کنید و بیخیال تعدادی از این برخوردها شوید. فیزیکدانان برای این کار از سیستم‌هایی به نام قلاب یا trigger استفاده می‌کنند. قلاب‌ها سیستم‌هایی هستند که براساس معیارهایی مثل میزان انرژی حاصل از برخورد، فقط اطلاعات برخوردهایی را ذخیره می‌کنند که به درد بخورند. مثلا در دتکتور اطلس، در هر ثانیه فقط حدود ۲۰۰ برخورد از یک میلیارد برخورد ثبت می‌شود و مابقی اطلاعات دور ریخته می‌شود. به این شکل در هر ثانیه فقط ۲۰۰ مگابایت اطلاعات ذخیره و تحلیل می‌شود که خیلی راحت در دسترس است. حالا ما به جای انسان‌ها، می‌توانیم ذرات بنیادین را تحلیل کنیم.

ویدئوی جالبی که در دقیقه‌ی ۱:۵۰ فرآیند برخورد در شتابدهند‌ی سرن را نشان می‌دهد.

– ابا اباد

درودها

یکی از دوستان مخاطب کانال نقدی بر ترجمه‌ی سیستم trigger به عنوان سیستم قلاب وارد کرده اند که به نظر من هم وارد است. اگر ترجمه‌ی فارسی بهتری برای این واژه سراغ دارید، لطفا در دایرکت کانال اطلاع دهید.

با تشکر ابا اباد

تحلیل داده در سرن

دیدگاه‌ خود را بنویسید لغو پاسخ