جنون «البيانات الكبيرة» يهدد بتكرار أخطاء إحصائية قديمة
قبل خمسة أعوام أعلن فريق باحثين من جوجل عن تحقيق إنجاز بارز في مجلة الطبيعة "نيتشر"، وهي واحدة من أبرز وأهم مجلات العلوم في العالم. فمن دون الحاجة إلى نتائج فحص طبي واحد، كانوا مع ذلك قادرين على تتبع انتشار الإنفلونزا في جميع أنحاء الولايات المتحدة. والأكثر من ذلك، أنهم تمكنوا من إنجاز ذلك بشكل أسرع من "مراكز السيطرة على الأمراض والوقاية منها" CDC. لم يتأخر تتبع جوجل إلا يوماً واحداً، مقارنة بأسبوع أو أكثر احتاجته مراكز CDC لتجميع عناصر صورة استناداً إلى تقارير من عيادات الأطباء. كانت جوجل أسرع لأنها كانت تتبع تفشي المرض عن طريق إيجاد علاقة بين ما يبحث عنه الناس على الإنترنت وما إذا كانت لديهم أعراض الإنفلونزا.
لم تكُن "اتجاهات الإنفلونزا من جوجل" سريعة ودقيقة ورخيصة فقط، بل كانت خالية من النظريات. لم يُكلّف مهندسو جوجل أنفسهم عناء وضع فرضية عن مصطلحات البحث - "أعراض الإنفلونزا" أو "الصيدليات القريبة مني" - التي قد تكون مرتبطة بانتشار المرض نفسه. فريق جوجل لم يفعل سوى أخذ أكثر من 50 مليون مصطلح يتم البحث عنها وجعل الخوارزميات تقوم بالعمل.
أصبح نجاح "اتجاهات الإنفلونزا من جوجل" رمزاً للاتجاه الأكثر حداثة في مجال الأعمال والتكنولوجيا والعلوم: وهو "البيانات الكبيرة". وأخذ الصحافيون يتساءلون: ما الذي تستطيع العلوم أن تتعلمه من جوجل؟
وكما هو الحال في كثير من التعبيرات التي تثير ضجة، "البيانات الكبيرة" هي مصطلح غامض غالباً ما يطرحه أشخاص لديهم شيء يبيعونه. ويركز بعضهم على الحجم الهائل لمجموعات البيانات الموجودة الآن - مثلا، تقوم أجهزة الكمبيوتر في مُصادِم الهادرونات الكبير، بتخزين 15 بيتابايت من البيانات سنوياً، أي ما يعادل الحجم الذي تشغله تسجيلات نحو 15 ألف عام من موسيقاك المفضلة.
لكن "البيانات الكبيرة" التي تهم العديد من الشركات هي ما يمكن أن نسميه "بيانات الأساس"، وهي العادم الرقمي من عمليات البحث على الإنترنت، ومدفوعات البطاقات الائتمانية، والهواتف الخليوية التي تهز أقرب عمود للهاتف. فقد تم بناء "اتجاهات الإنفلونزا من جوجل" على بيانات الأساس، وهذا هو نوع البيانات التي يهمني هنا. مجموعة البيانات التي من هذا القبيل يمكن أن تكون أكبر من بيانات مُصادِم الهادرونات الكبير - بيانات فيسبوك هي أكبر - لكن ما يلفت النظر بالقدر نفسه هو أن هذه البيانات رخيصة من حيث جمعها نسبة إلى حجمها، فهي مجموعة فوضوية من نقاط البيانات التي تم جمعها لأغراض متباينة ويمكن تحديثها في الوقت الحقيقي. فمثلما انتقلت اتصالاتنا، وأوقات فراغنا، وتجارتنا إلى الإنترنت، والإنترنت انتقلت إلى هواتفنا وسياراتنا وحتى نظاراتنا، كذلك أصبح بالإمكان الآن تسجيل الحياة وتحديد كميتها بطريقة كان من الصعب تخيّلها قبل عقد من الزمن فقط.
ادعاءات مثيرة
قدم مشجعو البيانات الكبيرة أربعة ادعاءات مثيرة، تجلّى كل منها في نجاح "اتجاهات الإنفلونزا من جوجل": أن تحليل هذه البيانات يتمخض عن نتائج دقيقة بشكل خارق؛ وأنه يمكن التقاط كل نقطة بيانات على حدة، ما يجعل التقنيات القديمة لأخذ العينات الإحصائية بالية؛ وأن القلق حول ماذا يسبب ماذا أصبح من الماضي، لأن العلاقة الإحصائية تخبرنا بما نحتاج إلى معرفته؛ وأن ليس هناك حاجة إلى النماذج العلمية أو الإحصائية لأنه، على حد تعبير مقالة "نهاية النظرية" المثيرة للتفكر التي نُشرت في مجلة "ويرد" في 2008 "حين يكون لدينا ما يكفي من البيانات، فإن الأرقام تتحدث عن نفسها".
للأسف، هذه البنود الأربعة الراسخة هي في أفضل الأحوال مبالغة في التبسيط المتفائل. وفي أسوأ الأحوال، وفقاً لديفيد سبيجيلهالتر، وهو أستاذ كرسي وينتون لمادة الفهم العام للمخاطر في جامعة كامبردج، يمكن أن تكون "عبارة عن لخبطة كاملة. كلام فارغ بصورة مطلقة".
بيانات الأساس تدعم اقتصاد الإنترنت الجديد حيث تبحث شركات مثل جوجل وفيسبوك وأمازون عن وسائل جديدة لفهم حياتنا من خلال عادم بياناتنا. ومنذ تسريبات إدوارد سنودِن بشأن حجم ونطاق المراقبة الإلكترونية في الولايات المتحدة، أصبح من الواضح أن الأجهزة الأمنية كذلك مفتونة تماماً بما قد تتعلمه من عادم بياناتنا.
المستشارون يحثون الناس الساذجين في مجال البيانات على التنبه لإمكانات البيانات الكبيرة. ويعتقد تقرير حديث من معهد ماكينزي العالمي أن نظام الرعاية الصحية في الولايات المتحدة يمكن أن يوفّر 300 مليار دولار سنوياً - ألف دولار لكل أمريكي - عن طريق تكامل وتحليل أفضل للبيانات التي ينتجها كل شيء من التجارب السريرية مرورا بمعاملات التأمين الصحي إلى أحذية الركض الذكية.
لكن في حين وعدت البيانات الكبيرة بالكثير للعلماء وأصحاب المشاريع والحكومات، إلا أنه محكوم عليها أن تخيب آمالنا إذا تجاهلنا بعض الدروس الإحصائية المألوفة.
يقول سبيجيلهالتر: "هناك الكثير من مشكلات البيانات الصغيرة التي تظهر في البيانات الكبيرة. وهي لا تختفي لأنه أصبح لديك الكثير من الأشياء، بل تصبح أسوأ".
مبالغات "جوجل"
بعد أربعة أعوام من نشر البحث الأصلي في مجلة "نيتشر"، كان لدى "أخبار الطبيعة" أنباء سيئة لنقلها: آخر انتشار للإنفلونزا أحدث ضحية غير متوقعة: "اتجاهات الإنفلونزا من جوجل". بعد تقديم احتساب سريع ودقيق بشكل موثوق لانتشار الإنفلونزا لعدد من فصول الشتاء، فقد الأنموذج الغني بالبيانات والخالي من النظرية قدرته على تتبع اتجاه الإنفلونزا التالي. فقد أشار أنموذج جوجل لانتشار شديد، لكن عندما وصلت البيانات البطيئة والثابتة من "مراكز السيطرة على الأمراض"، أظهرت أن تقديرات جوجل لانتشار أمراض تشبه الإنفلونزا كان مبالغاً فيها تقريباً بعامل من اثنين.
كانت المشكلة أن جوجل لم تعرف - ولا حتى خطر على بالها - ما الذي ربط مصطلحات البحث مع انتشار الإنفلونزا. لم يحاول مهندسو جوجل معرفة ما الذي سبب ماذا. لقد كانوا يقومون بمجرد البحث عن أنماط إحصائية في البيانات. كانوا يهتمون بشأن الارتباط بدلاً من السببية. وهذا أمر شائع في تحليل البيانات الكبيرة. إن معرفة ما الذي سبب ماذا يعتبر أمراً صعباً (وبعضهم يقول إنه مستحيل). لكن معرفة ما الذي يرتبط بماذا هو أمر أرخص وأسهل. وفقاً لكتاب "البيانات الكبيرة" من تأليف فيكتور ماير - شونبيرجر وكينيث كوكير، هذا هو السبب في أن "السببية لن يتم الاستغناء عنها، لكن تم إخراجها من موقعها الأصلي، وهو كونها المصدر الأساسي للمعنى".
لكن التحليل الخالي من النظرة للارتباطات فقط هو ضعيف لا محالة. إذا لم تكن لديك أي فكرة عما هو وراء ارتباط معين، فلن تكون لديك أدنى فكرة عما قد يكون سببا لتدهور ذلك الارتباط. وأحد تفسيرات فشل مفهوم اتجاهات الإنفلونزا من جوجل هو أن الأخبار كانت مليئة بالقصص المخيفة عن الإنفلونزا في كانون الأول (ديسمبر) 2012 وأن هذه القصص أثارت البحث على الإنترنت من قِبل أشخاص أصحّاء. وتفسير آخر محتمل هو أن خوارزمية البحث الخاصة بجوجل قامت بتغيير القواعد حين بدأت تلقائياً باقتراح تشخيصات عندما قام الناس بإدخال أعراض طبية. "اتجاهات الإنفلونزا من جوجل" ستعود بعد إعادة معايرتها ببيانات جديدة – وهذا هو التصرف السليم. هناك العديد من الأسباب لنتحمس بشأن الفرص الأوسع التي تقدمها لنا السهولة التي نستطيع من خلالها جمع وتحليل مجموعات واسعة من البيانات. لكن ما لم نتعلم من دروس هذه الواقعة، فسنجد أنفسنا نقوم بتكرارها.
لقد أمضى علماء الإحصاء الـ 200 عام الأخيرة في معرفة المصائد الكامنة حين نحاول أن نفهم العالم من خلال البيانات. وفي هذه الأيام البيانات أكبر وأسرع وأرخص - لكن علينا ألا نتظاهر أن كافة المصائد أصبحت آمنة، فهي ليست كذلك.
في 1939، ترشح الجمهوري ألفرد لاندون للانتخابات ضد الرئيس فرانكلين ديلانو روزفلت. وتحمّلت المجلة المرموقة "ذا ليتراري دايجست"، مسؤولية توقّع النتائج. أجرت استطلاعا في غاية الطموح لآراء عدد ضخم من الناس عن طريق البريد، بهدف الوصول إلى نحو عشرة ملايين شخص، وهو ربع عدد الناخبين. لا يمكن تصوّر طوفان الردود، لكن يبدو أن "دايجست" كانت تستمتع بحجم المهمة. في أواخر آب (أغسطس) قالت المجلة: "في الأسبوع المقبل ستبدأ الإجابات الأولى من هذه الردود البالغة عشرة ملايين، بالانتقال إلى بطاقات الاقتراع المسجلة، ليتم مراجعتها ثلاث مرات، وتأكيد صحتها، وتنوّع تصنيفها خمس أضعاف، إضافة إلى جمعها بالكامل".
نتائج مختلفة
وبعد جدولة الردود المذهلة البالغة 2.4 مليون، التي استمرت بالتدفق على مدى شهرين، أعلنت مجلة "ذا ليتراري دايجست" استنتاجاتها وكانت كالتالي: لاندون سيفوز بنسبة مقنعة تبلغ 55 في المائة مقابل 41 في المائة، مع وجود القليل من الناخبين الذين يفضلون مرشحاً ثالثاً. إلا أن الانتخابات قدمت نتائج مختلفة جداً: روزفلت سحق لاندون بنسبة 61 في المائة مقابل 37 في المائة. ولزيادة عذاب مجلة "دايجست"، جاء استبيان أصغر بكثير أجراه جورج جالوب، الرائد في استطلاعات الرأي، بنتائج أقرب بكثير للتصويت النهائي، بتوقّعه فوزا مريحا لروزفلت. والسبب في ذلك أن جالوب فهم شيئاً لم تفهمه مجلة "دايجست". فعندما يتعلق الأمر بالبيانات، الحجم ليس كل شيء.
وتستند استطلاعات الرأي إلى عينات من عدد الناخبين بشكل عام. وهذا يعني أن منظمي استطلاعات الرأي يحتاجون إلى التعامل مع قضيتين: خطأ العينة وتحيّز العينة. خطأ العينة يعكس الخطر بأن الاختيار العشوائي لعينة الآراء بمحض الصدفة لا يعكس وجهات النظر الحقيقية للسكان. و"هامش الخطأ" المذكور في استطلاعات الرأي يعكس هذا الخطر، وكلما زاد حجم العينة، كان هامش الخطأ أصغر. إن إجراء ألف مقابلة يعد عينة كبيرة بما فيه الكافية لأغراض كثيرة. وذكر جالوب أنه أجرى ثلاثة آلاف مقابلة.
لكن إذا كانت ثلاثة آلاف مقابلة تحقق نتائج جيدة، لماذا لم تكُن 2.4 مليون مقابلة ذات حظ أفضل؟ الجواب هو أن خطأ العينة لديه صديق أخطر بكثير: تحيّز العينة. خطأ العينة هو عندما تكون العينة التي تم اختيارها عشوائياً لا تعكس السكان الأساسيين بمحض الصدفة؛ أما تحيّز العينة فهو عندما لا يتم اختيار العينة عشوائياً على الإطلاق. جورج جالوب حاول جاهداً العثور على عينة غير متحيّزة لأنه عرف أن ذلك كان أكثر أهمية بكثير من العثور على عينة كبيرة.
وأخطأت مجلة "دايجست" في مسألة العينة المتحيّزة، ببحثها عن مجموعة بيانات أكبر، إذ قامت بإرسال نماذج عن طريق البريد لأشخاص موجودين على قائمة قامت بتجميعها من عمليات تسجيل السيارات ودليل الهاتف - وهي عينة، على الأقل في عام 1936، كانت مرفهة بشكل غير متناسب مع عددها. والأمر الذي فاقم المشكلة، هو أن مؤيدي لاندون تبيّن أنهم كانوا من المرجح أكثر أن يقوموا بإعادة ردودهم بالبريد. وكان المزيج بين تلك الانحيازات كافياً للقضاء على استطلاع الرأي الذي قامت به مجلة "دايجست". ومقابل كل شخص قام بمقابلته منظمو الاستطلاع التابعين لجورج جالوب، تسلمت مجلة دايجست 800 رد. وكل ما حصلت عليه مقابل عنائها هو تقدير دقيق جداً للإجابة الخاطئة.
جنون البيانات الكبيرة يُهدد بتكرار تجربة مجلة دايجست مرة أخرى، لأن مجموعات البيانات الموجودة هي فوضوية جداً، وقد يكون من الصعب معرفة الانحيازات الكامنة بداخلها - ولأنها كبيرة، يبدو أن بعض المحللين قرروا أن مشكلة العينة لا تستحق القلق بشأنها.
العينة = الجميع
أخبرني البروفيسور فيكتور ماير- شونبيرجر، من معهد الإنترنت في جامعة أكسفورد، الذي شارك في تأليف كتاب "البيانات الكبيرة"، أن تعريفه المفضّل لمجموعة بيانات كبيرة هو عندما تكون "العينة = الجميع" - حين لا نعود بحاجة إلى أخذ عينات، وإنما خلفية السكان بالكامل. المسؤولون عن الردود العائدة لا يقدّرون نتائج الانتخابات من خلال عملية إحصاء تمثيلي، بل يقومون باحتساب الأصوات - كافة الأصوات. وعندما تكون "العينة = الجميع"، في الواقع، لا يكون هناك مسألة تحيّز العينة لأن العينة تشمل الجميع.
لكن هل "العينة = الجميع" هي فعلاً وصف جيد لمعظم مجموعات البيانات الموجودة التي نأخذها في الحسبان؟ ربما لا. يقول باتريك وولف، وهو عالم كمبيوتر وأستاذ علم الإحصاء في جامعة كوليج لندن: "أنا أتحدّى الفكرة القائلة إن المرء يمكن أن يمتلك كافة البيانات أصلاً".
والمثال على ذلك هو تويتر. من حيث المبدأ، من الممكن تسجيل وتحليل كل رسالة على توتير واستخدامها في استخلاص الاستنتاجات حول المزاج العام. (عملياً، يستخدم معظم الباحثين مجموعة فرعية من ذلك التدفق الواسع والسريع من المعلومات). لكن في حين يمكننا النظر إلى كافة الرسائل الموجودة على تويتر، إلا أن مستخدمي تويتر لا يمثلون السكان ككل. (وفقاً لمشروع أبحاث بيو للإنترنت، في عام 2013، كان مستخدمو تويتر، الموجودون في الولايات المتحدة من الشباب، والمناطق الحضرية أو الريفية، والسود على نحو غير متناسب).
ويجب أن يكون دائماً هناك سؤال حول من وما هو مفقود، لا سيما مع كومة فوضوية من البيانات الموجودة. ويُحذّر كايزر فونج، محلل البيانات ومؤلف كتاب "إدراك الأرقام"، من الافتراض ببساطة أن لدينا كل ما يهُم. ويقول إن "العينة = الجميع، غالباً ما تكون افتراضاً بدلاً من كونها حقيقة بشأن البيانات".
مطب الشارع
ولنتأمل تطبيق الهاتف الذكي "مطب الشارع" في بوسطن، الذي يستخدم جهاز الاستشعار الموجود في الهاتف للكشف عن الحفر من دون الحاجة إلى قيام عمال المدينة بدوريات في الشوارع. عندما يقوم سكان بوسطن بتحميل التطبيق والتجوّل في مركبة، تقوم هواتفهم تلقائياً بإعلام بلدية المدينة بالحاجة إلى إصلاح سطح الطريق. وحل المشكلات التقنية المتضمنة أنتج، بشكل جميل، عادم بيانات ذا معلومات يتعامل مع مشكلة بطريقة كان من غير الممكن تصوّرها قبل بضعة أعوام. لذلك تُعلن مدينة بوسطن بفخر أن "البيانات تزوّد المدينة بالمعلومات في الوقت الحقيقي لإصلاح المشكلات وتخطيط الاستثمارات على المدى الطويل".
لكن ما ينتجه تطبيق "مطب الشارع" فعلاً، إذا تركنا له الحبل على الغارب، هو خريطة من الحفر التي تفضّل بشكل منهجي المناطق الغنية التي يسكنها الشباب حيث يوجد أشخاص أكثر يملكون هواتف ذكية. ويُقدم لنا تطبيق "مطب الشارع" "العينة = الجميع" بمعنى أنه يمكن تسجيل كل مطب من كل هاتف تم تنزيل التطبيق عليه. لكن ذلك ليس الشيء نفسه كتسجيل كل حفرة. وكما تُشير كيت كروفورد، الباحثة في مايكروسوفت، فإن بيانات الأساس تشتمل على تحيزات منهجية ويحتاج الأمر إلى تفكير متأنٍ من أجل الكشف عن هذه الاتجاهات وتصحيحها. أما البيانات الكبيرة فيمكن أن تبدو شاملة لكن "العينة = الجميع" غالباً ما تكون وهماً مغرياً.
المراهقة الحامل
لكن عندما تكون هناك فرصة لكسب المال، فمن الذي سيهتم بالسببية أو تحيّز العينة؟ لا بد أن الشركات حول العالم يسيل لعابها عندما تفكر في النجاح الخارق الذي حققه متجر تارجت للأسعار الرخيصة في الولايات المتحدة، كما ذكر تشارلز دوهيج في صحيفة "نيويورك تايمز" عام 2012. فقد أوضح دوهيج أن متجر تارجت كان قد جمع الكثير من البيانات عن زبائنه، وكان ماهراً جداً في تحليل تلك البيانات، بحيث إن نفاذ بصيرته للمستهلكين قد يبدو كالسحر.
حكاية دوهيج المذهلة كانت عن الرجل الذي اقتحم متجر تارجت بالقرب من منيابوليس، واشتكى إلى المدير أن الشركة كانت تقوم بإرسال كوبونات لملابس أطفال وملابس الأمومة لابنته المراهقة. اعتذر المدير كثيراً وفي وقت لاحق طُلب منه الاعتذار مرة أخرى - فقط ليتم إخباره أن المراهقة كانت حاملاً بالفعل. والدها لم يدرك ذلك. لكن متجر تارجت أدرك ذلك، بعد تحليل مشترياتها من المناديل غير المُعطرة ومكملات المغنيسيوم.
هل هذه شعوذة إحصائية؟ الواقع أن هناك تفسيراً عادياً تماماً.
يقول كايزر فونج، الذي أمضى أعواماً في وضع مناهج مماثلة لمتاجر التجزئة والمعلنين: "هناك قضية إيجابية زائفة ضخمة". ما يعنيه فونج هو أننا لا نسمع القصص التي لا تُحصى عن كافة النساء اللواتي تلقّين كوبونات لملابس الأطفال واللواتي لم يكنّ حوامل.
وعند سماع الحكاية، يصبح من السهل الافتراض أن خوارزميات متجر تارجت لا يمكن أن تخطئ - وأن كل من تتلقّى كوبونات لملابس فضفاضة ومناديل مبللة هي حامل. لكن هذا أمر غير وارد ومستبعد تماماً. في الواقع، من الممكن أن النساء الحوامل يتلقّين مثل هذه العروض لمجرد أن جميع الموجودين على قائمة متجر تارجت البريدية يتلقّون مثل هذه العروض. لذلك لا ينبغي علينا تصديق فكرة أن متجر تارجت يقوم بتوظيف قارئين للأفكار قبل الأخذ في الحسبان عدد المرات التي أخطأ فيها مقابل كل مرة نجح فيها.
وفي تقرير تشارلز دوهيج، يمزج متجر تارجت مجموعة من العروض العشوائية، لأن الزبائن من النساء الحوامل قد يشعرن بالفزع إذا أدركن مدى الحميمية التي تفهمهن فيها أجهزة كمبيوتر الشركة.
ولدى فونج تفسير آخر: متجر تارجت يخلط عروضه ليس لأنه سيكون من الغريب إرسال دفتر كوبونات خاص تماماً بالأطفال إلى امرأة كانت حاملاً، لكن لأن الشركة تعرف في النهاية أنه سيتم إرسال العديد من دفاتر الكوبونات هذه إلى نساء لسن من الحوامل.
لا شيء من هذا يشير إلى أن مثل هذا التحليل للبيانات لا قيمة له: فربما يكون مربحاً للغاية. حتى الزيادة المتواضعة في دقة العروض الخاصة المستهدفة ستكون جائزة تستحق الفوز. لكن الربحية ينبغي عدم خلطها بالمعرفة الشاملة.
في 2005، نشر جون أوانديز، وهو خبير في علم الأوبئة، بحثاً بعنوان: "لماذا معظم نتائج الأبحاث المنشورة ليست صحيحة". وأصبح البحث مشهوراً باعتباره تشخيصاً مثيراً للتفكر حول قضية خطيرة. إحدى الأفكار الرئيسة وراء عمل أوانديز هي ما يسميه الإحصائيون "مشكلة المقارنات المتعددة".
من الطبيعي، عند فحص نمط ما في البيانات، التساؤل عما إذا كان مثل هذا النمط قد ظهر بالصدفة. وإذا كان من غير المرجح أن النمط المرصود يمكن أن يكون قد ظهر بشكل عشوائي، عندها نقول إن النمط له "دلالة إحصائية".
وتظهر مشكلة المقارنات المتعددة عندما ينظر الباحث إلى كثير من الأنماط الممكنة. لنتأمل تجربة عشوائية يتم فيها إعطاء الفيتامينات لبعض طلاب المدارس الابتدائية، ومجموعة أخرى أعطيت أدوية وهمية لا تشتمل على مواد علاجية. هل تُعطي الفيتامينات نتيجة جيدة؟ كل ذلك يعتمد على ما نعنيه بـ "نتيجة جيدة". بإمكان الباحثين النظر إلى طول الأطفال ووزنهم وانتشار التسوس في أسنانهم، وسلوكهم في غرفة الصف، ونتائج امتحاناتهم، وحتى (بعد الانتظار) سجل السجن أو ما قد يحصلون عليه من دخل في سن الـ 25. ثم هناك فحص مجموعات مشتركة من العوامل: هل الفيتامينات لها تأثير على الأطفال الفقراء، أم الأطفال الأغنياء، أم الأولاد، أم البنات؟ إن تجربة ما يكفي من الارتباطات المختلفة والنتائج العرضية سوف تطغى على الاكتشافات الحقيقية.
هناك عدة طرق للتعامل مع هذا الوضع، لكن المشكلة أكثر خطورة في مجموعات البيانات الكبيرة، لأن هناك مقارنات ممكنة أكثر بكثير من وجود نقاط بيانات لمقارنتها. فمن دون التحليل الدقيق، تميل نسبة الأنماط الحقيقية إلى الأنماط الزائفة – أي نسبة الإشارة إلى الضجيج - بسرعة لتكون صفراً.
الأسوأ من ذلك، أن أحد حلول مشكلة المقارنات المتعددة هو الشفافية، وهو ما يسمح للباحثين الآخرين بمعرفة عدد الفرضيات التي تم اختبارها وعدد النتائج العكسية التي تقبع في الأدراج لمجرد أنها لم تكن تبدو مثيرة للاهتمام بما فيه الكفاية لنشرها. لكن مجموعات البيانات الموجودة نادراً ما تكون شفافة. لذلك، مواقع أمازون وجوجل، ومواقع التواصل الاجتماعي فيسبوك وتويتر، ومتاجر تارجت وتيسكو - هذه الشركات لن تقوم بمشاركة بياناتها معك أو مع أي شخص آخر.
تعلم الآلات
مجموعات البيانات الرخيصة والكبيرة والجديدة إضافة إلى أدوات التحليل القوية سوف تعطي نتائج مثمرة - لا أحد يشك في ذلك. وهناك عدد قليل من الحالات التي كان فيها تحليل مجموعات بيانات كبيرة جداً قد صنع المعجزات. يُشير ديفيد سبيجيلهالتر، من جامعة كامبردج، إلى موقع جوجل للترجمة، الذي يعمل من خلال تحليل إحصائي لمئات الملايين من الوثائق التي ترجمها البشر والبحث عن أنماط يمكنه نسخها. هذا مثال على ما يسميه علماء أجهزة الكمبيوتر بـ "تعلّم الآلة"، كما أن بإمكانه تقديم نتائج مذهلة من دون قواعد نحوية مبرمجة مسبقاً. إن جوجل للترجمة هو أقرب إنجاز يمكن لنا أن نحققه مما يشبه اختراعنا لصندوق أسود خال من النظريات ومدفوع بالخوارزميات ويعتمد على البيانات، ويقول سبيجيلهالتر إن ذلك عبارة عن "إنجاز مذهل". ذلك الإنجاز مبني على المعالجة الذكية لمجموعات بيانات ضخمة.
لكن البيانات الكبيرة لم تعمل على حل المشكلة التي تزعج الإحصائيين والعلماء منذ قرون عديدة: مشكلة البصيرة، القادرة على استنتاج ما يجري، ومعرفة كيف يمكننا التدخل لتغيير نظام معين نحو الأفضل.
يقول البرفيسور ديفيد هاند، من كلية لندن الملكية: "لدينا مورد جديد هنا، لكن لا أحد يريد "بيانات". ما يريدونه هو الإجابات".
إن استخدام البيانات الكبيرة لإنتاج مثل هذه الإجابات سوف يتطلب تحقيق تطورات كبيرة في الأساليب الإحصائية.
يقول باتريك وولف، من جامعة كلية لندن: "إنه الغرب البري المفتوح الآن. فالأشخاص الأذكياء والمتحمسون سيقومون بالمراوغة واستخدام كل أداة لمحاولة فهم مجموعات البيانات هذه، وذلك أمر جيد. لكننا في الوقت الحالي نحلق ونصول ونجول على غير هدى إلى حد ما".
ويتدافع الإحصائيون لتطوير أساليب جديدة لاغتنام فرصة البيانات الكبيرة. مثل هذه الأساليب الجديدة ضرورية لكنها ستنجح من خلال البناء على الدروس الإحصائية القديمة، وليس تجاهلها.
لنتذكر الأفكار الأربعة الراسخة للبيانات الكبيرة. من السهل المبالغة في تقدير الدقة الخارقة إذا قمنا ببساطة بتجاهل الإيجابيات الزائفة، كما هي الحال مع مؤشر الحمل لمتجر تارجت. ولا بأس بالادعاء بأن السببية تمت "هزيمة ركيزتها" إذا كنّا نقوم بتوقعات في بيئة مستقرة، لكن ليس إذا كان العالم يتغيّر (كما حدث مع "اتجاهات الإنفلونزا") أو إذا كنا نحن أنفسنا نأمل في تغييره. والوعد بأن "العينة = الجميع"، وبالتالي أن تحيّز العينة لا يهم، هو ببساطة غير صحيح في معظم الحالات المهمة. أما بالنسبة للفكرة بأنه "مع ما يكفي من البيانات، الأرقام تتحدث عن نفسها" - ذلك يبدو ساذجاً على نحو لا رجاء منه في مجموعات البيانات حيث الأنماط الزائفة تفوق الاكتشافات الحقيقية إلى حد كبير.
لقد وصلت "البيانات الكبيرة"، لكن البصائر الكبيرة لم تصل بعد. التحدي الآن هو في حل مشكلات جديدة والحصول على إجابات جديدة - دون الوقوع في الأخطاء الإحصائية القديمة نفسها على نطاق أكبر من أي وقت مضى.
( فايننشال تايمز 10/4/2014 )
مواضيع ساخنة اخرى
- لمزيد من الأخبار تواصل معنا عبر :
- تابِع @jbcnews