نسمع كثيرا عن مصطلح البيانات الضخمة Big Data و سرعة انتشار هذا المجال في سوق العمل وهو جيل جديد من الحوسبة تقوده البيانات الضخمة Big Data، والتي تلقى انتشارا واسعا في مجال سوق عمل تقنية المعلومات والتي قد تغير عملية نقل البيانات بأنواعها وتسهل عملية البحث عنها.<br /><br />يطلق مصطلح البيانات الضخمة على البيانات ذات الحجم الهائل والتي تختلف أنواعها ومصادرها ويصعب معالجتها بالطرق التقليدية، ويزيد حجم هذه البيانات باستمرار وتتنقل بسرعة بين الأنظمة المختلفة والإنترنت. علي الرغم من هذه التحديات إلا أن البيانات الضخمة تساعد الشركات والمؤسسات على اتخاذ القرار وتحسين الخدمات. تعد البيانات التي يتم تجميعها من الشبكة العنكبوتية والتي تكون عبارة عن كلمات أو صور أو مقاطع مصورة أو قراءات لمستشعرات من أبرز أمثلة البيانات الضخمة بسبب حجمها الكبير وعدم انتظامها وصعوبة حصرها وتخزينها في قاعدة بيانات واحدة. <br /><br />تحليل البيانات الضخمة واستخلاص المعارف منها يتطلب استخدام أدوات من تكنولوجيا الذكاء الاصطناعي وتنقيب البيانات. ويعتمد التقدم في بعض أنظمة الذكاء الاصطناعي على كمية البيانات المدخلة وكل كانت هذه البيانات أكبر كلما كان ذلك أفضل. علي سبيل المثال في حالة الأنظمة التي تعتمد على تعليم الألة، هذه الأنظمة تحتاج إلى كمية بيانات كبيرة، حيث كلما زاد حجم هذه البيانات واختلفت تركيبتها كلما كان ذلك أفضل لهذه الأنظمة في فهم وتحليل البيانات. من أمثلة التطبيقات التي تبنى على تكنولوجيا تعليم الآلة تطبيق سيري (Siri) الذي تقدمه شركة أبل في أجهزتها المحمولة، وهو عبارة عن تطبيق للإجابة على تساؤلات المستخدم المختلفة، حيث أنه يعتمد على تعليم نفسه بنفسه من خلال الأسئلة والبيانات التي يدخلها المستخدم، وكلما زادت كمية البيانات المدخلة للتطبيق كلما زادت دقة إجابته.خصائص البيانات الضخمة<br />الحجم: وهي حجم البيانات المستخرجة من مصدر ما، وهو ما يحدد قيمة وإمكانات البيانات لكي تصنف من ضمن البيانات الضخمة؛ و قد يكون الخاصية الأكثر أهمية في تحليل البيانات الضخمة. كما أن وصفها بالضخمة لا يحدد كمية معينة؛ بل يقاس عادة بالبيتا بايت او بالإكسا بايت، ومع حلول العام 2020 سيحتوى الفضاء الإلكتروني على ما يقرب من 40.000 ميتابايت من البيانات الجاهزة للتحليل واستخلاص المعلومات؛ ويقدر أن %90 من البيانات الموجودة في العالم اليوم قد استحدثت خلال السنتين الأخيرتين، بواسطة أجهزة وعلى أيدي بشر ساهم كلاهما في تزايد البيانات.<br /><br />التنوع: ويقصد بها تنوع البيانات المستخرجة، والتي تساعد المستخدمين سواء كانوا باحثين أو محللين على اختيار البيانات المناسبة لمجال بحثهم و تتضمن بيانات مهيكلة في قواعد بيانات و بيانات غير مهيكلة تأتي من طابعها غير الممنهج، مثل: الصور ومقاطع وتسجيلات الصوت وأشرطة الفيديو والرسائل القصيرة وسجلات المكالمات وبيانات الخرائط (GPS) وغيرها؛ وتتطلب وقتاً وجهداً لتهيئتها في شكل مناسب للتجهيز والتحليل.<br /><br />السرعة: ويقصد بها سرعة إنتاج واستخراج البيانات لتغطية الطلب عليها؛ حيث تعتبر السرعة عنصراً حاسماً في اتخاذ القرار بناء على هذه البيانات، وهو الوقت الذي نستغرقه من لحظة وصول هذه البيانات إلى لحظة الخروج بالقرار بناء عليها.أمثلة عملية<br />مصادم الهيدرون العظيم يملك 150 مليون جهاز استشعار تقدم بيانات 40 مليون مرة في الثانية الواحدة. وهناك ما يقرب من 600 مليون تصادم في الثانية الواحدة. لكن نتعامل فقط مع أقل من 0.001% من بيانات تيار الاستشعار، فإن تدفق البيانات من جميع تجارب المصادم الأربعة يمثل 25 بيتابايت.<br /><br />موقع امازون Amazon.com يعالج ملايين العمليات الخلفية كل يوم، فضلاً عن استفسارات من أكثر من نصف مليون بائع طرف ثالث. وتعتمد أمازون علي نظام اللينوكس بشكل أساسي ليتمكن من التعامل مع هذا الكم الهائل من البيانات، و تملك أمازون أكبر 3 قواعد بيانات لينوكس في العالم والتي تصل سعتها إلي 7.8، 18.5 و 24.7 تيرابايت.<br /><br />اعلانات جوجل<br /><br /> <br />سلسلة المتاجر Walmart تعالج أكثر من مليون معاملة تجارية كل ساعة، والتي يتم استيرادها إلي قواعد بيانات يُقدر أنها تحتوي علي أكثر من 2.5 بيتابايت (2560 تيرابايت) من البيانات – وهو ما يوازي 167 ضعف البيانات الواردة في جميع الكتب الموجودة في مكتبة الكونغرس في الولايات المتحدة.<br /><br />يعالج فيس بوك 50 مليار صورة من قاعدة مستخدميه. ويقوم نظام حماية بطاقات الائتمان من الاحتيال ” FICO Falcon Credit Card Fraud Detection System” بحماية 2.1 مليار حساب نشط في جميع أنحاء العالم.<br /><br />تقوم شركة Windermere Real Estate باستخدام إشارات GPS مجهولة من ما يقرب من 100 مليون سائق لمساعدة مشتري المنازل الجدد لتحديد أوقات قيادتهم من وإلى العمل خلال الأوقات المختلفة لليوم.