البيانات والمعلومات والمعرفة | الوحدة الأولى | الدرس الأول

البيانات والمعلومات والمعرفة هو عنوان الدرس الأول من الوحدة الأولى التي تحمل اسم “مقدمة في علم البيانات” من مقرر “علم البيانات”.
ستتعرف في هذا الموضوع على المفاهيم الأساسية لعلم البيانات، ومعرفة مصطلح البيانات والمعلومات والمعرفة، والفرق بينها، والتمييز بين علم البيانات وذكاء الأعمال والذكاء الاصطناعي، بالإضافة إلى فهم دورة حياة علم البيانات.
لذا قم بقراءة أهداف التعلُّم بعناية، ثم أعد قراءتها وتأكَّد من تحصيل كافة محتوياتها بعد انتهائك من دراسة الموضوع.
أهداف التعلُّم
- معرفة مصطلح علم البيانات.
- معرفة الفرق بين البيانات والمعلومات.
- معرفة مصطلح المعرفة.
- تمييز الفرق بين علم البيانات، وذكاء الأعمال، والذكاء الاصطناعي.
- فهم دورة حياة علم البيانات.
هيا لنبدأ!
علم البيانات (Data Science)
تكمن أهمية علم البيانات (Data Science) في أن البيانات أصبحت جزءًا أساسيًا في جميع الصناعات لكونها مطلبًا رئيسًا من قبل الشركات لكي تتوسع وتتطور في أعمالها، حيث تمكن الأساليب القائمة على البيانات الشركات من اتخاذ القرارات المناسبة وذلك من خلال تحليل كميات كبيرة من البيانات لاستخراج رؤى وتوصيات قيمة لإدارة تلك الشركات.
تعريف هام
علم البيانات (Data Science)
علم البيانات هو مجال الدراسة الذي يتعامل مع كميات هائلة من البيانات باستخدام الأدوات والتقنيات الحديثة لإيجاد أنماط غير بديهية داخل تلك البيانات، وللوصول إلى معلومات مهمّة يمكِن أن تساهم في اتّخاذ القرارات المتعلقة بكافة الأعمال.
مثال
تطبق منصة استشراف (Estishraf) التابعة لمركز المعلومات الوطني (NIC) تقنيات علم البيانات المتقدمة على قاعدة بياناتها لتقديم رؤى وتنبؤات مستقبلية بأكثر من 50 سيناريو لدعم صناع القرار في المملكة.
لمعرفة المزيد من المعلومات عن “علم البيانات”، قم بالاطّلاع على الرابط التالي:
البيانات والمعلومات (Data and Information)
تحيط بك البيانات بصورة يومية في كل مكان فتتلقى المعلومات من التلفاز ومن الصحف والكتب وشبكة الانترنت، ولكن هل فكرت في أن هناك فرقًا بين المعلومات والبيانات؟
تعد البيانات تمثيلاً للحقائق أو الأفكار بصورة شكلية، بحيث يمكن إيصالها أو معالجتها من خلال طريقة أو عملية ما.
على سبيل المثال، في الشكل أدناه يعرض مجموعة من البيانات الشخصية لأحد الطلبة.
عندما تتم معالجة البيانات أو تنظيمها أو تحليلها أو تقديمها في سياق معين لتكون مفيدة وذات معنى فإنها تصبح معلومات.
على سبيل المثال في الشكل أدناه يعرض معلومات منظمة عن طالب ما ويمكنك أن تلاحظ هنا وجود معلومات حول الطالب مثل: اسمه، عنوان المنزل، الهاتف، البريد الالكتروني، تاريخ الميلاد.
تعريفات هامة
البيانات (Data)
تمثيل الحقائق أو الأفكار بتنسيق مناسب للتخزين أو المعالجة أو النقل.
المعلومات (Information)
مجموعة من البيانات التي خضعت للمعالجة وأصبحت منظّمة ذات معنى وتقدّم في سياق محدَّد ومفيد وتُمكّن عمليات صنع القرار.
البيانات الأولية والمعلومات (Raw Data and Information)
تطلق تسمية البيانات الأولية على البيانات التي جمعها حديثًا من مصادر مختلفة، ولكن لم تجر معالجتها أو تحليلها بعد بأي شكل من الأشكال.
عادة ما ترمز كلمة البيانات (Data) إلى البيانات الأولية، ولكن بمجرد تحليلها تتحول إلى معلومات.
دعونا نشاهد بعض الأمثلة:
- يعد الرقم “8122001” بيانات أولية باعتباره قيمة ليست ذات معنى سياقي، ولكن اذا تم عرض هذه القيمة بصورة تاريخ ميلاد “8/12/2001″، أصبحت معلومات وذلك لتوفيرها معرفة حول أمر معين وهو تاريخ ميلاد شخص ما.
- تمثل نتيجة اختبار كل طالب جزئية واحدة من البيانات، بينما يعد متوسط درجات الفصل الدراسي أو المدرسة بأكملها معلومات تم اشتقاقها من البيانات الموجودة.
معلومات للمزيد من المعالجة (Information For Further Processing)
يمكن دمج البيانات والمعلومات من مصادر مختلفة لإنشاء مجموعات بيانات ذات أثر كبير، ويطلق على هذه العملية دمج البيانات (Data Blending).
على سبيل المثال، يمكنك دمج مجموعة من المعلومات من أقسام التسويق والمبيعات لتحديد الحملات التسويقية الأكثر تأثيرًا وتحقيقًا للأرباح لمجموعة من المنتجات.
المعرفة (Knowledge)
تعد المعرفة تمثيلاً لفهمك للعالم، وهي بشكل أساسي مجموعة من المعلومات يتم استخدامها لتقديم فائدة أو تحقيق غرض معين.
يمكنك القول أن فهم الشخص لبعض المعلومات حول شيء ما يوفر لديه معرفة به. فتصبح المعلومات معرفة عند تطبيق عمليات التفكير النقدي أو التقييم أو التخطيط أو التنظيم.
لنشاهد المثال في الشكل أدناه، يمكنك ملاحظة أن البيانات الموجودة أسفل المخطط هي قائمة من الكلمات التي تخلو من أي سياق، وإذا جرى تنظيم هذه البيانات وترتيبها فيمكن توفير بعض المعلومات وعلى فرض أن هذه القائمة تحتوي على نتائج مبيعات نكهات المثلجات في اليوم السابق، يمكنك من خلال إجراء بعض عمليات التحليل عليها أن تحصل على بعض المعلومات المفيدة فمثلاً يمكنك أن تدرك أن نكهة الشوكولاته هي الأكثر مبيعًا.
تُمكن المعرفة هنا مدير المتجر من اكتشاف أن نكهة الشوكولاتة هي الأكثر رواجًا، وهكذا يمكنه أن يطلب خمسة أضعاف كمية المثلجات بنكهة الشوكولاتة في المرة القادمة مقارنة بالنكهات الأخرى مثل نكهة القهوة (Mocha).
بإمكانك مراجعة محتوى موضوع “البيانات والمعلومات والمعرفة” من بدايته وحتى نهاية هذا القسم، من خلال الرابط التالي:
علم البيانات وذكاء الأعمال (Data Science and Business Intelligence)
توجد البيانات في كل مكان من حولك، ويجري استخدامها ومعالجتها وتحليلها في جميع مجالات الحياة.
تتطور نوعية البيانات واستخدامها باستمرار وتستخدم بشكل خاص في العديد من التطبيقات المهمة مثل ذكاء الأعمال (Business Intelligence) ولهذا يعد ذكاء الأعمال عملية قائمة على التقنية لتحليل البيانات وتوفير معلومات مهمة تساعد المديرين التنفيذين وغيرهم من المسؤولين وصناع القرار على اتخاذ قرارات دقيقة خاصة بالأعمال.
تعريف هام
ذكاء الأعمال (Business Intelligence)
هو نظام مبني على البيانات وتشمل جمع البيانات وتخزينها وتحليلها وتمثيلها لدعم عمليات اتّخاذ القرارات.
على الرغم من أنّ كلاً من علم البيانات وذكاء الأعمال يتضمن العمل على البيانات، إلا أنهما يختلفان عن بعضهما.
يعد علم البيانات أكثر تعقيدًا مقارنة بذكاء الأعمال، حيث يقتصر نطاق ذكاء الأعمال على مجال الأعمال منها:
- تحليل البيانات السابقة من خلال تطوير لوحات المعلومات وعرض مستخلصات (رؤى) الأعمال.
- ترتيب البيانات وتنظيمها وتحليلها، وذلك لاستخراج المعلومات التي من شأنها مساعدة الشركات على النمو وتحقيق أهدافها بناء على فهم الاتجاهات الحالية للأعمال.
بينما يعتمد علم البيانات على استخدام البيانات المتوفرة للقيام بتنبؤات مستقبلية وعرض توقعات نمو الأعمال التجارية، وذلك بتوظيف مجموعة واسعة مما يسمى بالنماذج التنبؤية والخوارزميات الإحصائية المعقدة.
يتمثل الدور الأساسي لأدوات ذكاء الأعمال في تحليل معلومات المؤسسات والشركات والمساهمة في إعداد استراتيجيات الأعمال.
بينما أدوات علم البيانات تشمل أدوات معالجة البيانات وأدوات البيانات الضخمة وكذلك نماذج خوارزمية معقدة لتحليل البيانات واستخلاص التوصيات.
لمعرفة المزيد من المعلومات عن “علم البيانات”، قم بالاطّلاع على الرابط التالي:
علم البيانات والذكاء الاصطناعي (Data Science and Artificial Intelligence)
كما تعرفنا سابقًا على مفهوم علم البيانات، فإن مجال الذكاء الاصطناعي (Artificial Intelligence) يعد مجالاً آخر يتعامل مع كم كبير من البيانات.
يمكن استخدام كل تقنية من هاتين التقنيتين بصورة منفصلة عن الأخرى للوصول لحلول لتحديات مختلفة، كذلك يمكن لكل منهما إكمال بعضهما والتقارب معًا.
يختص علم البيانات بمعالجة البيانات التاريخية باستخدام أدوات حسابية للقيام بما يسمى بالتحليل الوصفي(Descriptive Analysis) للبيانات والذي يقدم وصفًا للمواقف المحددة.
وكذلك للتنبؤ بالنتائج من خلال التحليل التنبؤي (Predictive Analysis).
ولتقديم الحلول والتوصيات من خلال التحليل التوجيهي (Prescriptive Analysis).
من أكثر الأدوات الإحصائية استخدامًا هي الأدوات الإحصائية والإدارية التي يمكن بواسطتها تحليل البيانات المؤرخة.
تعريف هام
الذكاء الاصطناعي (Artificial Intelligence – AI)
أحد مجالات علوم الحاسب ويهدف لبناء أنظمة قادرة على أداء المهام التي تتطلب عادةً ذكاءً بشريًا مثل القدرة على التعلُّم والاستدلال، وحل المشكلات ومعالجة اللغة الطبيعية والإدراك.
من ناحية أخرى يستخدِم الذكاء الاصطناعي مجموعة متنوعة من التقنيات لمحاكاة الطريقة التي يفكر بها البشر والتي يقومون بناء عليها باتخاذ القرارات وتحليلها.
فبدلاً من التركيز على إجراء الحسابات الرياضية، يتم التركيز على استخدام أدوات الذكاء الاصطناعي على عناصر المعرفة والذكاء كعناصر حاسمة لحل المشكلات، ويهتم الذكاء الاصطناعي كذلك بالحوسبة المعرفية (Cognitive Computing).
من المهم الإشارة إلى أن الفروقات التي ذُكرت سابقًا بين علم البيانات والذكاء الاصطناعي تبدو أقل وضوحًا في الاستخدامات العملية لهما، لأن مشروعات علم البيانات المعقدة غالبًا ما تتضمن استخدام تقنية تعلم الآلة أحد فروع الذكاء الاصطناعي لتسهيل تحليل البيانات التنبؤي والتوجيهي.
يقدم علم البيانات والتعلم الآلي مساهمات كبيرة للعديد من المؤسسات عند استخدامها بصورة منفصلة، إلا أن تقنيات تحليل البيانات التقليدية لا تتناسب مع العمل ببيانات غير كاملة أو غير دقيقة.
أو في حال كانت السياقات التجارية أو العلمية تتغير بسرعة كبيرة مما يجعل البيانات تتقادم وتفقد قيمتها بسرعة كبيرة كما تجد الإشارة إلى أن تقنيات التعلم الآلي تتطلب قدرًا كبيرًا من البيانات نسبيًا.
يستخدم الجيل القادم من أدوات علم البيانات ومنصات ذكاء الأعمال تعلم الآلة للقيام ببعض الإجراءات مثل التعرف على الأنماط في البيانات لاكتشاف الأنماط المخفية وتقديم التصورات والرؤى المهمة لاتخاذ القرارات، ويزود تعلم الآلة والتعلم العميق علم البيانات بتنبؤات أكثر دقة.
أن توافر مجموعات البيانات الضخمة وانخفاض تكلفة معالجتها سحابيًا يمكن تعلم الآلة من توفير إمكانات لم تكن ممكنة في الماضي، وعند الجمع بين علم البيانات والذكاء الاصطناعي، يمكن الحصول على طريقة فعالة جدًا في الحصول على نتائج دقيقة بشكل ملحوظ تساهم في اتخاذ قرارات أفضل وأسرع.
دورة حياة علم البيانات (Data Science Life Cycle)
يقوم علماء البيانات والمتخصصين في العمل على مشروعات علم البيانات بتوظيف خبراتهم من خلال خطوات محددة لتنفيذ كل مشروع جديد بكفاءة.
يطلق على هذه العملية اسم دورة حياة علم البيانات، وتتضمن خمس مراحل، تتميز كل من المراحل المختلفة لهذه الدورة بخصائص معينة، مما يجعل من الممكن أن تشمل مشروعات خاصة مثل الذكاء الاصطناعي وتعلم الآلة، أو تمثيل العمليات الداخلية لمؤسسات معينة.
- تعريف المشكلة وصياغتها Problem Definition and Formulation
من أجل تصميم وإيجاد حل لمشكلة بواسطة علم البيانات، فإنك تحتاج إلى فهم ماهية المشكلة نفسها. يُعد التحليل الشامل للمشكلة وبيئتها والمتغيرات التي تؤثر عليها أمرًا ضروريًا لتطوير الحلول اللازمة لتلك المشكلة، ويمكن أن يؤدي فهمك لمشكلة ما إلى تحسين إمكانية حلها أو إعاقة حلها بشكل كبير، وذلك لارتباطه المباشر بالنهج الذي سيتم اتباعه لحل تلك المشكلة.
ويكمن الهدف التالي في تحديد الغاية المرجوة من هذا الحل، أن مجموعة البيانات تتضمن دائمًا البيانات نفسها، ولكن طبيعة الإجابات التي تريد الوصول إليها قد تختلف حسب المشكلة المراد حلها.
تعريف هام
تعريف المشكلة وصياغتها (Problem Definition and Formulation)
فهم أهداف ومتطلبات العمل أو المشكلة العملية وتحويل هذه المعرفة إلى مسألة يمكن حلها بتحليل البيانات.
- جمع البيانات Data Collection
بعد أن يتم تحديد الأهداف، يجب توفير مجموعة البيانات نفسها، ورغم أنه قد يتم إدخال البيانات يدويًا أحيانًا، فمن المهم التنقيب وجمع البيانات، حيث يتعين في هذه المرحلة جمع بيانات كافية لمواصلة معالجتها. ويمكن أن تأتي البيانات نفسها من مجموعة متنوعة من المصادر فمثلاً تقوم أجهزة الاستشعار البيئية وتطبيقات الهاتف المحمول ومنصات الويب بتوليد البيانات بصورة مستمرة ليتم تخزينها تلقائيًا في قواعد البيانات.
تعريف هام
جمع البيانات (Data Collection)
عملية جمع القرارات أو الحقائق وتنسيقها، وتشمل الحصول عليها وتسميتها وتحسينها.
- تجهيز البيانات وتنظيفها Data Preparation and Cleaning
تعد عملية تنظيف البيانات ومعالجتها أحد أهم المراحل في دورة حياة علم البيانات، يجب على عالم البيانات تصحيح وتجهيز البيانات التي تم جمعها في مرحلة التنقيب للتأكد من مناسبتها لمرحلة التحليل اللاحقة.
عند دمج البيانات من مصادر متعددة تزيد احتمالية تكرار البيانات أو تداخلها، الأمر الذي يتطلب تصحيح أو تصويب لتلك البيانات.
وكذلك هو الحال، إذا وجدت بيانات تالفة أو منسقة بشكل غير صحيح أو مكررة أو خاطئة أو حتى غير مكتملة.
تكمن أهمية تصحيح تلك البيانات في أن الرؤى والاستنتاجات المستمدة في مرحلة التحليل من تلك البيانات ستكون خاطئة وسيصعب للغاية استنتاج ما إذا كانت المشكلة ناشئة من أخطاء في خطوات التحليل أو أن البيانات نفسها لم يتم تصحيحها.
ولهذا السبب فإن عملية تنظيف البيانات والتحقق من صحتها جيدًا قبل تحليلها تعد أمرًا مهمًا للغاية للعملية بأكملها.
تعريف هام
تنظيف البيانات (Data Cleaning)
عملية متعددة المراحل لمراجعة البيانات وتصحيحها للتأكُّد من أنها في صيغة موحدة، ويتضمن ذلك معالجة القيم المفقودة والبيانات المشوشة، وحل التناقضات والتكرارات.
- التحليل الاستكشافي للبيانات Exploratory Data Analysis
بعد أن جمعت البيانات وقمت بتصحيحها، يمكنك تحليل مجموعة البيانات واستنباط الإجابات المطلوبة لأسئلتك.
يتم إجراء تحليل البيانات باستخدام أدوات تحليل البيانات أو باستخدام الأكواد والمكتبات البرمجية المتخصصة.
قد يكون التحليل بسيطًا وذلك بدراسة متغير واحد أو أكثر، قد يتسع ليشمل عمليات أكثر تعقيدًا تتضمن عمليات احصائية متقدمة.
يعد تعلم الآلة من أكثر الطرائق شيوعًا في الوقت الحالي لتحليل مجموعة من البيانات، ويجب اتباع خطوات محددة لتحليل البيانات باستخدام تعلم الآلة.
في البداية يجب تحديد نموذج تعلم الآلة بإيجاد قيم المدخلات والمخرجات يليها بناء خوارزمية التحليل نفسها.
تعد هذه العملية معقدة، ولهذا فإن هناك متخصصين للقيام بها مثل علماء البيانات ومهندسي تعلم الآلة.
بعد الانتهاء من الخوارزمية، يتم تجريب النموذج واختباره وعند اكتمال هاتين المرحلتين يمكنك استخدام البيانات الناتجة منه للوصول للإجابات المرجو الحصول عليها من عمليات التحليل.
تعريف هام
التحليل الاستكشافي للبيانات (Exploratory Data Analysis)
هو نهج لتحليل مجموعات البيانات لتلخيص خصائصها الرئيسة، ويتم عادةً باستخدام الأساليب المرئية.
- تصوير البيانات Data Visualization
يتم تقديم البيانات التي يتم تحليلها عادة بصورة جداول بيانات، مما يتيح لمحللي البيانات ذوي الخبرة استخدامها.
يقدم التمثيل المرئي لتحليل البيانات إمكانية استخلاص رؤى وتوصيات ذات جودة أفضل.
بينما توفر الرسوم البيانية والمخططات وحتى الخرائط، وكذلك التقارير المنسقة بطريقة فعالة لرؤية وفهم أنماط البيانات واتجاهاتها أي ما توحي به تلك البيانات.
يعد تمثيل النتائج أمرًا ضروريًا لاتخاذ قرارات مستندة إلى البيانات عند التعامل مع كميات هائلة من المعلومات.
تعريف هام
تصوير البيانات (Data Visualization)
يسلط التمثيل الرسومي للمعلومات الضوء على أنماط واتجاهات البيانات، ويساعد القارئ على تطوير رؤى وتوصيات بناءً على تلك البيانات.
بإمكانك مراجعة محتوى موضوع “البيانات والمعلومات والمعرفة” بدايةً من عنوان “دورة حياة علم البيانات” وحتى نهاية الموضوع، من خلال الرابط التالي:
اختبر تحصيلك لمحتوى الموضوع من خلال الرابط التالي:
الواجب الإلكتروني
إلى هنا يكون قد انتهى موضوع “البيانات والمعلومات والمعرفة”، لا تنسوا مراجعة أهداف التعلُّم أعلى المقال، وانتظرونا في الموضوع القادم!