أساسيات علم البيانات | الوحدة الأولى | الدرس الثالث

أساسيات علم البيانات هو عنوان الدرس الثالث من الوحدة الأولى التي تحمل اسم “مقدمة في علم البيانات” من مقرر “علم البيانات”.
ستتعرف في هذا الموضوع على أساسيات علم البيانات، من خلال علوم الرياضيات المُستخدَمة فيه، ومعرفة أهمية لغة البايثون (Python) لعلم البيانات، بالإضافة لمقدمة إلى مفكرة جوبيتر (Jupyter Notebook)، والاطّلاع على أدوات علم البيانات، وتحديد المهن المتعلقة به، وتوضيح أهمية مجتمعات علم البيانات عبر الإنترنت.
لذا قم بقراءة أهداف التعلُّم بعناية، ثم أعد قراءتها وتأكَّد من تحصيل كافة محتوياتها بعد انتهائك من دراسة الموضوع.
أهداف التعلُّم
- مناقشة المهارات والأدوات التي يتطلبها علم البيانات.
- معرفة علوم الرياضيات المُستخدَمة في علم البيانات.
- معرفة أهمية لغة البايثون في علم البيانات.
- فهم هيكلة مفكرة جوبيتر.
- معرفة الأدوات الشائعة لعلم البيانات.
- تحديد المهن المتعلقة بعلم البيانات.
- توضيح أهمية مجتمعات علم البيانات عبر الإنترنت.
هيا لنبدأ!
علوم الرياضيات التي تحتاجها لتصبح عالم بيانات (Mathematics Needed to become a Data Science)
تتطلب خوارزميات علم البيانات بالإضافة إلى تنفيذ التحليلات واكتشاف الأفكار من البيانات الموجودة معرفة رياضية، ففي حين أن الرياضيات لا تعد الأداة الوحيدة المطلوبة لعالم البيانات ولكنها من أهم تلك الأدوات، أحد العناصر الأكثر أهمية في سير عمل مشروع علم البيانات تحديد وفهم تحديات الأعمال وتحويلها إلى تحديات رياضية.
- الجبر الخطي (Line Algebra)
يهتم الجبر الخطي بالمصفوفات والمتجهات، مما يعد أمرًا مهمًا للغاية، لأنه في نماذج علم البيانات والخوارزميات يتم تحويل جميع الأرقام والمعلومات إلى مصفوفات.
يتم استخدام تقنية أخرى في معالجة البيانات الضخمة وترتكز على الجبر الخطي، وهي تقنية تقليص الأبعاد.
كذلك تعد رؤية الحاسب (Computer Vision) والبرمجة اللغوية العصبية (NLP) من مجالات علم البيانات التي تعتمد بشكل كبير على الجبر الخطي.
- الرياضيات المتقطعة (Discrete Mathematics)
تتخصص الرياضيات المتقطعة في طرائق المنطق والاستنتاج، وهي جوانب أساسية في تصميم الخوارزميات وتعد أساس علم البيانات.
ومن المجالات المهمة جدًا الخاصة بالرياضيات المتقطعة هي نظرية المخططات، تستخدم المخططات في نمذجة شبكات معقدة للغاية مثل شبكات تنظيم الجينات، وتعد دراسة هذه المخططات في علم البيانات مهمة جدًا للتقدم في بعض المجالات مثل الطب الدقيق وبيولوجيا الأنظمة وغيرها الكثير.
- الاحتمالات والإحصاء (Probability and Statistics)
عند إنشاء البيانات بعد تحليلها، يحتاج عالم البيانات إلى معرفة عملية بالإحصاء والاحتمالات لكي يتمكن من فهم وتفسير تلك البيانات.
يستخدم علماء البيانات مقاييس مثل التباين والارتباط والانحراف المعياري على نطاق واسع للحصول على نظرية ثاقبة على العلاقات الأساسية لخصائص مجموعة البيانات.
- التفاضل والتكامل (Calculus)
يعد تمثيل النتائج من تحليل البيانات أمرًا بالغ الأهمية لتوفير معلومات مستنيرة من خلال إنشاء الرسوم والمخططات البيانية.
يعد التفاضل والتكامل جزءًا لا يتجزأ من الخوارزميات المستخدمة في العمليات الحسابية المعقدة المطلوبة لهذه العملية، ويتم استخدام خصائص مثل الاشتقاق الجزئي، والانحدار الخطي، والنزول الاشتقاقي على نطاق واسع في التطوير والتحسين وحساب الخسارة.
البايثون في علم البيانات (Python for Data Science)
يفضل محترفو علم البيانات عامة استخدام لغة بايثون في مشروعاتهم المختصة لهذا الجانب.
تعد لغة برمجة عالية المستوى كائنية التوجه وسهلة التعلم، ومن السهل البدء في العمل على مشروع ما بحيث يمكنك بدء كتابة كود برمجي بسيط أو تصميم وتنفيذ حل باستخدام مبادئ البرمجة كائنية التوجه (OOP).
يوفر استخدام واجهات برمجة التطبيقات (APIs) والمكتبات القياسية الوصول إلى دوال قوية سهلة الاستخدام.
توجد العديد من المكتبات الجاهزة للاستخدام في بايثون من قبل المتخصصين في المؤسسات المختلفة تغطي مجموعة متنوعة من الاحتياجات مثل استخراج البيانات وإعداد البيانات وتحليلها، ومعالجة البيانات، والنمذجة التنبؤية، وتمثيل البيانات، وإعداد التقارير.
كذلك فإن مكتبات بايثون تدعم تطبيقات تعلم الآلة ومتطلبات الذكاء الاصطناعي المتقدمة بما يتجاوز تطبيقات علم البيانات التقليدية.
تعريف هام
البايثون
لغة برمجة عالية المستوى يتم استخدامها لأغراض متعددة وقد اكتسبت شعبية متزايدة في علم البيانات وتعلُّم الآلة.
لمعرفة المزيد من المعلومات عن علم البيانات، قم بالاطّلاع على الرابط التالي:
مقدمة إلى مفكرة جوبيتر (Intro to Jupyter)
يمكن كتابة أوامر البايثون النصية في أحد بيئات التطوير المتكاملة (IDE) مثل:
- فيجوال ستوديو كود (Visual Studio Code).
- JetBrains PyCharm.
- مفكرة جوبيتر.
تعتبر مفكرة جوبيتر أحد تطبيقات الويب مفتوحة المصدر المستخدمة لتطوير وتقديم مشروعات علم البيانات باستخدام بايثون.
تتيح البيئة التفاعلية لعلماء البيانات إنشاء مفكرات محوسبة، وتدمج مفكرة جوبيتر أوامر البايثون وتخرجها في مستند واحد يجمع بين التمثيلات والنص السردي والمعادلات الرياضية وأشكال البيانات الأخرى.
بعد تثبيت البرنامج يمكنك تشغيله في متصفح الويب إما عبر الإنترنت أو عبر حاسب شخصي.
تدعم مفكرة جوبيتر إلى جانب البايثون أكثر من 100 لغة برمجة يطلق عليها اسم أنوية (Kernels) في بيئة نظام مفكرة جوبيتر بما فيها:
- Java.
- R.
- .Julia
- MATLAB.
- Octave.
- Scheme.
- Processing.
- Scala.
يقوم تطبيق مفكرة جوبيتر بتشغيل نواة بايثون IPython فقط ولكن يمكن تثبيت أنوية إضافية.
سنستخدم هذا البرنامج لتحليل البيانات الاستكشافية لاحقًا في هذا الكتاب، ويعد أحدث تطبيق قائم على الويب لاستخدام مفكرة جوبيتر هو تطبيق Jupyter Lab بحيث تعمل جميع المستندات بنفس الطريقة في كلتا البيئتين.
بإمكانك مراجعة محتوى موضوع “أساسيات علم البيانات” من بدايته وحتى نهاية هذا القسم، من خلال الرابط التالي:
أدوات علم البيانات (Tools for Data Science)
علم البيانات عملية معقدة تتطلب الكثير من الخطوات لتوفير حلول لعلم البيانات، ولكل خطوة من خطوات هذه العملية العديد من الأدوات لإنجاز المهمة المطلوبة.
الجدول أدناه يعرض الأدوات الأكثر شيوعًا لكل خطوة في علم البيانات.
مهن علم البيانات (Data Science Jobs)
علم البيانات هو أحد أسرع التخصصات المتعلقة بعلوم الحاسب نموًا والأكثر طلبًا في الوقت الراهن، وقد نشرت مؤسسة مسك مؤخرًا تقريرًا عن وسق العمل السعودي ووظائف المستقبل، حيث يركز التقرير على الوظائف الأكثر طلبًا في الوقت الحالي، وتبدو الفرص الوظيفية في علم البيانات واعدة بشكل خاص لا سيما الوظائف التي تدعم أهداف رؤية السعودية 2030.
مجتمعات علم البيانات عبر الإنترنت (Data Science Online Communities)
يرغب علماء البيانات في البقاء على اتصال مع أقرانهم في هذا المجال أو في المهن المماثلة لتعلم أفكار وطرائق جديدة لأن منهجيات وتقنيات علم البيانات دائمة التغير.
توفر الموارد عبر الإنترنت لعلماء البيانات الفرصة فقط في الحفاظ على وتيرة معينة، وهنا برزت الحاجة إلى وجود مجتمع من خبراء علم البيانات لدعم هذا العمل وظهور مجموعة متنوعة من المنتديات والمجموعات عبر الإنترنت والتي تمكنهم من الاتصال معًا وتطوير هذا المجال بكفاءة من خلال المشاركة في مجتمعاته عبر الإنترنت. نشاهد هنا أبرز المجتمعات رغم أنه يعد مجالاً مفتوحًا لظهور مجتمعات جديدة أخرى قد تكون ناجحة أيضًا.
كاقل Kaggle
كاقل شركة تابعة لقوقل، وهي أكبر مجتمع لعلم البيانات يضم ملايين الأعضاء النشطين ومجموعة واسعة من الموارد ويمكن لعلماء البيانات العثور على مجموعات البيانات العامة والموارد التعليمية وبيئة العمل المستندة إلى مجموعة النظراء لدعم عمل تحليل البيانات الخاص بهم.
مجتمع بيانات IBM IBM Data Community
مجتمع بيانات IBM عبارة عن منتدى عبر الإنترنت به مدونات مخصصة لعلم البيانات، يستضيف الأوراق البحثية والبث عبر الإنترنت والعروض التقديمية التي يتم تحديثها مع تطور هذا المجال.
توجد المزيد من المجتمعات عبر الإنترنت المدعوم بعضها من قبل الحكومات، ويدير بعضها الآخر متطوعون.
يركز بعضهم بشكل أكبر على الجانب الاجتماعي من خلال الاجتماعات وجهًا لوجه، بينما يركز بعضهم الآخر على الأكواد البرمجية المطلوبة لمشروعات علم البيانات.
لاحظ أن
تذكَّر دائمًا أن تتحقق من دقة البيانات أو الأكواد أو الأدوات عبر الإنترنت قبل استخدامها، تحقَّق من أيضًا من تصاريح الاستخدام القانونية لكل مجموعة بيانات وحاول تنزيل أدوات البرامج مباشرةً من ملفات مطوريها.
بإمكانك مراجعة محتوى موضوع “أساسيات علم البيانات” بدايةً من عنوان “أدوات علم البيانات” وحتى نهاية الموضوع، من خلال الرابط التالي:
اختبر تحصيلك لمحتوى الموضوع من خلال الرابط التالي:
الواجب الإلكتروني
إلى هنا يكون قد انتهى موضوع “أساسيات علم البيانات”، لا تنسوا مراجعة أهداف التعلُّم أعلى المقال، وانتظرونا في الموضوع القادم!