day 5 - exploratory data analysis
(EDA)

day 5 - exploratory data analysis
(EDA)

day 5 -
exploratory data
analysis (EDA)

السلام عليكم ورحمة الله... معاكم Kaito :)


مرحبا بيكم فالنهار الخامس ديال سلسلة 30 يوم من التعلم الآلي..


شفنا بزاف ديال المفاهيم هاد الايام المتعلقين ب machine learning


وبدينا كندخلو فالصح والمعقول


ولكن قبل منشوفو الخوارزميات والطرق ديال تعلم الالة


ضروري ندويو على هاد الخطوة اللي مهمة وكيدويو عليها الناس بزاف


وداخلة فدورة حياة التعلم الالي


واللي هي تحليل البيانات الاستكشافي exploratory data analysis


او كاختصار EDA


eda-meme-1.png (440×444)



تحليل البيانات الاستكشافي هو واحد البروسيس اولا مجموعة من الخطوات اللي كنديرو باش نفحصو الداتا و نحللوها..


بهدف اننا نعرفوها مزيان كيفاش دايرة وناخدو معلومات اوضح، ونكتشفو انماط ديالها، ونفهمو الخصائص والمميزات ديالها..


بحال ايلا قلتي كنديوها عند الطبيب باش يدوز ليها diagnosis ,


الطبيب -اللي هو فهاد الحالة نتا عالم البيانات-


كيدير تحقيقات اولية على البيانات باش يكتشف patterns,


يعرف الحالات اللي كاينة ويشوف واش الداتا عندو مريضة،


ويختبر الفرضيات اللي عندو.


وهاد الفرضيات كيتحقق منهم وكيفيريفي واش صحاح باستعمال احصائيات ملخصة statistics و تمثيلات مرسومة representations..


هادو كيعاونو باش نفهمو الداتا مزيان قبل منبداو نكوديو ونقادو المودل..


ناخدو ديما المثال ديال توقع ثمن الديور:


  • فهم البيانات: Data Understanding


قلنا ملي كنجمعو الداتا كنديرو ليها التحليل والفهم..


كيفاش؟


كتبقا تطرح اسئلة باش كتشوف وكتلقا الخصائص الاساسية لديك الداتا،


مثلا كتقول:


— شحال العدد الاجمالي ديال الديور اللي عندنا فهاد الداتا؟


— شناهما الميزات features اللي عندي؟


— واش كاين شي معطى ناقص اولا قيمة مفقودة missing value ف شي سطر فالداتا؟


  • إحصائيات الملخص: Summary Statistics


من بعد كتقلب و كتسول اسئلة اخرين كدخل بيهم كثر فالتفاصيل…


بحال مثلا:


— شحال هو متوسط (moyenne او mean) حجم ديال دار وحدة؟


هادي كتحسبها ساهلة :


كتجمع الحجم ديال الديور كااملين اللي عندك

وكتقسمهوم على عدد الديور اللي كاينين (داك العدد الاجمالي اللي حسبتي فالاول)


تقدر تسول عوتاني


— شنا هو النطاق اولا المجال ديال اثمنة ديال الديور؟ range


كتحسبها عادي حتا هيا


كاتاخد اكبر قيمة(اغلى ثمن) مع اصغر قيمة (ارخص ثمن) عندك فالداتاسيت


وهكا غادا..


مغنتطرقش لstatistics بزاف غنحط ليكم درس مزيان تشوفوه لتحت


ولكن غير باش تعرفو.. كاينين شي عمليات كتحسبوهوم ديما وبيهم كتفهم الخصائص ديال الداتا وكتعاونك تحل المشكل باريحية وبوضوح..


  • تصوير البيانات: Data Visualization


من بعد مكنحسيو كيبان لينا قدامنا ارقام،


بزاااف ديال الارقام


ايلا كانت عندي داتاسيت فيها غير 5 سطورا نقدر نقول غنفهم ساهلة


ولكن تخيل معايا 100.000 اولا مليون سطر


ميمكنش بزاف ديال الارقام


اذن فهاد الخطوة كنديرو تصوير البيانات data visualization


فاش كيكون عندنا عدد كبير ديال البيانات فاحسن طريقة باش نتعاملو معاها هي عن طريق الرسومات البيانية graphs 📊


واللي كتخلينا اننا نقراو الداتا ونفهموها ونشوفو بصح كيفاش كتبان..


وهي اصلا باش كتحدد الانماط، تخيل معايا عندك داتا ديال الديور لمدة عام


ودرنا واحد الرسم مبياني..


case-study.png (1058×550)


وبان لينا بلي الخط كيمشي هابط هابط حتا كيوصل للوسط وكيطلع…


هنا كنقراو وكنستنتجو بلي مثلا فشهر 8-7 كيطلع الثمن، اذن الصيف عامل مهم فتغير الثمن ديال الديور…


ايلا مدرناش الرسم المبياني مكانش غتبان لينا بهاد السهولة..


هادا هو البلان ديال data visualization


  • تحليل الارتباط: Correlation Analysis


من بعد كنحسبو واحد الحاجة سميتها الارتباط correlation بين features..


باش نعرفو واش كاينة شي ميزة اللي مرتبطة بميزة وحدة اخرى


مثلا نقدرو نلقاو بلي ميزة ديال "الحجم" ديال الدار عندو ارتباط قوي strong correlation مع "الثمن"…


قدما كان الحجم كبير قدما كان الثمن طالع


والعكس صحيح


هذا هو اللي كيتسمى الارتباط

(كيفاش تحسبوه غتلقاوه التحت فالمصادر)


  • اكتشاف الحالات الشاذة: Anomaly Detection


كنقلبو على اي حالة نادرة او متطرفة outlier في الداتا ديالنا


مثلا كنقلبو واش كاينا شي دار كبيرة بزاف ولكن الثمن ديالها منخفض؟


ايلا لقيناها، اذن كنعرفو من خلال حساب الارتباط اللي درنا قبل بلي هاد الحالة راه غير اعتيادية "شاذة"


كنحيدوها باش متخرجش لينا على النتائج ديال المودل من بعد



هادا هو EDA


هو خطوة مهمة كيتجاهلوها بزاف ديال الناس


وفالاخر مكيطفروهش ههه


كتعاوننا هاد الخطوة باش نفهمو الداتا ديالنا


وكتورينا شنو خص يدار من بعد فالخطوات الجايين..


نتلاقاو فايمايل اخر غدا!


كنتمنى تكونو استافدتو.. ايلا عندكم شي تساؤل اولا مشرحتش شي حاجة مزيان، غير صيفط ليا رد فهاد المايل نيت..



— Kaito



ملاحظات:



  • ايلا عاجبك هدشي وقادر باش تساند هاد newsletter بدعم مادي

    دخل لهنا: https://ko-fi.com/callmekaito

    شكرا (:


rest-9a9e6b30329429d1385775297f1ac9d1-a5esznpy.jpg (1200×600)


السلام عليكم ورحمة الله... معاكم Kaito :)


مرحبا بيكم فالنهار الخامس ديال سلسلة 30 يوم من التعلم الآلي..


شفنا بزاف ديال المفاهيم هاد الايام المتعلقين ب machine learning


وبدينا كندخلو فالصح والمعقول


ولكن قبل منشوفو الخوارزميات والطرق ديال تعلم الالة


ضروري ندويو على هاد الخطوة اللي مهمة وكيدويو عليها الناس بزاف


وداخلة فدورة حياة التعلم الالي


واللي هي تحليل البيانات الاستكشافي exploratory data analysis


او كاختصار EDA


eda-meme-1.png (440×444)



تحليل البيانات الاستكشافي هو واحد البروسيس اولا مجموعة من الخطوات اللي كنديرو باش نفحصو الداتا و نحللوها..


بهدف اننا نعرفوها مزيان كيفاش دايرة وناخدو معلومات اوضح، ونكتشفو انماط ديالها، ونفهمو الخصائص والمميزات ديالها..


بحال ايلا قلتي كنديوها عند الطبيب باش يدوز ليها diagnosis ,


الطبيب -اللي هو فهاد الحالة نتا عالم البيانات-


كيدير تحقيقات اولية على البيانات باش يكتشف patterns,


يعرف الحالات اللي كاينة ويشوف واش الداتا عندو مريضة،


ويختبر الفرضيات اللي عندو.


وهاد الفرضيات كيتحقق منهم وكيفيريفي واش صحاح باستعمال احصائيات ملخصة statistics و تمثيلات مرسومة representations..


هادو كيعاونو باش نفهمو الداتا مزيان قبل منبداو نكوديو ونقادو المودل..


ناخدو ديما المثال ديال توقع ثمن الديور:


  • فهم البيانات: Data Understanding


قلنا ملي كنجمعو الداتا كنديرو ليها التحليل والفهم..


كيفاش؟


كتبقا تطرح اسئلة باش كتشوف وكتلقا الخصائص الاساسية لديك الداتا،


مثلا كتقول:


— شحال العدد الاجمالي ديال الديور اللي عندنا فهاد الداتا؟


— شناهما الميزات features اللي عندي؟


— واش كاين شي معطى ناقص اولا قيمة مفقودة missing value ف شي سطر فالداتا؟


  • إحصائيات الملخص: Summary Statistics


من بعد كتقلب و كتسول اسئلة اخرين كدخل بيهم كثر فالتفاصيل…


بحال مثلا:


— شحال هو متوسط (moyenne او mean) حجم ديال دار وحدة؟


هادي كتحسبها ساهلة :


كتجمع الحجم ديال الديور كااملين اللي عندك

وكتقسمهوم على عدد الديور اللي كاينين (داك العدد الاجمالي اللي حسبتي فالاول)


تقدر تسول عوتاني


— شنا هو النطاق اولا المجال ديال اثمنة ديال الديور؟ range


كتحسبها عادي حتا هيا


كاتاخد اكبر قيمة(اغلى ثمن) مع اصغر قيمة (ارخص ثمن) عندك فالداتاسيت


وهكا غادا..


مغنتطرقش لstatistics بزاف غنحط ليكم درس مزيان تشوفوه لتحت


ولكن غير باش تعرفو.. كاينين شي عمليات كتحسبوهوم ديما وبيهم كتفهم الخصائص ديال الداتا وكتعاونك تحل المشكل باريحية وبوضوح..


  • تصوير البيانات: Data Visualization


من بعد مكنحسيو كيبان لينا قدامنا ارقام،


بزاااف ديال الارقام


ايلا كانت عندي داتاسيت فيها غير 5 سطورا نقدر نقول غنفهم ساهلة


ولكن تخيل معايا 100.000 اولا مليون سطر


ميمكنش بزاف ديال الارقام


اذن فهاد الخطوة كنديرو تصوير البيانات data visualization


فاش كيكون عندنا عدد كبير ديال البيانات فاحسن طريقة باش نتعاملو معاها هي عن طريق الرسومات البيانية graphs 📊


واللي كتخلينا اننا نقراو الداتا ونفهموها ونشوفو بصح كيفاش كتبان..


وهي اصلا باش كتحدد الانماط، تخيل معايا عندك داتا ديال الديور لمدة عام


ودرنا واحد الرسم مبياني..


case-study.png (1058×550)


وبان لينا بلي الخط كيمشي هابط هابط حتا كيوصل للوسط وكيطلع…


هنا كنقراو وكنستنتجو بلي مثلا فشهر 8-7 كيطلع الثمن، اذن الصيف عامل مهم فتغير الثمن ديال الديور…


ايلا مدرناش الرسم المبياني مكانش غتبان لينا بهاد السهولة..


هادا هو البلان ديال data visualization


  • تحليل الارتباط: Correlation Analysis


من بعد كنحسبو واحد الحاجة سميتها الارتباط correlation بين features..


باش نعرفو واش كاينة شي ميزة اللي مرتبطة بميزة وحدة اخرى


مثلا نقدرو نلقاو بلي ميزة ديال "الحجم" ديال الدار عندو ارتباط قوي strong correlation مع "الثمن"…


قدما كان الحجم كبير قدما كان الثمن طالع


والعكس صحيح


هذا هو اللي كيتسمى الارتباط

(كيفاش تحسبوه غتلقاوه التحت فالمصادر)


  • اكتشاف الحالات الشاذة: Anomaly Detection


كنقلبو على اي حالة نادرة او متطرفة outlier في الداتا ديالنا


مثلا كنقلبو واش كاينا شي دار كبيرة بزاف ولكن الثمن ديالها منخفض؟


ايلا لقيناها، اذن كنعرفو من خلال حساب الارتباط اللي درنا قبل بلي هاد الحالة راه غير اعتيادية "شاذة"


كنحيدوها باش متخرجش لينا على النتائج ديال المودل من بعد



هادا هو EDA


هو خطوة مهمة كيتجاهلوها بزاف ديال الناس


وفالاخر مكيطفروهش ههه


كتعاوننا هاد الخطوة باش نفهمو الداتا ديالنا


وكتورينا شنو خص يدار من بعد فالخطوات الجايين..


نتلاقاو فايمايل اخر غدا!


كنتمنى تكونو استافدتو.. ايلا عندكم شي تساؤل اولا مشرحتش شي حاجة مزيان، غير صيفط ليا رد فهاد المايل نيت..



— Kaito



ملاحظات:



  • ايلا عاجبك هدشي وقادر باش تساند هاد newsletter بدعم مادي

    دخل لهنا: https://ko-fi.com/callmekaito

    شكرا (:


rest-9a9e6b30329429d1385775297f1ac9d1-a5esznpy.jpg (1200×600)


التالي