day 5 - exploratory data analysis
(EDA)
day 5 - exploratory data analysis
(EDA)
day 5 -
exploratory data
analysis (EDA)
السلام عليكم ورحمة الله... معاكم Kaito :)
مرحبا بيكم فالنهار الخامس ديال سلسلة 30 يوم من التعلم الآلي..
شفنا بزاف ديال المفاهيم هاد الايام المتعلقين ب machine learning
وبدينا كندخلو فالصح والمعقول
ولكن قبل منشوفو الخوارزميات والطرق ديال تعلم الالة
ضروري ندويو على هاد الخطوة اللي مهمة وكيدويو عليها الناس بزاف
وداخلة فدورة حياة التعلم الالي
واللي هي تحليل البيانات الاستكشافي exploratory data analysis
او كاختصار EDA

تحليل البيانات الاستكشافي هو واحد البروسيس اولا مجموعة من الخطوات اللي كنديرو باش نفحصو الداتا و نحللوها..
بهدف اننا نعرفوها مزيان كيفاش دايرة وناخدو معلومات اوضح، ونكتشفو انماط ديالها، ونفهمو الخصائص والمميزات ديالها..
بحال ايلا قلتي كنديوها عند الطبيب باش يدوز ليها diagnosis ,
الطبيب -اللي هو فهاد الحالة نتا عالم البيانات-
كيدير تحقيقات اولية على البيانات باش يكتشف patterns,
يعرف الحالات اللي كاينة ويشوف واش الداتا عندو مريضة،
ويختبر الفرضيات اللي عندو.
وهاد الفرضيات كيتحقق منهم وكيفيريفي واش صحاح باستعمال احصائيات ملخصة statistics و تمثيلات مرسومة representations..
هادو كيعاونو باش نفهمو الداتا مزيان قبل منبداو نكوديو ونقادو المودل..
ناخدو ديما المثال ديال توقع ثمن الديور:
فهم البيانات: Data Understanding
قلنا ملي كنجمعو الداتا كنديرو ليها التحليل والفهم..
كيفاش؟
كتبقا تطرح اسئلة باش كتشوف وكتلقا الخصائص الاساسية لديك الداتا،
مثلا كتقول:
— شحال العدد الاجمالي ديال الديور اللي عندنا فهاد الداتا؟
— شناهما الميزات features اللي عندي؟
— واش كاين شي معطى ناقص اولا قيمة مفقودة missing value ف شي سطر فالداتا؟
إحصائيات الملخص: Summary Statistics
من بعد كتقلب و كتسول اسئلة اخرين كدخل بيهم كثر فالتفاصيل…
بحال مثلا:
— شحال هو متوسط (moyenne او mean) حجم ديال دار وحدة؟
هادي كتحسبها ساهلة :
كتجمع الحجم ديال الديور كااملين اللي عندك
وكتقسمهوم على عدد الديور اللي كاينين (داك العدد الاجمالي اللي حسبتي فالاول)
تقدر تسول عوتاني
— شنا هو النطاق اولا المجال ديال اثمنة ديال الديور؟ range
كتحسبها عادي حتا هيا
كاتاخد اكبر قيمة(اغلى ثمن) مع اصغر قيمة (ارخص ثمن) عندك فالداتاسيت
وهكا غادا..
مغنتطرقش لstatistics بزاف غنحط ليكم درس مزيان تشوفوه لتحت
ولكن غير باش تعرفو.. كاينين شي عمليات كتحسبوهوم ديما وبيهم كتفهم الخصائص ديال الداتا وكتعاونك تحل المشكل باريحية وبوضوح..
تصوير البيانات: Data Visualization
من بعد مكنحسيو كيبان لينا قدامنا ارقام،
بزاااف ديال الارقام
ايلا كانت عندي داتاسيت فيها غير 5 سطورا نقدر نقول غنفهم ساهلة
ولكن تخيل معايا 100.000 اولا مليون سطر
ميمكنش بزاف ديال الارقام
اذن فهاد الخطوة كنديرو تصوير البيانات data visualization
فاش كيكون عندنا عدد كبير ديال البيانات فاحسن طريقة باش نتعاملو معاها هي عن طريق الرسومات البيانية graphs 📊
واللي كتخلينا اننا نقراو الداتا ونفهموها ونشوفو بصح كيفاش كتبان..
وهي اصلا باش كتحدد الانماط، تخيل معايا عندك داتا ديال الديور لمدة عام
ودرنا واحد الرسم مبياني..

وبان لينا بلي الخط كيمشي هابط هابط حتا كيوصل للوسط وكيطلع…
هنا كنقراو وكنستنتجو بلي مثلا فشهر 8-7 كيطلع الثمن، اذن الصيف عامل مهم فتغير الثمن ديال الديور…
ايلا مدرناش الرسم المبياني مكانش غتبان لينا بهاد السهولة..
هادا هو البلان ديال data visualization
تحليل الارتباط: Correlation Analysis
من بعد كنحسبو واحد الحاجة سميتها الارتباط correlation بين features..
باش نعرفو واش كاينة شي ميزة اللي مرتبطة بميزة وحدة اخرى
مثلا نقدرو نلقاو بلي ميزة ديال "الحجم" ديال الدار عندو ارتباط قوي strong correlation مع "الثمن"…
قدما كان الحجم كبير قدما كان الثمن طالع
والعكس صحيح
هذا هو اللي كيتسمى الارتباط
(كيفاش تحسبوه غتلقاوه التحت فالمصادر)
اكتشاف الحالات الشاذة: Anomaly Detection
كنقلبو على اي حالة نادرة او متطرفة outlier في الداتا ديالنا
مثلا كنقلبو واش كاينا شي دار كبيرة بزاف ولكن الثمن ديالها منخفض؟
ايلا لقيناها، اذن كنعرفو من خلال حساب الارتباط اللي درنا قبل بلي هاد الحالة راه غير اعتيادية "شاذة"
كنحيدوها باش متخرجش لينا على النتائج ديال المودل من بعد
هادا هو EDA
هو خطوة مهمة كيتجاهلوها بزاف ديال الناس
وفالاخر مكيطفروهش ههه
كتعاوننا هاد الخطوة باش نفهمو الداتا ديالنا
وكتورينا شنو خص يدار من بعد فالخطوات الجايين..
نتلاقاو فايمايل اخر غدا!
كنتمنى تكونو استافدتو.. ايلا عندكم شي تساؤل اولا مشرحتش شي حاجة مزيان، غير صيفط ليا رد فهاد المايل نيت..
— Kaito
ملاحظات:
مصادر :
ايلا عاجبك هدشي وقادر باش تساند هاد newsletter بدعم مادي
دخل لهنا: https://ko-fi.com/callmekaito
شكرا (:

السلام عليكم ورحمة الله... معاكم Kaito :)
مرحبا بيكم فالنهار الخامس ديال سلسلة 30 يوم من التعلم الآلي..
شفنا بزاف ديال المفاهيم هاد الايام المتعلقين ب machine learning
وبدينا كندخلو فالصح والمعقول
ولكن قبل منشوفو الخوارزميات والطرق ديال تعلم الالة
ضروري ندويو على هاد الخطوة اللي مهمة وكيدويو عليها الناس بزاف
وداخلة فدورة حياة التعلم الالي
واللي هي تحليل البيانات الاستكشافي exploratory data analysis
او كاختصار EDA

تحليل البيانات الاستكشافي هو واحد البروسيس اولا مجموعة من الخطوات اللي كنديرو باش نفحصو الداتا و نحللوها..
بهدف اننا نعرفوها مزيان كيفاش دايرة وناخدو معلومات اوضح، ونكتشفو انماط ديالها، ونفهمو الخصائص والمميزات ديالها..
بحال ايلا قلتي كنديوها عند الطبيب باش يدوز ليها diagnosis ,
الطبيب -اللي هو فهاد الحالة نتا عالم البيانات-
كيدير تحقيقات اولية على البيانات باش يكتشف patterns,
يعرف الحالات اللي كاينة ويشوف واش الداتا عندو مريضة،
ويختبر الفرضيات اللي عندو.
وهاد الفرضيات كيتحقق منهم وكيفيريفي واش صحاح باستعمال احصائيات ملخصة statistics و تمثيلات مرسومة representations..
هادو كيعاونو باش نفهمو الداتا مزيان قبل منبداو نكوديو ونقادو المودل..
ناخدو ديما المثال ديال توقع ثمن الديور:
فهم البيانات: Data Understanding
قلنا ملي كنجمعو الداتا كنديرو ليها التحليل والفهم..
كيفاش؟
كتبقا تطرح اسئلة باش كتشوف وكتلقا الخصائص الاساسية لديك الداتا،
مثلا كتقول:
— شحال العدد الاجمالي ديال الديور اللي عندنا فهاد الداتا؟
— شناهما الميزات features اللي عندي؟
— واش كاين شي معطى ناقص اولا قيمة مفقودة missing value ف شي سطر فالداتا؟
إحصائيات الملخص: Summary Statistics
من بعد كتقلب و كتسول اسئلة اخرين كدخل بيهم كثر فالتفاصيل…
بحال مثلا:
— شحال هو متوسط (moyenne او mean) حجم ديال دار وحدة؟
هادي كتحسبها ساهلة :
كتجمع الحجم ديال الديور كااملين اللي عندك
وكتقسمهوم على عدد الديور اللي كاينين (داك العدد الاجمالي اللي حسبتي فالاول)
تقدر تسول عوتاني
— شنا هو النطاق اولا المجال ديال اثمنة ديال الديور؟ range
كتحسبها عادي حتا هيا
كاتاخد اكبر قيمة(اغلى ثمن) مع اصغر قيمة (ارخص ثمن) عندك فالداتاسيت
وهكا غادا..
مغنتطرقش لstatistics بزاف غنحط ليكم درس مزيان تشوفوه لتحت
ولكن غير باش تعرفو.. كاينين شي عمليات كتحسبوهوم ديما وبيهم كتفهم الخصائص ديال الداتا وكتعاونك تحل المشكل باريحية وبوضوح..
تصوير البيانات: Data Visualization
من بعد مكنحسيو كيبان لينا قدامنا ارقام،
بزاااف ديال الارقام
ايلا كانت عندي داتاسيت فيها غير 5 سطورا نقدر نقول غنفهم ساهلة
ولكن تخيل معايا 100.000 اولا مليون سطر
ميمكنش بزاف ديال الارقام
اذن فهاد الخطوة كنديرو تصوير البيانات data visualization
فاش كيكون عندنا عدد كبير ديال البيانات فاحسن طريقة باش نتعاملو معاها هي عن طريق الرسومات البيانية graphs 📊
واللي كتخلينا اننا نقراو الداتا ونفهموها ونشوفو بصح كيفاش كتبان..
وهي اصلا باش كتحدد الانماط، تخيل معايا عندك داتا ديال الديور لمدة عام
ودرنا واحد الرسم مبياني..

وبان لينا بلي الخط كيمشي هابط هابط حتا كيوصل للوسط وكيطلع…
هنا كنقراو وكنستنتجو بلي مثلا فشهر 8-7 كيطلع الثمن، اذن الصيف عامل مهم فتغير الثمن ديال الديور…
ايلا مدرناش الرسم المبياني مكانش غتبان لينا بهاد السهولة..
هادا هو البلان ديال data visualization
تحليل الارتباط: Correlation Analysis
من بعد كنحسبو واحد الحاجة سميتها الارتباط correlation بين features..
باش نعرفو واش كاينة شي ميزة اللي مرتبطة بميزة وحدة اخرى
مثلا نقدرو نلقاو بلي ميزة ديال "الحجم" ديال الدار عندو ارتباط قوي strong correlation مع "الثمن"…
قدما كان الحجم كبير قدما كان الثمن طالع
والعكس صحيح
هذا هو اللي كيتسمى الارتباط
(كيفاش تحسبوه غتلقاوه التحت فالمصادر)
اكتشاف الحالات الشاذة: Anomaly Detection
كنقلبو على اي حالة نادرة او متطرفة outlier في الداتا ديالنا
مثلا كنقلبو واش كاينا شي دار كبيرة بزاف ولكن الثمن ديالها منخفض؟
ايلا لقيناها، اذن كنعرفو من خلال حساب الارتباط اللي درنا قبل بلي هاد الحالة راه غير اعتيادية "شاذة"
كنحيدوها باش متخرجش لينا على النتائج ديال المودل من بعد
هادا هو EDA
هو خطوة مهمة كيتجاهلوها بزاف ديال الناس
وفالاخر مكيطفروهش ههه
كتعاوننا هاد الخطوة باش نفهمو الداتا ديالنا
وكتورينا شنو خص يدار من بعد فالخطوات الجايين..
نتلاقاو فايمايل اخر غدا!
كنتمنى تكونو استافدتو.. ايلا عندكم شي تساؤل اولا مشرحتش شي حاجة مزيان، غير صيفط ليا رد فهاد المايل نيت..
— Kaito
ملاحظات:
مصادر :
ايلا عاجبك هدشي وقادر باش تساند هاد newsletter بدعم مادي
دخل لهنا: https://ko-fi.com/callmekaito
شكرا (:

التالي