10 تکخطی مفید پایتون برای پاکسازی دادهها
10 وان لاینر پایتون برای پاکسازی دادهها..!
هنگام کار با هر مجموعه دادهای، پاکسازی دادهها برای دستیابی به اطلاعاتی قابل تحلیل ضروری است. مشکلات رایج کیفیت داده شامل دادههای تکراری، فرمتهای نادرست، مقادیر خارج از محدوده و دادههای گمشده هستند.
در این مقاله از وبسایت آی کد آکادمی، به برخی از تکخطیهای مفید پایتون برای انجام کارهای رایج پاکسازی دادهها میپردازیم. این آموزش بر تکخطیهای پایتون برای پاکسازی دادهها تمرکز دارد و ما با یک مجموعه داده نمونه کار خواهیم کرد.
برای دنبال کردن راحت این آموزش، بهتر است با مفهومهای لیست و دیکشنری در پایتون آشنا باشید. بیایید شروع کنیم.
تولید داده نمونه
ابتدا یک مجموعه داده نمونه تولید میکنیم:
حالا بیایید کدهایی برای رفع مشکلات موجود در این داده نمونه بنویسیم.
1. استانداردسازی رشتهها (حروف بزرگ کردن)
حفظ یکنواختی در فرمت رشتهها در سراسر مجموعه داده اهمیت زیادی دارد. بیایید نامها را بهصورت استاندارد با حروف بزرگ در ابتدای کلمات تنظیم کنیم:
این تکخطی با استفاده از متد title()، حروف ابتدایی هر کلمه در نامها را بزرگ میکند تا یکنواختی در دادهها ایجاد شود.
2. تبدیل نوع دادهها
اطمینان از یکنواختی و صحت نوع دادهها در مجموعه داده برای تحلیل دقیق ضروری است. در داده نمونه، بیایید سنین را به نوع داده عدد صحیح تبدیل کنیم:
این کد بررسی میکند که آیا مقدار age یک عدد (صحیح یا اعشاری) است یا خیر. اگر عدد باشد، آن را به عدد صحیح تبدیل میکند؛ در غیر این صورت، مقدار پیشفرض 25 را اختصاص میدهد.
3. اعتبارسنجی محدوده عددی
مهم است که اطمینان حاصل کنیم مقادیر عددی در محدودههای قابل قبول قرار دارند. بیایید بررسی کنیم که سنین در محدوده 18 تا 60 سال باشند و در غیر این صورت، مقدار پیشفرض را اختصاص دهیم:
این تکخطی اطمینان میدهد که سن یک عدد صحیح در محدوده 18 تا 60 است. اگر شرط برقرار نباشد، مقدار 25 را تنظیم میکند.
4. اعتبارسنجی ایمیل
ناسازگاریهای فرمت در فیلدهای متنی بسیار رایج هستند. کد زیر بررسی میکند که آدرسهای ایمیل معتبر باشند و موارد نامعتبر را با یک ایمیل پیشفرض جایگزین میکند:
این کد بررسی میکند که آیا ایمیل شامل کاراکترهای @ و . است یا خیر. اگر این شرایط برقرار نباشد، ایمیل به invalid@example.com تغییر میکند.
5. مدیریت مقادیر گمشده
مقادیر گمشده یکی دیگر از مشکلات رایج در اکثر مجموعههای داده هستند. در اینجا، مقادیر گمشده حقوق را با یک مقدار پیشفرض جایگزین میکنیم:
این تکخطی بررسی میکند که آیا مقدار salary وجود دارد یا خیر. اگر وجود نداشته باشد، مقدار پیشفرض 30000.00 را اختصاص میدهد.
6. استانداردسازی فرمت تاریخ
در مورد تاریخها و زمانها، داشتن فرمت یکسان برای همه آنها بسیار مهم است. در اینجا، فرمتهای مختلف تاریخ را به یک فرمت واحد تبدیل میکنیم و برای ورودیهای نامعتبر یک مقدار پیشفرض تعیین میکنیم:
اگرچه این کد کار میکند، اما ممکن است خواندن آن دشوار باشد. بهتر است این فرآیند را به چند مرحله تقسیم کنیم. برای اطلاعات بیشتر، مقاله «چرا نباید از لیستهای فشرده بیش از حد در پایتون استفاده کرد» را مطالعه کنید تا بدانید چرا نباید خوانایی و نگهداری کد را فدای استفاده از لیستهای فشرده کرد.
7. حذف مقادیر منفی
گاهی اوقات نیاز است اطمینان حاصل کنیم که برخی فیلدهای عددی فقط مقادیر غیرمنفی داشته باشند، مانند سن یا حقوق. به عنوان مثال، میتوانیم مقادیر منفی حقوق را با صفر جایگزین کنیم:
این تکخطی اطمینان میدهد که مقادیر حقوق منفی با صفر جایگزین شوند تا همه مقادیر غیرمنفی باشند.
8. بررسی دادههای تکراری
حذف رکوردهای تکراری قبل از تحلیل بیشتر مجموعه داده مهم است. بیایید اطمینان حاصل کنیم که فقط رکوردهای منحصربهفرد باقی میمانند با بررسی نامهای تکراری:
این کد با تبدیل دادهها به مجموعهای از تاپلها، رکوردهای تکراری را بر اساس فیلد name حذف میکند و سپس آن را به لیست دیکشنریها بازمیگرداند.
9. مقیاسبندی مقادیر عددی
مقیاسبندی مقادیر عددی گاهی اوقات به تحلیل یکنواخت کمک میکند. بیایید حقوقها را به درصد حداکثر حقوق در مجموعه داده مقیاسبندی کنیم:
این تکخطی حقوقها را به درصد حداکثر حقوق نرمالسازی میکند تا تحلیل دادهها سادهتر شود.
10. حذف فاصلههای اضافی
گاهی اوقات نیاز است فاصلههای اضافی از رشتهها حذف شوند. در اینجا یک تکخطی برای حذف فاصلههای ابتدایی و انتهایی از رشتههای نام ارائه شده است:
این کد فاصلههای اضافی را از نامها حذف میکند تا دادهها تمیزتر شوند.
نتیجهگیری
پس از اجرای مراحل پاکسازی داده، دیکشنری داده به این شکل خواهد بود:
جمعبندی
در این آموزش، به مشکلات رایج کیفیت داده و تکخطیهای پایتون برای پاکسازی یک مجموعه داده نمونه پرداختیم. این تکخطیها میتوانند هنگام نیاز به پاکسازی ساده و سریع دادهها و شروع تحلیل بسیار مفید باشند. اگر به دنبال یک دوره کامل برای شروع تحلیل داده هستید پیشنهاد میکنم دوره کامل تحلیل داده با آقای ربات رو چک کنید.
پاکسازی داده بهتون خوش بگذره!
دیدگاهتان را بنویسید