حساب کاربری
​
زمان تقریبی مطالعه: 1 دقیقه
لینک کوتاه

پاک‌سازی داده

پاک کردن (تمیز کردن) داده‌ها در انگلیسی Data cleaning یا Data cleansing گفته می‌شود. فرایندی برای داشتن مجموعه‌ای داده‌های تمیز و صحیح برای آنالیز کردن

پاک‌سازی داده‌ها یا تمیز کردن داده‌ها فرایند پیدا کردن، اصلاح کردن (یا حتی حذف کردن) داده‌های بی ارزش و اشتباه از مجموعه داده (دیتاست) یا پایگاه داده (دیتابیس) است. فرایند تمیز کردن داده‌ها ممکن است که از طریق ابزارهای داده‌کاوی یا پردازش دسته‌ای از طریق اسکریپت‌ها انجام شود. بعد از پاکسازی، مجموعه داده باید با سایر مجموعه داده‌های مشابه در سیستم سازگار باشد. ناسازگاری داده‌ها شناسایی و حذف (اصلاح) شده ممکن است بر اثر اشتباه انسانی هنگام ورود اطلاعات، انحراف در هنگام انتقال و ذخیره سازی اطلاعات یا به دلیل واژه نامه‌های داده مختلف باشد.

منابع

  • Han, J., Kamber, M. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001. شابک ‎۱−۵۵۸۶۰−۴۸۹−۸.
  • Kimball, R., Caserta, J. The Data Warehouse ETL Toolkit, Wiley and Sons, 2004. شابک ‎۰−۷۶۴۵−۶۷۵۷−۸.
  • Muller H., Freytag J., Problems, Methods, and Challenges in Comprehensive Data Cleansing, Humboldt-Universitat zu Berlin, Germany.
  • Rahm, E., Hong, H. Data Cleaning: Problems and Current Approaches, University of Leipzig, Germany.
آخرین نظرات
ثبت نظرات
نظر خود را درباره این مقاله بنویسید
  • شابک
کلیه حقوق این تارنما متعلق به فرا دانشنامه ویکی بین است.