Flazzo memiliki fokus utama untuk menambah nilai bisnis Anda.

Blog

Pengujian data: komponen kualitas data yang hilang

17034803-thumb.jpg
Blog

Pengujian data: komponen kualitas data yang hilang


Kualitas data

Kualitas data sangat penting untuk sistem seperti gudang data, MDM, CRM, dan proyek data-sentris lainnya. Namun, DQ sering diabaikan dalam pengembangan hingga sistem beroperasi penuh dalam produksi. Hal ini menghasilkan kesenjangan yang signifikan dalam kualitas data, karena sedikit atau tidak ada pengujian yang dilakukan selama fase pengembangan proyek.

Data seperti produk dan sistem data seperti pabrik yang memproduksinya. Di pabrik, kualitas dibagi menjadi dua komponen: jaminan kualitas dan kontrol kualitas. Mari gali lebih dalam dan pahami konsep ini dan penerapannya pada kualitas data.

Jaminan Kualitas (QA) vs Kontrol Kualitas (QC)

Tanya Jawab: Kualitas bahan baku dan metode pemrosesan diverifikasi oleh proses penjaminan kualitas selama pembuatan produk untuk memastikan cacat minimal pada produk akhir.

QC: Bahkan setelah QA, masih akan ada kekurangan dalam pembuatan yang tidak terdeteksi oleh proses QA, dan itulah sebabnya ada proses QC akhir yang memverifikasi produk akhir.

Kualitas asuransi Kontrol kualitas

KUALITAS ASURANSI

KONTROL KUALITAS

Fokus pada pemrosesan untuk menghindari cacat produk. Identifikasi cacat produk sebelum pengiriman.
  • Kualitas bahan baku yang masuk
  • Fokus pada produk akhir

Bagaimana konsep manufaktur QA dan QC berlaku untuk ranah data? Apa kekurangan metode kualitas data tradisional di mana pengujian data sering diabaikan?

Keterbatasan pendekatan lama terhadap kualitas data

Perbandingan di atas menunjukkan bahwa DQ pada tahap pasca produksi adalah QC yang hanya 50% dari proses DQ. 50% lainnya adalah jaminan kualitas atau tes data yang dikembangkan hilang. Berikut adalah beberapa kekurangan kualitas data tradisional:

  1. pengujian ETL: Alat kualitas data dirancang untuk menguji data, bukan untuk pengujian ETL.
  2. Terlalu sedikit, terlambat: Proses kualitas data hanya diterapkan saat data akhir dikirim ke produksi. Pada saat itu, sistem data yang rusak sudah diproduksi.
  3. Sampah masuk sampah keluar: Data mentah yang digunakan selama pengembangan belum pernah diuji. Dengan demikian, pengembang tidak mengetahui semua kemungkinan permutasi dan kombinasi data.
  4. Proses yang buruk menghasilkan data yang buruk: Proses data yang mengubah data itu sendiri bisa salah dan menghasilkan data berkualitas buruk.
  5. Orkestrasi proses data yang salah: Biasanya pengolahan data adalah pelaksanaan berbagai proses data dalam urutan dan waktu tertentu. Ini diperlukan untuk mengintegrasikan data dari berbagai sumber ke dalam satu tampilan terpadu.
  6. Skema data buruk: Jika model data memiliki masalah seperti tipe data yang salah, panjang tipe data yang salah, presisi atau kendala yang hilang, banyak masalah data nantinya akan muncul di data produksi.

Ingatlah bahwa masalah ini hanya dapat diselesaikan selama fase pengembangan proyek dengan menerapkan QA atau pengujian data yang tepat.

Memahami Pengujian Data

Pengujian data adalah metode untuk menguji dan mensertifikasi data dan proses data sebelum menerapkan kode ke produksi. Ini terdiri dari pengujian data mentah, pengujian ETL, dan orkestrasi proses.

Memahami Pengujian Data

Pengujian data meliputi kegiatan berikut.

Uji data mentah untuk memastikan bahwa data sesuai dengan harapan.
Uji proses ETL untuk memastikannya dikodekan dengan benar dan mengubah data sesuai dengan persyaratan.
Validasi bisnis dari keluaran data yang dihasilkan oleh proses ETL.

Mulailah dengan pengujian data

Bagian besar dari pengujian data adalah menguji proses ETL. Di dalam iceDQIni dilakukan dengan menerapkan langkah-langkah berikut:

1. Identifikasi proses pengujian

  • Mengidentifikasi proses data yang sedang diuji. Dalam hal ini, kami mengambil proses “LOAD_EMP_DATA”.
  • Temukan basis data sumber. Ini dia “ADVENTURE WORKS DB” dan skemanya adalah “HR”
  • Temukan database tujuan “EDW_DB”.

2. Temukan tabel sumber dan target yang digunakan oleh pemrosesan data.

  • Tabel sumbernya adalah “EMPLOYEE”.
  • Tabel tujuannya adalah “EMPLOYEE_DIM”.

2. Temukan tabel sumber dan target yang digunakan oleh pemrosesan data.

3. Koneksi ke database.

  • Buat koneksi ke database sumber dari mana data dibaca oleh proses.
  • Buat koneksi lain untuk database target tempat data yang diproses dimuat.

Koneksi ke database

4. Buat dan jalankan aturan pengujian data.

  • Dalam hal ini, sebagian besar transformasi data terjadi pada nama karyawan.
  • Sumber memiliki “nama depan” dan “nama belakang” sebagai kolom.
  • Namun, tujuannya memiliki nama lengkap.
  • Transformasi data menggabungkan nama depan dan nama belakang untuk memberikan nama lengkap.
  • Oleh karena itu, pemeriksaan dibuat untuk merekonsiliasi transformasi data.

Membuat dan menjalankan aturan pengujian data

5. Tinjauan keluaran data

  • Setelah pengujian dijalankan, iceDQ akan menghasilkan pengecualian data yang menunjukkan kelemahan dalam transformasi data seperti yang ditunjukkan di bawah ini.
  • Berdasarkan cacatnya, pemrosesan data disertifikasi atau ditolak.

Peninjauan keluaran data

Kesimpulan

Kualitas dataKualitas data bukan hanya konsep produksi, tetapi upaya yang sama atau lebih besar dimasukkan ke dalam pengujian data selama pengembangan. Pendekatan gabungan pengujian data selama pengembangan dan pemantauan data dalam produksi akan memberikan hasil terbaik untuk kualitas data dan juga sangat efisien.