Bagaimana Open Data Lakehouse menjadikan data mesh nyata dan secara radikal memperluas penggunaan data untuk bisnis

Bagaimana Open Data Lakehouse menjadikan data mesh nyata dan secara radikal memperluas penggunaan data untuk bisnis
[ad_1]

Ketika Zhamak Dehghani pengenalan jaringan data pada tahun 2019, ini mengakui ekspektasi yang tidak terpenuhi dari para pemimpin bisnis dan frustrasi utama para ahli teknologi di dunia pergudangan data. Konferensi tersebut menyalurkan gelombang sentimen selama beberapa dekade di lapangan, tetapi yang lebih penting, menguraikan pendekatan yang lebih baik untuk mengelola data analitik. Jaring data menyerah pada keadaan data yang terdistribusi secara alami, menghancurkan pemikiran monolitik yang melekat pada dunia data, bahkan ketika munculnya cloud dan layanan mikro telah mengubah pengembangan aplikasi.
Impian gudang data telah menjadi mimpi buruk
Impian yang diciptakan Teradata lebih dari 40 tahun yang lalu dengan gudang data yang dibangun khusus telah berubah menjadi mimpi buruk selama bertahun-tahun: data telah menjadi objek dari manajemen yang terpusat dan seringkali milik sendiri dan penguncian pemasok. Pipeline dan implementasi teknis telah menjadi pusat perhatian atas masalah bisnis. Tim rekayasa data yang terbungkam telah menanggung beban pemindahan dan penyalinan data, mengubahnya, dan mengirimkan kumpulan data yang berguna ke setiap sudut perusahaan. Insinyur ini sering kewalahan dengan tumpukan permintaan data yang tidak mungkin, sementara unit bisnis menunggu dengan sia-sia untuk data yang semakin usang. Meskipun alat manajemen data telah meningkat pesat selama lima hingga sepuluh tahun terakhir, banyak dari masalah yang sama ini telah diimpor ke cloud.
Dan akar masalahnya? Bisnis, pada kenyataannya, hanya menggunakan sebagian kecil dari penyimpanan data terpusat mereka yang luas untuk membuat produk baru dan memberikan nilai kepada pelanggan, karena sistem lama tidak memungkinkan mereka memanfaatkan semua data mereka.
Saat ini, konsep jaring data menganjurkan arsitektur terdesentralisasi, di mana data dimiliki dan diperlakukan sebagai komoditas oleh tim domain yang paling mengetahui data, mereka yang membuat, mengonsumsi, dan membagikannya. Ini merangsang penggunaan data yang lebih luas. Dengan jaring data, kompleksitas diabstraksi menjadi lapisan infrastruktur layanan mandiri yang mudah digunakan, didukung oleh platform yang menawarkan kebebasan dan tata kelola federasi.
Tetapi bagaimana konsep sistem data perusahaan-sentris yang terdistribusi dan dapat dioperasikan ini benar-benar menjadi kenyataan?
Lakehouse data terbuka menjawab panggilan data mesh
Pencapaian penting dari Open Data Lakehouse adalah dapat digunakan sebagai dasar teknis untuk data meshing. Jaring data adalah tentang mengaktifkan domain (sering kali bermanifestasi sebagai unit bisnis dalam perusahaan) untuk menggunakan teknologi terbaik untuk mendukung kasus penggunaannya. Jadi Lakehouse, yang memungkinkan domain untuk menggunakan semua alat favorit mereka secara langsung pada data saat berada di penyimpanan objek, sangat cocok. Misalnya, domain dapat menggunakan mesin seperti Spark untuk mengubah data, lalu alat yang dibuat khusus untuk menjalankan dasbor interaktif pada data yang sama setelah siap digunakan. Sifat non-penyalinan yang melekat dari Lakehouse dengan mudah mengatasi keberatan yang telah ditujukan terhadap beberapa implementasi data mesh, yang sayangnya menyebabkan proliferasi pipa data dan penyalinan.
Fleksibilitas ini tetap sama dengan perkembangan organisasi. Karena data Lakehouse terbuka disimpan dalam format terbuka di penyimpanan objek, saat mesin baru muncul, mudah bagi domain untuk mengevaluasi dan menggunakan mesin baru itu langsung di data mereka. Lakehouse. Format tabel terbuka seperti Gunung Es Apache menawarkan fleksibilitas untuk menggunakan mesin apa pun, sambil memastikan tidak ada penguncian vendor.
Selain menyediakan keterbukaan dan fleksibilitas, Lakehouses meniadakan kebutuhan tim data untuk membuat dan memelihara jalur pipa yang berbelit-belit di gudang data karena mereka memberikan fungsionalitas dan kinerja gudang data langsung ke penyimpanan objek.
Saat ingin mengimplementasikan platform teknis untuk data meshing, selain atribut fundamental yang disebutkan di atas yang ditawarkan Lakehouse, perusahaan harus mencari platform yang memungkinkan swalayan untuk konsumen data. Ini adalah pendekatan yang mengutamakan bisnis. Platform yang berbeda memungkinkan ini pada tingkat arsitektur yang berbeda. Misalnya, perusahaan dapat menyediakan antarmuka pengguna swalayan bagi pengguna domain untuk menjelajahi, membuat, dan berbagi kumpulan data di lapisan semantik mereka, dan membuat sumber daya komputasi khusus untuk setiap domain, jadi pastikan bahwa beban kerja tidak pernah terhambat oleh beban kerja dari domain lain.
Dan, meskipun tidak semua data lakehouse dapat terhubung ke sumber eksternal di cloud dan lokal, implementasi terbaik dapat dilakukan, memungkinkan konsumen data untuk menganalisis dan menggabungkan kumpulan data di mana pun lokasinya. . Untuk data mesh, juga bermanfaat bagi unit bisnis untuk dapat dengan mudah mengelola produk data ini seperti kode untuk pengujian yang disederhanakan dan alur kerja yang lebih baik serta untuk memenuhi SLA ketersediaan, kualitas, dan kesegaran yang ketat untuk produk data.
Bebaskan TI dari hambatan, perkuat tata kelola
Ketika unit bisnis memiliki pengalaman layanan mandiri di ujung jari mereka untuk membuat, mengelola, mendokumentasikan, dan berbagi produk data, serta menemukan dan menggunakan produk data dari domain lain, TI dapat mundur dan berfokus pada penyediaan platform layanan mandiri yang andal dan sukses. . untuk mendukung beban kerja analitik di seluruh perusahaan. Platform data mesh ini membuat detail implementasi seperti saluran pipa sekunder untuk kebutuhan bisnis. Dengan Lakehouse, TI berfokus pada penetapan taksonomi umum, konvensi penamaan, dan SLA untuk produk data, menerapkan kebijakan akses global granular, dan menerapkan mesin komputasi terbaik di kelasnya untuk setiap domain langsung ke penyimpanan objek tanpa khawatir menyalin data berbahaya.
Menerapkan jaring data mungkin tidak diperlukan untuk semua bisnis. Tetapi jika sebuah perusahaan memiliki sejumlah besar unit bisnis yang mendapat manfaat dari berbagi dan menggabungkan data satu sama lain, dan saat ini diblokir oleh teknik saat mencoba berbagi data atau membuat kumpulan datanya sendiri karena kurangnya kemampuan layanan mandiri, pendekatan data mesh kemungkinan cocok.
Berinteraksi dengan data, menganalisisnya, dan membuat produk data seharusnya tidak hanya menyenangkan pengguna dan yang terpenting melayani tujuan bisnis, tetapi juga harus memberdayakan tim lintas fungsi dan membuka volume data perusahaan. , seringkali berdebu di toko barang, untuk penggunaan yang giat .
Dehghani mengatakan pergeseran paradigma bergerak dari menelan, menarik, dan memuat data, memindahkannya bolak-balik melalui jalur pipa terpusat dan danau data monolitik ke arsitektur terdistribusi yang melayani data, membuat dapat ditemukan dan dikonsumsi, menerbitkan keluaran dengan port data, dan mendukung yang sebenarnya. ekosistem produk data. Inilah yang dihidupkan oleh Open Data Lakehouse, menerapkan konsep tersebut.
[ad_2]