Flazzo memiliki fokus utama untuk menambah nilai bisnis Anda.

Blog

Platform Data Generasi Ketiga: The Lakehouse

17070663-thumb.jpg
Blog

Platform Data Generasi Ketiga: The Lakehouse


Evolusi platform data

Mulanya, gudang data menjabat sebagai generasi pertama platform terutama berfokus pada pemrosesan data terstruktur. Namun, sebagai permintaan untuk analisis volume besar semi-terstruktur Dan tidak terstruktur data telah berkembang, platform generasi kedua telah mengalihkan perhatian mereka untuk mengeksploitasi danau data. Hal ini menghasilkan arsitektur dua tingkat dengan efek samping yang bermasalah: kerumitan pemeliharaan dan sinkronisasi dua tingkat, duplikasi data, peningkatan risiko kegagalan karena memindahkan data antara gudang dan data lake, dll.

Rumah danau data adalah generasi ketiga platform yang dibuat untuk memenuhi keterbatasan di atas. Lakehouse adalah arsitektur terbuka dan hemat biaya yang menggabungkan keunggulan utama data lake dan gudang data. Mereka melakukan sihir mereka dengan menerapkan a lapisan metadata atas danau data.


ITU lapisan metadata adalah elemen penentu rumah danau. Ini membawa kemampuan struktur dan manajemen yang mirip dengan gudang tradisional ke dalam danau data: dukungan transaksional (ACID), perjalanan waktu, penegakan dan evolusi skema, tata kelola data, kontrol akses, dan audit. Lakehouse juga memungkinkan analitik real-time, intelijen bisnis (BI), ilmu data, dan pembelajaran mesin (ML) dengan menyediakan API untuk aktivitas pemrosesan data dan memungkinkan penggunaan berbagai bahasa dan perpustakaan.

Rumah di tepi danau Pplatform

Meskipun secara teori dimungkinkan untuk merancang arsitektur Lakehouse Anda sendiri, rekomendasi umumnya adalah menggunakan solusi yang sudah ada, hanya untuk menghemat waktu, uang, dan sakit kepala.

Berbagai teknologi yang bersaing di pasar rumah danau dapat diklasifikasikan menjadi dua kategori besar:

Independen awan platform meringankan penyedia cloud kuncitara masalah. Namun, jika organisasi sudah menggunakan sejumlah layanan dalam penyedia cloud tertentu, memilih a asli awan solusi mungkin menyebabkan lebih sedikit sakit kepala integrasi sebagai gantinya. Yang mengatakan, independen awan Platform menyediakan semakin banyak alat untuk memfasilitasi komunikasi dengan layanan lain, seperti konektor, API, dan protokol berbagi data.

Ada juga trade-off yang perlu dipertimbangkan SaaS (Perangkat Lunak sebagai Layanan) vs. PaaS (Platform sebagai layanan). SaaS menghadirkan kenyamanan dan administrasi minimal dengan biaya fleksibilitas yang lebih rendah, meskipun yang terakhir sebagian diselesaikan dengan menyediakan konektor, format data yang dapat dioperasikan, pasar pertukaran, dll.

Metadata dan Format tabel

Secara skematis, rumah danau menggunakan format tabel yang berbeda. Masalah mekanisme mana yang digunakan sehingga banyak file di data lake dapat dianggap sebagai satu atau lebih tabel, awalnya diselesaikan pada zaman Hadoop oleh Apache Sarang lebahmenggunakan siaran langsung direktori ke tabel kartografi, dengan subfolder pemetaan ke partisi tabel. Saat ini, ada beberapa open-source format tabel untuk rumah danau yang mendekati fungsi gudang data tradisional, seperti Danau Deltaapache Gunung esdan Apache hudi. Ini Buka format array (OTF) serupa karena semuanya mendukung format file Parket, menyediakan transaksi ACID, penegakan skema, dan perjalanan waktu. Tentu saja, setiap OTF memiliki pendekatannya sendiri untuk menyediakan kemampuan ini, meskipun pekerjaan sedang dilakukan untuk membuat format ini kompatibel. Delta Lake 3.0 yang akan datang, misalnya, bertujuan untuk menyediakan a Format umum (Seragam) untuk tiga OTF.


Saat ini, bagaimanapun, ekosistem yang berbeda memiliki berbagai tingkat membaca dan atau untuk menulis dukungan untuk satu atau lebih format tabel ini. Menggunakan AWS sebagai contoh, Amazon Redshift bisa membaca Danau Hudi dan Delta, tapi bukan Gunung Es. Saat itu dia tidak melakukannya untuk menulis dukung salah satunya. Sebaliknya, AWS Glue punya ditambahkan warga asli mendukung ketiganya.

Rumah di tepi danau Jenis Platform Lapisan metadata
Databrick PaaS, tidak tergantung cloud Katalog Satuan,
Didukung: Danau Delta (jantung), Hudi, Gunung es.
Kepingan salju SaaS, tidak tergantung cloud Skema informasi,
Pemilik bentuk tabel.
Didukung: Gunung Es, Danau Delta (baca saja).
kain MS SaaS, cloud asli Azure MS Keahlian,
Didukung: Danau Delta (jantung), Houdi.
Lem AWS PaaS, AWS asli cloud Katalog data,
Didukung: Danau Delta, Hudi, Gunung Es.
Rumah Danau GCP PaaS, GCP berbasis cloud Dataplex,
Didukung: Danau Delta, Hudi, Gunung Es.

Masing-masing rumah danau ini layak mendapatkan artikel khusus. Kami telah melihat Microsoft Fabric untuk pertama kalinya. Artikel berikut akan mengeksplorasi opsi lain.

Pikiran Akhir

Solusi yang disediakan oleh platform ini menunjukkan pola peningkatan keterbukaan yang serupa dan berbagi pemahaman yang sama tentang nilai data tidak terstruktur untuk BI, AI, dan ML. Namun, pada titik ini, mereka masih dalam Pekerjaan sedang berlangsung kategori. Sebaliknya, Snowflake adalah arsitektur hybrid yang berevolusi. Kain MS adalah di pratinjau saat ini, dan memiliki sejumlah batasan. Databricks tidak diragukan lagi adalah salah satu yang terlengkap Lakehouse Cloud Independen solusi hingga saat ini, meskipun ada alternatif serupa lainnya (mis., ledakan bintang Atau Dremio) di pasar yang sangat kompetitif ini. Rumah danau terus berkembang dan menjadi dewasa. Secara khusus, integrasi AI yang akan datang (misalnya, Databricks LakehouseIQ atau biru langit Buka layanan AI) Ini terlihat menjanjikan.