Pendekatan baru untuk analisis data

Pendekatan baru untuk analisis data
[ad_1]
Dalam gelombang megadron, volume data perusahaan meningkat secara eksplosif dan persyaratan pemrosesan data menjadi semakin kompleks. Basis data tradisional, gudang data dan danau data bekerja secara terpisah, menghasilkan pengurangan yang signifikan dalam efektivitas penggunaan data.
Saat ini, konsep integrasi Lakehouse telah muncul, seperti hujan tepat waktu, membawa kemungkinan baru untuk mengelola data bisnis. Hari ini, mari kita bicara tentang integrasi Lakehouse berdasarkan Doris dan lihat bagaimana ia memecahkan masalah manajemen data dan memungkinkan perusahaan untuk bermain dengan Megadonts!
“Masa lalu dan masa kini” dari manajemen data
Dalam pengembangan teknologi megadron, database, gudang data dan danau data telah muncul setelah yang lain, masing -masing dengan misi mereka sendiri.
- Basis data adalah “veteran” manajemen data, terutama bertanggung jawab untuk memproses transaksi online. Misalnya, sistem kasir mencatat setiap transaksi dan juga dapat melakukan analisis data dasar. Namun, ketika volume data “berkembang secara liar”, database menjadi sedikit terlampaui.
- Gudang data muncul sebagai waktu yang dibutuhkan. Ini menyimpan data bernilai tinggi yang telah dibersihkan, diproses dan dimodelkan, memberikan dukungan analisis data profesional untuk staf komersial dan membantu perusahaan untuk menentukan nilai komersial dari data besar -besaran.
- Setelah munculnya danau data, ia dapat menyimpan data terstruktur dan semi-terstruktur dan bahkan tidak terstruktur dengan biaya rendah dan juga memberikan solusi terintegrasi untuk pemrosesan, manajemen dan tata kelola data, memenuhi berbagai kebutuhan perusahaan untuk data kotor.
Namun, meskipun gudang data dan danau data masing -masing memiliki kekuatan sendiri, ada juga “celah” di antara mereka. Gudang data baik untuk analisis cepat, dan danau data lebih baik dalam manajemen penyimpanan, tetapi sulit bagi data untuk beredar di antara keduanya.
Integrasi Lakehouse adalah untuk menyelesaikan masalah ini, memungkinkan integrasi transparan dan aliran data gratis antara data LAC dan gudang data, memberikan permainan lengkap untuk keuntungan keduanya dan meningkatkan nilai data.
“Kekuatan ajaib” dari integrasi Doris Lakehouse
Integrasi Lakehouse yang dirancang oleh Doris berfokus pada empat skenario aplikasi utama, masing -masing mencapai titik nyeri dalam manajemen data bisnis.
1. Percepatan permintaan Lakehouse
Doris memiliki mesin permintaan OLAP yang super efektif dan lapisan permintaan vektor MPP terdistribusi. Misalnya, ini seperti mobil sport yang bagus di jalan raya data, yang secara langsung dapat mempercepat analisis data di danau. Tugas kueri data yang sebelumnya memakan banyak waktu untuk diproses dapat dilakukan dalam sekejap menggunakan DORIS, sangat meningkatkan efektivitas analisis data.
2. Gateway Analisis Data Terpadu
Sumber data bisnis beragam, termasuk data dari berbagai basis data dan sistem file, yang sangat sulit dikelola. Doris seperti “kunci universal”, memberikan kueri dan kapasitas penulisan untuk berbagai sumber data yang heterogen. Ini dapat menyatukan sumber data eksternal ini pada struktur pemetaan metadata sendiri. Di mana pun data berasal, ketika pengguna mempertanyakan melalui Doris, mereka dapat memperoleh pengalaman yang koheren, sama praktisnya dengan pengoperasian database tunggal.
3. Integrasi Data Terpadu
Doris, dengan kapasitas koneksi sumber data data LAC, dapat menyinkronkan data dari beberapa sumber data dalam volume bertahap atau penuh dan juga dapat menggunakan kapasitas pemrosesan data yang kuat untuk memproses data. Data yang diproses tidak hanya secara langsung menyediakan layanan kueri melalui DORIS, tetapi juga dapat diekspor untuk memberikan dukungan data hilir.
4. Platform Data yang Lebih Terbuka
Format penyimpanan gudang data tradisional ditutup dan sulit bagi alat eksternal untuk mengakses data. Perusahaan selalu khawatir bahwa data “terkunci” di dalam. Setelah akses ke ekosistem integrasi Doris Lakehouse, format data open source seperti Parket / ORC diadopsi untuk mengelola data, dan kapasitas manajemen metadata sumber terbuka yang disediakan oleh Iceberg dan Hudi juga didukung, memungkinkan sistem eksternal untuk dengan mudah mengakses data.
“Arsitektur keras” dari integrasi Doris Lakehouse
Inti dari Arsitektur Integrasi Doris Lakehouse adalah multi-kontak, yang seperti “konektor” data cerdas. Ini mendukung koneksi ke danau data dan database tradisional seperti Apache Hive dan Apache Gune, dan juga dapat melakukan manajemen otorisasi terpadu melalui Apache Ranger untuk memastikan keamanan data.
Proses Mooring Data LAC:
- Buat pemetaan metadata. Doris memperoleh dan menyimpan metadata data danau dan, pada saat yang sama, mendukung berbagai metode otentikasi dan enkripsi data;
- Meminta permintaan. Doris menggunakan cache metadata untuk menghasilkan rencana permintaan, memulihkan data penyimpanan eksternal untuk perhitungan dan analisis, dan menyembunyikan data panas;
- Kembali ke hasil permintaan. FE Mengembalikan hasil ke pengguna dan pengguna dapat memilih untuk menulis hasil perhitungan pada data danau.
“Teknologi Dasar” dari integrasi Doris Lakehouse
Kerangka koneksi yang dapat diperluas
- FE bertanggung jawab untuk memperbaiki metadata dan melakukan manajemen metadata berdasarkan Hivemetastore, JDBC dan file melalui Manajer Metadata.
- BE memberikan kapasitas bacaan yang efektif, membaca data dalam beberapa format melalui Nativereader, dan Jniconnector digunakan untuk melindungi ekosistem Java Big Data.

Strategi obrolan yang efektif
- Cache metadata. Mendukung sinkronisasi manual, sinkronisasi otomatis reguler dan berlangganan metadata untuk memastikan metadata yang nyata dan efektif.

- Tutupan data. Simpan data panas pada cakram lokal, menggunakan distribusi pemotongan yang koheren untuk menghindari pembatalan cache ketika node diatur ke atas atau ke bawah.

- Cache permintaan permintaan. Memungkinkan permintaan yang sama untuk mendapatkan data langsung dari cache, dengan mengurangi jumlah perhitungan dan meningkatkan efektivitas permintaan.

Pembaca Asli yang Efektif
Pembaca asli Doris yang dikembangkan sendiri secara langsung membaca file parket dan orc, menghindari biaya konversi data umum, dan pada saat yang sama memperkenalkan data vektor untuk mempercepat kecepatan membaca data.


Gabungkan IO
Dihadapkan dengan sejumlah besar permintaan IO, Doris mengadopsi teknologi IO fusion untuk menggabungkan permintaan pemrosesan IO kecil, meningkatkan kinerja kecepatan keseluruhan, dan efek optimisasi signifikan dalam skenario dengan file yang lebih terfragmentasi.

Informasi statistik meningkatkan permintaan pertanyaan
Doris mengoptimalkan rencana eksekusi kueri dan meningkatkan efektivitas permintaan dengan mengumpulkan informasi statistik, dan mendukung informasi statistik manual, otomatis, dan pengambilan sampel.

Multi guna
Doris membangun hierarki metadata tiga -lapisan dalam katalog -> basis data -> tabel, menyediakan katalog internal dan katalog eksternal, yang praktis untuk mengelola sumber data eksternal. Misalnya, setelah terhubung ke Hive, pengguna dapat membuat katalog, menampilkan secara langsung dan mengubah data, data tabel pertanyaan, membuat kueri terkait atau mengimpor dan mengekspor data.
Kesimpulan
Dengan fungsinya yang kuat, arsitektur canggih dan teknologi dasarnya, integrasi Doris Lakehouse memberikan solusi yang efektif dan cerdas untuk manajemen data bisnis. Di era Big Data, ini seperti jembatan yang solid, dengan memecah hambatan antara data danau dan gudang data, membuat data lebih mudah, melepaskan lebih banyak nilai dan membantu bisnis memahami inisiatif dalam transformasi digital yang tidak jelas!
[ad_2]