Flazzo memiliki fokus utama untuk menambah nilai bisnis Anda.

Blog

When Doris Meets Iceberg: Akuisisi Insinyur Data

18294345-thumb.jpg
Blog

When Doris Meets Iceberg: Akuisisi Insinyur Data

[ad_1]

Bangun di tengah malam karena bug data, apakah Anda pernah memimpikan dunia data yang ideal di mana permintaan kembali dalam hitungan detik, data tidak pernah hilang dan biayanya sangat rendah sehingga bos Anda tersenyum? Apakah itu terlihat seperti mimpi? TIDAK! Itu menjadi kenyataan.

Apakah Anda ingat malam itu, Anda dihancurkan oleh masalah partisi data, manajer produk dengan panik mendorong kemajuan saat Anda bertarung dengan data yang tersebar? Permintaan sumber transversal selambat -lambatnya pendakian siput di gunung, dan perubahan diagram membutuhkan koordinasi di tujuh departemen.

Tapi sekarang titik -titik rasa sakit ini ditulis ulang.

Kombinasi Apache Doris dan Iceberg mendefinisikan kembali pengoperasian danau data. Ini bukan hanya 1 + 1 = 2; Ini membawa lompatan kualitatif: kueri tingkat kedua, evolusi skema transparan dan jaminan nyata dari konsistensi data.

Simfoni Doris dan Gunung Hukum Sempurna

Di bidang rekayasa data, kita sering mengalami masalah seperti itu:

Xiao Zhang sedang mengerjakan persyaratan analisis data, perlu menganalisis data perilaku pengguna dalam tiga bulan terakhir. Data tersebar antara gudang data sarang, database komersial dan penyimpanan objek. Kinerja sambungan sumber transversal buruk, permintaan membutuhkan lebih dari 40 menit dan ketidakkonsistenan data sering terjadi.

Selain itu, Xiao Zhang juga harus menghadapi pekerjaan tata kelola data, dan setiap perubahan struktur tabel memberinya kepala. Beberapa aplikasi hilir bergantung pada tabel ini, dan perubahan skema memerlukan koordinasi antara beberapa tim, yang dapat memakan waktu satu minggu untuk melakukan perubahan tunggal.

Masalah -masalah ini telah menjadi lebih besar dengan pertumbuhan data yang meledak. Pemisahan tradisional gudang data dan danau data tidak dapat lagi memenuhi kebutuhan.

Untungnya, dalam versi 2.1, arsitektur Lakehouse Apache Doris telah sangat ditingkatkan. Ini meningkatkan tidak hanya kapasitas bacaan dan penulisan format danau data tradisional (Hudi, Iceberg, Paimon, dll.), Tetapi juga memperkenalkan kompatibilitas dialek multi-SQL, memungkinkan pengalihan transparan sistem yang ada ke Apache Doris. Dalam ilmu data dan skenario pembacaan data skala besar, Doris menggabungkan antarmuka pembacaan kecepatan kecepatan tinggi dari panah penerbangan, mencapai peningkatan 100x efisiensi transfer data.

Dengan demikian, Xiao Zhang memutuskan untuk menggunakan Doris + gunung es untuk penebusannya.

Apache Doris menyediakan manajemen asli untuk banyak karakteristik dasar gunung es

Apache Doris menyediakan manajemen asli untuk banyak karakteristik gunung es dasar:

  • Mendukung berbagai jenis katalog gunung es seperti Hive Metastore, Hadoop, Istirahat, Lem, Google DataProc Metastore dan DLF.
  • Asli mendukung format tabel Iceberg V1 / V2, serta penghapusan file membaca dan menghapus kesetaraan.
  • Mengurus pertanyaan dari tabel gunung es sejarah instan melalui fungsi meja.
  • Mendukung fungsionalitas perjalanan waktu.
  • Secara asli mendukung mesin meja gunung es. Apache Doris dapat membuat secara langsung, mengelola dan menulis data di tabel gunung es. Ini mendukung serangkaian fungsi transformasi partisi penuh, memberikan kapasitas seperti partisi tersembunyi dan evolusi penyediaan partisi.

Selain itu, Doris 'Versi 2.1.6 telah membawa peningkatan penting ke Doris + Iceberg:

Apache Doris mendukung operasi DDL dan DML di gunung es. Pengguna dapat secara langsung membuat basis data dan tabel di Iceberg melalui Apache Doris dan menulis data dalam tabel gunung es.

Berkat fitur ini, pengguna dapat melakukan permintaan data lengkap dan menulis operasi gunung es menggunakan Apache Doris, yang menyederhanakan arsitektur Lakehouse.

Akibatnya, Xiao Zhang dapat dengan cepat membangun solusi rumah yang efektif berdasarkan Apache Doris + Apache Iceberg untuk memenuhi berbagai kebutuhan secara real time untuk analisis dan pemrosesan data secara real time:

  • Gunakan mesin kueri kinerja tinggi Doris untuk bergabung dan menganalisis data dari tabel gunung es dan sumber data lainnya, dengan membuat platform analisis data federasi terpadu.
  • Kelola dan membangun meja gunung es secara langsung di Doris, membersihkan dan memproses data, dan menulisnya di meja gunung es, dengan membangun platform pemrosesan data LakeHouse yang terpadu.
  • Bagikan data DORIS dengan sistem hulu dan hilir lainnya untuk pemrosesan selanjutnya melalui mesin tabel Iceberg, dengan membuat platform penyimpanan data terbuka terpadu.

Ini bukan lagi integrasi permukaan yang sederhana tetapi perpaduan yang mendalam dari arsitektur danau!

Ringkasan praktis Doris dan gunung es

Setelah serangkaian pasang surut dalam eksplorasi dan latihan, Xiao Zhang menyimpulkan pengalaman praktis tertentu dengan Doris + Iceberg:

Manajemen Metadata Cerdas

Dalam solusi tradisional, manajemen metadata selalu menjadi masalah berduri. Informasi partisi tabel, file file dan cerita perubahan skema tersebar di mana -mana, yang mengarah pada permintaan yang buruk untuk kueri dan operasi dan pemeliharaan yang kompleks.

Doris + Iceberg menyediakan lapisan manajemen metadata terpadu:

Doris dan Iceberg

Arsitektur ini membawa beberapa nilai kunci:

  1. Evolusi skema transparan: Perubahan struktur tabel tidak lagi membutuhkan waktu berhenti. Doris + Iceberg mendukung penambahan, penghapusan dan modifikasi bidang, serta penyesuaian metode partisi.
  2. Manajemen Versi Data: Berkat mekanisme pemasangan gunung es, Anda dapat kembali ke status data kapan saja.
  3. Layanan Katalog Terpadu: Mendukung berbagai jenis katalog gunung es seperti Hive Metastore, Hadoop, Istirahat, Lem, Google DataProc Metastore dan DLF, mengintegrasikan secara transparan ke dalam infrastruktur yang ada.

Xiao Zhang sekarang dapat membuat perubahan diagram dengan satu ALTER TABLE penyataan. Sistem secara otomatis mengelola kompatibilitas dan aplikasi hilir tidak mengetahui perubahan.

Organisasi data yang efektif

Doris secara inovatif menggabungkan mesin MPP dengan metode organisasi data gunung es:

-- Create a partitioned Iceberg table
-- Partition columns must be in the table's column definition list
CREATE TABLE sales (
    ts DATETIME,
    user_id BIGINT,
    amount DOUBLE,
    pt1 STRING,
    pt2 STRING
) ENGINE=iceberg
-- Iceberg's partition type corresponds to List partitioning in Doris
PARTITION BY LIST (DAY(ts), pt1, pt2) ()
PROPERTIES (
  -- Compression format
  -- Parquet: snappy, zstd (default), plain (no compression)
  -- ORC: snappy, zlib (default), zstd, plain (no compression)
  'write-format'='orc',
  'compression-codec'='zlib'
);

Deklarasi SQL ini menyembunyikan mekanisme teknis yang kuat:

  • Organisasi File: Mendukung media penyimpanan umum seperti HDF dan penyimpanan objek.
  • Partisi cerdas: Mendukung fungsi transformasi partisi untuk memungkinkan karakteristik implisit dari partisi dan evolusi partisi gunung es.
  • Optimalisasi Penyimpanan: Mendukung format penyimpanan dalam kolom seperti parket dan orc, dikombinasikan dengan berbagai metode kompresi untuk meningkatkan kinerja.

Dengan dukungan DORIS untuk operasi DDL dan DML di gunung es, masalah konsistensi data juga sepenuhnya diselesaikan.

Manajemen operasi dan pemeliharaan

Untuk memastikan stabilitas platform data, Xiao Zhang menggunakan metode berikut untuk memantau dan mengelola tabel gunung es:

-- View table snapshot information
SELECT * FROM iceberg_meta(
    "table" = "iceberg.nyc.taxis", 
    "query_type" = "snapshots"
);

-- Query a specific snapshot using FOR VERSION AS OF
SELECT * FROM iceberg.nyc.taxis FOR VERSION AS OF {snapshot_id};

-- Query a specific snapshot using FOR TIME AS OF
SELECT * FROM iceberg.nyc.taxis FOR TIME AS OF {committed_at};

-- Manage snapshots
...

Rantai alat ini menyediakan:

  • Pengawasan Metrik: Kontrol nyata -waktu dari keadaan tabel dan langkah -langkah instan.
  • Manajemen instan: Bersihkan snapshot kadaluwarsa untuk melepaskan ruang penyimpanan.
  • Pemulihan kesalahan: Mendukung pengembalian ke versi historis apa pun (membaca data versi historis berdasarkan ID instan atau waktu penciptaan instan).

Berkat praktik -praktik ini, platform data Xiao Zhang berdasarkan Doris + Iceberg telah mencapai puncak baru:

  • Kinerja kueri telah meningkat sebesar 300%.
  • 40%mengurangi biaya penyimpanan.
  • Efektivitas operasi dan pemeliharaan meningkat 200%.

Perjalanan Doris yang mengasyikkan ke LakeHouse tidak ada habisnya.

Tetap mendengarkan konten yang lebih menarik, berguna, dan berharga dalam edisi berikutnya!

[ad_2]