Proyek Sumber Terbuka SD Times Minggu Ini: AvroTensorDataset

Proyek Sumber Terbuka SD Times Minggu Ini: AvroTensorDataset

Awal minggu ini, LinkedIn mengumumkan bahwa itu adalah AvroTensorDataset open-source, yang merupakan “kumpulan data TensorFlow untuk membaca, menganalisis, dan memproses data Avro.” Apache Avro adalah format penyimpanan utama yang digunakan oleh LinkedIn untuk data pelatihannya.
Menurut LinkedIn, itu mengalami hambatan dalam beban kerja pembelajaran mesin yang disebabkan oleh kebutuhan untuk membaca beberapa terabyte input data. AvroTensorDataset dapat mempercepat preprocessing data dengan urutan besarnya, menurut perusahaan.
Alat tersebut dibangun sendiri di LinkedIn, dan dia ingin membuka proyek tersebut sehingga orang lain dapat memanfaatkan peningkatan kinerja yang signifikan untuk beban kerja pelatihan. Sudah diproduksi selama lebih dari setahun di LinkedIn.
LinkedIn mengklaim bahwa dengan alat ini, ia dapat meningkatkan kecepatan pemrosesan hingga 162x dibandingkan dengan solusi yang ada dan mengurangi waktu pelatihan secara keseluruhan hingga 66%
“ATDSDataset adalah solusi LinkedIn untuk membaca data Avro secara efisien ke TensorFlow. Melalui beberapa peningkatan kinerja, kami dapat mempercepat throughput I/O dengan urutan besarnya dibandingkan solusi pembaca Avro yang ada. Tim kami di LinkedIn bekerja sama dengan komunitas I/O TensorFlow untuk membuka fitur ini, dan kami berharap dengan membukanya, komunitas TensorFlow juga dapat memperoleh manfaat dari peningkatan kinerja ini,” tulis Jonathan Hung, Software Engineer di LinkedIn. posting blog.