Pengantar Numpy dan Panda

Pengantar Numpy dan Panda
[ad_1]
Dalam Python, pemrograman Numpy dan Pandas dibedakan sebagai dua perpustakaan paling kuat untuk komputer digital dan manipulasi data.
Numpy: Database Ilmu Komputer Digital
Numpy (Digital Python) mendukung tabel multidimensi dan berbagai fungsi matematika, yang membuatnya penting untuk komputer ilmiah.
- Numpy adalah paket paling mendasar untuk komputer digital di Python.
- Salah satu alasan mengapa Numpy sangat penting untuk perhitungan digital adalah bahwa ia dirancang untuk efisiensi dengan tabel data besar. Alasan untuk ini termasuk:
- Ini menyimpan data internal dalam blok memori kontinu, terlepas dari objek Python terintegrasi lainnya.
- Dia melakukan perhitungan kompleks di seluruh tabel tanpa perlu loop “untuk”.
- ITU
ndarray
adalah jaringan multidimensi yang efektif yang menawarkan operasi aritmatika yang berfokus pada tabel yang cepat dan fleksibel penyiaran kapasitas. - Orang yang numpy
ndarray
Objek adalah wadah yang cepat dan fleksibel untuk set data besar dalam python. - Tabel memungkinkan Anda untuk menyimpan beberapa elemen dari jenis data yang sama. Instalasi di sekitar objek Oryay yang membuat Numpy begitu praktis untuk melakukan matematika dan manipulasi data.
Operasi Numpy
Penciptaan tabel:
Memikirkan kembali tabel:
Mengiris dan mengindeks:
Operasi Aritmatika:
Aljabar linier:
Operasi Statistik:
Perbedaan antara Tabel Numpy dan Daftar Python
Perbedaan utama antara tabel dan daftar adalah bahwa tabel dirancang untuk mengelola operasi vektor, sedangkan daftar python tidak. Ini berarti bahwa jika Anda menerapkan suatu fungsi, itu dilakukan pada setiap elemen tabel, bukan pada objek seluruh tabel.
Panda
PANDAS dibedakan sebagai salah satu perpustakaan paling kuat untuk ilmu komputer digital dan penanganan data, yang sangat penting untuk kecerdasan buatan dan bidang pembelajaran otomatis.
Panda, seperti Numpy, adalah salah satu perpustakaan Python paling populer. Ini adalah abstraksi tingkat tinggi pada level rendah numpy, yang ditulis dalam C. panda murni menyediakan struktur data dan alat analisis data kinerja tinggi dan mudah digunakan. PANDAS menggunakan dua struktur utama: bingkai data Dan seri.
Indeks dalam seri panda
Seri panda mirip dengan daftar, tetapi berbeda dalam seri yang menggabungkan label dengan masing -masing elemen. Itu membuat kamus itu terlihat seperti. Jika indeks tidak secara eksplisit disediakan oleh pengguna, panda membuat indeks rentang mulai dari 0 hingga N-1. Setiap objek standar juga memiliki jenis data.
Seri panda memiliki cara untuk mengekstrak semua nilai seri, serta elemen individu berdasarkan indeks.
Indeks juga dapat disediakan secara manual.
Sangat mudah untuk memulihkan beberapa elemen dari seri dengan indeks mereka atau untuk membuat penugasan kelompok.
DataFrames panda
DataFrame adalah tabel dengan garis dan kolom. Setiap kolom bingkai data adalah objek seri. Garis terdiri dari elemen di dalam seri. Pandas DataFrames menawarkan berbagai operasi untuk manipulasi dan analisis data. Berikut adalah ventilasi beberapa operasi umum:
Operasi Dasar
Pembuatan data
- Dari sebuah kamus:
pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
- Dari file CSV:
pd.read_csv('data.csv')
- Dari file Excel:
pd.read_excel('data.xlsx')
Akses data
- Pilihan kolom:
df['col1']
- Pilihan Line:
df.loc[0] (by index label), df.iloc[0]
(dengan posisi indeks) - Sulphing:
df [0:2] (first two rows), df[['coll', 'col2']]
(beberapa kolom)
Menambahkan dan Menghapus Kolom / Garis
- Menambahkan kolom:
df['new_col'] =
- Penghapusan kolom:
df.drop('coll', axis=1)
- Menambahkan garis:
df.append({'col1': 7, 'col2': 8}, ignore_index=True)
- Penghapusan garis:
df.drop(0)
Pemfilteran data
- Penggunaan kondisi boolean:
df [df['col1'] > 2]
Operasi Matematika
- Operasi Aritmatika:
df['col1'] + df['col2']
,,df * 2
dll. - Fungsi Agregasi:
df.sum()
,,df.mean()
,,df.max()
,,df.min()
dll. - Penerapan fungsi yang dipersonalisasi:
df.apply(lambda x: x**2)
Manajemen data yang hilang
- Verifikasi nilai yang hilang:
df.isnull()
- Nilai yang hilang:
df.dropna()
- Mengisi nilai yang hilang:
df.fillna(0)
Merger dan bergabung dengan datarrames
- Fusi:
pd.merge(df1, df2, on='key_column')
- Keanggotaan:
df1.join(df2, on='key_column')
Pengelompokan dan agregasi
- Pengelompokan:
df.groupby('col1')
- Pengumpulan:
df.groupby('col1').mean()
Operasi Seri Kronologis
- Menyegarkan:
df.resample('D').sum()
(hilir pada frekuensi harian) - Perubahan waktu:
df.shift(1)
(Perubahan data dari suatu periode)
Visualisasi data
Pelacakan: df.plot()
(tata letak garis), df.hist()
(histogram), dll.
Contoh panda kompleks
1. Di sini, kami memiliki data penjualan yang diindeks berdasarkan wilayah dan tahun. Sekarang kami menghitung variasi dalam persentase penjualan per wilayah di sini.
2. Kami memiliki satu set data dengan produk dan harga, menghitung harga rata -rata per kategori dan menemukan produk paling mahal dari masing -masing.
3. Penggunaan Kompleks “Terapkan”:
Kesimpulan
Kedua perpustakaan ini, numpy dan panda, banyak digunakan dalam aplikasi nyata seperti BFSI (analisis keuangan), IT ilmiah, AI dan ML, dan pemrosesan megadata. Dua perpustakaan ini memainkan peran penting dalam pengambilan keputusan berbasis data, dari analisis pasar saham kritis hingga pengelolaan data komersial ERP skala besar.
Untuk pemula, langkah selanjutnya adalah berlatih menggunakan numpy dan panda dengan mengerjakan proyek -proyek kecil, mengeksplorasi set data dan menerapkan fungsi mereka dalam skenario dunia nyata. Data sumber terbuka dari GitHub dapat diunduh dari data komersial keuangan, real estat, atau manufaktur umum. Dengan data sumber ini dan perpustakaan ini, kami dapat membuat cerita yang meyakinkan atau analisis empiris. Pengalaman praktis akan membantu memperkuat konsep dan mempersiapkan pelajar untuk tugas sains data yang lebih canggih.
Sebagai kesimpulan, numpy dan panda adalah dua perpustakaan python penting untuk manipulasi dan analisis data. Di sini, Numpy memberikan dukungan yang kuat untuk perhitungan digital dengan operasi tabel yang efektif, sementara panda didasarkan pada Numpy untuk menawarkan struktur data intrinsik dan intuitif seperti seri dan data data untuk manajemen data terstruktur.
[ad_2]