Skip to content Skip to sidebar Skip to footer

Tutorial Data Science Dengan Python : Cara Menggunakan Library Panda di Python

Tutorial Data Science Dengan Python : Cara Menggunakan Library Panda di Python



Pandas adalah Perpustakaan Python open-source yang digunakan untuk manipulasi data berkinerja tinggi dan analisis data menggunakan struktur datanya yang kuat. Python dengan pandas digunakan dalam berbagai domain akademis dan komersial, termasuk Keuangan, Ekonomi, Statistik, Periklanan, Analisis Web, dan banyak lagi. Dengan menggunakan Pandas, kami dapat menyelesaikan lima langkah umum dalam pemrosesan dan analisis data, terlepas dari asal datanya - memuat, mengatur, memanipulasi, memodelkan, dan menganalisis data.

Di bawah ini adalah beberapa fitur penting dari Pandas yang digunakan khusus untuk pemrosesan Data dan pekerjaan analisis Data.

Fitur Utama Panda

  • Objek DataFrame yang cepat dan efisien dengan pengindeksan default dan disesuaikan.
  • Alat untuk memuat data ke dalam objek data di memori dari format file yang berbeda.
  • Penyelarasan data dan penanganan terintegrasi untuk data yang hilang.
  • Pembentukan ulang dan perputaran set tanggal.
  • Pemotongan, pengindeksan, dan subset berbasis label dari kumpulan data besar.
  • Kolom dari struktur data dapat dihapus atau disisipkan.
  • Kelompokkan menurut data untuk agregasi dan transformasi.
  • Penggabungan dan penggabungan data berkinerja tinggi.
  • Fungsionalitas Time Series.

Panda berurusan dengan tiga struktur data berikut -

  • Seri
  • DataFrame

Struktur data ini dibangun di atas larik Numpy, membuatnya cepat dan efisien.

Dimensi & Deskripsi

Cara terbaik untuk memikirkan struktur data ini adalah bahwa struktur data berdimensi lebih tinggi adalah wadah dari struktur data berdimensi lebih rendah. Misalnya, DataFrame adalah wadah Seri, Panel adalah wadah DataFrame.

Struktur dataUkuranDeskripsi
Seri11D berlabel larik homogen, ukuran tidak dapat diubah.
Bingkai Data2Umum 2D berlabel, struktur tabel yang dapat diubah ukurannya dengan kolom yang berpotensi diketik secara heterogen.

DataFrame digunakan secara luas dan merupakan struktur data yang paling penting.

Seri

Seri adalah struktur seperti array satu dimensi dengan data homogen. Misalnya, rangkaian berikut adalah kumpulan bilangan bulat 10, 23, 56,…

10235617526173902672

Poin-Poin Utama Seri

  • Data homogen
  • Ukuran Tidak Berubah
  • Nilai Data yang Dapat Diubah

DataFrame

DataFrame adalah array dua dimensi dengan data heterogen. Sebagai contoh,

NamaUsiaJenis kelaminPeringkat
Steve32Pria3.45
Lia28Perempuan4.6
Anggur45Pria3.9
Katie38Perempuan2.78

Tabel tersebut mewakili data tim penjualan dari suatu organisasi dengan peringkat kinerjanya secara keseluruhan. Data direpresentasikan dalam baris dan kolom. Setiap kolom mewakili atribut dan setiap baris mewakili seseorang.

Jenis Data Kolom

Jenis data dari empat kolom adalah sebagai berikut -

KolomTipe
NamaTali
UsiaBilangan bulat
Jenis kelaminTali
PeringkatMengapung

Poin Utama dari Data Frame

  • Data heterogen
  • Ukuran Dapat Berubah
  • Data Dapat Diubah

Kita akan melihat banyak contoh penggunaan pandas library of python dalam pekerjaan Data science di bab-bab berikutnya.

Post a Comment for "Tutorial Data Science Dengan Python : Cara Menggunakan Library Panda di Python"

close