Mengenal Pandas: Basic Untuk Pemula

Mengenal Pandas: Basic Untuk Pemula

Pandas, singkatan dari “Panel Data” atau “Python Data Analysis,” adalah pustaka Python yang dibangun di atas NumPy. Diciptakan oleh Wes McKinney, Pandas terancang khusus untuk memfasilitasi manipulasi dan analisis data dengan cara yang intuitif.

Apa itu Pandas? Pandas menyediakan dua struktur data utama Series dan DataFrame. Series adalah objek satu dimensi yang dapat menyimpan berbagai jenis data, sementara DataFrame adalah struktur data dua dimensi yang mirip dengan tabel database. Keduanya dapat dengan mudah diakses dan dimanipulasi, memungkinkan pengguna untuk melakukan berbagai operasi analisis data dengan lancar.

Mengapa Kita Memerlukan Pandas dalam Analisis Data? Pandas memberikan antarmuka tingkat tinggi untuk manipulasi data, memungkinkan pengguna untuk bekerja dengan data terstruktur dan tidak terstruktur. Kelebihan ini membuatnya ideal untuk tugas-tugas seperti membersihkan data, menggabungkan dataset, dan mengelompokkan data berdasarkan kriteria tertentu. Pandas juga menyediakan alat bantu untuk mengisi nilai-nilai yang hilang, menyederhanakan proses eksplorasi data, dan memvisualisasikan hasil analisis.

Baca juga: Data Analyst dan Data Scientist Kenali Apa Perbedaannya?

Instalasi Pandas

Langkah awal sebelum memulai petualangan Anda dengan Pandas adalah menginstal pustaka ini. Instalasi Pandas dapat dengan mudah menggunakan pip, manajer paket Python yang umum.

Langkah-langkah Instalasi Pandas:

  • Pastikan Python telah terinstal di sistem Anda.
  • Buka terminal atau command prompt.
  • Ketik perintah berikut untuk menginstal Pandas:
  • pip install pandas
  • Tunggu proses instalasi selesai. Setelah itu, Pandas siap anda gunakan.

Verifikasi Instalasi Pandas: Untuk memastikan bahwa instalasi berhasil, Anda dapat membuka Python shell atau Jupyter Notebook, kemudian ketikkan perintah berikut:

import pandas as pd
print(pd.__version__)

Jika versi Pandas muncul tanpa pesan kesalahan, itu berarti Pandas telah terinstal dengan sukses.

Struktur Data Dasar di Pandas

Pandas menyediakan dua struktur data dasar yang menjadi tulang punggung analisis data: Series dan DataFrame.

Series:

  • Pengenalan Series: Series adalah objek satu dimensi yang dapat menyimpan berbagai jenis data, termasuk integer, float, dan string. Setiap elemen dalam Series memiliki label atau indeks yang dapat diakses dengan mudah.
  • Cara Membuat Series: Anda dapat membuat Series dengan menggunakan perintah seperti pd.Series(data), di mana data dapat berupa daftar, array NumPy, atau dictionary.

DataFrame:

  • Konsep Dasar DataFrame: DataFrame adalah struktur data dua dimensi yang mirip dengan tabel database. Terdiri dari baris dan kolom, memungkinkan penyimpanan dan manipulasi data yang kompleks.
  • Pembuatan DataFrame: DataFrame dapat dibuat dari berbagai sumber, seperti daftar, dictionary, array NumPy, atau mengimpor data dari file eksternal seperti CSV atau Excel.

Pandangan umum tentang kedua struktur data ini memberikan fondasi yang kuat untuk memahami cara Pandas menyimpan dan mengorganisir data. Dengan Series dan DataFrame, Anda dapat membawa struktur dan keteraturan pada data yang Anda eksplorasi, memungkinkan Anda untuk lebih mudah bekerja dengan dataset yang beragam.

Membaca Data

Sebelum Anda dapat menganalisis data menggunakan Pandas, Anda perlu memuat data ke dalam struktur Pandas, seperti DataFrame. Pandas menyediakan berbagai cara untuk membaca data dari berbagai sumber. Beberapa di antaranya termasuk membaca data dari file CSV, Excel, SQL, atau bahkan langsung dari URL.

  • Membaca Data dari File CSV: Pandas menyediakan fungsi pd.read_csv() untuk membaca data dari file CSV. Anda cukup menyebutkan path atau URL file CSV, dan Pandas akan membuat DataFrame berdasarkan data tersebut.
  • Membaca Data dari File Excel: Jika data Anda tersimpan dalam file Excel, gunakan pd.read_excel() untuk membaca data. Anda dapat menentukan nama sheet atau indeks sheet.
  • Membaca Data dari Database SQL: Untuk membaca data dari database SQL, Pandas menyediakan fungsi pd.read_sql(). Anda perlu menyediakan koneksi database dan query SQL yang sesuai.
  • Membaca Data dari URL: Pandas juga dapat membaca data langsung dari URL dengan menggunakan fungsi seperti pd.read_csv(url) atau metode khusus tergantung pada sumber data.
  • Parameter Umum saat Membaca Data: Saat membaca data, Anda dapat menyesuaikan pengaturan dengan berbagai parameter. Beberapa parameter umum termasuk pengaturan delimiter, menentukan kolom indeks, mengabaikan baris tertentu, atau menangani nilai-nilai yang hilang.

Dengan memahami cara membaca data, Anda akan dapat mempersiapkan dataset untuk analisis lebih lanjut. Membaca data dengan Pandas adalah langkah kritis yang akan membantu Anda memulai proyek analisis data Anda.

Menjelajahi Data

Setelah berhasil memuat data ke dalam DataFrame, langkah selanjutnya adalah menjelajahi data tersebut. Pandas menyediakan beberapa metode dan atribut yang memungkinkan Anda untuk mendapatkan wawasan awal tentang struktur dan karakteristik data.

  • Menampilkan Sebagian Data: Gunakan head() dan tail() untuk menampilkan beberapa baris pertama dan terakhir dari DataFrame. Ini memberikan gambaran singkat tentang bagaimana data terorganisir.
  • Melihat Informasi Data: Fungsi info() memberikan ringkasan informasi tentang DataFrame, termasuk tipe data, jumlah nilai non-null, dan penggunaan memori. Ini membantu Anda memahami apakah ada nilai-nilai yang hilang.
  • Statistik Deskriptif: describe() memberikan statistik deskriptif untuk kolom-kolom numerik, seperti rata-rata, standar deviasi, nilai minimum, kuartil, dan nilai maksimum.
  • Mengetahui Dimensi Data: Menggunakan shape akan memberikan jumlah baris dan kolom dalam DataFrame, memberikan gambaran tentang ukuran data yang sedang Anda eksplorasi.
  • Seleksi Kolom dan Baris: Anda dapat menggunakan metode seperti loc[] dan iloc[] untuk memilih baris dan kolom tertentu berdasarkan label atau indeks.
  • Memeriksa Nilai Duplikat: Dengan menggunakan duplicated() dan drop_duplicates(), Anda dapat mengetahui dan mengatasi nilai-nilai yang duplikat dalam data Anda.
  • Mengakses Kolom dan Indeks: Menjelajahi data juga melibatkan cara mengakses kolom dan indeks. Anda dapat menggunakan notasi DataFrame['nama_kolom'] atau metode .iloc[] untuk akses berbasis indeks.

Dengan menjelajahi data ini, Anda dapat memahami struktur dataset, melihat apakah ada pola atau anomali, dan membuat keputusan tentang langkah-langkah selanjutnya dalam analisis data. Pemahaman awal ini adalah fondasi yang penting sebelum memasuki tahap analisis data yang lebih mendalam.

Baca juga: Yuk Pahami SQL Query Untuk Kamu Yang Ingin Menjadi Data Analyst

Seleksi dan Filtering Data

Pandas menyediakan berbagai metode untuk melakukan seleksi dan filtering data, memungkinkan Anda untuk mengekstrak subset data yang relevan untuk analisis Anda.

  • Seleksi Kolom: Menggunakan notasi DataFrame['nama_kolom'], Anda dapat memilih satu atau beberapa kolom tertentu dari DataFrame.
  • Seleksi Baris berdasarkan Kondisi: Dengan memberikan kondisi pada DataFrame, Anda dapat membuat filter untuk mengekstrak baris yang memenuhi kriteria tertentu.
  • Seleksi dengan Metode .loc[] dan .iloc[]: Metode .loc[] memungkinkan Anda memilih baris dan kolom berdasarkan label, sedangkan .iloc[] berdasarkan indeks numerik.
  • Filtering dengan Operasi Logika: Anda dapat menggunakan operator logika seperti & (and), | (or), dan ~ (not) untuk membuat filter yang lebih kompleks.
  • Menggunakan Metode .isin(): Metode .isin() memungkinkan Anda untuk menyaring data berdasarkan nilai-nilai yang terdapat dalam suatu list atau array.
  • Menggunakan Metode .query(): .query() memungkinkan Anda mengeksekusi ekspresi query untuk mengambil subset data.

Contoh penggunaan seleksi dan filtering ini akan memberikan Anda kontrol penuh atas data yang ingin Anda analisis, memudahkan fokus pada informasi yang relevan dan mengabaikan yang tidak anda perlukan. Dengan menggunakan berbagai teknik ini, Anda dapat merinci dataset menjadi bagian-bagian yang sesuai dengan pertanyaan atau tujuan analisis Anda.

Pengolahan Data

Pandas memungkinkan Anda melakukan berbagai operasi pengolahan data untuk memanipulasi dan mengubah struktur dataset sesuai kebutuhan analisis Anda.

  • Menambah Kolom: Dengan menggunakan notasi DataFrame['nama_kolom'] = nilai, Anda dapat menambahkan kolom baru ke DataFrame.
  • Mengubah Nama Kolom: Fungsi rename() memungkinkan Anda mengganti nama kolom sesuai preferensi Anda.
  • Menghapus Kolom atau Baris: Menggunakan drop(), Anda dapat menghapus kolom atau baris tertentu dari DataFrame. Ingat untuk menentukan parameter axis agar Pandas tahu apakah yang dihapus adalah kolom (axis=1) atau baris (axis=0).
  • Mengganti Nilai: Dengan menggunakan metode replace(), Anda dapat mengganti nilai tertentu dalam DataFrame dengan nilai lain.
  • Melakukan Operasi Matematika: Pandas mendukung operasi matematika langsung pada kolom atau seluruh DataFrame. Misalnya, Anda dapat mengalikan, menambah, atau menghitung rata-rata dari suatu kolom.
  • Menangani Nilai yang Hilang (Missing Values): Metode dropna() memungkinkan Anda menghapus baris atau kolom yang mengandung nilai yang hilang. Sementara itu, metode fillna() memungkinkan Anda mengisi nilai yang hilang dengan nilai tertentu, seperti nilai rata-rata atau median.
  • Penerapan Fungsi pada Seluruh Kolom atau Baris: Dengan menggunakan metode apply(), Anda dapat menerapkan fungsi kustom pada seluruh baris atau kolom.

Dengan kemampuan ini, Anda dapat mengubah dan mempersiapkan data agar sesuai dengan kebutuhan analisis Anda. Pengolahan data adalah tahap penting dalam siklus analisis data, dan Pandas memberikan alat yang kuat untuk melaksanakan tugas ini dengan efisien.

Pengurutan dan Penggabungan Data

Pandas menyediakan fungsi untuk mengurutkan data dan menggabungkan beberapa DataFrame, memungkinkan Anda mengatur dan mengintegrasikan informasi dari sumber yang berbeda.

  • Mengurutkan Data: Metode sort_values() memungkinkan Anda mengurutkan DataFrame berdasarkan nilai dalam satu atau beberapa kolom. Anda dapat menentukan arah pengurutan (ascending atau descending).
  • Mengurutkan Indeks: Fungsi sort_index() memungkinkan Anda mengurutkan DataFrame berdasarkan indeks, baik itu indeks baris atau kolom.
  • Menggabungkan DataFrame: Pandas mendukung beberapa cara untuk menggabungkan DataFrame. Fungsi concat() memungkinkan penggabungan berdasarkan sumbu tertentu, sedangkan merge() memungkinkan penggabungan berdasarkan kolom-kolom tertentu.
  • Penggabungan dengan Metode merge(): Metode merge() memungkinkan penggabungan data berdasarkan kolom-kolom tertentu. Anda dapat menentukan jenis penggabungan seperti inner, outer, left, atau right.
  • Menangani Indeks yang Berbeda: Fungsi reset_index() dan set_index() dapat digunakan untuk menangani perbedaan indeks antar DataFrame yang akan digabungkan.
  • Menggabungkan Data yang Terpisah: Untuk menggabungkan dua DataFrame dengan indeks yang berbeda, Anda dapat menggunakan metode join(), yang memungkinkan penggabungan berdasarkan indeks.
  • Menangani Duplikat Data: Metode duplicated() dan drop_duplicates() dapat digunakan untuk menangani nilai duplikat setelah penggabungan data.

Dengan kemampuan ini, Anda dapat mengelola dan mengintegrasikan data dari berbagai sumber, memberikan Anda fleksibilitas untuk bekerja dengan dataset yang lebih besar dan kompleks. Kemampuan mengurutkan dan menggabungkan data adalah keterampilan penting dalam analisis data yang melibatkan multiple data sources atau ketika perlu menyusun ulang data untuk analisis yang lebih efektif.

GroupBy

Pengelompokan data (GroupBy) adalah salah satu fitur penting dalam Pandas yang memungkinkan Anda untuk mengelompokkan data berdasarkan kategori tertentu dan menerapkan operasi agregasi pada setiap kelompok.

  • Penggunaan GroupBy: Fungsi groupby() memungkinkan Anda mengelompokkan DataFrame berdasarkan nilai tertentu dalam suatu kolom atau serangkaian kolom.
  • Menerapkan Agregasi: Setelah pengelompokan, Anda dapat menerapkan fungsi agregasi seperti sum(), mean(), count(), min(), max(), dll., untuk mendapatkan ringkasan statistik dari setiap kelompok.
  • Multiple Grouping: Anda dapat melakukan pengelompokan berdasarkan beberapa kolom, memberikan kemampuan untuk menganalisis data dengan tingkat kedalaman yang lebih tinggi.
  • Menggunakan Fungsi Agregasi Kustom: Pandas mendukung penggunaan fungsi agregasi kustom dengan fungsi agg(). Anda dapat menyediakan dictionary yang berisi kolom dan fungsi agregasi yang sesuai.
  • Reset Index Setelah GroupBy: Setelah melakukan operasi GroupBy, menggunakan metode reset_index() membantu mengembalikan indeks yang dihasilkan dari operasi tersebut ke indeks default.
  • Menggunakan Transform: Fungsi transform() memungkinkan Anda menerapkan fungsi transformasi pada setiap kelompok, menghasilkan DataFrame dengan ukuran yang sama dengan DataFrame asli.

Penerapan GroupBy memungkinkan analisis data yang lebih terperinci dan memberikan wawasan tentang bagaimana data terdistribusi di dalam kelompok-kelompok tertentu. Dengan mengelompokkan data, Anda dapat lebih baik memahami pola dan tren di dalam dataset Anda, membantu dalam pengambilan keputusan berdasarkan informasi yang lebih khusus.

Kesimpulan

Pandas merupakan alat yang sangat berguna bagi pemula dalam analisis data menggunakan Python. Artikel ini telah membahas dasar-dasar Pandas, mulai dari pengenalan struktur data seperti Series dan DataFrame, hingga penggunaan fungsi untuk membaca, menjelajahi, dan mengelola data. Anda belajar cara melakukan seleksi, filtering, dan transformasi data, serta bagaimana mengatasi berbagai situasi, seperti penggabungan data dan pengelompokan dengan GroupBy. Dengan Pandas, Anda memiliki kemampuan untuk mengolah dan menganalisis data dengan efisien, memberikan dasar yang kuat untuk memahami dunia analisis data menggunakan Python. Teruslah belajar dan eksplorasi, karena Pandas menyediakan landasan yang kokoh untuk perjalanan Anda dalam dunia analisis data.

Tertarik Untuk Belajar Atau Ingin Memulai Karier Pada Bidang Data Science? Tunggu Apa Lagi? Ayo Segera Daftar Bootcamp Data Science di Indobot Academy Sekarang!

Dasar-dasar Bahasa Pemrograman Python

Dasar-dasar Bahasa Pemrograman Python

Bahasa Pemrograman Python, yang pertama kali diperkenalkan pada tahun 1991 oleh Guido van Rossum, telah menjadi salah satu bahasa pemrograman paling populer di dunia. Dikenal dengan sintaksis yang bersahabat, Python di gunakan dalam berbagai aplikasi, mulai dari pengembangan web hingga kecerdasan buatan.

Bahasa pemrograman python sebagai proyek hobi dan telah berkembang menjadi bahasa yang sangat berpengaruh. Perubahan signifikan dalam struktur bahasa dan peningkatan fungsionalitas telah terjadi selama beberapa versi. Sejak di rilisnya Python 2.0 pada tahun 2000, hingga transisi ke Python 3.0 pada tahun 2008, perubahan tersebut mencerminkan dedikasi komunitas Python terhadap perbaikan dan perkembangan berkelanjutan.

Instalasi Python

Sebelum memulai perjalanan pemrograman dengan Python, langkah pertama yang perlu di ambil adalah menginstal interpreter Python di sistem Anda. Berikut adalah panduan langkah demi langkah untuk membantu Anda melakukan instalasi.

Langkah 1: Mengunduh Python Kunjungi situs resmi Python di python.org untuk mengunduh versi terbaru Python. Pilih versi yang sesuai dengan sistem operasi yang Anda gunakan, apakah itu Windows, macOS, atau Linux.

Langkah 2: Proses Instalasi

  • Windows:
    • Jalankan installer yang telah diunduh.
    • Pilih opsi “Add Python to PATH” selama instalasi untuk mempermudah penggunaan Python dari Command Prompt.
  • macOS:
    • Buka installer dan ikuti petunjuk instalasi.
    • Pastikan untuk memeriksa opsi “Install launcher for all users” agar Python dapat diakses secara global.
  • Linux:
    • Buka terminal dan navigasikan ke lokasi file installer.
    • Jalankan perintah sudo ./install.sh, dengan menggantinya sesuai dengan nama file installer.

Langkah 3: Verifikasi Instalasi Buka terminal atau Command Prompt dan ketikkan python --version atau python -V. Jika instalasi berhasil, versi Python yang diinstal akan ditampilkan.

Langkah 4: Menggunakan PIP (Python Package Installer) PIP memungkinkan Anda menginstal pustaka dan paket tambahan. Pastikan PIP terinstal dengan mengetikkan pip --version atau pip -V dalam terminal atau Command Prompt.

Dengan langkah-langkah sederhana ini, Anda sekarang siap memulai penulisan dan eksekusi program Python. Langkah berikutnya dalam artikel ini akan membawa kita ke pembuatan program sederhana “Hello World” untuk memberikan pemahaman awal tentang sintaks dasar Python.

Hello World

Setelah berhasil menginstal Python, langkah selanjutnya adalah membuat program sederhana sebagai pengantar kepada sintaks dasar bahasa ini.

Membuat Program “Hello World”:

print("Hello World!")

Pemahaman Sintaks:

  • print(): Merupakan fungsi bawaan Python yang di gunakan untuk mencetak teks atau nilai ke layar.
  • "Hello World!": Merupakan string yang akan di cetak. String diapit oleh tanda kutip ganda.

Eksekusi Program: Simpan program di atas dalam file dengan ekstensi .py, misalnya hello_world.py. Kemudian jalankan program tersebut menggunakan terminal atau Command Prompt dengan perintah python hello_world.py.

Variabel dan Tipe Data

Variabel adalah wadah untuk menyimpan data di dalam program Python. Setiap variabel memiliki tipe data tertentu, seperti integer, float, atau string. Mari kita jelajahi konsep ini lebih lanjut.

Deklarasi Variabel:

nama = "Radya"
umur = 17
tinggi = 175.0

Penjelasan:

  • nama: Variabel string yang menyimpan nama.
  • umur: Variabel integer yang menyimpan nilai usia.
  • tinggi: Variabel float yang menyimpan nilai tinggi dalam sentimeter.

Tipe Data Dasar:

  • Integer (int): Bilangan bulat, contoh: umur = 17.
  • Float (float): Bilangan desimal, contoh: tinggi = 175.0.
  • String (str): Teks atau karakter, contoh: nama = "Radya".

Struktur Kontrol

Struktur kontrol memungkinkan Anda mengontrol jalannya program berdasarkan kondisi atau perulangan. Dalam Python, struktur kontrol dasar melibatkan penggunaan pernyataan kondisional (if, else, elif) dan perulangan (for, while). Mari kita bahas keduanya.

# Contoh pernyataan kondisional
nilai = 85

if nilai >= 90:
hasil = “A”
elif 80 <= nilai < 90:
hasil = “B”
else:
hasil = “C”

print(“Hasil: ” + hasil)

Penjelasan:

  • if nilai >= 90:: Pernyataan kondisional untuk menguji apakah nilai lebih besar atau sama dengan 90.
  • elif 80 <= nilai < 90:: Pernyataan kondisional tambahan untuk menguji rentang nilai antara 80 dan 90.
  • else:: Pernyataan yang dijalankan jika kedua kondisi sebelumnya tidak terpenuhi.

# Contoh penggunaan perulangan for
for i in range(5):
print(“Iterasi ke-” + str(i))

# Contoh penggunaan perulangan while
counter = 0
while counter < 3:
print(“Perulangan ke-” + str(counter))
counter += 1

Penjelasan

  • for i in range(5):: Perulangan for yang mencetak pesan sebanyak 5 kali.
  • while counter < 3:: Perulangan while yang mencetak pesan selama counter kurang dari 3.

Kesimpulan

Kita telah mempelajari dasar-dasar Bahasa Pemrograman Python, mulai dari langkah instalasi hingga konsep-konsep mendasar seperti variabel, pernyataan kondisional, dan perulangan. Python, dengan sintaksis yang bersahabat, telah menjadi pilihan utama untuk berbagai kebutuhan pemrograman. Dengan pemahaman tentang variabel, struktur kontrol, dan dasar-dasar pemrograman, pembaca sekarang memiliki fondasi yang kuat untuk melanjutkan eksplorasi dalam pengembangan perangkat lunak menggunakan Python. Selanjutnya, di sarankan untuk terus belajar melalui praktik dan eksperimen, serta menggunakan sumber daya tambahan untuk mengembangkan keterampilan pemrograman Python secara lebih mendalam.

Tertarik untuk berkarier dibidang Internet of things? Atau ingin menambah skill? Segera ikuti pelatihan dan sertifikasi Perekayasaan Perangkat Internet Of Things di Mysertifikasi

Logo Indobot Ozami Iso

Indobot Academy adalah startup dibawah naungan PT Ozami Inti Sinergi yang sudah mendapatkan sertifikat SNI ISO 9001:2015.

PT Ozami Inti Sinergi adalah perusahaan yang bergerak di bidang pendidikan dengan Kode KBLI 85499, 85493, 85497, 85495 serta sudah memiliki sertifikat ISO 9001 : 2015. Didirikan berdasarkan Akta Pendirian No. 14 tanggal 25 Februari 2021 yang telah mendapatkan pengesahan dari Menteri Hukum dan Hak Asasi Manusia Nomor AHU-0013991.AH.01.01 Tanggal 26 Februari 2021 dan telah dicatatkan dalam Sistem Administrasi Badan Hukum No AHU-0013991.AH.01.01 Tahun 2021 tanggal 26 Februari.

Follow Sosial Media Kami