Exploratory Data Analysis for Young People Survey

Insan Cahya Setia
5 min readApr 5, 2021
https://laptrinhx.com/exploratory-data-analysis-2784389376/

Halo Sobat Data semuanya, setelah pada topik sebelumnya kita telah melakukan EDA, kali ini kita juga akan melakukan kembali EDA dengan data yang berbeda. Untuk kalian yang ingin melihat pembahasan sebelumnya, kalian bisa lihat disini.

Data kali ini berisi tentang data survei yang dilakukan terhadap kaum muda berusia antara 15–30 tahun. Terdapat beberapa kategori dalam survei yang dilakukan, yaitu menyangkut hobi atau minat, ketakutan (phobia), kepribadian, keuangan, dan demografi. Kali ini EDA yang kita lakukan akan fokus pada visualisasi data. Library yang akan kita gunakan yaitu Pandas untuk manipulasi data, selanjutnya Matplotlib dan Seaborn untuk viluasisasi data.

Baik langsung saja kita pada pembahasannya…

Pertama-tama yang pasti kita akan membaca data tersebut. Karena file data berbentuk csv (comma separate value) maka kita menggunakan function read_csv() dari library Pandas. Selanjutya lihat variabel apa saja yang terdapat pada data yang akan kita gunakan. Sebagai preview, kita akan melihat lima data teratas menggunakan function head().

Lima data teratas

Nilai data sudah dikonversi dalam bentuk angka, dengan tanggapan bervariasi dari 1–5, dimana 1 adalah “Sangat tidak setuju” dan 5 adalah “Sangat setuju”.

Selanjutnya kita akan melihat informasi data seperti jumlah baris dan kolom ataupun tipe data menggunakan function info().

Informasi dataset

Terlihat bahwa kita memiliki 1010 baris dan 15 kolom, juga terdapat tipe data yang didominasi bertipe data float.

Apakah data yang kita miliki terdapat nilai yang hilang (missing value)? Untuk melihat jumlah missing value kita bisa menggunakan function isna() dan sum().

Jumlah nilai yang hilang setiap variabel

Karena masing terdapat missing value, maka kita dapat melakukan pengisian missing value (imputasi). Terdapat beberapa cara untuk melakukan imputasi, untuk kali ini kita akan melakukan imputasi yang sederhana yaitu menggunakan statistik dasar. Imputasi akan dilakukan dengan menggunakan nilai tengah (median) dari setiap variabel. Terdapat pertanyaan: Kenapa menggunakan median, bukan mean? Karena nilai tersebut merupakan hasil konversi, maka kita menghindari hasil imputasi berupa nilai atau bilangan pecahan. Setelah imputasi kita kembali periksa jumlah missing value setiap variabel.

Jumlah missing value setelah imputasi

Ternyata masih terdapat missing value pada variabel Gender dan Village - town. Hal ini karena kedua varibel tersebut bertipe data object atau string, maka imputasi menggunakan statistik tidak akan berpengaruh. Karena masih terdapat missing value, kali ini kita bisa hapus saja data yang hilang tersebut karena tidak diketahui datanya. Gunakan function dropna() untuk menghapus missing value.

Jika kita perhatikan, terdapat variabel index. Kita akan menghapus variabel index karena sebenarnya variabel index tersebut hanya penomoran pada setiap baris, dan kita tidak membutuhkan itu. Untuk menghapus variabel index kita bisa menggunakan function drop(). Setelah penghapusan, kita akan memeriksa apakah variabel index sudah terhapus.

Informasi dataset setelah penghapusan missing value dan variabel

Terlihat bahwa variabel index sudah berhasil dihapus, juga data sudah tidak memiliki missing value, terlihat dari jumlah baris yang tersedia. Setelah penghapusan missing value, baris data yang tersedia berjumlah 1000 baris.

Setelah kita melakukan data profiling dan data preparation, selanjutnya kita masuk ketahap exploratory data analysis (EDA).

Kita akan akan melihat persentase jenis kelamin pada survei yang dilakukan.

Persentase jenis kelamin

Pada survei yang dilakukan teryata sekitar 59.10% berjenis kelamin perempuan, lalu laki-laki sekitar 40.90%.

Lalu bagaimana distribusi usia pada saat melakukan survei?

Distribusi usia

Ternyata survei yang dilakukan terhadap kaum muda terbanyak berusia 19 sampai 20 tahun.

Matematika merupakan mata pelajaran yang kuang diminati dan dibenci oleh sebagian orang karena sulit untuk dipahami. Lalu bagaimana hasil survei yang telah dilakukan, kaum muda kurang tertarik terhadap matematika?

Ketertarikan terhadap matematika

Teryata memang benar, dari hasil survei yang dilakukan kebanyakan kaum muda memang kurang tertarik dengan matematika.

Kita ingin melihat apakah kaum muda cenderung memiliki phobia terhadap laba-laba?

Phobia terhadap laba-laba

Dari visualisasi diatas kaum muda ternyata cenderung tidak memiliki phobia terhadap laba-laba, tetapi terdapat juga kaum muda yang memang sangat takut terhadap laba-laba.

Pada era digitalisasi seperti sekarang ini, penggunaan internet merupakan suatu kebutuhan untuk sebagian orang, tak terkecuali kaum muda. Lalu bagaimana penggunaan internet dikalangan muda? Apakah sudah termasuk pengguna yang adiktif? Kami mungkin curiga bahwa kaum muda menghabiskan banyak waktu di internet, tetapi berapa banyak yang mereka laporkan menggunakan internet setiap hari?

Penggunaan internet perhari

Ternyata kebanyakan kaum muda menghabiskan waktu untuk menggunakan internet hanya beberapa jam dalam sehari. Dari visualisasi diatas ternyata terdapat juga kaum muda yang tidak menggunakan internet sama sekali. Ternyata dari visualisasi diatas perempuan lebih banyak menggunakan internet daripada laki-laki.

Apakah kaum muda cenderung mendengarkan nasihat dari orang tua mereka? Kita akan melihat melalui visualisasi berikut.

Kecenderungan kaum mudah mendengarkan nasihat orang tua

Bisa dikatakan bahwa kaum muda cenderung mendengarkan nasihat orang tua mereka.

Namun, satu hal yang belum kita lakukan adalah ringkasan dasar tentang tipe orang yang menjawab survei ini, termasuk usia dan jenis kelamin mereka.

Distribusi usia dan jenis kelamin

Sepertinya usia median untuk pria dan wanita sama, tetapi distribusi wanita condong lebih muda dari pada pria.

Bagaimana dengan kaum muda yang mempunyai ketertarikan terhadap hewam peliharaan berdasarkan usia dan jenis kelamin?

Ketertarikan hewan peliharaan berdasarkan usia dan jenis kelamin

Siapakah yang mempunyai ketertarikan dalam teknologi? Apakah laki-laki lebih tertarik pada teknologi, baik yang bertempat tinggal di desa ataupun di kota?

Ketertarikan terhadap teknologi berdasarkan jenis kelamin dan tempat tinggal

Memang benar laki-laki lebih tertarik terhadap teknologi daripada wanita, baik itu yang tinggal di desa ataupun di kota.

Lalu apakah kaum muda di kota lebih mempunyai keuangan yang stabil daripada kaum muda yang tinggal di desa?

Keuangan berdasarkan tempat tinggal

Ternyata kaum muda yang tinggal di kota lebih mempunyai keuangan yang lebih stabil, tetapi banyak juga kaum muda di kota yang tidak mempunyai keuangan yang cukup stabil.

Akhirnya kita sudah melakukan exploratory data analysis yang cukup melelahkan. Cukup sampai untuk pembahasan kita kali ini. Semoga pembahasan yang sudah kita lakukan dapat bermanfaat. Bagi kalian yang ingin melihat project secara kesuluruhan bisa dilihat disini.

Sampai jumpa di lain kesempatan, tunggu pembahasan-pembahasan lain yang akan saya paparkan di waktu yang akan datang. So stay tune… #dontstoptolearn

--

--