Exploratory Data Analysis for Auto MPG Dataset

Insan Cahya Setia
7 min readApr 15, 2021
https://driving.ca/column/lorraine/lorraine-complains-playing-chicken-with-your-gas-gauge-is-a-fools-errand

Halo… Kembali lagi dengan saya. Dalam latihan kali ini, kita akan mengeksplorasi Auto MPG dataset, yang berisi satu baris per model mobil dan mencakup informasi seperti tahun pembuatan mobil (model_year), efisiensi bahan bakarnya (diukur dalam "mil per galon" atau "mpg"), dan negara asalnya (AS, Eropa, atau Jepang). Library yang akan digunakan kali ini yaitu Pandas untuk manipulasi data, Seaborn dan Matplotlib untuk visualisasi data.

Berikut penjelasan setiap variabel yang akan kita gunakan sapanjang latihan ini :

  1. mpg : jarak tempuh per gallon
  2. cylinders : jumlah silinder
  3. displacement : volume langkah piston
  4. horsepower : tenaga mesin yang dihasilkan
  5. weight : berat mobil
  6. acceleration : waktu akselerasi dari 0 sampai 60 km
  7. model_year : tahun pembuatan
  8. origin : asal mobil
  9. name : nama mobil

Baik kita langsung saja pada pembahasannya.

Pertama-tama kita akan membaca data Auto MPG. Karena data disimpan dalam bentuk csv, maka kita akan menggunakan function read_csv() dari Pandas. Selanjutnya kita akan menampilkan lima data teratas.

Lima data teratas

Selanjutnya kita akan menampilkan informasi data yang kita punya menggunakan function info().

Informasi dataset

Data terdiri dari 398 baris dengan 9 kolom. Dari informasi diatas kebanyakan variabel bertipe data numerik, yaitu float dan integer.

Sebenarnya dari informasi diatas sendiri kita sudah bisa melihat ternyata terdapat missing value pada data tersebut. Tetapi untuk memastikan kita akan menampilkan berapa jumlah missing value untuk setiap variabel.

Jumlah missing value

Ternyata variabel horsepower memiliki data missing value sebanyak 6. Untuk menangani missing value tersebut kita akan melakukannya nanti.

Kita ingin melihat baris mana saja yang mempunyai missing value.

Baris yang mempunyai null values

Untuk menangani missing value diatas kita akan melakukan imputasi ataupun melakukan penghapusan data tersebut. Tetapi sebelum itu kita ingin mengecek korelasi variabel horsepower dengan variabel lain, yang akhirnya kita bisa memilih metode terbaik untuk menangani data tersebut.

Korelasi horsepower dengan variabel lain

Karena dari hasil diatas variabel horsepower mempunyai korelasi yang baik dengan variabel lain, maka diputuskan kita akan melakukan imputasi daripada melakukan penghapusan null value tersebut. Banyak metode untuk melakukan imputasi, seperti menggunakan nilai rata-rata (mean), nilai tengah (median) ataupun dengan nilai dari hasil prediksi. Tetapi sebelum itu kita ingin melihat apakah variabel horsepower memiliki data outliers atau tidak. Kita bisa melakukan visualisasi dengan boxplot untuk melihat ada tidaknya data outliers.

Boxplot horsepower

Dari visualisasi diatas ternyata variabel horsepower memiliki outliers, ditandai dengan adanya point yang melebihi nilai kuartil 75, maka dari itu kita akan melakukan imputasi dengan menggunakan nilai tengah daripada menggunakan nilai rata-rata.

Hasil imputasi

Setelah dilakukan imputasi dan kita cek kembali jumlah missing value sudah terlihat bahwa sekarang variabel horsepower sudah tidak memiliki missing value. Maka dari itu kita siap untuk melakukan ekspolasi data lebih lanjut. Tetapi sebelum itu kita ingin melihat staistik deskriptif dari data yang kita gunakan, seperti nilai rata-rata, nilai maksimum dan lain-lain.

Statistik deskriptif data MPG

Selanjutnya kita ingin melihat korelasi untuk setiap variabel.

Korelasi setiap variabel

Kita bisa menggunakan pairplot untuk melihat keseluruhan korelasi dalam bentuk visualisasi. Kita akan membaginya berdasarkan negara asal mobil.

Pairplot

Apa hubungan antara tenaga kuda mobil (horsepower) dan efisiensi bahan bakarnya (mpg)? Dan bagaimana hubungan ini bervariasi menurut jumlah silinder (cylinders) yang dimiliki mobil? Lalu bagaimana juga untuk setiap mobil dari negara asalnya?

Hubungan tenaga kuda dengan efisiensi bahan bakar
Hubungan tenaga kuda dengan efisiensi bahan bakar berdasarkan negara asalnya

Dari visualisasi diatas ternyata mobil dengan horsepower yang lebih tinggi cenderung mendapatkan jumlah mil per galon yang lebih rendah. Mereka juga cenderung memiliki jumlah silinder yang lebih banyak. Lalu ternyata mobil dengan jumlah silinder lebih dari 6 hanya berasal dari Amerika Serikat.

Kita ingin melihat hubungan antara seberapa cepat mobil dapat berakselerasi (acceleration) dan efisiensi bahan bakarnya. Apakah properti ini berbeda menurut negara asal (origin)?

Perhatikan bahwa acceleration variabelnya adalah waktu untuk berakselerasi dari 0 hingga 60 mil per jam, dalam detik. Nilai yang lebih tinggi menunjukkan akselerasi yang lebih lambat.

Hubungan akselerasi dengan efisiensi bahan bakar berdasarkan negara asal

Mobil dari AS cenderung berakselerasi lebih cepat dan mendapatkan jarak tempuh yang lebih rendah per galon dibandingkan dengan mobil dari Eropa dan Jepang.

Kita ingin melihat hubungan antara seberapa cepat mobil dapat berakselerasi dengan tenaga kuda. Apakah berbeda untuk setiap negara asal?

Hubungan akselerasi dengan tenaga kuda

Ternyata mobil dari AS cenderung mempunyai akselerasi yang lebih cepat dengan tenaga kuda yang besar daripada mobil dari Eropa dan Jepang. Dengan kata lain semakin besar tenaga kuda sebuah mobil maka akselerasi yang dihasilkan juga lebih cepat.

Lalu bagaimana hubungan antara berat mobil dengan tenaga kuda berdasarkan negara asalnya?

Hubungan berat mobil dan tenaga kuda

Pada visualisasi diatas dapat dilihat semakin berat mobil maka tenaga kuda juga semakin besar. Tetapi mobil dari AS cenderung memiliki berat dan tenaga kuda yang lebih besar daripada mobil dari Eropa Jepang.

Selanjutnya bagaimana hubungan antara berat mobil dengan akselerasi berdasarkan negara asalnya?

Hubungan berat mobil dan akselerasi

Mobil dari AS cenderung memiliki berat mobil yang lebih besar dengan akselerasi yang lebih cepat daripada mobil dari Jepang dan Eropa.

Kita ingin melihat apakah jumlah silinder berpengaruh terhadap tenaga kuda yang dihasilkan?

Hubungan jumlah silinder dan tenaga kuda

Ternyata jumlah silinder yang lebih banyak berpengaruh terhadap tenaga kuda yang dihasilkan.

Bagaimana rata-rata mil per galon yang dicapai oleh mobil-mobil ini apakah berubah seiring waktu? Dan bagaimana trennya untuk setiap negara asalnya?

Efisiensi bahan bakar setiap tahun

Terlihat bahwa efisiensi bahan bakar berdasarkan rata-rata mil per galon yang dicapai mobil mengalami peningkatan untuk setiap tahunnya.

Efisiensi bahan bakar setiap tahun berdasarkan negara asal

Rata-rata mil per galon yang dicapai untuk setiap negara asal juga meningkat dari waktu ke waktu, tetapi mobil dari AS selalu lebih rendah daripada Eropa dan Jepang.

Kita telah melihat bahwa rata-rata mil per galon untuk mobil telah meningkat dari waktu ke waktu, tetapi bagaimana rata-rata tenaga kuda untuk mobil berubah dari waktu ke waktu? Dan apakah tren ini berbeda menurut negara asalnya?

Tren tenaga kuda setiap tahun
Tren tenaga kuda setiap tahun berdasarkan negara asal

Dari dua visualisasi di atas terlihat bahwa setiap tahunnya rata-rata tenaga kuda mengalami penurunan, tetapi dapat kita lihat bahwa tren penurunan tenaga kuda ini lebih terlihat di antara mobil-mobil dari AS.

Sekarang kita akan menampilkan rata-rata akselerasi mobil berdasarkan negara asalnya. Perlu diingat bahwa acceleration variabelnya adalah waktu untuk berakselerasi dari 0 hingga 60 mil per jam, dalam detik. Nilai yang lebih tinggi menunjukkan akselerasi yang lebih lambat.

Rata-rata akselerasi berdasarkan negara asal

Karena nilai yang lebih tinggi menunjukkan akselerasi yang lebih lambat, sepertinya mobil dari Jepang dan Eropa memiliki akselerasi yang jauh lebih lambat dibandingkan dengan AS.

Selanjutnya kita ingin melihat rata-rata tenaga kuda untuk setiap negara asal? Apakah setiap negara mempunyai rata-rata tenaga kuda yang sama?

Rata-rata tenaga kuda berdasarkan negara asal

Ternyata rata-rata tenaga kuda untuk mobil dari AS jauh diatas besar daripada mobil dari Jepang dan Eropa. Untuk Jepang dan Eropa sendiri rata-rata tenaga kuda cenderung sama untuk kedua negara.

Kita pasti ingin mengetahui sebenarnya mobil mana saja yang mempunyai tenaga kuda paling besar. Maka dari itu kita akan melihat lima mobil dengan tenaga kuda terbesar.

Lima mobil dengan tenaga kuda terbesar

Ternyata dari visualisasi diatas untuk lima mobil dengan tenaga kuda terbesar semuanya berasal dari AS. Pontiac Grand Prix menjadi mobil dengan tenaga kuda terbesar.

Kita juga ingin melihat mobil mana saja yang mempunyai akselerasi paling cepat dan mobil dengan efisiensi bahan bakar paling baik.

Lima mobil dengan akselerasi tercepat

Ternyata lima mobil dengan akselerasi tercepat juga semuanya berasal AS. Plymount Cuda 340 menjadi mobil dengan akselerasi tercepat dari semua mobil yang ada.

Lima mobil dengan efisiensi bahan bakar terbaik

Sedangkan mobil dengan efisiensi bahan bakar terbaik ternyata bukan berasal dari AS, tetapi berasal dari Jepang dan Eropa. Mazda GLC dari Jepang menjadi mobil dengan efisiensi bahan bakar terbaik.

Selesai sudah eksplorasi yang kita lakukan pada data suto-mpg ini. Setelah semua yang telah kita lakukan diatas, apakah kamu menemukan insight dari ekslorasi yang sudah kita lakukan?

Baik cukup sekian pembahasan tentang Exploratory Data Analysis yang sudah kita bahas. Untuk project lengkapnya kalian bisa lihat disini. Sampai jumpa di lain kesempatan, tunggu pembahasan-pembahasan lain yang akan saya paparkan di waktu yang akan datang. So stay tune… #dontstoptolearn

--

--