Data Cleaning

-- for my teams.  

Seperti biasa, ini adalah post for taking digital note.

 

https://www.youtube.com/watch?v=kNl7YDN-_js

 

Data Analytics - How To Undertake Data Cleaning (2022)

-- 60% DA jobs concerns in cleaning the data

-- kalo datanya salah/belum bersih dari awal, hasilnya salah.

Google spreadsheet punya fitur buat cleaning data. 

 

Pertama, screening data dulu. Coba ngerti setiap value dari tiap kolom yang ada. 

Cari data-data yang ga masuk akal, misalnya count sampel 0, tapi ada data samplingnya. Atau adanya data-data yang kosong (NULL).

 Find duplicates and missing data.

Google spreadsheet bisa cari all data duplicate per row per column. Nantinya dia bisa detect ada row duplicate apa engga, dan ada berapa sisanya yang unique row.

 Cari missing data bisa pake filter, liat satu per satu per column, show blanks. 

Better NULL value di takeout aja dari tabel. 

 -------- end of the video. 


https://www.youtube.com/watch?v=_jmiEGZ6PIY


Cleaning Data in Excel | Excel Tutorials for Beginners

Identify -- sama screening. Cari apa aja yang kira-kira perlu di cleaning.

Selalu keep original raw.

1. Duplicates : Excel bisa lakuin hal yang sama kaya Google Spreadsheet, Tab Data>Remove Duplicate -- dia keep row yang unique saja. 

2. Text : UPPER, PROPER, LOWER

3. Data yang illogical : sama, pake filter, cek satu satu per column. Cari typo typo, misal plural, urutan, dkk. 

4. Spasi-spasi. "Presiden    Indonesia" : TRIM. TRIM unnecessary spaces. Bisa jadi juga ada yang spasinya di akhir, ini masalah juga nantinya pas ngolah data. Biasanya kalo di Excel ada tanda panah ijo. 

5. Currencies :  Kadang format di Excel suka ada special characters, i.e. $, pounds, Rp. -- yang kaya gini kalau datanya diolah diluar sistem Excel (py, SQL), valuenya akan kebaca sebagai strings (text), jadinya gabisa lakuin operasi matematika i.e. SUM, AVG dkk. Better dibuang aja formatnya, dan biarin dalam bentuk angkanya aja (value). 

6. Dates : di sini contohnya hanya beda formatting yang 2 2 nya bisa kebaca oleh Excel. 07/14/2022; Wednesday, July 14, 2021. Actually kalo kita kerjanya dalam sistem Excel doang, ga akan jadi masalah, karena 2 2 nya kebaca sebagai Date oleh Excel.Sama masalahnya kalau data ini di export dan diolah di env lain i.e. py.

Caranya sama, cleaning via filter. Kerjain satu satu. 

Format date di Excel biasanya random number, 40000-an.  

Kalau datanya kebaca oleh Excel, kita bisa langsung select dan ganti format cell-nya. 

nb. Nextnya mungkin gw ditambahin materi parsing text in Excel.
Pake formula MID, FIND, LEN, +, -, cari lokasi.


7. Paste as values : jangan lupa semua yang udah dibuat pake formula Excel, di paste as value ke kolom aslinya. Waktu cleaning biasanya kita bikin column baru, yang isinya formula kita misal =PROPER. Setelah cleaning, data dari column baru tadi kita paste as value ke original column.

8. Trimming the table : cari column yang sekiranya ga berguna untuk diolah, keep data yang berguna aja, baru olah lebih lanjut i.e. pivot, py, SQL, tableau, power bi, dkk. 

-------- end of the video



https://www.youtube.com/watch?v=u9EFy1OaWts

How to Parse Data in Excel Using Various Functions

 


 

 




Comments

Popular posts from this blog

17 Productive Things to do with your Free Time - Zach Highley

Top Courses to Learn Data Science Skills FAST! - Thu Vu @ Youtube

7 Jenis Istirahat - Fellexandro Ruby