Lompat ke konten Lompat ke sidebar Lompat ke footer

Istilah istilah dalam Datamining





1. Preprocessing

Preprocessing adalah tahap awal dalam pengolahan data sebemum diproses. Mengapa perlu preprocessing? Karena sering kali data yang kita dapat belum optimal/belum sesuai/belum dapat diolah secara baik dalam proses data mining. 

Contoh kasus: Misalnya data jenis kelamin. Ada yang mengisi Pria, ada yang mengisi Laki-Laki, ada pula yang mengisi Ikhwan. Ketiga kata tersebut sebenarnya bermakna sama namun ditulis dalam 3 bentuk yang berbeda. Sehingga perlu dilakukan preporcessing dulu agar hal tersebut dapat ditangani.

Di dalam data preprocessing, data disiapkan melalui beberapa tahap agar lebih berguna dan memiliki format yang lebih efisien. Langkah-langkah yang dilakukan dalam data preprocessing adalah kurang lebih sebagai berikut:

  • data cleaning
  • data integration
  • data reduction
  • data transformation


1.1. Data Cleaning Data Mining

Data Cleaning adalah proses untuk membersihkan, memperbaiki, dan menghilangkan ketidakakuratan serta ketidaklengkapan data agar data tersebut siap digunakan dalam analisis atau aplikasi lainnya. Data yang tidak terawat dapat mengandung kesalahan seperti nilai yang hilang, duplikasi data, ketidaksesuaian format, atau outlier (data yang jauh berbeda dengan data lainnya). Proses Data Cleaning bertujuan untuk meningkatkan kualitas data agar hasil analisis lebih akurat dan dapat diandalkan.

1.2. Data Integration

1.3. Data Reduction

1.4. Data Transformation


1. kNN
2. Data Cleaning
3. Bayes
4. Data Integration
5. K Means

K-Means merupakan algoritma klasterisasi yang mengelompokkan data berdasarkan titik pusat klaster (centroid) terdekat dengan data.


6. Data Transformation

7. Apriori

8. Normalisation
Normalisasi pada Data Mining adalah proses penskalaan nilai atribut dari data sehingga nilainya menjadi pada range tertentu. Hal ini berguna ketika data berada pada range berbeda dan sulit melihat apakah data tersebut memiliki kontribusi penting ketika proses learning selanjutnya.


9. K Medoids

10. Regresi

suatu metode untuk mengetahui pengaruh dari suatu variabel terhadap variabel lain.

11. FP Growth

12. Logistic Regresion



13. Vertical Data Format

14. Klasifikasi

15. Supervised Learning

16. Linier Regresion


Regresi yang bersifat linier. Berdasarkan pendekatan linier.
rumus:
y = w0 + w1 x

dengan
w0 = y (rata-rata) -  w1 x1rata-rata

w1 = sigma (xi - x rata-rata) (yi - y rata-rata) / sigma (xi - x rata-rata) kwadrat

regresi.garis lurusnya dicari dengan menghitung w0 dan w1

jika variabelnya lebih dari dua

rumus:
y = w0 + w1 x + w2 x2

dengan
w0 = y (rata-rata) -  w1 x1rata-rata -  w2 x2rata-rata

w1 = sigma (x1i - x rata-rata) (yi - y rata-rata) / sigma (x1i - x rata-rata) kwadrat

w2 = sigma (x2i - x rata-rata) (yi - y rata-rata) / sigma (x2i - x rata-rata) kwadrat

regresi.garis lurusnya dicari dengan menghitung w0, w1, dan w2

Contoh:
Kasuis Santri menghafal Quran

Santri ke    Lama (hari)     Jumlah ayat yang dihafal
1                        12                         55
2                        15                         30
3                        11                         43
4                        10                          22
5                        7                            15

Berapa lama santri ke 1 akan menghafal 110 ayat?



17. Klusterisasi

18. Binerisasi


19. Decision Tree


20. Multiple Linier Regresion


21. Unsupervised Learning


22. ID3


23. Diskretisasi


24. Ensemble Methods
25. Asosiasi
26. Text Mining
27. Reinforcement Learning
28. C.4.5
29. Data Stream
30. Fuzzy KNN every Class
31. DBScan
32. Agregasi
33. Preprocessing
34. Korelasi
35. Data Reduction
36. Fuzzy C Means
37. CART
38. Adaboost
39. Bagging
40. TF IDFx

Term Frequency (TF) 
Inverse Document Frequency (IDF)


Posting Komentar untuk "Istilah istilah dalam Datamining"