Istilah istilah dalam Datamining
1. Preprocessing
Preprocessing adalah tahap awal dalam pengolahan data sebemum diproses. Mengapa perlu preprocessing? Karena sering kali data yang kita dapat belum optimal/belum sesuai/belum dapat diolah secara baik dalam proses data mining.
Contoh kasus: Misalnya data jenis kelamin. Ada yang mengisi Pria, ada yang mengisi Laki-Laki, ada pula yang mengisi Ikhwan. Ketiga kata tersebut sebenarnya bermakna sama namun ditulis dalam 3 bentuk yang berbeda. Sehingga perlu dilakukan preporcessing dulu agar hal tersebut dapat ditangani.
Di dalam data preprocessing, data disiapkan melalui beberapa tahap agar lebih berguna dan memiliki format yang lebih efisien. Langkah-langkah yang dilakukan dalam data preprocessing adalah kurang lebih sebagai berikut:
- data cleaning
- data integration
- data reduction
- data transformation
1.1. Data Cleaning Data Mining
Data Cleaning adalah proses untuk membersihkan, memperbaiki, dan menghilangkan ketidakakuratan serta ketidaklengkapan data agar data tersebut siap digunakan dalam analisis atau aplikasi lainnya. Data yang tidak terawat dapat mengandung kesalahan seperti nilai yang hilang, duplikasi data, ketidaksesuaian format, atau outlier (data yang jauh berbeda dengan data lainnya). Proses Data Cleaning bertujuan untuk meningkatkan kualitas data agar hasil analisis lebih akurat dan dapat diandalkan.
1.2. Data Integration
1.3. Data Reduction
1.4. Data Transformation
1. kNN
2. Data Cleaning
3. Bayes
4. Data Integration
5. K Means
K-Means merupakan algoritma klasterisasi yang mengelompokkan data berdasarkan titik pusat klaster (centroid) terdekat dengan data.
K-Means merupakan algoritma klasterisasi yang mengelompokkan data berdasarkan titik pusat klaster (centroid) terdekat dengan data.
6. Data Transformation
7. Apriori
8. Normalisation
Normalisasi pada Data Mining adalah proses penskalaan nilai atribut dari data sehingga nilainya menjadi pada range tertentu. Hal ini berguna ketika data berada pada range berbeda dan sulit melihat apakah data tersebut memiliki kontribusi penting ketika proses learning selanjutnya.
Normalisasi pada Data Mining adalah proses penskalaan nilai atribut dari data sehingga nilainya menjadi pada range tertentu. Hal ini berguna ketika data berada pada range berbeda dan sulit melihat apakah data tersebut memiliki kontribusi penting ketika proses learning selanjutnya.
9. K Medoids
10. Regresi
suatu metode untuk mengetahui pengaruh dari suatu variabel terhadap variabel lain.
11. FP Growth
12. Logistic Regresion
13. Vertical Data Format
14. Klasifikasi
15. Supervised Learning
16. Linier Regresion
Regresi yang bersifat linier. Berdasarkan pendekatan linier.
rumus:
y = w0 + w1 x
dengan
w0 = y (rata-rata) - w1 x1rata-rata
w1 = sigma (xi - x rata-rata) (yi - y rata-rata) / sigma (xi - x rata-rata) kwadrat
regresi.garis lurusnya dicari dengan menghitung w0 dan w1
jika variabelnya lebih dari dua
rumus:
y = w0 + w1 x + w2 x2
dengan
w0 = y (rata-rata) - w1 x1rata-rata - w2 x2rata-rata
w1 = sigma (x1i - x rata-rata) (yi - y rata-rata) / sigma (x1i - x rata-rata) kwadrat
w2 = sigma (x2i - x rata-rata) (yi - y rata-rata) / sigma (x2i - x rata-rata) kwadrat
regresi.garis lurusnya dicari dengan menghitung w0, w1, dan w2
Contoh:
Kasuis Santri menghafal Quran
Santri ke Lama (hari) Jumlah ayat yang dihafal
1 12 55
2 15 30
3 11 43
4 10 22
5 7 15
Berapa lama santri ke 1 akan menghafal 110 ayat?
17. Klusterisasi
18. Binerisasi
19. Decision Tree
20. Multiple Linier Regresion
21. Unsupervised Learning
22. ID3
23. Diskretisasi
24. Ensemble Methods
25. Asosiasi
26. Text Mining
27. Reinforcement Learning
28. C.4.5
29. Data Stream
30. Fuzzy KNN every Class
31. DBScan
32. Agregasi
33. Preprocessing
34. Korelasi
35. Data Reduction
36. Fuzzy C Means
37. CART
38. Adaboost
39. Bagging
40. TF IDFx
Term Frequency ( TF)
Inverse Document Frequency (IDF)
Term Frequency (
Inverse Document Frequency (IDF)
Posting Komentar untuk "Istilah istilah dalam Datamining"