I 10 migliori algoritmi nel data mining
Alberi decisionali
Gli algoritmi dell'albero decisionale consistono nell'organizzare i dati in elezioni in competizione che formano rami di influenza dopo una decisione iniziale. Il tronco dell'albero rappresenta la decisione iniziale e inizia con una domanda di sì o no, come fare colazione o no. Prendendo la colazione e non facendo colazione sarebbero i due rami divergenti dell'albero, e ogni scelta successiva avrebbe i suoi propri rami divergenti che portano a un punto finale.
L'algoritmo K-significa
L'algoritmo K-means si basa sull'analisi dei gruppi. Prova a dividere i dati raccolti in "cluster" separati raggruppati per caratteristiche comuni.
Supporta macchine vettoriali
Gli algoritmi delle macchine di supporto vettoriale prendono i dati di input e predicono quale delle due possibili categorie include i dati di input. Un esempio potrebbe essere quello di raccogliere i codici postali da un gruppo di elettori e cercare di prevedere se un elettore è un democratico o un repubblicano.
L'algoritmo a priori
L'algoritmo a priori di solito controlla i dati della transazione. Ad esempio, in un negozio di abbigliamento, l'algoritmo potrebbe controllare quali camicie solitamente acquistano i clienti.
L'algoritmo EM
Questo algoritmo definisce i parametri analizzando i dati e prevede la possibilità di un output futuro o di un evento casuale all'interno dei parametri dei dati. Ad esempio, l'algoritmo EM potrebbe tentare di prevedere i tempi di una prossima eruzione di un geyser in base ai dati temporali delle eruzioni precedenti.
Algoritmo PageRank
L'algoritmo PageRank è un algoritmo di base per i motori di ricerca. Valuta e valuta la rilevanza di un determinato dato all'interno di un set di grandi dimensioni, ad esempio un singolo sito Web all'interno di un insieme più ampio di tutti i siti Internet.
AdaBoost Algorithm
L'algoritmo AdaBoost funziona all'interno di altri algoritmi di apprendimento che anticipano il comportamento in base ai dati osservati in modo che siano sensibili agli estremi statistici. Sebbene l'algoritmo EM possa essere distorto a causa di un geyser che ha due eruzioni in meno di un minuto quando normalmente ha un'eruzione cutanea una volta al giorno, l'algoritmo AdaBoost modifica l'output dell'algoritmo EM analizzando la rilevanza dell'endpoint.
Algoritmo del vicino k più vicino
Questo algoritmo riconosce i pattern nella posizione dei dati e li associa ai dati con un identificatore più grande. Ad esempio, se si desidera assegnare un ufficio postale a ciascuna posizione geografica della casa e si dispone di un set di dati per ogni posizione geografica della casa, l'algoritmo del vicino k vicino assegnerà le case all'ufficio postale più vicino in base alla loro vicinanza.
Naive Baye
L'algoritmo di Naive Baye prevede l'output di un'identità basata sui dati di osservazioni note. Ad esempio, se una persona ha un'altezza di 6 piedi e 6 pollici (1, 97 m) e indossa una taglia 14 di scarpe, l'algoritmo di Naive Baye potrebbe prevedere con una certa probabilità che la persona è un uomo.
CART Algorithm
"CART" è un acronimo in inglese che significa analisi e classificazione dell'albero di regressione. Come l'analisi degli alberi decisionali, organizza i dati in base alle opzioni della competizione, come se una persona fosse sopravvissuta a un terremoto. A differenza degli algoritmi degli alberi decisionali, che possono solo classificare un output o un output numerico basato sulla regressione, l'algoritmo CART può utilizzare entrambi per prevedere la probabilità di un evento.