Data Mining Med K-Means Clustering

De k- betyder klustringsalgoritmen är ett datautbildning och maskininlärningsverktyg som används för att gruppera observationer i grupper av relaterade observationer utan någon förkunnande om dessa relationer. Genom provtagning försöker algoritmen visa i vilken kategori eller kluster dataen hör till, varvid antalet kluster definieras av värdet k.

De k- medel algoritmen är en av de enklaste grupperingsteknikerna och används ofta i medicinsk bildbehandling, biometri och relaterade fält. Fördelen med k- betyder att clustering är att den berättar om dina data (med hjälp av sin obesvarade form) istället för att du behöver instruera algoritmen om data i början (med hjälp av den övervakade formen av algoritmen).

Det kallas ibland som Lloyds algoritm, särskilt i datavetenskapliga cirklar, eftersom standardalgoritmen föreslagits av Stuart Lloyd 1957. Termen "k-means" var coined 1967 av James McQueen.

Hur K-Means Algoritm Funktioner

De k- medel algoritmen är en evolutionär algoritm som får sitt namn från sin arbetssätt. Algoritmen kluster observationer i k grupper, var k tillhandahålls som en ingångsparameter. Det tilldelar sedan varje observation till kluster baserat på observationens närhet till medelvärdet av klustret. Klyftans medelvärde recomputeras sedan och processen börjar igen. Så här fungerar algoritmen:

Algoritmen väljer väljigt k pekar som de första klustercentralerna (medlen).
Varje punkt i datasetet tilldelas det slutna klustret, baserat på det euklidiska avståndet mellan varje punkt och varje klustercentral.
Varje klustercentral recomputeras som medelvärdet av punkterna i det klustret.
Steg 2 och 3 upprepa tills klyftorna konvergerar. Konvergens kan definieras olika beroende på implementeringen men det betyder normalt att antingen inga observationer ändrar kluster när steg 2 och 3 upprepas eller att förändringarna inte gör någon väsentlig skillnad i definitionen av kluster.

Välja antalet kluster

En av de största nackdelarna med k- betyder att clustering är det faktum att du måste ange antalet kluster som en ingång till algoritmen. Som utformad kan inte algoritmen bestämma lämpligt antal kluster och beror på användaren att identifiera detta i förväg.

Om du till exempel hade en grupp människor som ska grupperas baserat på binär könsidentitet som man eller kvinna, ringer du till k- betyder algoritm som använder inmatningen k = 3 skulle tvinga folket i tre kluster när bara två eller en ingång av k = 2, skulle ge en mer naturlig passform.

På samma sätt, om en grupp individer enkelt var grupperade baserat på hemland och du kallade k- betyder algoritm med ingången k = 20, resultaten kan vara för generaliserade för att vara effektiva.

Av denna anledning är det ofta en bra idé att experimentera med olika värden av k för att identifiera det värde som bäst passar dina data. Du kanske också vill utforska användningen av andra data mining algoritmer i din strävan efter maskinlärda kunskaper.