Användningen av klassificering i datautvinning

Klassificering är en data mining teknik som tilldelar kategorier till en samling av data för att hjälpa till med mer exakta förutsägelser och analyser. Kallas även kallas ibland a Beslutsträd , klassificering är en av flera metoder avsedda att göra analysen av mycket stora dataset effektiva.

Varför klassificering?

Mycket stora databaser blir normen i dagens värld av stora data . Föreställ dig en databas med flera terabyte data - en terabyte är en biljon byte av data.

Facebook ensam krossar 600 terabyte nya data varje dag (från och med 2014, den sista gången det rapporterade dessa specifikationer). Den primära utmaningen med stora data är hur man känner av det.

Och ren volym är inte det enda problemet: stora data tenderar också att vara olika, ostrukturerad och snabbt bytande. Tänk på ljud- och videodata, sociala medier, 3D-data eller geospatialdata. Denna typ av data är inte lätt kategoriserad eller organiserad.

För att möta denna utmaning har en rad automatiska metoder för att extrahera användbar information utvecklats, bland dem klassificering .

Hur klassificering fungerar

Med faran att flytta för långt in i tekniken, låt oss diskutera hur klassificeringen fungerar. Målet är att skapa en uppsättning klassificeringsregler som kommer att svara på en fråga, fatta beslut eller förutse beteende. För att starta utvecklas en uppsättning träningsdata som innehåller en viss uppsättning attribut samt det troliga resultatet.

Arbetet med klassificeringsalgoritmen är att upptäcka hur den uppsättningen attributter når sin slutsats.

Scenario: Kanske ett kreditkortsföretag försöker bestämma vilka utsikter som ska få ett kreditkort erbjudande.

Detta kan vara dess uppsättning träningsdata:

**Träningsdata**

namn	Ålder	Kön	Årlig inkomst	Kreditkort erbjudande
John Doe	25	M	$39,500	Nej
okänd kvinna	56	F	$125,000	Ja

"Predikator" -kolumnerna Ålder , Kön , och Årlig inkomst bestämma värdet av "prediktorattributet" Kreditkort erbjudande . I en träningsuppsättning är predictorsattributet känt. Klassificeringsalgoritmen försöker sedan bestämma hur värdet av prediktorattributet uppnåddes: vilka relationer finns mellan prediktorerna och beslutet? Det kommer att utveckla en uppsättning prediktionsregler, vanligtvis ett IF / THEN-meddelande, till exempel:

IF (Ålder> 18 ELLER Ålder <75) OCH Årlig Inkomst> 40 000 THEN Kreditkort Erbjudande = Ja

Självklart är detta ett enkelt exempel, och algoritmen skulle behöva en mycket större datasampling än de två poster som visas här. Vidare är förutsägningsreglerna sannolikt mycket komplexa, inklusive underregler för att fånga attributdetaljer.

Därefter ges algoritmen en "prediktionsuppsättning" av data för att analysera, men denna uppsättning saknar förutsägelseattributet (eller beslutet):

**Predictor Data**

namn	Ålder	Kön	Årlig inkomst	Kreditkort erbjudande
Jack Frost	42	M	$88,000
Mary Murray	16	F	$0

Dessa prediktionsdata hjälper till att uppskatta precisionen av förutsägningsreglerna, och reglerna anpassas sedan till utvecklaren anser förutsägelserna effektiva och användbara.

Dag till dag Exempel på klassificering

Klassificering och annan data miningsteknik ligger bakom mycket av vår dagliga erfarenhet som konsumenter.

Väderprognoser kan använda klassificering för att rapportera om dagen blir regnig, solig eller grumlig. Läkarutbildningen kan analysera hälsotillstånd för att förutsäga medicinska utfall. En typ av klassificeringsmetod, Naive Bayesian, använder villkorlig sannolikhet för att kategorisera spam-e-postmeddelanden. Från bedrägeri upptäckt till produkt erbjudanden, klassificering bakom kulisserna varje dag analyserar data och producerar förutsägelser.