Skip to main content

Vad är Bayesian Spam Filtrering?

I'M BANNED.. (Maj 2025)

I'M BANNED.. (Maj 2025)
Anonim

Bayesian spamfilter beräknar sannolikheten för att ett meddelande är spam baserat på innehållet. Till skillnad från enkla innehållsbaserade filter lär Bayesian spamfiltrering från spam och från bra mail, vilket resulterar i ett mycket robust, anpassat och effektivt antispam-tillvägagångssätt som, bäst av allt, knappt ger några falska positiva resultat.

Hur känner du till skräppost?

Tänk på hur du upptäcker spam. En snabb blick är ofta tillräckligt. Du vet vilken spam som ser ut, och du vet hur bra mail ser ut.

Sannolikheten att spam ser ut som bra mail är runt … noll.

Scoring innehållsbaserade filter anpassas inte

Skulle det inte vara bra om automatiska skräppostfilter fungerade så?

Att scorera innehållsbaserade skräppostfilter försöker just det. De letar efter ord och andra egenskaper som är typiska för spam. Varje karaktäristiskt element tilldelas en poäng och en spampoäng för hela meddelandet beräknas från de enskilda poängen. Vissa scoringfilter söker också efter egenskaper för legitimt mail, vilket sänker ett budskaps slutresultat.

Scoringfiltermetoden fungerar, men det har också flera nackdelar:

  • Listan över egenskaper är uppbyggd av spam (och bra mail) som är tillgängligt för filterets ingenjörer. För att få en bra grepp om den typiska skräppost som någon kan få, måste e-post samlas in på hundratals e-postadresser. Detta försvårar filtrets effektivitet, särskilt för att Egenskaper för bra post kommer att vara olika för varje person , men detta beaktas inte.
  • Karaktärerna att leta efter är mer eller mindre skrivet i sten . Om spammarna gör ansträngningar att anpassa sig (och få dem att se ut som ett bra mail till filtren) måste filtreringsegenskaperna anpassas manuellt - en ännu större ansträngning.
  • Poängen som tilldelats varje ord bygger troligen på en bra uppskattning, men det är fortfarande godtyckligt. Och som förteckningen över egenskaper anpassar den sig inte heller till den skiftande världen av spam i allmänhet eller till en enskild användares behov.

Bayesian Spam Filters Tweak Själv, blir bättre och bättre

Bayesian skräppostfilter är också en typ av poängbaserade filter. Deras tillvägagångssätt undanröjer dock problemen med enkla scoring-filter, och det gör det så radikalt. Eftersom svagheten hos poängfiltrarna är i den manuellt byggda listan över egenskaper och deras poäng elimineras denna lista.

Istället bygger Bayesian spamfilter själva listan. Helst börjar du med ett (stort) gäng e-postmeddelanden som du har klassificerat som skräppost och en annan massa bra mail. Filtret tittar på båda och analyserar det legitima mailet såväl som spam för att beräkna sannolikheten för olika egenskaper som förekommer i skräppost och i gott mail.

Hur en Bayesian Spam Filter undersöker en e-postadress

De egenskaper som ett Bayesian spamfilter kan titta på kan vara:

  • orden i meddelandet, självklart, och
  • dess rubriker (avsändare och meddelandevägar, till exempel!), men också
  • andra aspekter som HTML / CSS-kod (som färger och annan formatering), eller ens
  • ordpar, fraser och
  • meta information (där en viss fras visas).

Om ett ord, "Cartesian" till exempel aldrig visas i spam, men ofta i det legitima e-postmeddelandet du får, är sannolikheten för att "kartesian" anger spam noll. "Toner" å andra sidan visas exklusivt och ofta i spam. "Toner" har en mycket stor sannolikhet att det finns spam, inte mycket under 1 (100%).

När ett nytt meddelande anländer analyseras det av Bayesian spamfilter och sannolikheten för att det fullständiga meddelandet är spam beräknas med hjälp av de enskilda egenskaperna.

Antag att ett meddelande innehåller både "Cartesian" och "toner". Av dessa ord är det ännu inte klart om vi har spam eller legit post. Andra egenskaper kommer (förhoppningsvis och troligen) att indikera en sannolikhet som tillåter filtret att klassificera meddelandet som antingen skräppost eller bra mail.

Bayesian Spam Filters kan lära sig automatiskt

Nu när vi har en klassificering kan meddelandet användas för att träna filtret själv ytterligare. I detta fall sänks antingen sannolikheten för "kartesian" som anger god post (om meddelandet innehåller både "Cartesian" och "toner" befinner sig som spam) eller sannolikheten för "toner" som anger spam ska ses över.

Med hjälp av denna auto-adaptiva teknik kan Bayesian filter lära av både sina egna och användarens beslut (om hon manuellt korrigerar en felbedömning av filtren). Anpassningsförmågan hos Bayesian filtrering ser också till att de är mest effektiva för den enskilda e-postanvändaren. Medan de flesta personens skräppost kan ha liknande egenskaper, är det legitima meddelandet karaktäristiskt annorlunda för alla.

Hur kan spammare komma över Bayesian filter?

Egenskaperna hos legitim post är lika viktigt för Bayesian spamfiltreringsprocessen som spam. Om filtret är utbildat specifikt för varje användare, kommer spammare att ha en ännu hårdare tid att arbeta runt alla (eller till och med de flesta) spamfilter och filtren kan anpassa sig till nästan allt som spammare försöker.

Spammare kommer bara att göra det förbi välutbildade bayesiska filter om de får sina skräppostmeddelanden att se ut som det vanliga e-postmeddelandet som alla kan få.

Spammare skickar vanligtvis inte vanliga e-postmeddelanden. Låt oss anta att detta beror på att dessa e-postmeddelanden inte fungerar som skräppost.Så chanserna är att de inte kommer att göra det när vanliga, tråkiga e-postmeddelanden är det enda sättet att göra det förbi spamfilter.

Om spammare ändras till mestadels vanliga e-postmeddelanden, kommer vi dock att se mycket skräppost i våra inkorgar igen, och e-post kan bli så frustrerande som vid pre Bayesiska dagar (eller ännu sämre). Det kommer också att ha förstört marknaden för de flesta sorters spam, och det kommer därför inte att vara länge.

Starka indikatorer kan vara ett Bayesian Spam-filter Achilles 'Heel

Ett undantag kan uppfattas för att spammare kan arbeta sig igenom bayesiska filter även med deras vanliga innehåll. Det är i egenskap av Bayesian statistik att ett ord eller karaktäristiskt som ofta förekommer i bra mail kan vara så signifikant att ett meddelande från att se ut som skräppost blir klassat som skinka av filtret.

Om spammare hittar ett sätt att bestämma dina brännbara brev med bra mail, genom att använda HTML-kvitteringar för att se vilka meddelanden du öppnade, till exempel, kan de inkludera en av dem i ett skräppost och nå dig även genom en välkänd e- utbildat bayesiskt filter.

John Graham-Cumming har försökt detta genom att låta två bayesiska filter fungera mot varandra, den "dåliga" en som anpassar sig till vilka meddelanden som kommer att komma igenom det "bra" filtret. Han säger att det fungerar, men processen är tidskrävande och komplex. Vi tror inte att vi kommer att se mycket av det här händer, åtminstone inte i stor skala, och inte anpassat till individernas e-postegenskaper. Spammare kan (försöka) räkna ut några nyckelord för organisationer (något som "Almaden" för vissa personer på IBM kanske?) Istället.

Vanligtvis är skräppost alltid (signifikant) annorlunda än vanlig post eller det kommer inte att vara spam.

Bottom Line: Bayesian Filtration styrka kan vara dess svaghet

Bayesian spamfilter ärinnehållsbaserade filter den där:

  • ärspeciellt utbildad för att känna igen den enskilda e-postanvändarens skräppost och bra mail, vilket gör dem mycket effektiva och svåra att anpassa sig till för spammare.
  • kan kontinuerligt och utan stor ansträngning eller manuell analysanpassa till spammarnas senaste knep.
  • ta hänsyn till den enskilda användarens bra post och ha en mycketlåg frekvens av falska positiva.
  • Tyvärr, om detta orsakar blind förtroende för Bayesian anti-spam filter, gör det dettillfällig misstag ännu allvarligare. Den motsatta effekten avfalska negativ (skräppost som ser ut som vanligt mail) har potential att störa och frustrera användare.