Hem Audio Varför minskar bagage i maskininlärning variansen?

Varför minskar bagage i maskininlärning variansen?

Anonim

F:

Varför minskar bagage i maskininlärning variansen?

A:

Bootstrap-aggregering eller "bagging" i maskininlärning minskar variationen genom att bygga mer avancerade modeller av komplexa datamängder. Specifikt skapar bagging-metoden undergrupper som ofta överlappar varandra för att modellera data på ett mer involverat sätt.

En intressant och okomplicerad uppfattning om hur man applicerar påsar är att ta en uppsättning slumpmässiga prover och extrahera det enkla medelvärdet. Sedan använder du samma uppsättning prov och skapar dussintals delmängder byggda som beslutsträd för att manipulera eventuella resultat. Det andra medelvärdet bör visa en sannare bild av hur de enskilda proverna relaterar till varandra när det gäller värde. Samma idé kan tillämpas på vilken egenskap som helst i vilken datapunkt som helst.

Gratis nedladdning: Machine Learning and Why It Matters

Eftersom detta tillvägagångssätt konsoliderar upptäckten i mer definierade gränser, minskar det variansen och hjälper till med övermontering. Tänk på en scatterplot med något distribuerade datapunkter; genom att använda en påsningsmetod "krymper" ingenjörerna komplexiteten och orienterar upptäcktslinjerna till jämnare parametrar.

Vissa talar om värdet av påsar som "dela och erövra" eller en typ av "assisterad heuristik." Tanken är att genom ensemble-modellering, till exempel användning av slumpmässiga skogar, kan de som använder bagging som en teknik få dataresultat som är lägre i varians. När det gäller att minska komplexiteten kan påsar också hjälpa till med övermontering. Tänk på en modell med för många datapunkter: säg, en anslut-prickar med 100 ojusterade prickar. Den resulterande visuella datalinjen blir taggad, dynamisk, flyktig. Sedan "stryk ut" variansen genom att sätta ihop uppsättningar av utvärderingar. I ensemblelärande betraktas detta ofta som att gå med i flera "svaga elever" för att ge ett "starkt lärande" samarbetsresultat. Resultatet är en jämnare, mer konturerad datalinje och mindre vild variation i modellen.

Det är lätt att se hur idén om påsar kan tillämpas på företagets IT-system. Företagsledare vill ofta ha en "fågelperspektiv" över vad som händer med produkter, kunder etc. En överutrustad modell kan returnera mindre smältbara data och mer "spridda" resultat, där påsar kan "stablilisera" en modell och göra den mer användbar till slutanvändare.

Varför minskar bagage i maskininlärning variansen?