F:
Vad är ett enkelt sätt att beskriva partiskhet och varians i maskininlärning?
A:Det finns ett antal komplicerade sätt att beskriva förspänning och varians i maskininlärning. Många av dem använder sig av betydligt komplexa matematiska ekvationer och visar genom diagram hur specifika exempel representerar olika mängder av både förspänning och varians.
Här är ett enkelt sätt att beskriva partiskhet, varians och förspänning / avvikelse i maskininlärning.
I sin kärna är förspänning en överförenkling. Det kan vara viktigt att lägga till antagandet eller antaget fel till definitionen av bias.
Om ett mycket partiskt resultat inte var felaktigt - om det var på pengarna - skulle det vara mycket korrekt. Problemet är att den förenklade modellen innehåller ett visst fel, så det är inte i tjur-ögat - det betydande felet upprepas eller till och med förstärks när maskininlärningsprogrammet fungerar.
Den enkla definitionen av varians är att resultaten är för spridda. Detta leder ofta till överkomplexitet i programmet och problem mellan test- och träningsuppsättningar.
Hög varians innebär att små förändringar skapar stora förändringar i resultat eller resultat.
Ett annat sätt att enkelt beskriva variansen är att det finns för mycket brus i modellen, och det blir svårare för maskininlärningsprogrammet att isolera och identifiera den verkliga signalen.
Så ett av de enklaste sätten att jämföra förspänning och varians är att föreslå att maskininlärningstekniker måste gå en fin linje mellan för mycket förspänning eller överförenkling och för mycket varians eller överkomplexitet.
Ett annat sätt att representera denna brunn är med ett fyra kvadrantdiagram som visar alla kombinationer av hög och låg varians. I kvadranten med låg förspänning / låg varians samlas alla resultat i ett exakt kluster. I ett resultat med hög förspänning / låg varians samlas alla resultaten i ett felaktigt kluster. I ett resultat med låg förspänning / hög varians är resultaten spridda runt en central punkt som skulle representera ett exakt kluster, medan i ett resultat med hög förspänning / hög varians är datapunkterna både spridda och kollektivt felaktiga.