Hem Audio Hur hjälper max pooling att göra alexnet till en bra teknik för bildbehandling?

Hur hjälper max pooling att göra alexnet till en bra teknik för bildbehandling?

Anonim

F:

Hur hjälper max pooling att göra AlexNet till en bra teknik för bildbehandling?

A:

I AlexNet, ett innovativt convolutional neuralt nätverk, införs konceptet med max pooling i en komplex modell med flera convolutional-lager, delvis för att hjälpa till med montering och för att effektivisera det arbete som det neurala nätverket gör för att arbeta med bilder med vad experter kallar en "icke-linjär downsamplingstrategi."

AlexNet betraktas allmänt som en ganska bra CNN, efter att ha vunnit 2012 ILSVRC (ImageNet Large-Scale Visual Recognition Challenge), som ses som ett vattendrag för händelser för maskininlärning och neuralt nätverk (vissa kallar det "Olympics" of computer vision) ).

Inom ramen för nätverket, där utbildning delas upp i två GPU: er, finns fem invändiga lager, tre helt anslutna lager och en del maximplementeringsimplementering.

I huvudsak tar max pooling "poolen" av utgångar från en samling neuroner och tillämpar dem på ett efterföljande lagers värden. Ett annat sätt att förstå detta är att en maximal sammanslagningssätt kan konsolidera och förenkla värden för att anpassa modellen mer lämpligt.

Max poolning kan hjälpa till att beräkna lutningar. Man kan säga att det "minskar beräkningsbördan" eller "krymper övermontering" - genom nedmontering, max pooling engagerar det som kallas "dimensionalitetsminskning."

Dimensionalitetsminskning behandlar frågan om att ha en överkomplicerad modell som är svår att köra genom ett neuralt nätverk. Föreställ dig en komplex form, med många små taggade konturer, och varje liten bit av den här linjen representerad av en datapunkt. Med minskad dimensionalitet hjälper ingenjörerna maskininlärningsprogrammet att "zooma ut" eller prova färre datapunkter för att göra modellen som en enklare. Det är därför du ser en enklare pixel som motsvarar en dimensionalitetsreduktionsstrategi om du tittar på ett maximalt poollager och dess utdata.

AlexNet använder också en funktion som kallas likriktade linjära enheter (ReLU), och max pooling kan komplettera denna teknik vid bearbetning av bilder genom CNN.

Experter och de som är involverade i projektet har levererat överflödiga visuella modeller, ekvationer och andra detaljer för att visa den specifika uppbyggnaden av AlexNet, men i allmän mening kan du tänka på max pooling som sammanförande eller konsolidering av resultatet från flera artificiella neuroner. Denna strategi är en del av den övergripande uppbyggnaden av CNN, som har blivit synonymt med banbrytande maskinsyn och bildklassificering.

Hur hjälper max pooling att göra alexnet till en bra teknik för bildbehandling?