Hur har skrapning av data för maskininlärning blivit den mest arbetskrävande flaskhalsen sedan manuell datainmatning vid arvmigrering?

2026

Ett av de praktiska problemen som företag kan stöta på när de försöker starta ett maskininlärningsprojekt är utmaningen att skaffa de första utbildningsuppsättningarna. Detta kan inkludera arbetsintensiva processer som webbskrapning eller annan dataskrapning.

Begreppen webbskrapning och skrapning av data avser till stor del automatiserad aktivitet av datorprogramvara, men för många ML-projekt kommer det att finnas fall där datorer inte har den sofistikerade att samla in rätt riktade data, så det måste göras "för hand." Detta kan du kalla "mänsklig webb / dataskrapning", och det är ett tacklöst jobb. Det handlar generellt om att gå ut och leta efter data eller bilder för att "mata" ML-programmet genom träningsuppsättningar. Det är ofta ganska iterativt, vilket gör det tråkigt, trögt och krävande arbete.

Gratis nedladdning: Machine Learning and Why It Matters

Dataskrapning för ML-träningssatser representerar en unikt problematisk flaskhals i maskininlärning, delvis eftersom så mycket av det andra arbetet är mycket konceptuellt och inte upprepande. Många kan komma med en bra idé för en ny app som utför maskininlärningsuppgifter, men muttrar och bultar och det praktiska arbetet kan bli mycket svårare. I synnerhet kan delegering av arbetet med att montera utbildningsuppsättningarna faktiskt vara en av de svåraste delarna av ett ML-projekt, vilket fullt utforskats i Mike Judges TV-program "Silicon Valley". I en säsong fyra avsnitt, en nybörjare entreprenören först mobbning en partner för att göra det arbetskrävande arbetet, sedan försöker överlämna det till studenter genom att dölja det som en läxuppgift.

Det här exemplet är lärorikt eftersom det visar hur ogillar och till synes obetydlig den manuella dataskrapningen är. Men det visar också att denna process är nödvändig för ett brett utbud av maskininlärningsprodukter. Även om de flesta hatar datainmatning måste träningssatserna monteras på något sätt. Experter på processen rekommenderar ofta att använda en webbskrapningstjänst - i huvudsak bara outsourcing detta mycket arbetskrävande arbete till externa parter, men det kan ha säkerhetsförgreningar och orsaka andra problem. När man håller det manuella datainsamlingsarbetet internt måste det också finnas en bestämmelse för vad som ofta är en mycket manuell och tidskrävande process.

På vissa sätt ser "mänsklig dataskrapning" för maskininlärning ut som den manuella datainmatningen som ibland måste göras vid arvmigrering. När molnet blev mer och mer populärt, och företag placerade sina processer och arbetsflöden i molnet, fann vissa att de inte hade arbetat igenom de praktiska aspekterna av hur man får sina företagsdata från ett isolerat äldre system till molnbaserade applikationer. Som ett resultat tyckte vissa människor som annars var datavetare eller kreativa personer med väsentlig IT-kompetens som gör obehagliga datainmatningsuppgifter.

Detsamma kommer troligtvis att hända med maskininlärning. Du kanske hör en datavetare som klagar över att ”jag är en kreativ person” eller ”Jag är på utvecklingssidan” - men någon måste göra det smutsiga arbetet.

Återigen, om det kreativa flödet inte matchas av en praktisk bedömning av arbetsflödesdelegering, kommer det att finnas ett missförhållande i hur uppgiftshanteringen styrs. När ett företag inte har människor att göra dataskrotningsarbetet för att samla in datauppsättningar, saknar det en viktig del i förfarandekedjan för ett framgångsrikt projekt. Det är värt att ha detta i åtanke när som helst ett företag försöker tjäna på en idé som bygger på att utveckla nya applikationer för maskininlärning.