Sunday 17 December 2017

Glidande medelvärde prediktion error


Flyttande medelprognos Inledning. Som du kan gissa vi tittar på några av de mest primitiva metoderna för prognoser. Men förhoppningsvis är dessa åtminstone en värdefull introduktion till några av de datorproblem som är relaterade till att implementera prognoser i kalkylblad. I den här vägen fortsätter vi med att börja i början och börja arbeta med Moving Average prognoser. Flyttande medelprognoser. Alla är bekanta med att flytta genomsnittliga prognoser oavsett om de tror att de är. Alla studenter gör dem hela tiden. Tänk på dina testresultat i en kurs där du kommer att ha fyra tester under semestern. Låt oss anta att du fick en 85 på ditt första test. Vad skulle du förutse för ditt andra testresultat Vad tycker du att din lärare skulle förutsäga för nästa testresultat Vad tycker du att dina vänner kan förutsäga för nästa testresultat Vad tror du att dina föräldrar kan förutsäga för nästa testresultat Oavsett om Allt du kan göra med dina vänner och föräldrar, de och din lärare är mycket troliga att vänta dig på att få något i det 85-tal som du just fått. Nåväl, nu kan vi anta att trots din egen marknadsföring till dina vänner överskattar du dig själv och räknar att du kan studera mindre för det andra testet och så får du en 73. Nu är vad alla berörda och oroade kommer att Förutse att du kommer att få ditt tredje test Det finns två mycket troliga metoder för att de ska kunna utveckla en uppskattning oavsett om de kommer att dela den med dig. De kan säga till sig själva: "Denna kille sprider alltid rök om hans smarts. Hes kommer att få ytterligare 73 om han är lycklig. Kanske kommer föräldrarna att försöka vara mer stödjande och säga, quote, hittills har du fått en 85 och en 73, så kanske du ska räkna med att få en (85 73) 2 79. Jag vet inte, kanske om du gjorde mindre fest och werent vaggar väsan överallt och om du började göra mycket mer studerar kan du få en högre poäng. quot Båda dessa uppskattningar flyttade faktiskt genomsnittliga prognoser. Den första använder endast din senaste poäng för att förutse din framtida prestanda. Detta kallas en glidande genomsnittlig prognos med en period av data. Den andra är också en rörlig genomsnittlig prognos men använder två dataperioder. Låt oss anta att alla dessa människor bråkar på ditt stora sinne, har gissat dig och du bestämmer dig för att göra det bra på det tredje testet av dina egna skäl och att lägga en högre poäng framför din quotalliesquot. Du tar testet och din poäng är faktiskt en 89 Alla, inklusive dig själv, är imponerade. Så nu har du det sista testet av terminen som kommer upp och som vanligt känner du behovet av att ge alla till att göra sina förutsägelser om hur du ska göra på det sista testet. Jo, förhoppningsvis ser du mönstret. Nu kan du förhoppningsvis se mönstret. Vilken tror du är den mest exakta whistle medan vi jobbar. Nu återvänder vi till vårt nya rengöringsföretag som startas av din främmande halvsyster som heter Whistle While We Work. Du har några tidigare försäljningsdata som representeras av följande avsnitt från ett kalkylblad. Vi presenterar först data för en treårs glidande medelprognos. Posten för cell C6 ska vara Nu kan du kopiera den här cellformeln ner till de andra cellerna C7 till och med C11. Lägg märke till hur genomsnittet rör sig över de senaste historiska data men använder exakt de tre senaste perioderna som finns tillgängliga för varje förutsägelse. Du bör också märka att vi inte verkligen behöver göra förutsägelser för de senaste perioderna för att utveckla vår senaste förutsägelse. Detta är definitivt annorlunda än exponentiell utjämningsmodell. Ive inkluderade quotpast predictionsquot eftersom vi kommer att använda dem på nästa webbsida för att mäta förutsägelse validitet. Nu vill jag presentera de analoga resultaten för en tvåårs glidande medelprognos. Posten för cell C5 ska vara Nu kan du kopiera den här cellformeln ner till de andra cellerna C6 till och med C11. Lägg märke till hur nu endast de två senaste bitarna av historiska data används för varje förutsägelse. Återigen har jag inkluderat quotpast predictionsquot för illustrativa ändamål och för senare användning vid prognosvalidering. Några andra saker som är viktiga att märka. För en m-period som rör genomsnittlig prognos används endast de senaste datavärdena för att göra förutsägelsen. Inget annat är nödvändigt. För en m-period rörande genomsnittlig prognos, när du gör quotpast predictionsquot, notera att den första förutsägelsen sker i period m 1. Båda dessa problem kommer att vara väldigt signifikanta när vi utvecklar vår kod. Utveckla den rörliga genomsnittsfunktionen. Nu behöver vi utveckla koden för den glidande medelprognosen som kan användas mer flexibelt. Koden följer. Observera att inmatningarna är för antalet perioder du vill använda i prognosen och en rad historiska värden. Du kan lagra den i vilken arbetsbok du vill ha. Funktion MovingAverage (Historical, NumberOfPeriods) Som enkel deklarering och initialisering av variabler Dim-objekt som variant Dim-räknare som integer Dim-ackumulering som single Dim HistoricalSize som heltal Initialiserande variabler Counter 1 ackumulering 0 Bestämning av storleken på Historisk matris Historisk storlek Historisk. Count för Counter 1 till NumberOfPeriods Ackumulera lämpligt antal senast tidigare observerade värden ackumulering ackumulering historisk (HistoricalSize - NumberOfPeriods Counter) MovingAverage Accumulation NumberOfPeriods Koden förklaras i klassen. Du vill positionera funktionen på kalkylbladet så att resultatet av beräkningen visas där den ska gilla följande.8.4 Flytta genomsnittsmodeller I stället för att använda tidigare värden för prognosvariabeln i en regression använder en glidande genomsnittsmodell tidigare prognosfel i en regressionsliknande modell. y c et theta e theta e dots theta e, där et är vitt brus. Vi hänvisar till detta som en MA (q) modell. Naturligtvis observerar vi inte värdena på et, så det är inte riktigt regression i vanligt bemärkande. Observera att varje värde av yt kan betraktas som ett viktat glidande medelvärde av de senaste prognosfelen. Rörliga genomsnittsmodeller ska emellertid inte förväxlas med glidande medelutjämning som vi diskuterade i kapitel 6. En rörlig genomsnittsmodell används för att prognosera framtida värden medan den genomsnittliga utjämningen används för att uppskatta trendvärdet för tidigare värden. Figur 8.6: Två exempel på data från rörliga genomsnittsmodeller med olika parametrar. Vänster: MA (1) med y t 20e t 0.8e t-1. Höger: MA (2) med y t e t-e t-1 0.8e t-2. I båda fallen distribueras e t normalt vitt brus med medel noll och varians en. Figur 8.6 visar vissa data från en MA (1) modell och en MA (2) modell. Ändring av parametrarna theta1, prickar, thetaq resulterar i olika tidsseriemönster. Liksom med autoregressiva modeller ändrar variansen av felet termen enbart seriens skala, inte mönstren. Det är möjligt att skriva en stationär AR (p) modell som en MA (infty) modell. Genom att använda upprepad substitution kan vi visa detta för en AR (1) - modell: begin yt amp phy1y et amp phi1 (phi1y e) et amp phy12y phi1e et amp phy13y phi1e phi1e et amptext end Provmed -1 lt phi1 lt 1, värdet av phi1k blir mindre eftersom k blir större. Så småningom uppnår vi yt och phi1 phi12 e phi13 e cdots, en MA (infty) - process. Det omvända resultatet hålls om vi lägger några begränsningar på MA parametrarna. Då kallas MA-modellen inverterbar. Det vill säga att vi kan skriva någon inverterbar MA (q) process som en AR (infty) - process. Omvändbara modeller är inte bara för att vi ska kunna konvertera från MA-modeller till AR-modeller. De har också vissa matematiska egenskaper som gör dem enklare att använda i praktiken. Invertibilitetsbegränsningarna liknar stationaritetsbegränsningarna. För en MA (1) modell: -1lttheta1lt1. För en MA (2) modell: -1lttheta2lt1, theta2theta1 gt-1, theta1-teteta1 1. Mer komplicerade förhållanden håller för qge3. Igen kommer R att ta hand om dessa begränsningar vid beräkning av modellerna. I praktiken ger det glidande medelvärdet en bra uppskattning av medelvärdet av tidsserierna om medelvärdet är konstant eller långsamt förändras. I händelse av ett konstant medelvärde kommer det största värdet av m att ge de bästa uppskattningarna av det underliggande genomsnittet. En längre observationsperiod kommer att medeltala effekterna av variationen. Syftet med att tillhandahålla en mindre m är att tillåta prognosen att svara på en förändring i den underliggande processen. För att illustrera föreslår vi en dataset som innehåller förändringar i underliggande medelvärden av tidsserierna. Figuren visar tidsserien som används för illustration tillsammans med den genomsnittliga efterfrågan från vilken serien genererades. Medelvärdet börjar som en konstant vid 10. Börjar vid tid 21 ökar den med en enhet i varje period tills den når värdet 20 vid tidpunkten 30. Då blir det konstant igen. Uppgifterna simuleras genom att lägga till i genomsnitt ett slumpmässigt brus från en normalfördelning med nollvärde och standardavvikelse 3. Resultaten av simuleringen avrundas till närmsta heltal. Tabellen visar de simulerade observationer som används för exemplet. När vi använder bordet måste vi komma ihåg att vid varje given tidpunkt endast endast tidigare data är kända. Uppskattningarna av modellparametern, för tre olika värden på m visas tillsammans med medelvärdet av tidsserierna i figuren nedan. Figuren visar den genomsnittliga rörliga genomsnittliga beräkningen av medelvärdet vid varje tidpunkt och inte prognosen. Prognoserna skulle flytta de glidande medelkurvorna till höger av perioder. En slutsats framgår omedelbart av figuren. För alla tre uppskattningar ligger glidande medelvärde bakom den linjära trenden, där fördröjningen ökar med m. Lagen är avståndet mellan modellen och uppskattningen i tidsdimensionen. På grund av fördröjningen underskattar det rörliga genomsnittet observationerna som medelvärdet ökar. Estimatorns förspänning är skillnaden vid en viss tid i modellens medelvärde och medelvärdet förutspått av det rörliga genomsnittet. Förspänningen när medelvärdet ökar är negativt. För ett minskande medelvärde är förspänningen positiv. Fördröjningen i tid och den bias som införs i uppskattningen är funktionerna i m. Ju större värdet av m. desto större är storleken på fördröjning och förspänning. För en kontinuerligt ökande serie med trend a. värdena för fördröjning och förspänning av estimatorn av medelvärdet ges i ekvationerna nedan. Exemplet kurvorna stämmer inte överens med dessa ekvationer eftersom exemplet modellen inte ökar kontinuerligt, utan det börjar som en konstant, ändras till en trend och blir sedan konstant igen. Även kurvorna påverkas av bruset. Den glidande genomsnittliga prognosen för perioder i framtiden representeras genom att man ändrar kurvorna till höger. Fördröjningen och förskjutningen ökar proportionellt. Ekvationerna nedan anger fördröjningen och förspänningen av prognosperioder i framtiden jämfört med modellparametrarna. Återigen är dessa formler för en tidsserie med en konstant linjär trend. Vi borde inte bli förvånad över resultatet. Den rörliga genomsnittliga estimatorn är baserad på antagandet om ett konstant medelvärde och exemplet har en linjär trend i medelvärdet under en del av studieperioden. Eftersom realtidsserier sällan exakt kommer att följa antagandena till en modell, borde vi vara beredda på sådana resultat. Vi kan också dra av slutsatsen att brusets variabilitet har störst effekt för mindre m. Uppskattningen är mycket mer flyktig för det glidande medlet på 5 än det glidande medlet på 20. Vi har de motstridiga önskningarna att öka m för att minska effekten av variationer på grund av bullret och att minska m för att göra prognosen mer mottaglig för förändringar i medelvärdet. Felet är skillnaden mellan den faktiska data och det prognostiserade värdet. Om tidsserierna verkligen är ett konstant värde är det förväntade värdet av felet noll och variansen av felet består av en term som är en funktion av och en andra term som är brusets varians. Den första termen är medelvärdet av det medelvärde som uppskattas med ett urval av m-observationer, förutsatt att data kommer från en population med konstant medelvärde. Denna term minimeras genom att göra m så stor som möjligt. En stor m gör prognosen inte svarande mot en förändring i underliggande tidsserier. För att prognosen ska kunna reagera på förändringar vill vi m vara så liten som möjligt (1), men detta ökar felvariationen. Praktisk prognos kräver ett mellanvärde. Prognoser med Excel Prognosen för prognoser implementerar de glidande medelformlerna. Exemplet nedan visar analysen som tillhandahålls av tillägget för provdata i kolumn B. De första 10 observationerna indexeras -9 till 0. Jämfört med tabellen ovan förskjuts periodens index med -10. De första tio observationerna ger startvärdena för uppskattningen och används för att beräkna det glidande medlet för period 0. MA (10) kolumnen (C) visar de beräknade glidande medelvärdena. Den rörliga genomsnittsparametern m är i cell C3. Fore (1) kolumnen (D) visar en prognos för en period framåt. Prognosintervallet ligger i cell D3. När prognosintervallet ändras till ett större antal, flyttas numren i Fore-kolumnen nedåt. Err-kolumnen (E) visar skillnaden mellan observationen och prognosen. Till exempel är observationen vid tidpunkten 1 6. Det prognostiserade värdet som gjorts från det glidande medlet vid tidpunkten 0 är 11,1. Felet är då -5,1. Standardavvikelsen och genomsnittlig avvikelse (MAD) beräknas i cellerna E6 respektive E7. Förbättrad prognostisering med rörliga medelvärden och Z-poäng Andrew Creager 0 Prognoser är en integrerad del av företagsledningen. Ju bättre prognosen desto bättre ledning kommer att kunna planera för framtiden. Även om det finns många metoder för att göra prognoser, är vissa bättre lämpade än andra för specifika situationer. För kortfristiga prognoser kan Black Belts dra nytta av att analysera produktionstrender och leta efter speciella orsaker till variation. När man gör långsiktiga prognoser kan en metod som använder en normal kurva och Z-poäng vara det bättre spelet. Båda metoderna är enkla att applicera. Metoder i praktiken Följande scenario ger en förståelse för hur dessa metoder fungerar. I det här exemplet vill en tillverkningschef, som nyligen certifierades som en svart bälte, använda Six Sigma-verktyg och statistisk analysprogramvara för att göra förutsägelser. Chefen spårar department8217s veckovisa produktion av pallar. Varje pall har ett konstant antal fall av produkt och chefen använder ett enkelt, fyra veckors glidande medelvärde i ett kalkylblad. Tabell 1 visar ett prov, från slutet av en 52 veckors cykel, av avdelningen8217s produktion av pallar. Tabell 1: Pallets produktion per vecka Chefen har de två grundläggande ingredienserna som behövs för att generera prognoser: produktionsdata och en prognosperiod. Perioden, ordivisor, är i detta fall veckor. Med denna information kan hon utföra både kortsiktiga och långsiktiga prognosmetoder. Kort sikt: Letar du efter trender i att flytta genomsnittliga tomter Statistisk programvara kan ge Black Belts med flera alternativ för att fylla prognoser. I det här fallet väljer chefen för kortfattad förutsägelse att plotta det rörliga genomsnittsvärdet genom att använda ett tidsseriekommando. För att göra detta matar hon in variabeln och längden när den blir ombedd. Figur 1: Fyra veckors rörlig medelplott för pallproduktion Figur 1 visar tillverkningschef8217s fyra veckors glidande medelvärde från det gångna året som det skulle visas i ett program. Även om den visuella representationen av analysen är till hjälp, är det verkliga fokuset här exakthetsåtgärderna, vilka representerar skillnaderna mellan de faktiska och de prognostiserade pallmängderna. En av dessa noggrannighetsåtgärder är genomsnittlig absolut avvikelse (MAD). Det bekräftar noggrannheten i de utrustade tidsserievärdena och uttrycker avvikelsen i samma enheter som data, vilket gör det lättare att förstå felmängden. Formeln för MAD: där y är det verkliga värdet i taget, y-hat är det monterade värdet och n är antalet observationer. Tabell 2: MAD för olika rörliga medelvärden Iterationer Längden på rörlig medelvärde Eftersom chefen letar efter en prognos med minsta antal prediktionsfel är det bäst att iterera genom olika längder av glidande medelvärde för att hitta lägre värden på MAD. Tabell 2, till vänster, visar resultaten för fem olika rörliga genomsnittliga iterationer. Tabellen visar att chefen skulle ha en något mer exakt prognos med ett fem eller sex veckors glidande medelvärde. När man granskar grafen i Figur 1 kan man också märka att det finns extrema värden vid punkterna 40 och 45 och att de förutspådda värdena väsentligen drogs ner runt dessa punkter. Detta borde skapa intresse för ytterligare granskning. Ett sätt till chefen kan genomföra denna granskning och bedöma effekterna av de två extrema punkterna är att placera data i en individkontrollstatistik, som visas i Figur 2, och se om det finns avvik utanför de 3-sigma kontrollgränserna. Figur 2: Individuella kontrollschema över produktionspunkterna 40 och 45 överskrider kontrollgränserna. Självklart är produktionsproduktionen inte en enda process och kan inte kontrolleras helt enkelt genom att tillämpa statistisk processkontroll, men individsdiagrammet är ett välbekant verktyg för Black Belts och kan ge värdefullt inblick i manager8217s prognos. Vid granskning av punkterna utanför kontrollgränserna finner chefen en sannolik förklaring: De inträffade vid två helgdagar, tacksägelse och jul, när avdelningen stängdes i flera dagar. Genom att veta detta tar chefen bort de två punkterna från datasatsen och återställer de glidande medelvärdena för att se om MAD minskar. Chefen konstaterar att MAD minskar efter att ha tagit bort de två extrema punkterna som uppdaterade data visas i Tabell 3. Tabell 3: MAD för olika rörliga medelvärdesintervaller efter borttagning av utjämnarnas längd av rörlig medelhöghet Förvaltaren kan nu förvänta sig bättre kortfristiga prognoser med hjälp av en femveckorsperiod. Verksamheten är dock dynamisk, och det vore bäst att se prognosen regelbundet och justera efter behov. Långsiktigt: Använda den normala kurvan För manager8217s långsiktiga planering, som att förutsäga årlig produktion för nästa år, är prognoser med normal kurva och Z-poäng en bättre lämpad metod. Eftersom chefen tittar på sannolikheter med normal kurva ser hon först att distributionen i själva verket är normal. Detta kan göras med hjälp av Anderson-Darling (AD) normality testet. P-värdet (a gt.10) för pallproduktionen, justerat för att utesluta semesterveckorna, indikerar att fördelningen är ungefär normal. Manager8217s nästa steg är att använda den statistiska programvaran för att hitta sammanfattande statistik, som visas i Figur 3, eftersom de innehåller nyckelprognoser. Figur 3: Sammanfattning för anpassad produktion Med data som samlas här kan chefen börja prognos nästa år8217s produktion under förutsättning att inga betydande ändringar görs. För att börja med använder chefen ett program för att skapa en sannolikhetsdistributionsplot, som visas i Figur 4. Figur 4: Probability Distribution Plot Denna graf visar att cirka 34 procent av produktionen kommer att ligga mellan de genomsnittliga 203 paletterna och 1 standardavvikelse (13 pallar) mer än medel - eller 216 pallar. Även om denna procentandel kan hittas med hjälp av ett program, är manuell beräkning nästan lika lätt. En svart bälte kan beräkna samma procentsats genom att använda Z-poängen och referera till en normal fördelningstabell. I detta exempel, där z (antal s s ett värde representerar) (216 203) 13 13 13 1. Området under kurvan representerar 1 (positiv) standardavvikelse. Ett normalt distributionsbord visar att en z av 1, 841 8211, 500, 341. eller 34 procent. För att uppskatta hur många veckor av året avdelningen kan producera vid 216 pallar eller mer av produkt, eller mer än 1 standardavvikelse från medelvärdet, uppdaterar chefen fördelningsplanen (Figur 5). Figur 5: Sannolikhet att producera mer än 1 Standardavvikelse från medel Med hjälp av ovanstående diagram uppskattar chefen att avdelningen kan vara 216 pallar eller mer för 16 procent av året eller cirka åtta av de närmaste 52 veckorna. Chefen vill också slå tidigare år8217s rekord av tillverkning av 231 pallar av produkt i en enda vecka. Därför sätter hon ett mål att nå 235 pallar minst en gång. För att räkna ut hur många gånger de närmaste 52 veckorna kan avdelningen fylla 235 pallar, börjar chefen att beräkna Z-poängen: z (235 202) 13 32 13 ca 2,46 s Svaret kommer från att se upp denna Z-poäng i det normala distributionsbordet eller genom att producera ett annat distributionsdiagram i programprogrammet (Figur 6). Figur 6: Sannolikhet att producera mer än 2,46 Standardavvikelser från medel Utsikterna för att producera 235 pallar är inte bra, det finns mindre än en 1 procents chans, vilket innebär att det kan hända en gång. Genom att använda Z-poäng och distributionsplottar kan emellertid chefen förutse dessa resultat i förväg och sätta rimliga mål. Om du älskade den här artikeln kan du också älska Lämna en kommentar

No comments:

Post a Comment