用數(shù)據(jù)預(yù)測未來:時間序列分析

4 評論 122741 瀏覽 89 收藏 17 分鐘

對于本文內(nèi)容,小編只知道作者介紹了一種用數(shù)據(jù)預(yù)測未來的方法——時間序列分析?!牛瑑?nèi)容灰?;页;页X,各位看官enjoy~

應(yīng)用背景:

通過分析序列進行合理預(yù)測,做到提前掌握未來的發(fā)展趨勢,為業(yè)務(wù)決策提供依據(jù),這也是決策科學(xué)化的前提。

時間序列分析:

時間序列就是按時間順序排列的一組數(shù)據(jù)序列。

時間序列分析就是發(fā)現(xiàn)這組數(shù)據(jù)的變動規(guī)律并用于預(yù)測的統(tǒng)計技術(shù)。

分析工具:

SPSS(數(shù)據(jù)分析的重量級應(yīng)用,與SAS二選一)

實踐案例:通過歷史數(shù)據(jù)預(yù)測未來數(shù)據(jù),所涉及的都是最簡單的實踐,拋磚引玉,重在方法,不論多復(fù)雜的數(shù)據(jù),方法是一樣的。

如已知前幾年每月的銷售量,預(yù)測未來的銷售量。

一、時間序列分析簡介

時間序列分析有三個基本特點

  1. 假設(shè)事物發(fā)展趨勢會延伸到未來
  2. 預(yù)測所依據(jù)的數(shù)據(jù)具有不規(guī)則性
  3. 不考慮事物發(fā)展之間的因果關(guān)系

并不是所有的時間序列都一定包含四種因素,如以年為單位的詩句就可能不包含季節(jié)變動因素。

四種因素通常有兩種組合方式:

  1. 四種因素相互獨立,即時間序列是四種因素直接疊加而成的,可用加法模型表示:?Y=T+S+C+I
  2. 四種因素相互影響。即時間序列是四種因素相互綜合的結(jié)果,可用乘法模型表示:Y=T*S*C*I

其中,原始時間序列值和長期趨勢可用絕對數(shù)表示;季節(jié)變動、循環(huán)變動、不規(guī)則變動可用相對數(shù)(變動百分比)表示。

二、季節(jié)分解法

當(dāng)我們對一個時間序列進行預(yù)測時,應(yīng)該考慮將上述四種因素從時間序列中分解出來。

為什么要分解這四種因素?

  1. 分解之后,能夠克服其他因素的影響,僅僅考量一種因素對時間序列的影響。
  2. 分解之后,也可以分析他們之間的相互作用,以及他們對時間序列的綜合影響。
  3. 當(dāng)去掉這些因素后,就可以更好的進行時間序列之間的比較,從而更加客觀的反映事物變化發(fā)展規(guī)律。
  4. 分解之后,序列可以用來建立回歸模型,從而提高預(yù)測精度。

所有的時間序列都要分解這四種因素嗎?

通常情況下,我們考慮進行季節(jié)因素的分解,也就是將季節(jié)變動因素從原時間序列中去除,并生成由剩余三種因素構(gòu)成的序列來滿足后續(xù)分析需求。

為什么只進行季節(jié)因素的分解?

  1. 時間序列中的長期趨勢反映了事物發(fā)展規(guī)律,是重點研究的對象;
  2. 循環(huán)變動由于周期長,可以看做是長期趨勢的反映;
  3. 不規(guī)則變動由于不容易測量,通常也不單獨分析。
  4. 季節(jié)變動有時會讓預(yù)測模型誤判其為不規(guī)則變動,從而降低模型的預(yù)測精度

綜上所述:當(dāng)一個時間序列具有季節(jié)變動特征時,在預(yù)測值錢會先將季節(jié)因素進行分解。

步驟:

  1. 定義日期標示變量:即先將序列的時間定義好,才能分析其時間特征。
  2. 了解序列發(fā)展趨勢:即序列圖,確定乘性還是加性
  3. 進行季節(jié)因素分解
  4. 建模
  5. 分析結(jié)果解讀
  6. 預(yù)測

1、定義日期標示變量

時間序列的特點就是數(shù)據(jù)根據(jù)時間點的順序進行排列,因此分析之前,SPSS需要知道序列的時間定義,然后才能進行分析時間特征。

根據(jù)源數(shù)據(jù)的格式進行選擇,并輸入第一個個案的具體數(shù)值。

此時會在源文件中生成三個新的變量。

2、了解序列發(fā)展趨勢

完成日期標示變量的定義之后,需要先對時間序列的變化趨勢有所了解,便于選擇合適的模型。即通過序列圖,確定模型是乘性還是加性。

變量為”銷售數(shù)據(jù)“,時間軸標簽為”DATE–“,也就是我們自定義的時間。

數(shù)據(jù)銷量序列圖

如何根據(jù)序列圖來判斷模型的乘性或加性?

  1. 如果隨著時間的推移,序列的季節(jié)波動變得越來越大,則建議使用乘法模型。
  2. 如果序列的季節(jié)波動能夠基本維持恒定,則建議使用加法模型。

本例很明顯:隨著時間變化,銷售數(shù)據(jù)的季節(jié)波動越來越大,那么使用乘法模型會更精確。

3、進行季節(jié)因素分解

變量為”銷售數(shù)據(jù)“,且根據(jù)序列圖我們知道時間序列模型為乘性。

提示您會新生成四個變量

  1. ERR(誤差序列):從時間序列中移除季節(jié)因素、長期趨勢、和循環(huán)變動之后留下的序列,也就是原始序列中的不規(guī)則變動構(gòu)成的序列。
  2. SAS(季節(jié)因素校正后序列):是移除原始序列中的季節(jié)因素后的校正序列。
  3. SAF(季節(jié)因子):是從序列中分解出的季節(jié)因素。其中的變量值根據(jù)季節(jié)周期的變動進行重復(fù),如本例中季節(jié)周期為12個月,所以這些季節(jié)因子沒12個月重復(fù)一次。
  4. STC(長期趨勢和循環(huán)變動趨勢):這是原始序列中長期趨勢和循環(huán)變動構(gòu)成的序列。

如圖,周期為12個月,季節(jié)因子12個月循環(huán)一次。

完成季節(jié)因素分解后的序列和原始序列之間有什么差異?

通過回執(zhí)序列圖的方法把原始序列和除去季節(jié)因子的三個序列(誤差序列、季節(jié)因素校正后序列、長期無視和循環(huán)變動序列)進行比較。

要做四個序列圖,會有四個變量:

  1. 原始序列:使用變量”銷售數(shù)據(jù)“;
  2. 誤差序列:使用變量”ERR“;
  3. 季節(jié)因素校場后序列:使用變量”SAS“
  4. 長期趨勢和循環(huán)變動序列:使用變量”STC“

  • 藍色線:原始序列
  • 紫色線:長期趨勢和循環(huán)變動序列
  • 淺棕色:季節(jié)因素校正后序列
  • 綠色線:誤差序列(不規(guī)則變動)

因為誤差序列數(shù)值非常小,所以長期趨勢和循環(huán)變動序列(長期趨勢+循環(huán)變動)與季節(jié)因素校正后序列(長期趨勢+循環(huán)變動+不規(guī)則變動,即誤差)能夠基本重合。

在單獨做”季節(jié)因子SAF“的序列圖:

因為是做”季節(jié)因子“的序列圖,所以只有一個變量”季節(jié)因子SAF“

我們看出:季節(jié)因素的周期是12個月,先下降,然后上升到第一個頂點,再有略微的下降后,出現(xiàn)明顯的上升趨勢,到第七個月時達到峰值,然后一路下跌,直到最后一個月份有所回升,之后進入第二個循環(huán)周期。

通過對原始序列的季節(jié)分解,我們更好的掌握了原始序列所包含的時間特征,從而選用適當(dāng)?shù)哪P瓦M行預(yù)測。

三、專家建模法

時間序列的預(yù)測步驟有四步:

  1. 繪制時間序列圖觀察趨勢
  2. 分析序列平穩(wěn)性并進行平穩(wěn)化
  3. 時間序列建模分析
  4. 模型評估與預(yù)測

平穩(wěn)性主要是指時間序列的所有統(tǒng)計性質(zhì)都不會隨著時間的推移而發(fā)生變化。

對于一個平穩(wěn)的時間序列,具備以下特征:

  1. 均數(shù)和方差不隨時間變化
  2. 自相關(guān)系數(shù)只與時間間隔有關(guān),與所處的時間無關(guān)

自相關(guān)系數(shù)是研究序列中不同時期的相關(guān)系數(shù),也就是對時間序列計算其當(dāng)前和不同滯后期的一系列相關(guān)系數(shù)。

平穩(wěn)化的方法——差分。

差分就是指序列中相鄰的兩期數(shù)據(jù)之差。

  • 一次差分=Yt-Yt-1
  • 二次差分=(Yt-Yt-1)-(Yt-1-Yt-2)

具體的平穩(wěn)化操作過程會有專家建模法自動處理,我們只需要哼根據(jù)模型結(jié)果獨處序列經(jīng)過了幾階差分即可。

時間序列分析操作:

要分析所有變量,所以選擇”銷售數(shù)據(jù)“。

【專家建模器】–【條件】,勾選”專家建模器考慮季節(jié)性模型“。

勾選”預(yù)測值“,目的是生成預(yù)測值,并保存模型。

時間序列分析結(jié)果解讀

該表顯示了經(jīng)過分析得到的最優(yōu)時間序列模型及其參數(shù),最優(yōu)時間U型獵魔性為ARIMA(0,1,1)(0,1,1)

求和自回歸移動平均模型ARIMA(p,d,q)(P,D,Q)

  • p:出去季節(jié)性變化之后的序列所滯后的p期,通常為0或1,大于1的情況很少;
  • d:除去季節(jié)性變化之后的序列進行了d階差分,通常取值為0,1或2;
  • q:除去季節(jié)性變化之后的序列進行了q次移動平均,通常取值0或1,很少會超過2;

P,D,Q分別表示包含季節(jié)性變化的序列所做的事情。

因此本例可解讀為:對除去季節(jié)性變化的序列和包含季節(jié)性變化的序列分別進行了一階差分和一次移動平均,綜合兩個模型而建立出來的時間序列模型。

該表主要通過R方或平穩(wěn)R方來評估模型擬合度,以及在多個模型時,通過比較統(tǒng)計量找到最優(yōu)模型。

由于原始變量具有季節(jié)性變動因素,所以平穩(wěn)的R方更具有參考意義,等于32.1%,擬合效果一般。

該表提供了更多的統(tǒng)計量可以用來評估時間序列模型的擬合效果。

雖然平穩(wěn)R方僅僅是32.1%,但是”楊-博克斯Q(18)“統(tǒng)計量的顯著性P=0.706,大于0.05(此處P>0.05是期望得到的結(jié)果),所以接受原假設(shè),認為這個序列的殘差符合隨機分布,同時沒有離群值出現(xiàn),也都反映出數(shù)據(jù)的擬合效果還可以接受。

時間序列應(yīng)用預(yù)測:

未來一年是到2016年12月,手動輸入即可。

這是未來一年的銷售趨勢。

如果想從全局來觀察預(yù)測趨勢,可以在把這一年的趨勢和以前的數(shù)據(jù)連接起來

此時的變量應(yīng)該是”原始的銷售數(shù)量“和”2016年的預(yù)測銷售數(shù)量“。

結(jié)果如下:

也可以在表中查看具體的數(shù)值:

 

作者:膝蓋哥,是一枚“跪著提需求”的產(chǎn)品經(jīng)理。常說“不用不用,真的不用了,我跪著就好!”

本文由 @膝蓋哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 請問如果數(shù)據(jù)是年月日這個顆粒度的,該怎么定義時間呢,默認的定義時間格式?jīng)]有這樣的

    來自北京 回復(fù)
  2. 很棒

    回復(fù)
  3. 很清晰呀,趕緊用實際的數(shù)據(jù)來跑一跑

    來自北京 回復(fù)
  4. 可以化繁為簡為何多碼字 ??

    來自廣東 回復(fù)