想靠AI精準(zhǔn)抄底,結(jié)果恐怕會(huì)讓你懷疑人生
開年后的股市,似乎迎來了一個(gè)春天,各路“股神”紛紛出面,聲稱用AI技術(shù)預(yù)測(cè)趨勢(shì)教大家炒股。利用人工智能模型預(yù)測(cè)股市,真的會(huì)讓散戶們跑贏大盤賺到懷疑人生?
經(jīng)歷了漫長(zhǎng)熊市的A股,在農(nóng)歷新年后迎來了一個(gè)超乎想象的春天。最能夠代表牛市來臨的信號(hào),不是領(lǐng)跑全球的歷史性漲幅,而是連你老家的大媽都準(zhǔn)備拿出首付甚至賣房抄底了,各路股神紛紛出來指點(diǎn)江山了,大數(shù)據(jù)分析、人工智能選股之類的炒股秘籍也集體重現(xiàn)江湖了。
與“玄學(xué)炒股”和“內(nèi)部消息”等方式不同,量化投資、機(jī)器模型之類的技術(shù)名詞一擺出來,可信度噌地就上去了。
不過,利用人工智能模型預(yù)測(cè)股市,到底會(huì)讓散戶們跑贏大盤賺到懷疑人生,還是被以“技術(shù)”為名的鐮刀精準(zhǔn)收割?事情的真相恐怕與大家想象的相去甚遠(yuǎn)。
靠人工智能預(yù)測(cè)股市,方法有哪些?
首先我們先來搞搞清楚,那些所謂的人工智能預(yù)測(cè)股市,到底都應(yīng)用了哪些技術(shù)。
在AI大規(guī)模應(yīng)用之前,利用大數(shù)據(jù)等數(shù)字工具,結(jié)合經(jīng)驗(yàn)甚至周易的天干地支來預(yù)測(cè)股市行情,已經(jīng)是高科技的代表了。但自從2016年AlphaGo擊敗李世石之后,機(jī)器學(xué)習(xí)技術(shù)就取代大數(shù)據(jù)成為預(yù)測(cè)股市的最強(qiáng)選手。
現(xiàn)在,市面上有許多證券公司推出了人工智能預(yù)測(cè)股市的工具、模型,甚至基金。接下來我們就追根溯源,來聊聊這些應(yīng)用型產(chǎn)品都是依托那些機(jī)器學(xué)習(xí)算法/模型來工作的。
1. 卷積神經(jīng)網(wǎng)絡(luò)
2016年,來自斯坦福大學(xué)計(jì)算機(jī)系的Ashwin Siripurapu發(fā)表了一篇文章,《Convolutional Networks for Stock Trading》,這是首次提出使用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行股票交易預(yù)測(cè)的方法。
該方法采用標(biāo)普500etf分鐘級(jí)數(shù)據(jù)作為歷史數(shù)據(jù)(包括交易時(shí)間、每分鐘收盤價(jià)、最高價(jià)、最低價(jià)、開盤價(jià)和交易量等),然后通過歷史股價(jià)波動(dòng)的圖片,訓(xùn)練出了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,并試圖通過這個(gè)模型來預(yù)測(cè)未來股價(jià)的運(yùn)行。
最后驗(yàn)證的結(jié)果是,使用該模型預(yù)測(cè)股價(jià)還不如瞎猜。
2. 時(shí)間序列預(yù)測(cè)
盡管前文中的初級(jí)版卷積神經(jīng)網(wǎng)絡(luò)模型的實(shí)際預(yù)測(cè)效果不盡如人意,但其提出的利用時(shí)間序列建模的想法,就成為接下來機(jī)器預(yù)測(cè)股市的常用方式。
不過,ARIMA、SARIMA等模型都需要進(jìn)行大量的數(shù)據(jù)預(yù)處理(比如K線圖片識(shí)別等等)才能建立預(yù)測(cè)數(shù)據(jù)集,并且常常忽視股市波動(dòng)的季節(jié)周期性差異。因此,F(xiàn)acebook設(shè)計(jì)和開發(fā)的時(shí)間序列預(yù)測(cè)庫(kù)Prophet(先知)很快就被引入了訓(xùn)練之中。
研究人員試圖讓Prophet從過去的數(shù)據(jù)中捕捉趨勢(shì)和季節(jié)性。但從試驗(yàn)效果來看,該模型并沒有達(dá)到預(yù)期的效果。
3. 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)
單純的時(shí)間序列并沒有取得很好的效果,但如果機(jī)器能自己劃重點(diǎn)呢?LSTM 算法在序列預(yù)測(cè)問題中的優(yōu)秀表現(xiàn),就引起了重視。主要是它們能夠存儲(chǔ)重要的既往信息,并且忽略那些不重要的信息。
從訓(xùn)練結(jié)果來看,LSTM模型可以對(duì)各種參數(shù)進(jìn)行調(diào)優(yōu),在股市歷史數(shù)據(jù)的預(yù)測(cè)匹配度上,表現(xiàn)果然超越了前面的所有算法。
但想通過LSTM 來預(yù)測(cè)股票價(jià)格的未來走勢(shì),不好意思它依然做不到。因?yàn)樗粫?huì)認(rèn)數(shù)據(jù),看不懂那些很可能大幅度影響股價(jià)的新聞和非貨幣行為。
4. NLP特征提取
既然LSTM看不懂非數(shù)字的重要指征,那在此基礎(chǔ)上讓機(jī)器學(xué)會(huì)“認(rèn)字”不就得了。
NLP技術(shù)能夠?qū)Πㄐ侣劇①Y訊、社交媒體等文字圖片信息進(jìn)行自動(dòng)特征提取和情緒分析,有了這些數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)不就能分析基本面了嗎?至此,一個(gè)簡(jiǎn)略版的機(jī)器學(xué)習(xí)股市預(yù)測(cè)模型就成型了。
簡(jiǎn)單解釋一下它的基礎(chǔ)邏輯:輸入股市的歷史數(shù)據(jù)和實(shí)時(shí)結(jié)構(gòu)化信息,特征提取選出那些有價(jià)值的信息,再通過深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練出基本模型,通過預(yù)訓(xùn)練調(diào)整參數(shù),這樣就得到一個(gè)終極預(yù)測(cè)模型,可以一次來構(gòu)建選股組合。當(dāng)然,在實(shí)際的訓(xùn)練過程中可能還需要反復(fù)調(diào)參測(cè)試。
目前市面上用來選股的主流算法,比如隨機(jī)森林、樸素貝葉斯、XGBoost、Stacking等,基本都是按照這一邏輯運(yùn)行的。
具體效果怎么樣呢?我們不妨用一個(gè)實(shí)際案例說明一下。
2017年,EquBot LLC、ETF Managers Group共同推出了全球第一只使用機(jī)器選股的基金AI Powered Equity ETF(AIEQ.US),這只基金不僅能夠擁有認(rèn)知和大數(shù)據(jù)處理能力,還能夠閱讀大量的文本線索,比如從年報(bào)、每日新聞中顯露的經(jīng)濟(jì)形勢(shì)、趨勢(shì)以及公司重大事件等信息進(jìn)行分析,然后挑選出相應(yīng)的投資組合。
而它的表現(xiàn),用“平平無奇”來說已經(jīng)很善良了。短期投資“成功”跑輸大盤(上市12日的表現(xiàn)比標(biāo)普500指數(shù)低了3個(gè)點(diǎn)),至于長(zhǎng)期價(jià)值投資嘛……價(jià)值投資還得靠機(jī)器,這水平基本也就告別股市了吧???
為什么人工智能預(yù)測(cè)股市,總是遭遇滑鐵盧?
不難看出,想要靠人工智能模型來預(yù)測(cè)股市,雖然理論上可行,但在實(shí)際操作過程中,模型們也并沒有展現(xiàn)出比“玄學(xué)”強(qiáng)得多的技術(shù)。
前不久,科學(xué)家Mario Filho就將這些預(yù)測(cè)模型一鍋端了。他以這些模型為基礎(chǔ)建立了一個(gè)數(shù)據(jù)集python version of TA-LIB,用以此訓(xùn)練了一個(gè)新的機(jī)器學(xué)習(xí)模型,并分別在一天和三天后檢驗(yàn)了不同模型的預(yù)測(cè)效果。
實(shí)驗(yàn)結(jié)果顯示,這些五花八門的AI預(yù)測(cè)模型,得到的效果也是隨心所欲,有的居然還“消極罷工”了。
比如“隨機(jī)森林”(The Random Forest)模型,其結(jié)果無論是和零預(yù)測(cè)還是平均值都相去甚遠(yuǎn),這意味著,它雖然從數(shù)據(jù)中學(xué)到了一些東西,但在實(shí)際的驗(yàn)證過程中卻完全沒有體現(xiàn)出來。
目前看來,靠機(jī)器學(xué)習(xí)模型來預(yù)測(cè)股市,現(xiàn)實(shí)中基本不可能不虧錢。為什么無往而不利的AI遇上股市就束手無策了呢?主要有幾個(gè)方面的阻礙:
一是歷史數(shù)據(jù)更新不及時(shí)。機(jī)器學(xué)習(xí)的運(yùn)算處理能力和信息深度都比個(gè)人強(qiáng)很多,這是不爭(zhēng)的事實(shí)。但預(yù)測(cè)行為往往涉及一系列實(shí)時(shí)的動(dòng)態(tài)因素,新聞事件、經(jīng)濟(jì)、政治、監(jiān)管、自然災(zāi)害、個(gè)人心理等等,都會(huì)對(duì)最終的結(jié)果產(chǎn)生影響,在高波動(dòng)的市場(chǎng)行情下,AI也很難準(zhǔn)確預(yù)測(cè)。
二是自然語言理解技術(shù)的限制。理想情況下,好的深度學(xué)習(xí)模型是可以從社交媒體、財(cái)經(jīng)新聞、金融信號(hào)(比如黃金、外匯等)的動(dòng)態(tài)變化中尋找規(guī)律、把握情緒的。但現(xiàn)實(shí)情況是,這些數(shù)據(jù)往往是模糊的、非結(jié)構(gòu)化的,在少量數(shù)據(jù)集的前提下訓(xùn)練出的模型自然也就無法得到很好的分析效果。
三是數(shù)據(jù)集的本土差別太大。即使數(shù)據(jù)集足夠大,但不同的資本市場(chǎng)數(shù)據(jù)往往有著很強(qiáng)的個(gè)性化模式特征,并不存在一種“放之四海而皆準(zhǔn)”的模型,可以在任何市場(chǎng)、任何時(shí)間段都表現(xiàn)出極高的性能。
因此想要依靠AI算法來提高收益,只能進(jìn)行獨(dú)立探索并找出某一模型最強(qiáng)優(yōu)勢(shì)并與本土特色相結(jié)合。這就導(dǎo)致了另一個(gè)問題,那就是研究資源不足。
大部分預(yù)測(cè)模型都是由個(gè)人開發(fā)者或者投資組織在研究和開發(fā),很多在NLP、深度增強(qiáng)學(xué)習(xí)領(lǐng)域技術(shù)比較強(qiáng)的科技算法公司,研究重心還是放在通過AI預(yù)測(cè)改革更有民生價(jià)值的領(lǐng)域。
比如運(yùn)用算法改進(jìn)工廠發(fā)電效率、智能決策(DI)檢測(cè)欺詐性交易等等,谷歌甚至在臨床應(yīng)用深度機(jī)器學(xué)習(xí)算法進(jìn)行診斷和預(yù)測(cè)死亡時(shí)間。
相比這些多贏的業(yè)務(wù),預(yù)測(cè)股價(jià)這類技術(shù)上不成熟、業(yè)務(wù)邏輯復(fù)雜、于民生又沒有太大收益的應(yīng)用場(chǎng)景,吸引不大足夠的人才和資源去攻破,自然進(jìn)步有限。
總而言之,股市本質(zhì)上是零和博弈游戲,最終是依靠信息的不對(duì)稱,從信息匱乏的一方身上賺錢。這種情況下,人工智能作為基礎(chǔ)的技術(shù)工具,決定了只能是錦上添花。
散(韭)戶(菜)們想要將抄底賺錢的希望放在各種似是而非的智能選股模型身上,怕是要失望到懷疑人生了。
既然選股不靠譜,AI還能有點(diǎn)別的用嗎?
既然依靠人工智能來預(yù)測(cè)股市目前還不可能,但并不代表那些薦股模型背后的技術(shù)沒有用武之地。實(shí)際上,不少金融生活場(chǎng)景正在比股市更快地成為人工智能的“應(yīng)許之地”。
比如借助金融類數(shù)據(jù)幫助實(shí)體商業(yè)項(xiàng)目進(jìn)行風(fēng)險(xiǎn)控制。
傳統(tǒng)模式下,銀行在評(píng)估某些開發(fā)商項(xiàng)目時(shí),僅僅針對(duì)開發(fā)商信用資質(zhì)、還款能力等評(píng)估風(fēng)險(xiǎn),卻很難去考察項(xiàng)目所在區(qū)域的消費(fèi)能力、經(jīng)濟(jì)活躍度及周邊配套的發(fā)展情況,而后者才是影響項(xiàng)目的最大風(fēng)險(xiǎn)因子。
而借助阿里、京東、騰訊等超級(jí)平臺(tái)每天產(chǎn)生的龐大數(shù)據(jù),就會(huì)涉及商場(chǎng)、物流、理財(cái)、支付、信用等各類金融數(shù)據(jù)。在這些實(shí)時(shí)結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上,通過深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)“經(jīng)濟(jì)體征”的全面量化,實(shí)時(shí)監(jiān)測(cè)預(yù)警,就能根據(jù)具體區(qū)域經(jīng)濟(jì)、消費(fèi)相關(guān)的發(fā)展變化,進(jìn)行精準(zhǔn)預(yù)測(cè),避免“一葉障目”帶來的資源風(fēng)險(xiǎn)。
另外,還有很多機(jī)構(gòu)利用機(jī)器學(xué)習(xí)、LSTM等技術(shù)來訓(xùn)練模型以預(yù)防網(wǎng)絡(luò)詐騙。
Sift Sciencee就從6000多家欺詐檢測(cè)網(wǎng)站收集了大量數(shù)據(jù),利用智能引擎關(guān)聯(lián)了多源數(shù)據(jù)點(diǎn),包括付款信息、交易頻率、行為習(xí)慣等等,以此為基準(zhǔn)采集和建立優(yōu)質(zhì)用戶行為模型,對(duì)每筆交易進(jìn)行比較和評(píng)估。
這樣做的好處是,既避免了高風(fēng)險(xiǎn)控制帶來的誤判,防止請(qǐng)求失敗造成用戶流失,同時(shí)又能夠有效地檢測(cè)欺詐性交易。
上述應(yīng)用更多是圍繞多元結(jié)構(gòu)化數(shù)據(jù)展開的,實(shí)際上,利用NLP和機(jī)器學(xué)習(xí)算法提供個(gè)性化的智能客服服務(wù),在金融領(lǐng)域也越來越普及。
目前,中國(guó)的5大國(guó)有銀行和12家全國(guó)性股份制商業(yè)銀行已經(jīng)全部上線智能客服。
而隨著NLP技術(shù)的進(jìn)步,智能客服也開始告別傳統(tǒng)印象中的程式化服務(wù),逐漸在情感分析、多輪對(duì)話等應(yīng)用中發(fā)揮出不錯(cuò)的水平。
比如英國(guó)開發(fā)者設(shè)計(jì)的智能助手Cleo,在授予賬戶信息全線之后,就能夠通過深度學(xué)習(xí)技術(shù)學(xué)習(xí)并適應(yīng)用戶的個(gè)人習(xí)慣與偏好。在對(duì)話的同時(shí)幫助用戶進(jìn)行理財(cái)指導(dǎo)和資金規(guī)劃。
未來,使用AI來預(yù)測(cè)和解讀市場(chǎng)與用戶,將是金融公司的必備技能之一。不過對(duì)比機(jī)器學(xué)習(xí)在股市上的失利,以及其他場(chǎng)景中的可圈可點(diǎn),或許我們可以得出一個(gè)基本結(jié)論:
每種機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)和應(yīng)用表現(xiàn)各有不同,但總的來說,作為先鋒技術(shù),人工智能更應(yīng)該被用在那些可用Availabl、可靠Reliable、可知Comprehensiblee、可控Controllable的地方(簡(jiǎn)稱ARCC)。在這種共識(shí)之上,AI短時(shí)間內(nèi)既不能讓基金經(jīng)理下崗,也無法幫散戶們精準(zhǔn)抄底。
或許是宿命的悖論吧:越清楚技術(shù)的能量有多大,就越無法理解人性的貪婪。
作者:腦極體,微信公眾號(hào):腦極體
本文由 @腦極體 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來源于 Unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!