機器學(xué)習(xí)平臺SkyDiscovery行業(yè)應(yīng)用智能金融交易

2020-06-19 23:01:57 sunmedia 1111


? ? 現(xiàn)代金融市場日益發(fā)展且不斷完善,金融投資的規(guī)模持續(xù)增長;同時,人工智能技術(shù)的發(fā)展和更迭更是不容忽視。如何抓住此一現(xiàn)象的契機,將人工智能合理、有效地運用在金融投資領(lǐng)域,已成為全球關(guān)注熱點。在這美好的周日,最適合學(xué)習(xí)的日子,小天特別和大家分享金融事業(yè)部團隊的研發(fā)成果和實際的案例,一起了解,當(dāng)金融遇上AI,會是什么樣子。

????金融行業(yè)中,既有很多在線免費的數(shù)據(jù),也有付費整理后規(guī)范化的數(shù)據(jù),信息化發(fā)展相較其他行業(yè)完善。然而,將人工智能技術(shù)有效應(yīng)用在金融市場的難點仍然存在:如何快速利用這些數(shù)據(jù),提取有價值的信息,并精準(zhǔn)的運用到投資決策中?

????這個過程需要強大的計算力的支持,天數(shù)潤科為此開發(fā)了SkyDiscovery大數(shù)據(jù)機器學(xué)習(xí)平臺,以滿足金融行業(yè)對于大數(shù)據(jù)技術(shù)和人工智能應(yīng)用的需求。

????目前,公司在此平臺上已開發(fā)了一系列的交易策略,其中Quantmental中長期投資組合和超短線增強策略已投入實盤。Quantmental中長期投資組合,結(jié)合了基本面價值投資分析方法與數(shù)據(jù)挖掘分析手段:首先,以財務(wù)信息為基礎(chǔ),挖掘業(yè)績穩(wěn)定,成長確定性較高,行業(yè)內(nèi)競爭力較強的個股。其次,結(jié)合客觀技術(shù)分析與數(shù)據(jù)分析方法,在初步篩選的股票池中,動態(tài)把握個股適合的投資時機,實現(xiàn)組合的智能管理。

????以下為策略開發(fā)的詳細(xì)流程:

????01 數(shù)據(jù)存儲與讀取

????SkyDiscovery提供了多個數(shù)據(jù)庫組件支持全方位的金融數(shù)據(jù)的管理,包括高性能的OLAP數(shù)據(jù)庫SkyInsight、時序數(shù)據(jù)庫SkyTSDB,同時集成了GPU數(shù)據(jù)庫MapD。

????我們的金融數(shù)據(jù)包括:

????1.行情數(shù)據(jù),有l(wèi)evel2行情,支持歷史和實時存儲;

????2.日線級別的財報數(shù)據(jù);

????3.政策性的文本數(shù)據(jù);

????我們使用SkyInsight管理所有離線數(shù)據(jù),以SkyTSDB存儲實時的時序數(shù)據(jù)。數(shù)據(jù)服務(wù)的架構(gòu)如下圖所示:

????此金融數(shù)據(jù)平臺能夠提供穩(wěn)定高效的數(shù)據(jù)訪問服務(wù)、標(biāo)準(zhǔn)易用的數(shù)據(jù)統(tǒng)一接口,并兼顧數(shù)據(jù)安全和橫向擴展需求。

????SkyInsight支持表分區(qū),時間和股票種類兩個維度對數(shù)據(jù)自動分區(qū);采用計算存儲分離架構(gòu),支持與Kubernetes集成,極易根據(jù)計算和存儲的不同需求伸縮;MPP架構(gòu),億級別數(shù)據(jù)秒級響應(yīng);支持標(biāo)準(zhǔn)SQL。

????SkyTSDB對接實時接入的tick數(shù)據(jù),基于時序特征優(yōu)化讀寫,能夠高效滿足金融時序模型對數(shù)據(jù)的需求。

????SkyETL支撐數(shù)據(jù)接入平臺和內(nèi)部服務(wù)間的數(shù)據(jù)流轉(zhuǎn),支持離線數(shù)據(jù)的批處理和流數(shù)據(jù)的實時處理。

????不同時間周期的金融數(shù)據(jù),頻率高、覆蓋廣、體量大。截至目前,策略處理的數(shù)據(jù)量已超2T,這一數(shù)字仍在每日增長。實現(xiàn)快速穩(wěn)定的存、取、更新操作,是金融建模的基石。

????02 特征處理

????股票的特征提取,我們以盈利性(利潤表)分析為例。

????首先,提取利潤表中的指標(biāo)數(shù)據(jù),進(jìn)行比值分析,梳理出能夠反映收入、成本,利潤主體關(guān)系的income_info以及衍生指標(biāo)income_ratios。

????在此,通過平臺可視化展示,我們能更加直觀的理解各個指標(biāo)。

????如圖,展示了利潤表的主要構(gòu)成情況(以000002.SZ萬科為例)。圖一將營業(yè)總收入劃分為一級成本,二級成本以及營業(yè)利潤。圖二進(jìn)一步分析了營業(yè)利潤,其他損益(金融活動)與凈利潤之間的關(guān)系。圖三將股東利潤劃分為,其他綜合損益,歸屬于少數(shù)股東綜合收益以及歸屬于母公司普通股東綜合收益。通過這一些列餅形圖可以直觀的觀察出該公司的收入,成本以及利潤等詳細(xì)情況。

????上圖展示了五年來房地產(chǎn)行業(yè)的個股(挑選8只股票)的gross profit margin與netincome margin相對的發(fā)展?fàn)顩r,其中圓圈大小對應(yīng)個股的earning per share。可以直觀的感受個股各個指標(biāo)之間的動態(tài)變化關(guān)系。

????我們以利潤表為例,簡單介紹了投資策略如何提取特征工程。當(dāng)然實際策略實施中需要考量更多的指標(biāo),同時還有資產(chǎn)負(fù)債表,現(xiàn)金流量表以及其他附屬信息的分析。但是提取特征的主體思路卻是保持一致的,即既要從時間序列維度出發(fā),挖掘業(yè)績長期穩(wěn)定或者增長的股票特征,同時也要從橫截面角度思考,在行業(yè)內(nèi)尋找有明顯競爭優(yōu)勢的個股特征。當(dāng)我們篩選出成長性高,行業(yè)內(nèi)競爭力強的個股后,最終也要結(jié)合價格因素考慮,綜合評價該股是否在合理估值之內(nèi),且價格趨勢是否得到較好的確認(rèn),是否是恰當(dāng)?shù)娜雸鰰r機等,都需要細(xì)致嚴(yán)謹(jǐn)?shù)牧炕P蛠砗饬俊?

????03 模型訓(xùn)練

????針對不同問題,需要選擇合適的機器學(xué)習(xí)方法。目前平臺支持常用機器學(xué)習(xí)以及深度學(xué)習(xí)分類、回歸模型的構(gòu)建、部署、預(yù)測、分布式執(zhí)行。金融數(shù)據(jù)中,預(yù)測下個月股價與多因子的關(guān)系,我們可以采用監(jiān)督學(xué)習(xí)中的支持向量機、決策樹、隨機森林、梯度樹提升以及神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。

????04 智能交易系統(tǒng)

????訓(xùn)練好的模型部署到平臺,接入行情接口,可以實現(xiàn)有AI模型決策幫助的智能交易系統(tǒng)。風(fēng)控平臺包括驗資驗券、敞口管理、股票池管理、資金管理、撤補策略、災(zāi)備策略等措施。

????05 總結(jié)

????本文簡單介紹了在SkyDiscovery大數(shù)據(jù)機器學(xué)習(xí)平臺上開發(fā)智能交易模型的整個流程,分布式數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)快速的讀取。SkyCompute高性能計算引擎,能針對金融行業(yè)的龐大數(shù)據(jù)量和實時數(shù)據(jù),提供超高性能的運算和分析能力,大幅降低企業(yè)的計算資源成本。同時,SkyDiscovery 也支持用戶端的BI報表、交互式探索等可視化展示應(yīng)用。???


未知來源
免責(zé)聲明:商媒在線所提供的信息及圖片除原創(chuàng)外,有部分資訊和圖片從網(wǎng)絡(luò)等媒體收集而來,版權(quán)歸原作者及媒體網(wǎng)站所有,商媒在線力求保存原有的版權(quán)信息并盡可能注明來源;部分因為操作上的原因可能已將原有信息丟失,敬請原作者諒解,如果您對商媒在線所載文章及圖片版權(quán)的歸屬存有異議,請立即通知商媒在線,商媒在線將立即予以刪除,同時向您表示歉意!

最新資訊