订阅
纠错
加入自媒体

精准预测市场?当多方安全计算遇到量化投研

2020-08-13 09:36
算力智库
关注

Avatar的开幕式

“这个case不是为了证明第三方数据有多牛,是表演一下投研对数据的安全建模方案”。

研究标的:2019年8月5日-2020年8月4日创业板中所有股票

研究目标:该策略目标为利用历史数据,预测每只股票当天是否涨幅超8%,即样本集中日股票涨幅超8%,y值为1,否则y值为0。

研究变量

联邦学习中节点A数据:通过股票历史数据(公开数据),构建了当日星期、近三天平均收益率、近七天平均收益率、近三天绝对收益率、近七天绝对收益率、近三天标准差、近七天标准差、近三天平均换手率、近七天平均换手率、近三天平均成交量、近七天平均成交量、近三天上涨天数、近七天上涨天数、近三天涨幅大于5%次数、近七天涨幅大于5%次数、近三天跌幅大于5%次数、近七天跌幅大于5%次数,共17个指标。

联邦学习中节点B数据:通过百度搜索中关键词为“创业板”的搜索次数,构建了当日创业板搜索指数、近一天创业板搜索指数、近三天创业板搜索指数、近七天创业板搜索指数、近三天创业板指数上升天数、近七天创业板指数上升天数、创业板搜素指数涨幅,共7个指标,模拟外部非公开的数据源。

综上,该策略通过上述24个指标的构建,结合动量策略和反转策略原理,并通过百度搜索次数作为外部数据,作为反应市场情绪的变量,之后根据IV等指标筛选入参变量,构建逻辑回归模型,预测当日股票是否上涨超过8%。为验证百度指数作用,策略制定了四个模型作为对照,具体如下:

样本集为全部股票,未用到百度指数构建模型

样本集为全部股票,用到了百度指数构建模型(其他入参变量与对照组1一致)

样本集为华兴源创,未用到百度指数构建模型

样本集为华兴源创,用到百度指数构建模型

(备注,因为百度搜索数据进行了反爬虫的保护,无法爬取全部信息,故全量股票数据建模过程中,只用到了搜索“创业板”的搜索次数,未用到每只股票对应的股票名称搜索次数;仅在样本集为华兴源创的案例中,用到了华兴源创作为关键词的搜索次数。)

模型结论

1)通过IV值可推断百度指数数据对于预测y值有较为重要的作用,其中创业板搜索涨跌幅和近三天创业板搜索平均值效果较为显著,通过模型系数可知创业板搜索涨跌幅和近三天创业板搜索平均值和y值具有正相关关系,即数值越高,越容易涨幅超过8%。(具体信息见下图)

2)样本集为全部股票,用到百度指数构建模型,AUC为0.76,未用到百度指数构建模型(其他入参变量与对照组1一致),AUC为0.72,说明百度指数对应预测有明显提升效果。(具体信息见下图)

<上一页  1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号