精准预测市场？当多方安全计算遇到量化投研

2020-08-13 09:36

算力智库

关注

3 Avatar的开幕式

“这个case不是为了证明第三方数据有多牛，是表演一下投研对数据的安全建模方案”。

研究标的：2019年8月5日－2020年8月4日创业板中所有股票

研究目标：该策略目标为利用历史数据，预测每只股票当天是否涨幅超8％，即样本集中日股票涨幅超8％，y值为1，否则y值为0。

研究变量

联邦学习中节点A数据：通过股票历史数据（公开数据），构建了当日星期、近三天平均收益率、近七天平均收益率、近三天绝对收益率、近七天绝对收益率、近三天标准差、近七天标准差、近三天平均换手率、近七天平均换手率、近三天平均成交量、近七天平均成交量、近三天上涨天数、近七天上涨天数、近三天涨幅大于5％次数、近七天涨幅大于5％次数、近三天跌幅大于5％次数、近七天跌幅大于5％次数，共17个指标。

联邦学习中节点B数据：通过百度搜索中关键词为“创业板”的搜索次数，构建了当日创业板搜索指数、近一天创业板搜索指数、近三天创业板搜索指数、近七天创业板搜索指数、近三天创业板指数上升天数、近七天创业板指数上升天数、创业板搜素指数涨幅，共7个指标，模拟外部非公开的数据源。

综上，该策略通过上述24个指标的构建，结合动量策略和反转策略原理，并通过百度搜索次数作为外部数据，作为反应市场情绪的变量，之后根据IV等指标筛选入参变量，构建逻辑回归模型，预测当日股票是否上涨超过8％。为验证百度指数作用，策略制定了四个模型作为对照，具体如下：

样本集为全部股票，未用到百度指数构建模型

样本集为全部股票，用到了百度指数构建模型（其他入参变量与对照组1一致）

样本集为华兴源创，未用到百度指数构建模型

样本集为华兴源创，用到百度指数构建模型

（备注，因为百度搜索数据进行了反爬虫的保护，无法爬取全部信息，故全量股票数据建模过程中，只用到了搜索“创业板”的搜索次数，未用到每只股票对应的股票名称搜索次数；仅在样本集为华兴源创的案例中，用到了华兴源创作为关键词的搜索次数。）

模型结论

1）通过IV值可推断百度指数数据对于预测y值有较为重要的作用，其中创业板搜索涨跌幅和近三天创业板搜索平均值效果较为显著，通过模型系数可知创业板搜索涨跌幅和近三天创业板搜索平均值和y值具有正相关关系，即数值越高，越容易涨幅超过8％。（具体信息见下图）