华泰证券-华泰人工智能系列之十七:人工智能选股之数据标注方法实证

VIP专享
3.0 芒果2024 2024-07-06 120 16 2.34MB 26 页 免费
侵权投诉
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 1
证券研究报告
金工研究/深度研究
2019 03 13
林晓明
执业证书编号:S0570516010001
研究员
0755-82080134
linxiaoming@htsc.com
陈烨
执业证书编号:S0570518080004
研究员
010-56793942
chenye@htsc.com
李子钰
0755-23987436
联系人
liziyu@htsc.com
何康
联系人
hekang@htsc.com
1《金工: Smart Beta:乘风破浪趁此时》
2019.02
2《金工: 再论时序交叉验证对抗过拟合》
2019.02
3《金工: 人工智能选股之卷积神经网络》
2019.02
人工智能选股之数据标注方法实证
华泰人工智能系列之十七
本文测试了多种数据标注方法以及集成模型,XGBR-Combine 表现最好
将机器学习运用于多因子选股时,不同的数据标注结果(据标签)会使得模
型得出不同的训练和预测结果本文使用随机数种子+多次测试的手段,研
究对比了分类和回归、使用夏普比率作为标签、使用信息比率作为标签以
及使用 Calmar 比率作为标签的方法,回测表现整体符合预期。最后,我
们将不同数据标注方法训练的模型进行等权集成得到模型
XGBR-Combine,该模型在回测中表现最为全面。
本文使用了随机数种子+多次测试的方法来验证数据标注方法的有效性
在机器学习模型的训练过程中,会有各种各样的步骤给模型带来随机性,
如果本文仅对一系列数据标注方法进行单次测试,那么所得出的结果未必
具有说服力。此时有必要进行多次对比测试来获得统计意义上的“确定结
果”在多次测试中,可以对模型设置不同的随机数种子使得每次测试中
模型的预测都有一定差别,最后我们统计对比模型构建策略的相应指标的
分布情况,就能得到更具有说服力的结果。
本文对比了 XGBoost 分类和回归的测试结果,回归整体表现更好
本文对比了全 A股票池中,XGBoost 分类(XGBC)和回归(XGBR)的选股效
果。单因子回归IC 测试中,XGBR 只在 RankIC 均值上稍低于 XGBC
其他指标表现都XGBC 要好。单因子分层测试的 TOP 组合中 XGBC
XGBR 的各项回测指标比较接近。本文还构建了相对于中证 500 的行业、
市值中性全 A股策略并进行回测,XGBR 相比 XGBC 在信息比率上有稳
定优势。在其他指标上,XGBR XGBC 的表现不相上下。整体来看,
XGBoost 回归的表现更好。
本文还测试了另外三种数据标注方法,回测表现整体符合预期
本文在全 A股票池中试了另外三种数据标注方法,使用夏普比率作为标
签的模型(XGBR-Sharpe)使用信息比率作为标签的模型(XGBR-IR)以及使
Calmar 比率作为标签的模(XGBR-Calmar)。整体来看,在对应的测
中,XGBR-Sharpe XGBR 的夏普比率更高,XGBR-IR XGBR 的信息
比率更高XGBR-Calmar XGBR Calmar 率更高。三种数据标注方
法的回测表现和它们各自所设定的学习目标相匹配,结果整体符合预期
本文将不同数据标注方法训练的模型进行等权集成,回测表现最为全面
机器学习领域中可以采用模型等权集成的方式以充分体现不同模型的优
点 。 我 们 将 XGBRXGBR-IR XGBR-Calmar 三个模型集成得到
XGBR-Combine 并构建了相对于中证 500 的行业、市值中性A选股策
略,回测结果中,XGBR-Combine 综合了三个基模型的优点在年化超额
收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表现最好,在超额收
益最大回撤(3.83%~8.79%)Calmar 比率(2.13~3.87)上也有不错的表现。
同时,XGBR-Combine 以上 4个回测指标的标准差都比较小明其在
多次测试中受随机性的干扰程度最小,表现最为稳定。
风险提示:通过人工智能模型构建的选股策略是历史经验的总结,存在失
效的可能。人工智能模型可解释程度较低,使用须谨慎。
19843167/36139/20190314 16:09
金工研究/深度研究 | 2019 03 13
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 2
正文目录
本文研究导读 .................................................................................................................... 5
数据标注简介和数据标注的方 ....................................................................................... 6
监督学习和数据标注 .................................................................................................. 6
机器学习多因子选股中的数据标注方法 ..................................................................... 6
分类和回归 ........................................................................................................ 6
更多数据标注方 ............................................................................................. 7
如何验证数据标注方法的有效性?随机数种子+多次测试 ......................................... 8
不同数据标注方法训练所得模型的集成 ..................................................................... 9
数据标注方法测试流程 .................................................................................................... 10
测试流程 .................................................................................................................. 10
数据标注方法测试结果 .................................................................................................... 14
分类和回归的对 ................................................................................................... 14
单因子回归测试IC 测试 ............................................................................... 14
单因子分层测试 ............................................................................................... 15
构建策略组合及回测分析 ................................................................................. 16
按超额收益率回归和按夏普比率回归的对比 ........................................................... 16
单因子分层测试 ............................................................................................... 17
构建策略组合及回测分析 ................................................................................. 17
按超额收益率回归和按信息比率回归的对比 ........................................................... 18
构建策略组合及回测分析 ................................................................................. 18
按超额收益率回归和按 Calmar 比率回归的对 ..................................................... 19
构建策略组合及回测分析 ................................................................................. 19
不同数据标注方法所得模型集成的测试结果 ................................................................... 21
构建策略组合及回测分析 ........................................................................................ 21
结论 ................................................................................................................................. 24
风险提示 ......................................................................................................................... 25
19843167/36139/20190314 16:09
金工研究/深度研究 | 2019 03 13
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 3
图表目录
图表 1 监督学习的不同侧重点 ...................................................................................... 6
图表 2 市盈率 EP 因子和股票涨跌幅的线性回归模型 .................................................. 7
图表 3 市盈率 EP 因子和股票涨跌的逻辑回归模型 ...................................................... 7
图表 4 机器学习运用于多因子选股时回归和二分类的对比 ........................................... 7
图表 5 随机数种子+多次测试流程图 ............................................................................. 8
图表 6 对多种数据标注方法预测结果进行集成的测试流程图 ....................................... 9
图表 7 数据标注方法测试流程示意图 ......................................................................... 10
图表 8 年度交叉验证调参示意图 ................................................................................ 11
图表 9 月度滚动训练示意图 ........................................................................................ 11
图表 10 选股模型中涉及的全部因子及其描述(1) ................................................... 12
图表 11 选股模型中涉及的全部因子及其描述(2) .................................................... 13
图表 12 100 次测试中两种模型在全 A的回归法、IC 值分析的平均结果汇总(测期
2011013120190228) ................................................................................................... 14
图表 13 100 次测试中两种模型的 RankIC 值分布 .................................................. 14
图表 14 100 次测试中两种模型的因子收益率均值分布 .............................................. 14
图表 15 100 次测试中两种模型在全 A的分层测试法的平均结果汇(分五层,测期
2011013120190228) ................................................................................................... 15
图表 16 100 次测试中两种模型 TOP 组合绩效的平均结果(分五层,回测20110131
20190228)....................................................................................................................... 15
图表 17 100 次测试中两种模型的 TOP 组合年化超额收益率分布 .............................. 15
图表 18 100 次测试中两种模型的 TOP 组合信息比率分布 ........................................ 15
图表 19 100 次测试中两种模型构建全 A选股策略回测指标的平均值对比(回测期
2011013120190228) ................................................................................................... 16
图表 20 100 次测试中两种模型的全 A股年化超额收益率分 ............................... 16
图表 21 100 次测试中两种模型的全 A股信息比率分布 .......................................... 16
图表 22 100 次测试中两种模型在全 A的分层测试法的平均结果汇总(分五层,测期
2011013120190228) ................................................................................................... 17
图表 23 100 次测试中两种模型 TOP 组合绩效的平均结果(分五层,回测期 20110131
20190228)....................................................................................................................... 17
图表 24 100 次测试中两种模型的多空组合夏普比率分布 .......................................... 17
图表 25 100 次测试中两种模型的 TOP 组合夏普比率分布 ........................................ 17
图表 26 100 次测试中两种模型构建全 A选股策略回测指标的平均值对比(回测期
2011013120190228) ................................................................................................... 18
图表 27 100 次测试中两种模型的全 A选股年化收益率分布 ...................................... 18
图表 28 100 次测试中两种模型的全 A股夏普比率分布 .......................................... 18
图表 29 100 次测试中两种模型构建全 A选股策略回测指标的平均值对比(回测期
2011013120190228) ................................................................................................... 19
图表 30 100 次测试中两种模型的全 A股年化超额收益率分 ............................... 19
图表 31 100 次测试中两种模型的全 A股信息比率分布 .......................................... 19
19843167/36139/20190314 16:09

标签: #人工智能

摘要:

谨请参阅尾页重要声明及华泰证券股票和行业评级标准1证券研究报告金工研究/深度研究2019年03月13日林晓明执业证书编号:S0570516010001研究员0755-82080134linxiaoming@htsc.com陈烨执业证书编号:S0570518080004研究员010-56793942chenye@htsc.com李子钰0755-23987436联系人liziyu@htsc.com何康联系人hekang@htsc.com1《金工:SmartBeta:乘风破浪趁此时》2019.022《金工:再论时序交叉验证对抗过拟合》2019.023《金工:人工智能选股之卷积神经网络》2019.02...

展开>> 收起<<
华泰证券-华泰人工智能系列之十七:人工智能选股之数据标注方法实证.pdf

共26页,预览8页

还剩页未读, 继续阅读

作者:芒果2024 分类:按报告类型 价格:免费 属性:26 页 大小:2.34MB 格式:PDF 时间:2024-07-06

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 26
客服
关注