统计学视角下的金融高频数据挖掘理论与方法研究
上QQ阅读APP看书,第一时间看更新

第三节 样本数据的来源与结构

本书的样本数据均来自CSMAR中国证券市场交易高频数据库,在这里,我们对此做一个简要的交代。2008版交易高频数据库 (GTA_ TAQ 2008V) 未按上证所信息网络有限公司分Level形式记录,而是按照高频与超高频分别记录,这种形式至少一直持续到2010年 (我们拿到的2010年5月的数据仍以这种形式存储),尽管上证所信息网络有限公司于2006年就已经推出了Level-2。之后我们拿到的2011版交易高频数据库分为两个Level: Level -1 (GTA_ SeL12011V) 和Level -2 (GTA_ SeL22011V)。

暂不考虑股指期货和商品期货等相关数据库,以证券市场 (股票、债券、基金、权证、指数等) 为例,前后版本在数据结构上的差异主要是:2008版共有两个表,其中,分时数据交易表有9个变量,分笔数据交易表有38个变量 (这些变量包括基本变量和一些衍生变量,如买比、买卖价差、报价深度等)。2011版分两个Level:

(1) Level-1共有两个表,其中,分时数据交易表有9个变量,分笔数据交易表有45个变量。与2008版旧结构的分笔交易数据相比,这一版添加了一些新的变量,但是在交易时间的记录上,2008版的最小间隔可以取到0秒,而2011版 (Level-1) 数据提取频率一般为5—6秒,记录的是在这个频率期间发生的所有成交记录的累计数。类似于一般文献所定义的高频数据。

(2) Level-2的数据只来源于上海证券交易所 (详见下文),共有5个表,其中,指数行情表有12个变量;逐笔成交表有10个变量;市场十档行情表有67个变量;集合竞价表有9个变量;委托队列表由于其接口变动很大,未进行表结构统一,其中2006-12到2009-11按队列的影像数据存放 (有62个变量),之后的按队列的原始数据存放 (有162个变量)。注意:level-2逐笔成交样本数据中,变量“时间戳”(timestamp)指的是数据落地时间 (后一笔交易数据的落地时间可能先于前者),变量“成交时间”(tradetime) 是对每笔交易成交时间的记录,精确到毫秒;十档行情的datatimestamp是数据生成时间,刷新频率为3秒。所谓的超高频数据可参考逐笔成交表。

Level-2的由来:国内证券市场一直以来提供的都是单一的即时行情,难以满足不同类型投资者的差异化需求。借鉴国外同行的实践经验和服务方式,2006年7月,上证所信息网络有限公司完成了面向市场提供商业增值服务的上证所Level-2行情源,9月1日正式收费运营。Level-2行情——作为中国证券市场的首个商业版行情——在Level-1行情 (即时行情show2003) 基础上增加了一些新的内容以交易委托信息这个方面为例:Level-2 (1) 提供十档行情,对普通投资者判断股价上下档的压力和支撑具有重要的参考意义;(2) 提供委托买卖总量,它是当前全部买入 (卖出)委托的总量和加权均价,据此投资者可以判断盘中的支撑位 (委买均价)、阻力位 (委卖均价)、支撑力度 (委买总量)、阻力大小 (委卖总量),还可以根据这些数据的动态变化分析多空双方力量的变化,寻找行情的转折点;(3) 最佳买卖价位上 (买一或卖一) 前50笔分笔委托量 (买卖队列):根据委托单的大小或委托单是否有规律,可以判断委托是机构、大户或散户所为。,它是对真实交易更真实的记录和还原。

Level-2行情由上证所信息网络有限公司组织信息服务商进行发布,即上证所信息网络有限公司向信息服务商提供Level-2源数据,获得上证所信息网络有限公司许可的信息服务商开发出增值产品,以终端形式提供给最终用户。即Level-2行情不直接对用户,而是通过中间机构向用户提供。目前含有level-2行情的商业终端有通达信金融终端、指南针金融决策系统、万得资讯投资终端、CSMAR数据库等。

上交所其实共提供三种类型的数据产品:

(1) Level-1行情 (即时行情show2003) 就是在免费软件上看到的数据,仅提供5个买卖档,6秒刷新一次。这种分时数据并不是实际的每笔交易数据,而是这6秒中所有交易的合计。比如,当前某只股票有10手成交,成交价为5元,而实际的情况可能是由1手、5手、4手这3笔交易合计而成,其成交价是最后一笔交易的价格。市面上很多软件仅仅是对这类数据进行组织加工包装,显然重要的细节信息被忽略了。

(2) Level-2行情是收费的商业版行情,是以分笔成交为单位,而不再是分时成交,这使得交易细节更加准确。Level-2行情的接收速度比普通行情有所改进,速度上快3—10秒,且刷新速度也提高1倍 (3秒刷新一次)。Level-2行情发送采用国际领先的标准数据接口:基于FIX的FAST (FIX Adapted for STreaming) 协议,具有良好的灵活性和扩展性以及优秀的处理效率,支持数据重发机制,确保了信息的完整性,并采用了用户权限控制和加密措施的安全认证机制。

(3) TOPVIEW数据是上交所提供的一种盘后数据,它滞后两天提供上交所内股票、基金买进、卖出金额前20个席位的名单和交易金额。每天收盘后,提供当天每只股票、封闭式基金机构、散户、法人股东的持仓统计,包括其总持股量,总持股比例等。但根据《华夏时报》的报道,该数据于2009年1月1日已被叫停。