3.1 实验数据集描述_大数据搜索与挖掘及可视化管理方案：Elastic Stack 5：Elasticsearch、Logstash、Kibana、X-Pack、Beats （第3版）-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

3.1 实验数据集描述

首先介绍示例可能用到的3个主要数据文件的结构。

（1）索引文件baidu下类型文件baike（利用爬虫采集到的百度百科词条信息，采集方法见本书第10章）的结构（数据略）:

    _index: baidu             //针对百度百科词条数据的索引文件名称
    _type: baike              //针对百度百科词条数据的类型文件名称
    _id: xxx                  //id号
    _version: x               //版本号
    _score: x                 //排序分值
    _source: {                //数据字段描述(内容略)
        title: (略)           //词条标题
        url: (略)）           //URL，如http://baike.baidu.com/view/6505879.htm
        content: (略)         //词条内容
        lastModifyTime: (略)  //最近更新时间
        taglist: (略)         //内容分类，如"历史人物"等
    }

（2）索引文件it-home下类型文件posts（利用爬虫采集到的程序员论坛主题帖信息）的结构：

    _index: it-home       //针对程序员论坛主题帖数据的索引文件名称
    _type: posts          //针对程序员论坛主题帖数据的类型文件名称
    _id: xxx              //id号
    _version: x           //版本号
    _score: x             //排序分值
    _source: {            //数据字段描述(内容略)
        publishTime: xxx  //帖子发表时间
        category: xxx     //主题类别
        title: xxx        //帖子主题
        user: xxx         //帖子发布者昵称
        url: xxx          //URL，如http://bbs.it-home.org/thread-76807-1-1.html
        content: xxx      //帖子内容
    }

（3）索引文件whale下类型文件为log（日志信息）的结构。

    _index: whale             //索引文件名称
    _type: log                //type名称
    _id: xxx                  //某document的id号
    _version: x               //版本
    _score: x                 //评分
    _source: {                //数据字段描述
        custom_ip: xxx        //客户端IP地址
        timestamp: xxx        //时间戳
        http_method: xxx      //HTTP方法，如GET、POST等
        uri:xxx               //请求URI标识
        status_code:xxx       //网络状态码
        os: xxx               //客户端使用的操作系统，如Windows 10
        log_size: xxx         //当次日志长度
    }

本周热推：

审计学审计教学案例精选审计学基础金融科技（FinTech）发展的国际经验和中国政策取向（中国金融四十人论坛书系）内部审计情景案例：理解审计行为，辨析审计决策