中国数据圈蕴含的价值难以估量,而如此规模庞大的数据对置身于该经济体的企业和政府等来讲,机遇与挑战并存,有效合理地挖掘数据价值将会成为推动经济增长的重要助力。
IDC白皮书预测,中国的数据圈将以30%的年平均增长速度领先全球,比全球高3%。预计在2025年中国数据圈增至48.6ZB,占全球27.8%,成为最大数据圈。
大数据的业务价值
大数据的几大特点主要有:
1) 不同的数据种类是构建大数据湖的主要驱动因素
企业大数据可存储各种结构业务数据:
· 海量的结构化数据
· 半结构化数据(日志、XML文件等)
· 非结构化数据(文件、图片、音频、视频等)
2) 存储全量历史数据及其所有属性
企业大数据需要存储海量业务数据:
· 将实时业务数据持久化
· 将在线业务系统数据近线化存储
· 将企业数据仓库、数据集市的历史数据卸载存储
· 将企业中离线存放在磁带库、光盘库中的历史数据在线化
3) 数据设计模式的灵活性:
传统的企业数据仓库通常采用Schema On Write方式,即将数据写入预先定义好的E-R数据表结构中。而大数据湖还会采用Schema On Read方式,即在数据访问时,由数据访问者来解析和确定数据的格式,写入者并不关心其是否有一致、统一的数据格式。这种方式具有以下优点:
· 降低数据保存的成本,无需开发即可保存。
· 降低数据产生和使用之间的延迟。
· 给予最终用户最大的灵活度来处理数据。
· 允许用户保存非结构化、半结构化的数据。
· 对于现在不需要处理或者无法处理的数据,保留原始数据供未来使用。
· 同一份原始数据上,不同的用户可能有不同的理解。
4) 提高数据的使用和共享:
提高数据的使用和共享,为多个下游系统提供数据源: 企业大数据湖会为企业数据仓库、数据集市、在线联机查询、移动App应用等下游系统提供丰富完整的全量业务数据。