Python大数据架构全栈开发与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.5 高性能

高性能包括并发性能、实时性能、系统I/O性能、计算性能4部分。

1.并发性能

并发性能指在有限的系统资源下同时处理海量应用需求的能力。高并发经常出现在企业或行业的重大活动场景中(如电商行业的“双11”活动、企业的周年庆等)。高并发对数据工程的影响有以下两点。

• 数据量骤增:给后端的数据处理、计算和应用带来极大的挑战。

• 在线服务请求量骤增:给服务器负载、响应等带来极大的压力。

2.实时性能

实时性能指系统能够基于实时数据请求反馈实时结果的能力。实时数据反馈根据不同的应用场景,在时间延迟性上的要求不同。例如,在线推荐系统要求以毫秒级别反馈实时结果,而报表查询则可以延迟到秒甚至分钟级别。与实时性能对应的是流式架构的设计,包括实时数据流(流式日志)、流式计算、算法选择、模型训练与应用模式、服务与功能封装等。

3.系统I/O性能

系统I/O(Input/Output)性能指系统对大规模数据的输入和输出的支持能力。这种场景主要与云数据库、云存储场景相关,架构影响因素主要是存储技术、存储介质、网络带宽、空间与地域分布、冷热分布、数据压缩等。

4.计算性能

计算性能主要包括CPU计算能力和GPU计算能力两类,前者适用于具有复杂计算逻辑的计算任务,对应的物理架构是以CPU为核心的硬件集群;后者适用于具有简单计算逻辑但计算量巨大的计算任务,对应的物理架构是以GPU为核心的硬件集群。计算性能在涉及人工智能、深度学习、神经网络等应用场景时至关重要。除了CPU及GPU,内存、硬件、技术框架、算法和模型选择等也会影响计算性能。随着AI计算场景的日益增多,面向大规模深度学习和神经网络等复杂场景的专用芯片(如TPU、DPU、NPU、BPU等)正成为算力保障的重要硬件支撑。