计算机处理自然语言的过程具有“四化”:形式化——算法化——程序化——实用化,具体如下。
(1)形式化:把需要研究的问题在语言上建立形式化模型,使其以数学形式严密规整地表示出来,这个过程就是“形式化”。
(2)算法化:把数学模型表示为算法的过程称为“算法化”。
(3)程序化:根据算法建立自然语言处理系统,这个过程就是“程序化”。
(4)实用化:对系统进行评测和改进最终满足现实需求,这个过程就是“实用化”。
自然语言处理流程如图1-4所示。
图1-4 自然语言处理流程