二、政策学习中的自我更新