这里简要交代PPO的算法原理及思想过程,主要记录自己的笔记,公式记录比较详细,我这里就不再赘述了,后面代码会紧紧贴合前面的内容,并且会再次提到一些细节。