电子科技大学人工智能期末复习笔记(二):MDP与强化学习

本复习笔记基于李晶晶老师的课堂PPT与复习大纲,供自己期末复习与学弟学妹参考用。在上一节中,我们提到了Minimax是一种悲观算法,即考虑最坏的情况(WorstCase)从而使损失最小化。然而在实际操作过程中,...