3月24日下午,意大利米兰理工大学H.R. Karimi教授应邀与beat365官网进行线上学术交流,在南一楼312会议室为beat365官网师生做了一场题为“Principles of Reinforcement Learning”的学术报告。报告由刘骁康老师主持,beat365官网王燕舞教授、樊慧津教授等师生20余人参加了报告会。
H.R. Karimi 教授于1988年获得伊朗德黑兰沙里夫理工大学电力系统理学学士(第一荣誉)学位,并于2001年和2005年分别获得德黑兰大学控制系统工程硕士及博士(第一荣誉)学位。2009年至2016年在挪威阿格德大学担任机电一体化与控制系教授,自2016年起,担任意大利米兰理工大学机械工程系应用力学教授。研究方向包括鲁棒控制系统、振荡控制、故障诊断和工业健康监测等。Karimi 教授现为《Journal of Cyber-Physical Systems》,《Journal of Machines》,《International Journal of Aerospace System Science and Engineering》,《Journal of Designs》主编,《Journal of Electronics》、《Journal of Science Progress》区域主编,《Journal of The Franklin Institute》主题编辑,担任多个国际期刊编委,如《 Information Sciences》, 《IFAC-Mechatronics, International Journal of Robust and Nonlinear Control》等。Karimi 教授是Agder Academy of Science and Letters、IEEE不确定性系统技术委员会、工业网络物理系统委员会、IFAC机电系统技术委员会、鲁棒控制委员会和汽车控制委员会的成员,荣获2016-2019工程学科的高被引学者。
本次报告中,Karimi 教授首先回顾了多种机器学习方式的异同与优缺点,强调了强化学习在理论研究和实际应用的重要作用。Karimi教授以构建从环境中学习的智能体来解决控制任务的框架为主线,从强化学习的结构、智能体状态、行为、累积奖励、观察值、策略、学习方式等方面进行梳理和总结;接着分析了强化学习中探索与利用之间的矛盾,探索行为能够扩大搜索域但可能会造成行为浪费而利用行为能够带来即时收益但无法持续学习,然后Karimi介绍了采用贪婪算法和ε-贪婪算法来权衡探索和利用的方法;最后,Karimi教授引入马尔可夫决策过程作为描述强化学习过程的环境,给出了解决强化学习问题的策略和价值函数,并展示了一些示例。
报告内容充实丰富,现场气氛十分活跃。在座的各位同学也提出了自己感兴趣的问题。Karimi教授针对大家提出的有关强化学习中累积奖励,折扣因子,价值函数以及马尔可夫链、动态规划等问题,进行了有针对性的指导,大家获益匪浅。
本次报告加深了大家对强化学习原理的认识,对今后的科学研究具有一定的引导意义,给予同学们极大的启发与帮助。最后,刘老师对Karimi教授的精彩报告表示感谢。报告取得了圆满成功。