[ICLR 2021] 1편: 현실 문제를 풀기 위한 강화학습 연구

참고: [1] Belghazi, M. I., Baratin, A., Rajeswar, S., Ozair, S., Bengio, Y., Courville, A., & Hjelm, R. D. (2018). Mine: mutual information neural estimation. arXiv preprint arXiv:1801.04062.
[2] Berseth, G., Geng, D., Devin, C., Rhinehart, N., Finn, C., Jayaraman, D., & Levine, S. (2019). SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments. arXiv preprint arXiv:1912.05510.
[3] Hansen, N., Jangir, R., Sun, Y., Alenya, G., Abbeel, P., Efros, A. A., Pinto, L. & Wang, X. (2020). Self-supervised policy adaptation during deployment. arXiv preprint arXiv:2007.04309
[4] Zhang, A., McAllister, R., Calandra, R., Gal, Y., & Levine, S. (2020). Learning invariant representations for reinforcement learning without reconstruction. arXiv preprint arXiv:2006.10742.
[5] Zhao, R., Gao, Y., Abbeel, P., Tresp, V., & Xu, W. (2021). Mutual Information State Intrinsic Control. arXiv preprint arXiv:2103.08107.