Mitigating OOD overoptimism via in-sample value function in offline reinforcement learning.

Wenhui Liu Kangyang Luo Zhijian Wu Shanfeng Hao Dingjiang Huang Mitigating OOD overoptimism via in-sample value function in offline reinforcement learning. 2026 108763 200 Neural Networks https://doi.org/10.1016/j.neunet.2026.108763 db/journals/nn/nn200.html#LiuLWHH26 streams/journals/nn