MAXWELL ASHFORD. Facilitating Cross-Domain Reasoning Generalization through Conservative Offline Reinforcement Learning Leveraging Pre-trained Large Language Model Representations. Computational Intelligence Systems, [S. l.], v. 4, n. 1, 2026. DOI: 10.66280/cis.v1i1.196. Disponível em: https://scivexus.org/index.php/CIS/article/view/196. Acesso em: 12 jul. 2026.