📄 中文摘要
化学反应预测在加速药物发现和合成规划中至关重要。尽管数据驱动模型取得了一定进展,但当前方法受到参数和数据集规模过度强调的限制。一些方法结合了评估技术,绕过了反应表示中的基本挑战,未能捕捉到深层的化学直觉,如反应常识和拓扑原子映射逻辑。核心挑战在于如何将这些知识融入模型中。为此,提出了一个统一框架,通过三项关键创新优先考虑化学理解而非规模:1)潜在化学一致性目标,将反应建模为在连续化学空间中的运动;2)分层课程学习策略,逐步引导模型学习复杂的化学知识;3)紧凑型大语言模型设计,以提高计算效率和预测准确性。