自适应大语言模型背后的架构、Transformer-Squared 的数学与代码,以及奇异值分解