标签:Skywork-13B-Base模型

10月31日

10月31日·周二 斯坦福大学和纽约州立大学布法罗分校研究团队提出新技术Monarch Mixer:比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了 斯坦福...