🚅 大概今年的3-4月份,我尝试自己从头预训练了一个单细胞转录组大模型STELLA,有人类和小鼠两个版本。由于市面上现有单细胞转录组大模型数量太多(Geneformer,scGPT,scFoundation,LangCell,Cell2Sentence等),这个模型预感可能发表不出去了😢。这个项目就当做自己的一个练手项目吧……🥲🥲🥲。整个训练流程完全基于huggingface生态进行开发,数据集构建采用datasets模块,模型训练使用transformers的Trainer,自己也是第一次手搓大模型,也是边学习边写,有些过程还是比较难写的(例如DataCollator等),自己也debug了很多代码,学习了很多huggingface代码工程化思想,收益很多。虽然模型可能发表不出去了,但是整个仓库代码个人认为写的还是比较清晰的(某中科院大佬点赞称比已经发表的大模型代码好读很多~😂(bushi)),适合刚入门大模型的同学学习提升自己的代码能力,熟悉整个构建流程。
[Read More]