随着DeepSeek、ChatGPT、Sora等人工智能大语言模型技术的迅速发展,学校紧跟新时代技术变革的趋势,积极部署数字化赋能教育强国建设,深入推进中华民族共同体学交叉学科建设,推动知识大模型工作不断取得进展。
近日,学校“民族文化智能计算与安全治理”科研团队创新性地将人工智能技术与民族事务治理深度融合,成功上线“铸牢中华民族共同体意识知识大模型”,探索出一条服务国家战略需求、有效铸牢中华民族共同体意识的新路径。
该科研团队由计算机科学学院张潇副教授负责,团队构建了民族工作领域首个大模型训练自有语料库。该语料库以党的民族理论政策、《中华民族共同体概论》教材、三交史等为养料(1324.4万字),辅以涉民族领域法规数据库、相关学术论文(4411.1万字)。此外,从各级网站获取约4000万字语料以及1万道问答对。形成了民族工作领域大模型建设的正能量内容供给,从底层逻辑上有效解决了大模型价值观引导等问题。依托该自有语料库,通过对基于Transformer架构的千亿级别基础模型Qwen2—7B—base进行增量预训练、指令微调和检索增强生成,打造面向中华民族共同体意识理解与价值观对齐的大语言知识模型,并基于强大的自然语言生成能力,实现对中华民族共同体学领域知识体系的精准理解。

“铸牢中华民族共同体意识知识大模型”登录界面
目前,该模型已具备以下功能:一是支持互动式问答,可帮助用户深入了解中华民族多元一体的历史事件、文化习俗、传统艺术等知识;二是快速定位中华民族共同体学领域的研究成果,支持知识图谱构建;三是为《中华民族共同体概论》等相关课程提供教学资源动态更新,以及民族学文献、口述史、非遗影像等资源的智能化采集与增量式扩充等多项支持;四是帮助用户解析国家民族政策,分析全国民族团结进步典型案例,提炼可推广的经验模式。
该模型上线后,张潇副教授团队将继续整合相关领域研究优势资源,分阶段推进“铸牢”大模型系统完善。