首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
您的位置: 首页 > 实时讯息 >

​教育部:加快建设国家关键领域语料库和国家语言资源信息库

0次浏览     发布时间:2025-04-01 09:23:00    

中国网4月1日讯(记者 刘佳)日前,教育部、国家语委、中央网信办共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),对加快推进以信息化促进语言文字事业高质量发展,以数字化赋能语言文字更好服务现代化建设等,作出了全面部署。

3月31日,教育部举行新闻发布会,就《意见》进行全面解读。会上,相关负责人表示,今年将加快建设国家语言文字大数据中心、国家关键语料库和国家语言资源信息库,服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。

《意见》提出,到2027年,进入以数字中文建设为重点的强基示范阶段,形成语言文字信息化推进机制,推动语言文字信息化规范标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强;2035年,进入全面推进语言文字信息化发展的深化赋能阶段,推动承载中华文化的中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,实现中国语言文字信息化整体水平位居世界前列。

教育部语言文字信息管理司司长刘培俊介绍,今年将启动实施国家关键领域语料库建设计划。该语料库将在关键学科、重点行业、战略区域、民生期待和社会急需领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。

语料库将以建设语料基础设施为新基建,服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。目前,教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目,下一步,将根据需求稳步扩大建设范围,提升建设成效。

建设语料库,要逐步建立健全语料共建共享新机制;研制语言资源、语言数据、基础语料以及大语言模型的技术和管理标准;依托高校研究机构推进多学科交叉融合,为语言科技、语料建设以及人工智能创新应用培养高素质人才。

“当前以深度求索(DeepSeek)等为代表的人工智能技术创新不断取得突破性进展,在语言的教育教学和研究领域,有多个语料库。但是很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足。”教育部语言文字应用管理司副司长王晖表示,新型语料库将立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

2025年,教育部语言文字应用管理司已启动新型国家语料库的建设工作,开发建设“中华文脉新型语料库”“中华大阅读体系语料库”,以这两个示范库建设整体打造出标杆。在此基础上,探索建设系列教育、语言文化国家新型语料库群,服务教育强国、文化强国建设。

编审:张艳玲 王月博

相关文章