人民网北京10月11日电(记者赵竹青)近日,人民网依托传播认知内容国家重点实验室构建的“主流价值语料库”,被国家数据管理局数据评选为优质数据集常见案例。 10月10日,国家数据管理局官方微信公众号对此案进行了专题报道。
语料库就像人工智能的“教材”,深刻影响着人工智能的政治立场、定位取向和伦理边界。人民网语料库的基本价值主要集中在习近平新时代中国特色社会主义思想和现代中国风格所涉及的经济、政治、文化等十几个领域。依托优质新闻资讯、理论评论、政策法规、科普内容党报、党的网站长期建设产生的知识。资源科学、采集、采集、清理标注、培育、风险控制,精心打磨六类语料库:主语料库、图文语料库、重点领域语料库、语料问答库、事实语料库、风控语料库。相关结果已被许多大型模型的主要制造商应用和证明。
截至目前,语料库主值总规模已超过300TB,其中主语料超过300亿字,问答语料超过30万条。这是国内规模最大、实力最强的语料库。
人民网主语料库价值建设具有三大创新亮点:
首先是高质量语料库建设范式的转变。针对大机型面临的瓶颈问题,人民网全体成员齐心协力试图设置问题manu-manu-man,回答manu-mano,并进行三项测试和三项校对。结合大模型、自然语言处理等采集、清洗、标注、风控等技术切入,以“笨功夫”和“聪明功夫”的有机结合,推动高质量语料库的高效构建。
二是优质语料技术体系的变革。依托通信数据国家重点实验室的技术、计算资源和数据认知认知,研究基于大模型和归属模型的语料数据自动分类、精细标注和系统化技术,开发语料处理基础成本的全栈语料处理工具和可控共享服务平台。
三是质量语料库智慧生产方式的变革。凝聚新闻政策、政策、作品、流行语等素材,打造专业适合多领域的专业语料库和语料生成模型,结合人类经验进行多维度修正,完善输出内容。
2025年1月,人民网主流价值语料库在中国网络空间安全协会搭建的互联网互联网语料库资源平台上发布。目前,人民日报与多地省级媒体开展共建共享合作,并积极参与北京、上海等地区语料库联盟建设,持续推进基础语料价值在更大范围内的深度应用与合作。
(编者:赵竹清、卢茜)
关注公众号:人民网财经
分享这么多人都能看到