在人工智能的发展中,算法、算力和数据是三大关键要素,其中语料数据是决定大模型能力的天花板。高质量的语料数据为模型提供了丰富的训练素材,使算法能够学习和理解复杂的语言模式和语义结构。因此,语料数据在大模型开发中起到了决定性作用,是模型能力提升的关键基础。
7月6日,由大模型语料联盟、上??馀了伎萍加邢薰尽⑸虾J惺绦?、上海市人工智能行业协会联合主办的“语料筑基,智生时代”2024WAIC语料主题论坛在上海世博中心隆重举行。万达信息股份有限公司(简称“万达信息”)高级副总裁李光亚先生作为受邀企业代表出席本次论坛,并在论坛上发布了“智慧医疗语料数据集”产品。
本次论坛围绕高质量语料数据如何高效供给赋能大模型产业发展,通过专业化、链接型、前瞻性三个维度,向市场传递重构语料生态的顶层设计理念。会上,各路大咖就“大模型的演进”、“语料数据的供给”以及“构建方法与路径”等问题做了深入的阐述和交流。
为打响高质量语料品牌,进一步激发市场主体语料创新活力,增强供给侧能级,加速医疗健康、城市交通等重点行业的大模型产业发展,会上万达信息、复旦大学智能医学研究院、上海工创中心等单位集中发布了十大语料数据产品。万达信息作为国内大数据领域的先行者,本次发布了“智慧医疗语料数据集”。该产品覆盖10000多种疾病知识、1500项检查检验知识、10万条药品说明书、1000余份专家共识和临床指南:500+疾病、600 多证型、1000 多种方剂、2000 多种中药、10000多个中医标准术语等,训练实体500万个,关系2000万条,总训练Token数达60亿,主要应用于电子病历、智能问诊、风险预测、辅助诊断等七大医疗场景。
高质量、大规模、安全可信的语料资源是迈向AI时代的重要基石。因此,本次论坛上发布了“语料生态服务大模型可持续发展倡议”, 旨在建立模型训练、语料供给、学术研究、第三方服务等多方机构合作机制,携手打造资源共享、互利共赢、国际融通的“语料生态圈”,有力支撑大模型科研攻关,更好推动大模型产业创新发展。
万达信息作为共同发起方,遵循“大模型语料数据联盟”语料建设导则规范;构建医疗健康多模态语料采集、预处理、标注、对齐、应用专用工具集;实现模型精调、压缩量化,支撑大模型快速场景适配;实现多算力资源下模型服务构建、模型混合管理及推理快速部署服务;支撑赋能医疗健康大模型应用高效训练、供给、运营一站式服务。
“语料筑基,智生时代”,随着大数据和云计算技术的发展,自然语言处理技术的不断进步,更好地理解和处理人类语言,从而推动智慧应用的广泛落地将成为数字化时代最重要的时代特征。万达信息将持续布局前沿语料数据,深化语料构建方法,加强语料运营规范,为高质量语料数据赋能大模型产业发展作出贡献。