北京人工智能数据运营平台发布,并开源超大规模高质量数据集

By admin

2024-06-15 08:38:35

浏览量36858

已赞0

Image

北京商报讯(记者 杨月涵)6月14日,2024北京智源大会正式开幕,智源大会“人工智能+数据新基建”论坛同步召开。大会现场发布了“北京人工智能数据运营平台”。据介绍,北京人工智能数据运营平台实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。

目前,数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用。“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益。“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。

大模型在行业应用时面临着核心的挑战——海量、优质的行业数据集严重匮乏。当前已知的所有开源行业数据集(文本类)仅有约1.2TB,远远无法满足千行百业的模型需求。为此,论坛上,智源研究院还发布了全球最大的多行业中英双语数据集IndustryCorpus 1.0,大幅度提升了全球开源行业数据集的数据量,为大模型的行业落地提供了强有力的保障。

据了解,该数据集包含3.4TB开源的行业预训练数据(中文1TB,英文2.4TB),0.9TB的非开源定向申请的行业预训练数据,以及医疗和教育两个领域的开源高质量指令微调数据共61.3万条。

IndustryCorpus 1.0覆盖了18类行业的预训练数据集,其中科技类334GB,法律类275GB,医学类189GB,金融类198GB,新闻类564GB。除此之外,还包含教育、旅游、体育、汽车等,未来将进一步扩展至30类行业。同步发布的还有医疗和教育两个领域的指令微调数据集。IndustryCorpus 1.0的发布,有望大幅提升模型在专业领域的知识性,助力大模型的行业落地应用。


发表评论
请先 注册/登录 后参与评论

已有0 发布

默认   热门   正序   倒序
    查看更多评论
    ad广告3

    智能推荐

    八部门:推动区块链、大数据、人工智能、5G等新一代信息技术在新型储能制造业广泛应用
    2025-02-17
    马斯克明天中午发布“地球上最聪明的人工智能”,未来AI竞争三足鼎立?
    2025-02-17
    Amy送餐机器人人形外观自主配送菜品介绍迎宾接待上菜机器人 人形送餐机器人
    2024-07-07
    天博智 阿博特 AI人形机器人编程教育套装图形化可编程STEAM教育早教 阿博特AI人形机器人(教育版-带磁吸传感器套装)
    2024-07-07
    Apple/苹果 Watch Series 9 智能手表GPS款41毫米星光色铝金属表壳 星光色运动型表带S/M MR8T3CH/A
    2024-07-07
    小天鹅(LittleSwan)滚筒洗衣机全自动家用【TG100APURE】深层除菌螨 10公斤大容量 排名前十名 以旧换新 超薄 内衣洗
    2024-07-07
    美的(Midea)16升安睡M9燃气热水器天然气 一级静音2.0低噪增容水伺服 无极变频增压JSQ30-M9 Max以旧换新
    2024-07-07
    小米14 徕卡光学镜头 光影猎人900 徕卡75mm浮动长焦 澎湃OS 16+512 白色 5G AI手机 小米汽车互联
    2024-07-07
    华为(HUAWEI)旗舰手机 Mate 60 Pro+ 16GB+512GB 宣白
    2024-07-07
    Apple/苹果 iPhone 15 Pro (A3104) 256GB 白色钛金属 支持移动联通电信5G 双卡双待手机
    2024-07-07
    小猿学练机《趁早礼盒》升级款 旗舰款 教材同步练 AI错题本 墨水屏 猿辅导学习机 小猿智能练习本S2
    2024-07-07
    科大讯飞AI学习机T20 Pro (8+512GB) 星火大模型 学生平板小学到高中 幼小初高全龄段护眼家教机 13.3英寸
    2024-07-07
    ad广告4
    ad广告5