开发者&在杭州,我们逛了一家“数据博物馆”
鱼羊 博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
你可能打卡过很多博物馆,但我敢说“数据博物馆”,肯定不在此列。
上百个开源数据集是展品,其中不乏来自电商、文娱等互联网领域的真实场景数据,更有来自工业、医疗等领域的产业稀缺数据。
还吸引了中国科学院国家天文台台长常进院士、创新工场首席科学家周明博士、阿里巴巴集团副总裁贾扬清、阿里巴巴青橙奖获得者王权等学者大咖纷纷前往围观。
不仅如此,“博物馆”还组织了一系列数据青年团聚活动,邀请青橙奖获得者、阿里星学长、技术KOL,与青年开发者畅聊《如何选择第一个工作》《AI的未来发展趋势与行业前景》等热门话题。
你或许想不到,这家“博物馆”是由阿里云天池在今年的杭州云栖发起。
文章插图
没错,就是那个“奖金丰厚”、“直通大厂”、“还能结♂识AI大神”,人称“中国数据类赛事第一品牌”的天池平台。
不过现在,你可不能仅仅把它看作一个刷简历的平台了。
阿里云天池平台开起了“博物馆”,这究竟是怎么一回事?
什么是“数据博物馆”?答案还得从现场获取。
文章插图
最吸引眼球的“展品”,当属行业大规模开源数据集。
【 开发者&在杭州,我们逛了一家“数据博物馆”】不仅数量多达上百个,还覆盖零售、文娱、工业、医疗、自然科学等数十个行业。既有来自真实业务场景的商品数据,也不乏跟产业界、学术界深入合作获得的宝贵科研数据。
更厉害的是,基于这些数据集产出的学术论文,已经有超过700篇。
文章插图
具体详情,我们不妨选取其中几个“经典款”,一起看个究竟。
比如新零售领域数据集,就有阿里淘系技术开源的家居行业数据集3D-FRONT,包含超过20,000张高清室内场景专业设计渲染图,可用于场景布局预测与生成等研究课题。
该数据集填补了业内大规模高质量3D场景布局标准数据集的空白,也因此获得了中国计算机图形学大会颁发的首个「图形开源数据集奖」。
文章插图
再比如文娱数据集方面,服务于产业的视频数据集同样不少。
曾应用于“MEDIA AI阿里巴巴文娱算法挑战赛”的Youku-TED数据集,共包含近3,000小时的55,000段视频,标注了含53类事件类别的近30万段视频事件。
作为一个大规模的视频时序事件检测数据集,正是展开智能生产、视频智能剪辑、生产安全监控、视频内容检索等热门应用研究的基础。
文章插图
更多方面,还有用于检测钢铁、布匹、酒瓶、瓷砖瑕疵的工业领域数据集,涉及遥感、气候、天文等领域的自然科学类数据集,以及医疗、交通、安全、数字城市等领域的数据集,都在开源列表之中。
值得一提的是,天池平台还广泛和外部机构合作,开放多个行业/学术benchmark。
像是由阿里达摩院、天池平台,以及浙江大学联合推出的MUGE榜单,就是一个用于多模态理解和生成评估的基准,这也是国内首个多模态方向的基准数据集。
文章插图
如此大批量的开源数据集,确实不负“数据博物馆”之名。
那么这些精品数据集又是从何而来?
阿里云开发者业务总监王一婷介绍,一方面,他们会与业务团队共建自有数据集;另一方面,天池主动与工业、学术界合作,产出大量高质量脱敏数据集;此外,平台还支持用户共享数据集,共同推动科研数据集开源生态的建设。
- 杨晓通&“当代女马可·波罗”意大利文讲述侨乡浙江瑞安非遗
- 打击乐&戏曲、交响乐、打击乐、古琴 中山公园音乐堂10场演出欢度春节
- 纸杯#美术生在杯子上画“知否”,当倒入水瞬间,网友:居老师挺住!
- 园林&从王安石到陆游的诗句只过了一百年,扬州却成了宋金两重天
- 错换人生&谁家子弟谁家院,“错换人生”DNA再掀波澜
- 郑兵$「诗歌欣赏」郑兵:那条河
- 王之心&四本开局就惊艳读者的小说,一看书名就想入坑,书荒的你值得拥有
- 和尚&司马迁记载奇案:和尚巧遇命案无辜被冤,县令发现破绽智破命案
- 海波东#斗破苍穹:云韵主题曲一出,拥抱结束,萧炎后悔在魔兽山脉当圣人
- 异途&庞大的反精英阶层让王朝由腐朽走向毁灭