10月12日,由追一科技主办、南京大学计算机软件新技术国家重点实验室协办的“首届中文NL2SQL挑战赛”总决赛答辩暨颁奖典礼在南京大学举行。经过最终决赛的5强选手队伍现场分享答辩和现场评委考评,国防科技大学选手团队夺得冠军,国双科技团队获得亚军,观安信息与妙盈科技联合团队获得季军,华南理工大学与佛罗里达大学的选手队伍,以及浙江大学的团队则获得优胜奖。
由众多人工智能权威专家组成的评委团,包括中国移动研究院首席科学家冯俊兰、复旦大学教授肖仰华、新加坡南洋理工大学副教授毛可智、南京大学教授俞扬、追一科技CTO刘云峰等产学研多方代表,在决赛现场对选手们的技术方案,进行了专业的分析点评,从而产生最终结果。
随着NLP基础能力发展,自然语言转换可执行的SQL语句,访问数据库等一系列复杂的人机交互正逐渐成为可能。此次大赛短短几个月里,顶级选手模型方案准确率达到92%以上,刷新业界记录。
追一科技CTO刘云峰
“此次挑战赛参与规模、选手表现远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。
新一代数据库交互
NL2SQL(自然语言转结构化查询语句)作为新兴的研究领域,在国外由SalesForce耶鲁大学等发布了WikiSQL和Spider数据集,但在国内市场,目前还处于起步阶段。此次NL2SQL挑战赛是国内首次举办。
“大数据价值变现最大难题就是访问门槛太高”,嘉宾评委代表、复旦大学教授肖仰华表示,利用自然语言访问关系型数据库里的数据,一直是数据库业内梦想。太多的数据“沉睡”在关系表格里,使得这一愿望更变得日益迫切。
NL2SQL挑战赛点评评委、复旦大学教授肖仰华
作为此次比赛的主办方,追一科技联合创始人兼CTO刘云峰也表示,追一在服务企业的过程中的发现,很多企业的知识和数据都是以关系型数据库的形式存储,例如银行用户的消费记录、基金公司的基金属性、保险公司的保单记录等等,如果想更好地利用,“亟需将自然语言转换成可执行的机器语言技术”。
刘云峰认为,NL2SQL正是非常好的技术实现路径,“这也是追一科技发起比赛的原因。”
期间,追一科技发布了业内首个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句,并获得很多学界专家、产业界伙伴的支持,通过“产学研”等多方联动,希望提供一个平台,来推动NL2SQL研究和应用。
产学研参与
据了解,本次比赛吸引了海内外1457支队伍参与,包括院校、机构和企业开发者。
其中,学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。以及来自海外CMU、墨尔本大学、新加坡国立大学等顶级院校参与。
企业界的开发爱好者,则成为比赛的另一只重要力量。来自中国移动、平安集团、搜狗、达闼科技、中兴通讯、网宿科技、国双科技、捷通华声等众多企业的技术人员,也成为参赛队伍的重要力量。
院校与院校、企业与企业等联合“组队”挑战,成为比赛的一大亮点。比如5强中的华南理工与佛罗里达,上海观安信息与妙盈科技等,均为联合战队。
“众人拾柴火焰高”,刘云峰表示,这次比赛也是搭建一个桥梁,让学界、技术创业者、市场多方更好地联动,“让企业钉子找到‘锤子’,让学术和技术创业者的锤子找到‘钉子’。”
作为高校嘉宾代表,南京大学人工智能创新研究院院长詹德川表示,除了选手的热情和参与,更看重比赛的交流机会,“学界和产业界可以进行深入的交流。”他同时表示,产学研携手,“AI的热情不会进入冬天” 。此次活动中,南京大学计算机软件新技术国家重点实验室与追一科技合作,协办比赛,助力产学研合作。
南京大学人工智能创新研究院院长詹德川
经过多方努力,短短几个月里,NL2SQL中文领域研究快速突破。
比赛初期,准确率尚为60%多,至8月份初赛结束时,榜上头部分数已经达到89%,接近WikiSQL成绩。复赛结束时,选手最高成绩达到92%,刷新业界记录。并且,最终晋级决赛的5支队伍,个个都在“90分”以上。
“最终选手的成绩,完全超出了我们对于比赛的预期。”作为评委代表,肖仰华表示,实际上中文自然语言转SQL的挑战更大,选手们的成绩,不但让人惊喜,而且表现了深厚理论功底,对 学习、自然语言处理思路和模型的娴熟。
中国移动研究院首席科学家冯俊兰
作为来自产业界的专家评委,冯俊兰表示,NL2SQL是自然语言处理的一个非常重要的应用领域,涉及到多个自然语言处理领域的核心问题,非常开心看到这么多高水平的队伍参赛,并取得了非常好的成绩,也看了产、学、研在这个方向上共同提升技术的热情。
应用前景
如火如荼比赛背后,NL2SQL应用潜力,也受到了越来越多的瞩目。
业内人士表示, NL2SQL在银行、保险、证券、电商、汽车、地产等数据富矿领域,有很大的应用潜力,可以大大地降低数据库访问和使用门槛,提升人机交互体验,并更好地挖掘数据价值。
“今天在AI与数据库交互上,我们又一次看到了突破,新的想象空间。”对于此次比赛的举行,创新工场董事长兼首席执行官李开复也表示,期待看到追一和更多NLP开发爱好者,不断探索努力,推进NLP创新和普惠应用。
“此次挑战赛参与规模远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰博士表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。