您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 中文语料库 >

现在有哪些中文的聊天语料库?

发布时间:2019-07-08 21:24 来源:未知 编辑:admin

  谢老哥邀请@霍华德, Evan@Evan已经写了不少了,我介绍一个马上要出来的百万级的多轮对话真实语料!

  京东举办了全球首届任务导向型多轮对话系统挑战赛!数据集为百万级真实数据,简直不能太赞!

  ps:没有接受任何京东的推广要求,只是我们实验室要参加这个比赛,就贴出来当为答案了。

  开放域聊天,高质量闲聊(聊天、对话)语料____dada_____新浪博客质量不错。

  并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。

  1. 三千万字幕语料,数据量比较大,有1G,数据质量比较差,不单是用字幕本身当做对话语料(不严谨),其次还有很多重复的字幕数据(电影、电视剧层面的重复),去重后有2200w+;自己动手做聊天机器人 二十九-重磅:近1GB的三千万聊天语料供出

  3.candlewill/Dialog_Corpus汇总的语料。由于从现有对话系统(eg:小冰、小黄鸡)对话得来,其质量比较难保证;

  7. 网友总结:中文开放聊天语料整理 - Python开发社区 CTOLib码库

  我看了一下,自己的微信还有电脑上的QQ记录是从来没有删除的【QQ是从高中就在用】,除去了图片,算周围人的,大概有100M,够用了。

  目前用了4部美剧来构建的这个语料库,以后有时间再扩展吧,求赞求Star~

http://gibsonfabrics.com/zhongwenyuliaoku/232.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有