您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 中文语料库 >

国内可用语料库

发布时间:2019-06-28 07:32 来源:未知 编辑:admin

  现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线万字,为分词和词性标注语料。

  网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

  《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

  中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。

  专 门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性 的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

  古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

  「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

  包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

  在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

  以 国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作 者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入 诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

  包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

  元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

  该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

  自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。 本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

  目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。

  (Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源)

  来源:互联网。共有词条3669276个。统计了每个词条的词频以及词性信息。尽请down。。 下载地址:提取码:7s4j

  某购物网站6w多的商品数据。链接:密码: vi4l 包括商品名称价钱。以及图片链接地址分类id

  国内可用免费语料库(凡没有标注不可用的链接均可用)原文链接一)国家语委1国家语委现代汉语语料库博文来自:pelhans的博客

  前文已经提及,汉语的语法和句型不同于英语,在进行分析之前需要进行分词。首先我们需要的是一个中文语料库,本文使用的是维基百科的中文语料库,大小约为1.57GB,下载之后从中提取中文语料库。再使用open...博文来自:reigns的博客

  数据说明整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富数据最终是一个json文件,每一行都是一个小的json{amp;amp;amp;amp;quot;_idamp;...博文来自:nghuyong的博客

  说明:引用此文请注明出处,并务请保留后面的有效链接地址,谢谢! 国内主要语料库总汇类型语料库名称及大...博文来自:Staticor的专栏

  中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。使用时请注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。 相关下载链接://do论坛

  爬虫数据采集接单,单个网站小规模采集100到200元,欢迎各位科研教师,学生,企业相关人员咨询,前言新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。...博文来自:非程序员的苦逼人生

  用于训练中英文对话系统的语料库DatasetsforTrainingChatbotSystem用于对话系统的中英文语料 本项目收集了一些从网络中找到的用于训练中文(英文)聊天机器人的对话语料公开语料搜...博文来自:

  源/专知语料内容该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短......博文来自:

  01-19本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据下载

  10-14这是关于微博情感分析的语料,类别分好,可以直接投入分析程序中使用,方便大家研究情感分类,免去大家写爬虫或API等方式爬取数据的烦恼下载

  07-23从百度百科词条知识库中爬取下来的百万条百科知识,可用于自然语言处理、QA问答、知识图谱、实体识别、关系抽取等技术研究下载

  百度百科全部词条,包含最新的百度百科全部词条,dic格式,解压后用notepad打开即可

  前言在做自然语言处理时很多时候都会需要中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。其中维基百科会定时将语料库打包发布

  seaboat——a free boat on the sea.(公众号:远洋号)

  语料库08-27电子邮件语料库,内含多篇中文电子邮件文本以及收发信息下载

  树莓派开发系列教程7——树莓派做web服务器(nginx、Apache)

  词向量之加载word2vec和gl...:可以给下word2vec训练时的参数吗?谢谢

http://gibsonfabrics.com/zhongwenyuliaoku/110.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有