分类目录归档:文本数据

自然语言处理领域数据集

WordNet
https://wordnet.princeton.edu/

IMDB评论(二元情感分类)
http://ai.stanford.edu/~amaas/data/sentiment/

Sentiment140(情感分析)
http://help.sentiment140.com/for-students/

博客作者身份语料库
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

欧洲语言的机器翻译数据集(法语——英语,西班牙语——英语,德语——英语,捷克语——英语)
http://statmt.org/wmt11/translation-task.html

中文文本分类数据集THUCNews
http://thuctc.thunlp.org/

Twenty Newsgroups
https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

Yelp评论数据集
https://www.yelp.com/dataset

维基百科语料库
https://corpus.byu.edu/wiki/