加载中…
正文 字体大小:

scikit-learn - 20newsgroups

(2018-03-21 22:28:15)
分类: AI
导入

使用fetch_20newsgroups函数可以自动下载数据到 [Current user]\scikit_learn_data 下面

from sklearn.datasets import fetch_20newsgroups
all_data = fetch_20newsgroups(subset='all')

实际操作时报错下载时候发生IOError。网上搜到解决方法:
fetch_20newsgroups 数据集导入失败: no handlers could be fetch_20newsgroups

但是里面提到的scikit代码已经过时,正确的解决方法是:

1. 下载20news-bydate.tar.gz到~\scikit_learn_data\20news_home 下

2. 修改 D:\Python27\Lib\site-packages\sklearn\datasets\twenty_newsgroups.py 里面的 download_20newsgroups()函数,注释掉下面的代码

    logger.info("Downloading dataset from %s (14 MB)", ARCHIVE.url)
    archive_path = _fetch_remote(ARCHIVE, dirname=target_dir)

并添加

    archive_path = os.path.join(target_dir, r'20newsbydate.tar.gz')

注意要使用4个空格缩进。

3. 运行, fetch_20newsgroups会自动解压20news-bydate.tar.gz,生成缓存文件20news-bydate.pkz

使用

0

阅读 评论 收藏 转载 喜欢 打印举报
后一篇:YUV格式
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

    后一篇 >YUV格式
      

    新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有