设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

Scrapy 1.2.0发布,web爬虫框架

2016-10-6 16:52| 发布者: joejoe0332| 查看: 401| 评论: 0|原作者: oschina|来自: oschina

摘要: Scrapy 1.2.0 发布了。Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。更新内容:新特性NewFEED_EXPOR ...

Scrapy 1.2.0 发布了。

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。

更新内容:

新特性

  • New FEED_EXPORT_ENCODING setting to customize the encoding used when writing items to a file. This can be used to turn off \uXXXX escapes in JSON output. This is also useful for those wanting something else than UTF-8 for XML or CSV output (#2034).

  • startproject command now supports an optional destination directory to override the default one based on the project name (#2005).

  • New SCHEDULER_DEBUG setting to log requests serialization failures (#1610).

  • JSON encoder now supports serialization of set instances (#2058).

  • Interpret application/json-amazonui-streaming as TextResponse (#1503).

  • scrapy is imported by default when using shell tools (shell,inspect_response) (#2248).

Bug 修复

  • DefaultRequestHeaders middleware now runs before UserAgent middleware (#2088).Warning: this is technically backwards incompatible, though we consider this a bug fix.

  • HTTP cache extension and plugins that use the .scrapy data directory now work outside projects (#1581).  Warning: this is technically backwards incompatible, though we consider this a bug fix.

  • Selector does not allow passing both response and text anymore (#2153).

  • Fixed logging of wrong callback name with scrapy parse (#2169).

  • Fix for an odd gzip decompression bug (#1606).

  • Fix for selected callbacks when using CrawlSpider with scrapy parse(#2225).

  • Fix for invalid JSON and XML files when spider yields no items (#872).

  • Implement flush() for StreamLogger avoiding a warning in logs (#2125).

下载地址:


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部