《python网络数据采集》--好书推荐 - Python

　　一个前辈推荐的一本新书,
书到后很快就觉得这是好书。
　　就想要系统的读这本书,
同时也想和大家分享一下。
　　下面是这本数的大致目录
第一部分创建爬虫第一章复杂的HTML解析 BeautifulSoup库 Lambda表达式超越BeautifulSoup第二章开始采集遍历单个域名采集整个网站通过互联网采集用Scrapy采集第三章使用API API概述 API通用规则服务器响应 Echo Nest Twitter API Google API 解析JSON数据第四章存储数据把数据存储到CSV 把数据存储到MongoDB第五章读取文档文档编码纯文本 CSV PDF 微软Word和.docx第二部分高级数据清洗第六章数据清洗编写代码清洗数据数据存储后清洗数据第七章自然语言处理概括数据马尔代夫模型自然语言工具包其他资源第八章穿越网页表单与登录窗口进行采集 Python Requests 库提交一个基本表单单选按钮.复选框和其他输入提交文件和图像处理登录和cookie 其他表单问题第九章采集JavaScript Ajax和动态HTML 处理重定向第十章图像识别与文字处理 OCR库概述处理格式规范的文字读取验证码与训练Tessract 获取验证码提交答案第十一章避免采集陷阱伪装爬虫常见表单安全措施问题检查表第十二章用爬虫测试网站测试简介 Python测试单元 Selenium单元测试 Python单元测试与Selenium单元测试的选择第十三章远程采集 Tor 代理服务器远程主机