Python
未读Python HTTP
其实Python采集网络数据以及与用户交互的能力或许没有JavaScript强,但是对采集到的数据进行分析,二次加工以及数据库存储的能力就要好很多。随着社会的发展,科学技术的提升,发展的不只有爬虫技术,还有反爬技术和企业对数据保护的重视程度。许多视频的部分案例已经失效,包括O’Reilly的部分老版书籍。反爬技术也是根据爬虫技术衍生而来的,只要我们不断地提高技术,可见即可爬。
Python爬虫思路
1.明确需求(Website)
2.发送请求(Request)
请求方式:Get、Post
请求URL:URL全称统一资源定位符,如一个网页文档、一张图片、一个视频等都可以用URL唯一来确定
请求头:头部信息如User-Agent、Host、Cookies等信息
请求体:请求时额外携带的数据,如表单提交时的表单数据
3.获取数据(Response)
响应状态:有多种响应状态,如200代表成果、301跳转、404找不到页面、502服务器错误等
响应头:如内容类型、内容长度、服务器信息、设置Cookie等
响应体:最主要的部分、包含了请求资源的内容,如网页的HTML ...