【Python项目】爬取新浪微博个人用户信息页

阅读量：4840 次

发布时间：2019-06-11

本文共 709 字，大约阅读时间需要 2 分钟。

微博用户信息爬虫

项目链接：https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboUserInfoCrawler

1 实现功能

这个项目是用来根据用户id爬取微博用户信息的数据，并写入sqlite数据库。

而这个用户id是在这个爬虫项目生成的weibo.sqlite数据库中读取的。所以想要爬自己有的一串用户id的数据的朋友，可能还需要在这个小爬虫上面再改改。

以及这个爬虫是需要自己微博登录的cookie的。

2 依赖环境

使用的是Python 3.7（在云上用过3.5也完全ok）。

需要额外的第三方库有yagmail（用来发送邮件）,pandas，bs4, numpy。均可使用pip来安装。

pip install yagmail pandas bs4 numpy

3 使用方法

step1. 修改cookie.txt中的cookie改为自己微博登录的cookie。（如何获取还请额外百度，非常多教程！）

step2. 修改代码中的邮箱账号密码以及数据库路径。

step3. Run！

4 文件说明

包含两个文件。

就是用来存放cookie的。

WeiboUserInfo.py

爬虫本体。

5 爬取示例

如果开始成功运行之后，控制台输出大概是这样的。

1545039042299

得到的user.sqlite结构就只有user一个表。

1545039128211

6 Contact Me

如果有什么Bug，或者改进建议。

请联系我！(924154233@qq.com)

转载于:https://www.cnblogs.com/IvyWong/p/10132810.html

你可能感兴趣的文章

ArcEngine实现坐标转换和投影（转载）

查看>>

solr集群SolrCloud（solr+zookeeper）windows搭建

查看>>

LightOJ 1370 Bi-shoe and Phi-shoe（欧拉函数）

内核开发基础3——Linux内核配置与编译

查看>>

计算机组成原理复习

查看>>

BUPT复试专题—中序遍历序列(2013)

查看>>

【常见Web应用安全问题】---7、CRLF injection

查看>>

php7.2.1 安装

查看>>

用winrar解压时提示无法设置安全数据拒绝访问的解决方法

查看>>

诡异的数学,数字问题 - leetcode