博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Python项目】爬取新浪微博个人用户信息页
阅读量:4840 次
发布时间:2019-06-11

本文共 709 字,大约阅读时间需要 2 分钟。

微博用户信息爬虫

项目链接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboUserInfoCrawler

1 实现功能

这个项目是用来根据用户id爬取微博用户信息的数据,并写入sqlite数据库。

而这个用户id是在这个爬虫项目生成的weibo.sqlite数据库中读取的。所以想要爬自己有的一串用户id的数据的朋友,可能还需要在这个小爬虫上面再改改。

以及这个爬虫是需要自己微博登录的cookie的。

2 依赖环境

使用的是Python 3.7(在云上用过3.5也完全ok)。

需要额外的第三方库有yagmail(用来发送邮件),pandas,bs4, numpy。均可使用pip来安装。

pip install yagmail pandas bs4 numpy

3 使用方法

step1. 修改cookie.txt中的cookie改为自己微博登录的cookie。(如何获取还请额外百度,非常多教程!)

step2. 修改代码中的邮箱账号密码以及数据库路径。

step3. Run!

4 文件说明

包含两个文件。

cookie.txt

就是用来存放cookie的。

WeiboUserInfo.py

爬虫本体。

5 爬取示例

如果开始成功运行之后,控制台输出大概是这样的。

1545039042299

得到的user.sqlite结构就只有user一个表。

1545039128211

6 Contact Me

如果有什么Bug,或者改进建议。

请联系我!(924154233@qq.com)

转载于:https://www.cnblogs.com/IvyWong/p/10132810.html

你可能感兴趣的文章
线程安全总结
查看>>
Java获取正在执行的函数名
查看>>
vue 运行npm run dev报错
查看>>
HDU 1233 还是畅通工程
查看>>
HTTP状态码
查看>>
ArcEngine实现坐标转换和投影(转载)
查看>>
solr集群SolrCloud(solr+zookeeper)windows搭建
查看>>
LightOJ 1370 Bi-shoe and Phi-shoe(欧拉函数)
查看>>
51nod 1351 吃点心(贪心)
查看>>
Vim配置(python版)
查看>>
内核开发基础3——Linux内核配置与编译
查看>>
计算机组成原理复习
查看>>
BUPT复试专题—中序遍历序列(2013)
查看>>
【常见Web应用安全问题】---7、CRLF injection
查看>>
php7.2.1 安装
查看>>
用winrar解压时提示无法设置安全数据 拒绝访问的解决方法
查看>>
诡异的数学,数字问题 - leetcode
查看>>
交换输出
查看>>
设计模式-策略模式&状态模式&访问者模式
查看>>
python学习第三十三节(IO模型)
查看>>