csdn首页?如何使用python爬取csdn博客访问量
如何使用python爬取csdn博客访问量
最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能。
一、网址分析
进入自己的博客页面,网址为:*blog.csdn*/xingjiarong网址还是非常清晰的就是csdn的网址+个人csdn登录账号,我们来看一下下一页的网址。
看到第二页的地址为:*blog.csdn*/xingjiarong/article/list/2
后边的数字表示现在正处于第几页,再用其他的页面验证一下,确实是这样的,那么第一页为什么不是*blog.csdn*/xingjiarong/article/list/1呢,那么我们在浏览器中输入*blog.csdn*/xingjiarong/article/list/1试试,哎,果然是第一页啊,其实第一页是被重定向了,*blog.csdn*/xingjiarong被重定向到*blog.csdn*/xingjiarong/article/list/1,所以两个网址都能访问第一页,那么现在规律就非常明显了:
*blog.csdn*/xingjiarong/article/list/+页号
二、如何获取标题
右键查看网页的源代码,我们看到可以找到这样一段代码:
我们可以看到标题都是在标签
所以我们可以使用下面的正则表达式来匹配标题:
(.*?)
三、如何获取访问量
拿到了标题之后,就要获得对应的访问量了,经过对源码的分析,我看到访问量的结构都是这样的:
阅读(1140)
括号中的数字即为访问量,我们可以用下面的正则表达式来匹配:
阅读((.*?))
四、如何判断是否为尾页
接下来我们要判断当前页是否为最后一页,否则我们就不能判断什么时候结束了,我找到了源码中‘尾页’的标签,发现是下面的结构:
下一页尾页
所以我们可以用下面的正则表达式来匹配,如果匹配成功就说明当前页不是最后一页,否则当前页就是最后一页。
尾页
五、编程实现
下面是完整的代码实现:
#!usr/bin/python
#-*- coding: utf-8-*-
”’
Created on 2016年2月13日
@author: xingjiarong
使用python爬取csdn个人博客的访问量,主要用来练手
”’
import urllib2
import re
#当前的博客列表页号
page_num= 1
#不是最后列表的一页
notLast= 1
account= str(raw_input(‘输入csdn的登录账号:’))
while notLast:
#首页地址
baseUrl=’*blog.csdn*/’+account
#连接页号,组成爬取的页面网址
myUrl= baseUrl+’/article/list/’+str(page_num)
#伪装成浏览器访问,直接访问的话csdn会拒绝
user_agent=’Mozilla/4.0(compatible; MSIE 5.5; Windows NT)’
headers={‘User-Agent’:user_agent}
#构造请求
req= urllib2.Request(myUrl,headers=headers)
#访问页面
myResponse= urllib2.urlopen(req)
myPage= myResponse.read()
#在页面中查找是否存在‘尾页’这一个标签来判断是否为最后一页
notLast= re.findall(‘尾页’,myPage,re.S)
print’—————————–第%d页———————————‘%(page_num,)
#利用正则表达式来获取博客的标题
title= re.findall(‘(.*?)’,myPage,re.S)
titleList=[]
for items in title:
titleList.append(str(items).lstrip().rstrip())
#利用正则表达式获取博客的访问量
view= re.findall(‘阅读((.*?))’,myPage,re.S)
viewList=[]
for items in view:
viewList.append(str(items).lstrip().rstrip())
#将结果输出
for n in range(len(titleList)):
print’访问量:%s标题:%s’%(viewList[n].zfill(4),titleList[n])
#页号加1
page_num= page_num+ 1
下面是部分结果:
输入csdn的登录账号:xingjiarong
—————————–第1页———————————
访问量:1821标题:python编程常用模板总结
访问量:1470标题:设计模式之UML(一)类图以及类间关系(泛化、实现、依赖、关联、聚合、组合)
访问量:0714标题:ubuntu14.04安装并*MyEclipse2014
访问量:1040标题:ubuntu14.04配置tomcat8
访问量:1355标题:j*a调用python方法总结
访问量:0053标题:J*a多线程之Callable和Future
访问量:1265标题:跟我学汇编(三)寄存器和物理地址的形成
访问量:1083标题:跟我学汇编(二)王爽汇编环境搭建
访问量:0894标题:跟我学汇编(一)基础知识
访问量:2334标题:j*a多线程(一)Race Condition现象及产生的原因
访问量:0700标题:Matlab矩阵基础
访问量:0653标题:Matlab变量、分支语句和循环语句
访问量:0440标题:Matlab字符串处理
访问量:0514标题:Matlab运算符与运算
访问量:0533标题:Matlab的数据类型
—————————–第2页———————————
访问量:0518标题:OpenStack设计与实现(五)RESTful API和WSGI
访问量:0540标题:解决Android SDK Manager下载太慢问题
访问量:0672标题:OpenStack设计与实现(四)消息总线(AMQP)
访问量:0570标题:分布式文件存储FastDFS(五)FastDFS常用命令总结
访问量:0672标题:分布式文件存储FastDFS(四)配置fastdfs-apache-module
访问量:0979标题:分布式文件存储FastDFS(一)初识FastDFS
访问量:0738标题:分布式文件存储FastDFS(三)FastDFS配置
访问量:0682标题:分布式文件存储FastDFS(二)FastDFS安装
访问量:0511标题:OpenStack设计与实现(三)KVM和QEMU浅析
访问量:0593标题:OpenStack设计与实现(二)Libvirt简介与实现原理
访问量:0562标题:OpenStack设计与实现(一)虚拟化
访问量:0685标题:食堂买饭的启示
访问量:0230标题:UML之时序图详解
访问量:0890标题:设计模式之桥梁模式和策略模式的区别
访问量:1258标题:设计模式(十二)责任链模式
总结:
使用python编写爬虫,我个人总结了以下的步骤:
1、分析要抓取的网址特征,以确定如何生成相关网页的网址,如果只爬取一个网页,则这一步可以省略。
2、查看网页的源码,分析自己想要爬取的内容所在的标签的特征。
3、使用正则表达式从源码中将自己想要的部分抠出来。
4、编程实现。
csdn是什么
csdn
*最大的开发者技术社区
—-《程序员》刊物官方网站
它是集新闻、论坛、群组、Blog、文档、下载、读书、Tag、网摘、搜索、.NET、J*a、游戏、视频、人才、外包、第二书店、《程序员》等多种项目于一体的
大型综合性IT门户网站,它有非常强的专业性,其会员囊括了*地区百分之九十以上的优秀程序员,是至今为止,在IT技术交流及其周边国内中第一位的网站。
======================================
CSDN有以下热门频道:
NetBeans频道 *netbeans.csdn*/
J*a频道 *j*a.csdn*/
DOTNET频道 *dotnet.csdn*/
数据库频道 *database.csdn*/
中间件频道 *middleware.csdn*/
软件研发频道 *sd.csdn*/
软件测试频道 *testing.csdn*/
SOA频道 *soa.csdn*/
CIO/CTO频道 *cio.csdn*/
安全频道 *safe.csdn*/
业务平台 *bpm.csdn*/
移动频道 *mobile.csdn*/
=======================================
关于CSDN人才服务业务
CSDN专注为IT专业人士及IT企业提供“集成化信息传播与服务平台”, CSDN拥有全球最大的中文IT技术社区,形成了网站,杂志、图书、电子商务、企业服务、教育培训等关联专业业务互动的商业模式。
1、CSND业务结构:
2、关于CSDN会员:
截止2005年1月,CSDN社区拥有 850,000注册会员,来自19, 000 IT企业。到2005年12月,CSDN社区注册会员已超过100万,企业会员超过2万。
3、关于CSDN会员:
CSDN的媒体优势和内容优势,同时为企业宣传企业文化、人才观和用人之道,提供了有力的舞台。CSDN对招聘信息和人才数据进行实时跟踪,对需求进行分类汇总,根据需求共性推出系列人才需求报告、薪酬报告、人事外包服务等,有针对性地为企业选拔合格人才。
4、关于CSDN人才频道:
人才频道首页(*job.csdn*/)日访问量:5万以上(*IP)。人才频道相关页面日访问量20万以上(PV)。人才相关新闻日点击量:8万左右(PV)。
5、关于CSDN人才服务的成功案例:
目前在CSDN注册人才招聘业务的企业数量,已经达到5000家以上。目前与CSDN合作的人才项目企业会员数量,已经超过了700家。诸如:IBM、SUN、微软亚洲工程院、微软亚洲研究院、GOOGLE、百度、华为技术、盛大、数位红、新浪、搜狐、平安保险、神州数码、瑞星、金碟中间件、趋势科技等。
====================================
CSDN人才服务业务报价
我们的服务项目
1、基本会员服务描述:
以企业级会员身份注册登陆和发布招聘信息,不限职位数。招聘信息直接进入CSDN技术职位库,CSDN注册会员可以查看到企业在服务期限内的招聘信息。
企业可以查询和下载CSDN技术人才简历库简历。查询简历数量:不限(查询结果只显示简历部分内容);下载简历数量:20个/月。
招聘信息可以出现在人才频道“最新招聘企业”栏目中(滚动出现),停留时间根据一段时间的业务状况决定。
招聘职位可以出现在CSDN所有新闻页面右侧[N4]、以及CSDN论坛所有帖子页面左侧[P5]“最新招聘信息”文字链中(滚动出现),停留时间根据一段时间的业务状况决定。
根据选题规划的具体情况,将企业招聘信息列入CSDN技术人才周刊(newsletter)招聘列表中,向用户发送。
2、星级会员套餐方案:
3、特色服务项目:
CSDN在线招聘说明会:由CSDN策划、组织和实施,为企业定制招聘会。根据企业的需求及宣传重点,由CSDN策划访谈提纲,邀请企业用人部门和HR部门负责人,与网友在线聊天,向开发者在线宣讲企业文化和用人之道,并回答网友针对企业的提问。网友可通过活动报名直接向企业投递简历。CSDN将对活动进行报道,并在CSDN网站或《程序员》杂志上刊登。
CSDN自今年年初以来,已经成功举办了多场在线招聘会,邀请到了IBM*研究中心、微软亚洲工程院、BEA*、百度在线、智乐软件等多家*做客CSDN聊天室,为企业宣传企业文化和用人之道、扩大招聘效果、吸引优秀人才,提供了舞台。
相关费用:根据活动的场次和规模,单独按项目报价。
共建企业招聘专区、企业人才库:CSDN将根据企业的需求情况,为企业度身定做适合企业的招聘专区/专题,或人才储备库。CSDN将派专人对专区和人才库做定期的维护,并定期向企业提交阶段报告。(例:成功为IBM*研发中心和CISCO*研发中心建立专业人才库)
相关费用:根据专区的规模、工作量以及提交的数据报告,单独按项目报价。
人力资源外包服务和猎头服务:CSDN拥有强大的技术专家群,业界处于绝对领先的地位。CSDN将根据企业的需求情况,向企业推荐高端人才。
相关费用:按业内标准进行具体磋商。
=========================================
CSDN人才相关部分广告位报价明细
CSDN人才招聘网首页广告(*job.csdn*/)
CSDN首页首屏广告(**csdn*/)
CSDN社区子论坛广告(*community.csdn*/)
CSDN登陆页面广告(*passport.csdn*/member/UserLogin.aspx)
CSDN新闻页面广告(*news.csdn*/)
CSDN论坛帖子页面广告(*community.csdn*/)CSDN企业后台管理功能介绍
=================================
CSDN会员注册方法
登陆CSDN人才频道首页*job.csdn*/,点击“企业会员登陆”,进入注册页面。
如果是新会员,直接点击“注册”,完成一系列注册流程(只花费3~5分钟即可完成)。注册完成后,系统提示,“目前还不能发布职位,CSDN工作人员会在2个工作日内联系你”。待CSDN审核通过后,企业方可登陆,发布招聘职位。
登陆后,进入CSDN企业后台管理界面,包括:
【我的资料】企业可以更改注册信息、修改密码。
【招聘人才】实现发布职位、搜索人才、以及简历筛选功能。
【职位列表】企业可以看到每一个职位收件箱里简历投递的情况。
【发布职位】企业可以发布职位、增加职位、修改职位信息、刷新职位
【搜索人才】企业可以通过关键字搜索自己需要的简历。可以在线查看简历,也可以下载简历。
【预览简历】企业进入简历库以后,可以查看CSDN软件人才库的所有人才的信息。
此外,CSDN还提供了“点击及简历计数统计功能”,以方便企业评估招聘推广的效果。
还有关于
CSDN人才服务业务介绍
CSDN人才服务业务报价
CSDN企业后台管理介绍
CSDN视频频道
csdn的资源怎么下载到电脑上
csdn的资源是需要积分下载的;需要的积分数量是由资源上传者上传时标定的。分以下两种情况:
1、如果资源下载积分值为0的话,您只需要登录即可下载(如果没有账号注册一个就可以);
2、如果资源下载积分值大于0,则需要你的账户有大于资源的积分值才能成功下载。
csdn的赚取积分的方式有多种,如:充值、上传资源、评价资源等,这也是当下很多网站论坛提升活跃度的方法。
本文链接:http://www.loijie.com/html/87959155.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。