首页 > 各地文化归纳

csdn首页?如何使用python爬取csdn博客访问量

csdn首页?如何使用python爬取csdn博客访问量

如何使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能。

一、网址分析

进入自己的博客页面,网址为:*blog.csdn*/xingjiarong网址还是非常清晰的就是csdn的网址+个人csdn登录账号,我们来看一下下一页的网址。

看到第二页的地址为:*blog.csdn*/xingjiarong/article/list/2

后边的数字表示现在正处于第几页,再用其他的页面验证一下,确实是这样的,那么第一页为什么不是*blog.csdn*/xingjiarong/article/list/1呢,那么我们在浏览器中输入*blog.csdn*/xingjiarong/article/list/1试试,哎,果然是第一页啊,其实第一页是被重定向了,*blog.csdn*/xingjiarong被重定向到*blog.csdn*/xingjiarong/article/list/1,所以两个网址都能访问第一页,那么现在规律就非常明显了:

*blog.csdn*/xingjiarong/article/list/+页号

二、如何获取标题

右键查看网页的源代码,我们看到可以找到这样一段代码:

我们可以看到标题都是在标签

所以我们可以使用下面的正则表达式来匹配标题:

(.*?)

三、如何获取访问量

拿到了标题之后,就要获得对应的访问量了,经过对源码的分析,我看到访问量的结构都是这样的:

阅读(1140)

括号中的数字即为访问量,我们可以用下面的正则表达式来匹配:

阅读((.*?))

四、如何判断是否为尾页

接下来我们要判断当前页是否为最后一页,否则我们就不能判断什么时候结束了,我找到了源码中‘尾页’的标签,发现是下面的结构:

下一页尾页

所以我们可以用下面的正则表达式来匹配,如果匹配成功就说明当前页不是最后一页,否则当前页就是最后一页。

尾页

五、编程实现

下面是完整的代码实现:

#!usr/bin/python

#-*- coding: utf-8-*-

”’

Created on 2016年2月13日

@author: xingjiarong

使用python爬取csdn个人博客的访问量,主要用来练手

”’

import urllib2

import re

#当前的博客列表页号

page_num= 1

#不是最后列表的一页

notLast= 1

account= str(raw_input(‘输入csdn的登录账号:’))

while notLast:

#首页地址

baseUrl=’*blog.csdn*/’+account

#连接页号,组成爬取的页面网址

myUrl= baseUrl+’/article/list/’+str(page_num)

#伪装成浏览器访问,直接访问的话csdn会拒绝

user_agent=’Mozilla/4.0(compatible; MSIE 5.5; Windows NT)’

headers={‘User-Agent’:user_agent}

#构造请求

req= urllib2.Request(myUrl,headers=headers)

#访问页面

myResponse= urllib2.urlopen(req)

myPage= myResponse.read()

#在页面中查找是否存在‘尾页’这一个标签来判断是否为最后一页

notLast= re.findall(‘尾页’,myPage,re.S)

print’—————————–第%d页———————————‘%(page_num,)

#利用正则表达式来获取博客的标题

title= re.findall(‘(.*?)’,myPage,re.S)

titleList=[]

for items in title:

titleList.append(str(items).lstrip().rstrip())

#利用正则表达式获取博客的访问量

view= re.findall(‘阅读((.*?))’,myPage,re.S)

viewList=[]

for items in view:

viewList.append(str(items).lstrip().rstrip())

#将结果输出

for n in range(len(titleList)):

print’访问量:%s标题:%s’%(viewList[n].zfill(4),titleList[n])

#页号加1

page_num= page_num+ 1

下面是部分结果:

输入csdn的登录账号:xingjiarong

—————————–第1页———————————

访问量:1821标题:python编程常用模板总结

访问量:1470标题:设计模式之UML(一)类图以及类间关系(泛化、实现、依赖、关联、聚合、组合)

访问量:0714标题:ubuntu14.04安装并*MyEclipse2014

访问量:1040标题:ubuntu14.04配置tomcat8

访问量:1355标题:j*a调用python方法总结

访问量:0053标题:J*a多线程之Callable和Future

访问量:1265标题:跟我学汇编(三)寄存器和物理地址的形成

访问量:1083标题:跟我学汇编(二)王爽汇编环境搭建

访问量:0894标题:跟我学汇编(一)基础知识

访问量:2334标题:j*a多线程(一)Race Condition现象及产生的原因

访问量:0700标题:Matlab矩阵基础

访问量:0653标题:Matlab变量、分支语句和循环语句

访问量:0440标题:Matlab字符串处理

访问量:0514标题:Matlab运算符与运算

访问量:0533标题:Matlab的数据类型

—————————–第2页———————————

访问量:0518标题:OpenStack设计与实现(五)RESTful API和WSGI

访问量:0540标题:解决Android SDK Manager下载太慢问题

访问量:0672标题:OpenStack设计与实现(四)消息总线(AMQP)

访问量:0570标题:分布式文件存储FastDFS(五)FastDFS常用命令总结

访问量:0672标题:分布式文件存储FastDFS(四)配置fastdfs-apache-module

访问量:0979标题:分布式文件存储FastDFS(一)初识FastDFS

访问量:0738标题:分布式文件存储FastDFS(三)FastDFS配置

访问量:0682标题:分布式文件存储FastDFS(二)FastDFS安装

访问量:0511标题:OpenStack设计与实现(三)KVM和QEMU浅析

访问量:0593标题:OpenStack设计与实现(二)Libvirt简介与实现原理

访问量:0562标题:OpenStack设计与实现(一)虚拟化

访问量:0685标题:食堂买饭的启示

访问量:0230标题:UML之时序图详解

访问量:0890标题:设计模式之桥梁模式和策略模式的区别

访问量:1258标题:设计模式(十二)责任链模式

总结:

使用python编写爬虫,我个人总结了以下的步骤:

1、分析要抓取的网址特征,以确定如何生成相关网页的网址,如果只爬取一个网页,则这一步可以省略。

2、查看网页的源码,分析自己想要爬取的内容所在的标签的特征。

3、使用正则表达式从源码中将自己想要的部分抠出来。

4、编程实现。

csdn是什么

csdn

*最大的开发者技术社区

—-《程序员》刊物官方网站

它是集新闻、论坛、群组、Blog、文档、下载、读书、Tag、网摘、搜索、.NET、J*a、游戏、视频、人才、外包、第二书店、《程序员》等多种项目于一体的

大型综合性IT门户网站,它有非常强的专业性,其会员囊括了*地区百分之九十以上的优秀程序员,是至今为止,在IT技术交流及其周边国内中第一位的网站。

======================================

CSDN有以下热门频道:

NetBeans频道 *netbeans.csdn*/

J*a频道 *j*a.csdn*/

DOTNET频道 *dotnet.csdn*/

数据库频道 *database.csdn*/

中间件频道 *middleware.csdn*/

软件研发频道 *sd.csdn*/

软件测试频道 *testing.csdn*/

SOA频道 *soa.csdn*/

CIO/CTO频道 *cio.csdn*/

安全频道 *safe.csdn*/

业务平台 *bpm.csdn*/

移动频道 *mobile.csdn*/

=======================================

关于CSDN人才服务业务

CSDN专注为IT专业人士及IT企业提供“集成化信息传播与服务平台”, CSDN拥有全球最大的中文IT技术社区,形成了网站,杂志、图书、电子商务、企业服务、教育培训等关联专业业务互动的商业模式。

1、CSND业务结构:

2、关于CSDN会员:

截止2005年1月,CSDN社区拥有 850,000注册会员,来自19, 000 IT企业。到2005年12月,CSDN社区注册会员已超过100万,企业会员超过2万。

3、关于CSDN会员:

CSDN的媒体优势和内容优势,同时为企业宣传企业文化、人才观和用人之道,提供了有力的舞台。CSDN对招聘信息和人才数据进行实时跟踪,对需求进行分类汇总,根据需求共性推出系列人才需求报告、薪酬报告、人事外包服务等,有针对性地为企业选拔合格人才。

4、关于CSDN人才频道:

人才频道首页(*job.csdn*/)日访问量:5万以上(*IP)。人才频道相关页面日访问量20万以上(PV)。人才相关新闻日点击量:8万左右(PV)。

5、关于CSDN人才服务的成功案例:

目前在CSDN注册人才招聘业务的企业数量,已经达到5000家以上。目前与CSDN合作的人才项目企业会员数量,已经超过了700家。诸如:IBM、SUN、微软亚洲工程院、微软亚洲研究院、GOOGLE、百度、华为技术、盛大、数位红、新浪、搜狐、平安保险、神州数码、瑞星、金碟中间件、趋势科技等。

====================================

CSDN人才服务业务报价

我们的服务项目

1、基本会员服务描述:

以企业级会员身份注册登陆和发布招聘信息,不限职位数。招聘信息直接进入CSDN技术职位库,CSDN注册会员可以查看到企业在服务期限内的招聘信息。

企业可以查询和下载CSDN技术人才简历库简历。查询简历数量:不限(查询结果只显示简历部分内容);下载简历数量:20个/月。

招聘信息可以出现在人才频道“最新招聘企业”栏目中(滚动出现),停留时间根据一段时间的业务状况决定。

招聘职位可以出现在CSDN所有新闻页面右侧[N4]、以及CSDN论坛所有帖子页面左侧[P5]“最新招聘信息”文字链中(滚动出现),停留时间根据一段时间的业务状况决定。

根据选题规划的具体情况,将企业招聘信息列入CSDN技术人才周刊(newsletter)招聘列表中,向用户发送。

2、星级会员套餐方案:

3、特色服务项目:

CSDN在线招聘说明会:由CSDN策划、组织和实施,为企业定制招聘会。根据企业的需求及宣传重点,由CSDN策划访谈提纲,邀请企业用人部门和HR部门负责人,与网友在线聊天,向开发者在线宣讲企业文化和用人之道,并回答网友针对企业的提问。网友可通过活动报名直接向企业投递简历。CSDN将对活动进行报道,并在CSDN网站或《程序员》杂志上刊登。

CSDN自今年年初以来,已经成功举办了多场在线招聘会,邀请到了IBM*研究中心、微软亚洲工程院、BEA*、百度在线、智乐软件等多家*做客CSDN聊天室,为企业宣传企业文化和用人之道、扩大招聘效果、吸引优秀人才,提供了舞台。

相关费用:根据活动的场次和规模,单独按项目报价。

共建企业招聘专区、企业人才库:CSDN将根据企业的需求情况,为企业度身定做适合企业的招聘专区/专题,或人才储备库。CSDN将派专人对专区和人才库做定期的维护,并定期向企业提交阶段报告。(例:成功为IBM*研发中心和CISCO*研发中心建立专业人才库)

相关费用:根据专区的规模、工作量以及提交的数据报告,单独按项目报价。

人力资源外包服务和猎头服务:CSDN拥有强大的技术专家群,业界处于绝对领先的地位。CSDN将根据企业的需求情况,向企业推荐高端人才。

相关费用:按业内标准进行具体磋商。

=========================================

CSDN人才相关部分广告位报价明细

CSDN人才招聘网首页广告(*job.csdn*/)

CSDN首页首屏广告(**csdn*/)

CSDN社区子论坛广告(*community.csdn*/)

CSDN登陆页面广告(*passport.csdn*/member/UserLogin.aspx)

CSDN新闻页面广告(*news.csdn*/)

CSDN论坛帖子页面广告(*community.csdn*/)CSDN企业后台管理功能介绍

=================================

CSDN会员注册方法

登陆CSDN人才频道首页*job.csdn*/,点击“企业会员登陆”,进入注册页面。

如果是新会员,直接点击“注册”,完成一系列注册流程(只花费3~5分钟即可完成)。注册完成后,系统提示,“目前还不能发布职位,CSDN工作人员会在2个工作日内联系你”。待CSDN审核通过后,企业方可登陆,发布招聘职位。

登陆后,进入CSDN企业后台管理界面,包括:

【我的资料】企业可以更改注册信息、修改密码。

【招聘人才】实现发布职位、搜索人才、以及简历筛选功能。

【职位列表】企业可以看到每一个职位收件箱里简历投递的情况。

【发布职位】企业可以发布职位、增加职位、修改职位信息、刷新职位

【搜索人才】企业可以通过关键字搜索自己需要的简历。可以在线查看简历,也可以下载简历。

【预览简历】企业进入简历库以后,可以查看CSDN软件人才库的所有人才的信息。

此外,CSDN还提供了“点击及简历计数统计功能”,以方便企业评估招聘推广的效果。

还有关于

CSDN人才服务业务介绍

CSDN人才服务业务报价

CSDN企业后台管理介绍

CSDN视频频道

csdn的资源怎么下载到电脑上

csdn的资源是需要积分下载的;需要的积分数量是由资源上传者上传时标定的。分以下两种情况:

1、如果资源下载积分值为0的话,您只需要登录即可下载(如果没有账号注册一个就可以);

2、如果资源下载积分值大于0,则需要你的账户有大于资源的积分值才能成功下载。

csdn的赚取积分的方式有多种,如:充值、上传资源、评价资源等,这也是当下很多网站论坛提升活跃度的方法。

本文链接:http://www.loijie.com/html/87959155.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。