如何编写python爬虫?以及在张大妈比价项目中的应用!
itomcoil 2025-07-10 15:59 3 浏览
最近打算买一些家电,但是电商平台众多,于是我想看看每天到底有多少商品进行降价了,同一款商品在不同平台中的价格又是多少?于是我从0开始翻阅了一些python资料,写了几个python小爬虫。
项目背景:电商平台众多,监测每个电商平台每日价格出现历史新低的商品,同一型号商品在不同电商平台的价格并且在同一张图标中绘制出来,方便筛需要的商品
项目名称:Hi张大妈比价(hizdm.com)
方案实施:如果要进行价格比对,当然少不了对数据的抓取,由于本人比较擅长php但通过百度(如果能用狗哥,谁还用它啊,虽说有vpn好像被360收集了经常断)得知python抓取会更好一些,于是就选择了python,之前没有用过python,于是在网上学了学python。
由于是比价固得先有思路,因为有些商品没法标准化,还好要买的电器还是能找到标准化的规则(爬虫爬取每个商品的说明找到产品型号,没错我进行数据标准化的规则就是按着商品型号来的)
首先选一些种子选手,京东、苏宁、国美,谁让你们在家电方面是龙头呢,O(∩_∩)O哈哈~,由于是新手我一次就抓取了所需要的产品缩略图、产品链接、产品参数、产品名称以及产品型号进行独立存取,这样文件在以后再进行比对筛选唯一(对型号进行字符串规则化,替换中文括号横线等等然后在strtolow,这样比对起来成功匹配率在98%),然后在入库(网站基础规划就不详解了,如感兴趣可联系我)。
以京东为例爬虫如下:
! /usr/bin/python
#utf-8
import re
import os
import sys
import time
import urllib2
import cookielib
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding('utf-8')
class jdSpider:
def __init__(self, url, header, header2, brand):
self.url = url
self.header = header
self.header2 = header2
self.brand = brand
def crawl(self):
req = urllib2.Request(self.url, headers = self.header)
con = urllib2.urlopen(req)
html = con.read()
con.close()
soup = BeautifulSoup(html)
one = soup.find('ul', {'class' : 'gl-warp'})
two = one.find_all('li', {'class' : 'gl-item'})
i = 0
c = ''
img = ''
base = 'http:'
for three in two:
i = i + 1
print i
if i > 0:
img = base + str(three.find('img').get('data-lazy-img'))
four = three.find('div', {'class' : 'p-name'})
product_link = base + str(four.find('a').get('href'))
product_name = four.find('em').get_text()
req2 = urllib2.Request(product_link, headers = self.header2)
con2 = urllib2.urlopen(req2)
html2 = con2.read()
con2.close()
soup2 = BeautifulSoup(html2)
five = soup2.find('table', {'class' : 'Ptable'})
if five:
six = five.find_all('td')
j = 1
tag = ''
brand = ''
param = ''
for seven in six:
if j == 2:
brand = seven.get_text().strip()
if j == 4:
tag = seven.get_text().strip()
if j % 2 == 1:
param = param + seven.get_text().strip() + '||'
else:
param = param + seven.get_text().strip() + '|||'
j = j + 1
c = 'jd^^^' + brand + '^^^' + tag + '^^^' + product_name + '^^^' + product_link + '^^^' + img + '^^^' + param + '\n'
print c
if __name__ == '__main__':
'
header = {'Host': 'list.jd.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:26.0) Gecko/20100101 Firefox/26.0',
'Accept': 'textml,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'deflate',
'Connection': 'keep-alive'}
header2 = {'Host': 'item.jd.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:26.0) Gecko/20100101 Firefox/26.0',
'Accept': 'textml,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'deflate',
'Connection': 'keep-alive'}
brand = raw_input("Product: ")
url = raw_input("Url: ")
spider = jdSpider(url, header, header2, brand)
spider.crawl()
以上代码可供大家研究版权归属Hi张大妈比价,由于python是速成,请大家轻喷,当然也希望大家支持Hi张大妈(hizdm.com)!
相关推荐
- Java 如何从一个 List 中随机获得元素
-
概述从一个List中随机获得一个元素是有关List的一个基本操作,但是这个操作又没有非常明显的实现。本页面主要向你展示如何有效的从List中获得一个随机的元素和可以使用的一些方法。选择一个...
- 想月薪过万吗?计算机安卓开发之"集合"
-
集合的总结:/***Collection*List(存取有序,有索引,可以重复)*ArrayList*底层是数组实现的,线程不安全,查找和修改快,增和删比较慢*LinkedList*底层是...
- China Narrows AI Talent Gap With U.S. as Research Enters Engineering Phase: Report
-
ImagegeneratedbyAITMTPOST--ChinaisclosinginontheU.S.intheAIindustry-academia-research...
- 大促系统优化之应用启动速度优化实践
-
作者:京东零售宋维飞一、前言本文记录了在大促前针对SpringBoot应用启动速度过慢而采取的优化方案,主要介绍了如何定位启动速度慢的阻塞点,以及如何解决这些问题。希望可以帮助大家了解如何定位该类问...
- MyEMS开源能源管理系统核心代码解读004
-
本期解读:计量表能耗数据规范化算法:myems/myems-normalization/meter.py代码见底部这段代码是一个用于计算和存储能源计量数据(如电表读数)的小时值的Python脚本。它主...
- Java接口与抽象类:核心区别、使用场景与最佳实践
-
Java接口与抽象类:核心区别、使用场景与最佳实践一、核心特性对比1.语法定义接口:interface关键字定义,支持extends多继承接口javapublicinterfaceDrawabl...
- 超好看 vue2.x 音频播放器组件Vue-APlayer
-
上篇文章给大家分享了视频播放器组件vue-aliplayer,这次给大家推荐一款音频插件VueAplayer。vue-aplayer一个好看又好用的轻量级vue.js音乐播放器组件。清爽漂亮的U...
- Linq 下的扩展方法太少了,MoreLinq 来啦
-
一:背景1.讲故事前几天看同事在用linq给内存中的两个model做左连接,用过的朋友都知道,你一定少不了一个叫做DefaultIfEmpty函数,这玩意吧,本来很流畅的from......
- MapReduce过程详解及其性能优化(详细)
-
从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟...
- 手把手教你使用scrapy框架来爬取北京新发地价格行情(实战篇)
-
来源:Python爬虫与数据挖掘作者:霖hero前言关于Scrapy理论的知识,可以参考我的上一篇文章,这里不再赘述,直接上干货。实战演练爬取分析首先我们进入北京新发地价格行情网页并打开开发者工具,如...
- 屏蔽疯狂蜘蛛,防止CPU占用100%(mumu模拟器和雷电模拟器哪个更占用cpu)
-
站点总是某个时间段莫名的cpu100%,资源占用也不高,这就有必要怀疑爬虫问题。1.使用"robots.txt"规范在网站根目录新建空白文件,命名为"robots.txt...
- Web黑客近年神作Gospider:一款基于Go语言开发的Web爬虫,要收藏
-
小白看黑客技术文章,一定要点首小歌放松心情哈,我最爱盆栽!开始装逼!Gospider是一款运行速度非常快的Web爬虫程序,对于爱好白帽黑客的小白来说,可谓是佳作!Gospider采用厉害的Go语言开发...
- 用宝塔面板免费防火墙屏蔽织梦扫描网站
-
今天教大家在免费的基础上屏蔽织梦扫描,首先您要安装宝塔面板,然后再安装免费的防火墙插件,我用的是Nginx免费防火墙,然后打开这个插件。设置GET-URL过滤设置一条简单的宝塔面板的正则规则就可以屏蔽...
- 蜘蛛人再捞4千万美元 连续三周蝉联北美票房冠军
-
7月15日讯老马追踪票房数据的北美院线联盟今天表示,“蜘蛛人:离家日”(Spider-Man:FarFromHome)击退两部新片的挑战,连续第2周勇夺北美票房冠军,海捞4530万美元。法新...
- 夏天到了,需要提防扁虱,真是又小又恐怖的动物
-
夏天马上要到了,你知道吗,扁虱是这个夏天最危险的动物之一,很少有动物能比它还凶猛。Whenitcomestosummer'slittledangers,fewarenastiert...
- 一周热门
- 最近发表
-
- Java 如何从一个 List 中随机获得元素
- 想月薪过万吗?计算机安卓开发之"集合"
- China Narrows AI Talent Gap With U.S. as Research Enters Engineering Phase: Report
- 大促系统优化之应用启动速度优化实践
- MyEMS开源能源管理系统核心代码解读004
- Java接口与抽象类:核心区别、使用场景与最佳实践
- 超好看 vue2.x 音频播放器组件Vue-APlayer
- Linq 下的扩展方法太少了,MoreLinq 来啦
- MapReduce过程详解及其性能优化(详细)
- 手把手教你使用scrapy框架来爬取北京新发地价格行情(实战篇)
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)