當(dāng)前位置：首頁 > 資訊 > 行業(yè)資訊

編寫網(wǎng)絡(luò)爬蟲是違法的嗎？今天咱們來試圖推翻一下！

行業(yè)資訊
來源：源碼碼網(wǎng)
編輯：admin
時(shí)間：2020-04-11 08:47
閱讀：607

一直以來不管是編程語言排行榜還是在互聯(lián)網(wǎng)行業(yè)，Python一直備受爭議，到底是Java熱門還是Python熱門也是一直讓人爭吵的話題。隨著信息時(shí)代的迭代更新，人工智能的興起，Python編程語言也隨之被人們廣泛學(xué)習(xí)，Python數(shù)據(jù)分析、Python web全棧、Python自動(dòng)化運(yùn)維等等都很受歡迎，其中還包括了Python爬蟲。但是很對(duì)人覺得Python爬蟲是違法的行為，也在懷疑自己到底要不要學(xué)爬蟲，之前有一篇文章特別火，就是《只因?qū)懥艘欢闻老x，公司200多人被抓！》，文章里寫了因?yàn)橐幻夹g(shù)人員因爬取數(shù)據(jù)被抓，那么爬蟲真的違法嗎？今天我們來好好研究一下。

網(wǎng)絡(luò)爬蟲犯法嗎？

網(wǎng)絡(luò)爬蟲領(lǐng)域目前還屬于早期的拓荒階段，雖然互聯(lián)網(wǎng)世界已經(jīng)通過自身的協(xié)議建立起一定的道德規(guī)范（Robots協(xié)議），但法律部分還在建立和完善中。從目前的情況來看，如果抓取的數(shù)據(jù)屬于個(gè)人使用或科研范疇，基本不存在問題；而如果數(shù)據(jù)屬于商業(yè)盈利范疇，就要就事而論，有可能屬于違法行為，也有可能不違法。

Robots協(xié)議

Robots協(xié)議（爬蟲協(xié)議）的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”（Robots Exclusion Protocol），網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。該協(xié)議是國際互聯(lián)網(wǎng)界通行的道德規(guī)范，雖然沒有寫入法律，但是每一個(gè)爬蟲都應(yīng)該遵守這項(xiàng)協(xié)議。

下面以淘寶網(wǎng)的robots.txt為例進(jìn)行介紹。

User-agent:  Baiduspider    #百度爬蟲引擎
Allow:  /article  #允許訪問/article.htm、/article/12345.com
Allow:  /oshtml      
Allow:  /ershouDisallow: /product/ #禁止訪問/product/12345.com
Disallow:  /    #禁止訪問除Allow規(guī)定頁面外的其他所有頁面
User-Agent:  Googlebot   #谷歌爬蟲引擎
Allow:  /articleAllow:  /oshtml
Allow:  /product  #允許訪問/product.htm、/product/12345.com
Allow:  /spuAllow:  /dianpuAllow:  /wenzhang
Allow:  /oversea
Disallow:  /

淘寶的Robots協(xié)議對(duì)谷歌爬蟲的待遇則不一樣，和百度爬蟲不同的是，它允許谷歌爬蟲爬取產(chǎn)品的頁面Allow：/product。因此，當(dāng)你在谷歌搜索“淘寶iphone7”的時(shí)候，可以搜索到淘寶中的產(chǎn)品，如圖所示。當(dāng)你爬取網(wǎng)站數(shù)據(jù)時(shí)，無論是否僅供個(gè)人使用，都應(yīng)該遵守Robots協(xié)議。

網(wǎng)絡(luò)爬蟲的約束

除了上述Robots協(xié)議之外，我們使用網(wǎng)絡(luò)爬蟲的時(shí)候還要對(duì)自己進(jìn)行約束：過于快速或者頻密的網(wǎng)絡(luò)爬蟲都會(huì)對(duì)服務(wù)器產(chǎn)生巨大的壓力，網(wǎng)站可能封鎖你的IP，甚至采取進(jìn)一步的法律行動(dòng)。因此，你需要約束自己的網(wǎng)絡(luò)爬蟲行為，將請(qǐng)求的速度限定在一個(gè)合理的范圍之內(nèi)。

實(shí)際上，由于網(wǎng)絡(luò)爬蟲獲取的數(shù)據(jù)帶來了巨大的價(jià)值，網(wǎng)絡(luò)爬蟲逐漸演變成一場網(wǎng)站方與爬蟲方的戰(zhàn)爭，你的矛長一寸，我的盾便厚一寸。在攜程技術(shù)微分享上，攜程酒店研發(fā)部研發(fā)經(jīng)理崔廣宇分享過一個(gè)“三月爬蟲”的故事，也就是每年的三月份會(huì)迎來一個(gè)爬蟲高峰期。因?yàn)橛写罅康拇髮W(xué)生五月份交論文，在寫論文的時(shí)候會(huì)選擇爬取數(shù)據(jù)，也就是三月份爬取數(shù)據(jù)，四月份分析數(shù)據(jù)，五月份交論文。

因此，各大互聯(lián)網(wǎng)巨頭也已經(jīng)開始調(diào)集資源來限制爬蟲，保護(hù)用戶的流量和減少有價(jià)值數(shù)據(jù)的流失。

2007年，愛幫網(wǎng)利用垂直搜索技術(shù)獲取了大眾點(diǎn)評(píng)網(wǎng)上的商戶簡介和消費(fèi)者點(diǎn)評(píng)，并且直接大量使用。大眾點(diǎn)評(píng)網(wǎng)多次要求愛幫網(wǎng)停止使用這些內(nèi)容，而愛幫網(wǎng)以自己是使用垂直搜索獲得的數(shù)據(jù)為由，拒絕停止抓取大眾點(diǎn)評(píng)網(wǎng)上的內(nèi)容，并且質(zhì)疑大眾點(diǎn)評(píng)網(wǎng)對(duì)這些內(nèi)容所享有的著作權(quán)。為此，雙方開打了兩場官司。2011年1月，北京海淀法院做出判決：愛幫網(wǎng)侵犯大眾點(diǎn)評(píng)網(wǎng)著作權(quán)成立，應(yīng)當(dāng)停止侵權(quán)并賠償大眾點(diǎn)評(píng)網(wǎng)經(jīng)濟(jì)損失和訴訟必要支出。

2013年10月，百度訴360違反Robots協(xié)議。百度方面認(rèn)為，360違反了Robots協(xié)議，擅自抓取、復(fù)制百度網(wǎng)站內(nèi)容并生成快照向用戶提供。2014年8月7日，北京市第一中級(jí)人民法院做出一審判決，法院認(rèn)為被告奇虎360的行為違反了《反不正當(dāng)競爭法》相關(guān)規(guī)定，應(yīng)賠償原告百度公司70萬元。

雖然說大眾點(diǎn)評(píng)上的點(diǎn)評(píng)數(shù)據(jù)、百度知道的問答由用戶創(chuàng)建而非企業(yè)，但是搭建平臺(tái)需要投入運(yùn)營、技術(shù)和人力成本，所以平臺(tái)擁有對(duì)數(shù)據(jù)的所有權(quán)、使用權(quán)和分發(fā)權(quán)。

以上兩起敗訴告訴我們，在爬取網(wǎng)站的時(shí)候需要限制自己的爬蟲，遵守Robots協(xié)議和約束網(wǎng)絡(luò)爬蟲程序的速度；在使用數(shù)據(jù)的時(shí)候必須遵守網(wǎng)站的知識(shí)產(chǎn)權(quán)。如果違反了這些規(guī)定，很可能會(huì)吃官司，并且敗訴的概率相當(dāng)高。

所以只要你合理利用就不會(huì)違法，爬蟲還是可以學(xué)的哦，畢竟爬蟲對(duì)數(shù)據(jù)分析真的非常有用，那么爬蟲該怎么學(xué)呢？今天來教大家編寫一個(gè)簡單的爬蟲吧！

編寫第一個(gè)簡單的爬蟲

第一步：獲取頁面

#!/usr/bin/python

# coding: utf-8
import requests #引入包requestslink = "http://www.santostang.com/" 
#定義link為目標(biāo)網(wǎng)頁地址
# 定義請(qǐng)求頭的瀏覽器代理，偽裝成瀏覽器headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
r = requests.get(link, headers= headers) #請(qǐng)求網(wǎng)頁print (r.text)  
#r.text是獲取的網(wǎng)頁內(nèi)容代碼

上述代碼就能獲取博客首頁的HTML代碼，HTML是用來描述網(wǎng)頁的一種語言，也就是說網(wǎng)頁呈現(xiàn)的內(nèi)容背后都是HTML代碼。如果你對(duì)HTML不熟悉的話，可以先去w3school(http://www.w3school.com.cn/html/index.asp)學(xué)習(xí)一下，大概花上幾個(gè)小時(shí)就可以了解HTML。

在上述代碼中，首先import requests引入包requests，之后獲取網(wǎng)頁。

（1）首先定義link為目標(biāo)網(wǎng)頁地址。

（2）之后用headers來定義請(qǐng)求頭的瀏覽器代理，進(jìn)行偽裝

（3）r是requests的Response回復(fù)對(duì)象，我們從中可以獲取想要的信息。r.text是獲取的網(wǎng)頁內(nèi)容代碼。

運(yùn)行上述代碼得到的結(jié)果如圖所示。

第二步：提取需要的數(shù)據(jù)

#!/usr/bin/python
# coding: utf-8
import requestsfrom bs4 import BeautifulSoup     
#從bs4這個(gè)庫中導(dǎo)入BeautifulSoup
link = "http://www.santostang.com/"headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} r = requests.get(link, headers= headers)
soup = BeautifulSoup(r.text, "html.parser") 
#使用BeautifulSoup解析
#找到第一篇文章標(biāo)題，定位到class是"post-title"的h1元素，提取a，提取a里面的字符串，strip()去除左右空格title = soup.find("h1", class_="post-title").a.text.strip()print (title)

在獲取整個(gè)頁面的HTML代碼后，我們需要從整個(gè)網(wǎng)頁中提取第一篇文章的標(biāo)題。

這里用到BeautifulSoup這個(gè)庫對(duì)頁面進(jìn)行解析，BeautifulSoup將會(huì)在第4章進(jìn)行詳細(xì)講解。首先需要導(dǎo)入這個(gè)庫，然后把HTML代碼轉(zhuǎn)化為soup對(duì)象，接下來用soup.find(“h1”,class_=“post-title”).a.text.strip()得到第一篇文章的標(biāo)題，并且打印出來

soup.find(“h1”,class_=“post-title”).a.text.strip()的意思是，找到第一篇文章標(biāo)題，定位到class是"post-title"的h1元素，提取a元素，提取a元素里面的字符串，strip()去除左右空格。

對(duì)初學(xué)者來說，使用BeautifulSoup從網(wǎng)頁中提取需要的數(shù)據(jù)更加簡單易用。

那么，我們?cè)趺磸哪敲撮L的代碼中準(zhǔn)確找到標(biāo)題的位置呢？

這里就要隆重介紹Chrome瀏覽器的“檢查（審查元素）”功能了。下面介紹找到需要元素的步驟。

步驟01　使用Chrome瀏覽器打開博客首頁www.santostang.com。右擊網(wǎng)頁頁面，在彈出的快捷菜單中單擊“檢查”命令，如圖所示。

步驟02　出現(xiàn)如下圖所示的審查元素頁面。單擊左上角的鼠標(biāo)鍵按鈕，然后在頁面上單擊想要的數(shù)據(jù)，下面的Elements會(huì)出現(xiàn)相應(yīng)的code所在的地方，就定位到想要的元素了。

步驟03　在代碼中找到標(biāo)藍(lán)色的地方，為

echarts學(xué)習(xí)筆記(2)–同一頁面多圖表。我們可以用soup.find("h1",class_="post-title").a.text.strip()提取該博文的標(biāo)題。

第三步：存儲(chǔ)數(shù)據(jù)

import requests
from bs4 import BeautifulSoup   
#從bs4這個(gè)庫中導(dǎo)入BeautifulSoup
link = "http://www.santostang.com/"headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} r = requests.get(link, headers= headers)
soup = BeautifulSoup(r.text, "html.parser") 
#使用BeautifulSoup解析title = soup.find("h1", class_="post-title").a.text.strip()print (title)

# 打開一個(gè)空白的txt，然后使用f.write寫入剛剛的字符串titlewith open('title_test.txt', "a+") as f:    f.write(title)

存儲(chǔ)到本地的txt文件非常簡單，在第二步的基礎(chǔ)上加上2行代碼就可以把這個(gè)字符串保存在text中，并存儲(chǔ)到本地。txt文件地址應(yīng)該和你的Python文件放在同一個(gè)文件夾。

返回文件夾，打開title.txt文件，其中的內(nèi)容如圖所示。

以上就是編寫第一個(gè)爬蟲的方法，你們學(xué)會(huì)了嗎？暫時(shí)沒學(xué)會(huì)也沒關(guān)系，你可以慢慢學(xué)哦！

原文鏈接：https://blog.csdn.net/weixin_37649168/article/details/104265388

特別聲明：
1、如無特殊說明，內(nèi)容均為本站原創(chuàng)發(fā)布，轉(zhuǎn)載請(qǐng)注明出處；
2、部分轉(zhuǎn)載文章已注明出處，轉(zhuǎn)載目的為學(xué)習(xí)和交流，如有侵犯，請(qǐng)聯(lián)系客服刪除；
3、編輯非《源碼碼網(wǎng)》的文章均由用戶編輯發(fā)布，不代表本站立場，如涉及侵犯，請(qǐng)聯(lián)系刪除；

全部評(píng)論(0)

推薦閱讀

CSS 媒體查詢(@media)寬度范圍設(shè)置建議
語法正確性：代碼使用現(xiàn)代范圍查詢語法(width>=1200pxandwidth<1400px)，在支持該語法的瀏覽器（如Chrome104+、Firefox63+、Safari15.4+）中有效。邏輯正確性：當(dāng)視口寬度在1200px（含）至1400px（不含）之間時(shí)，body的padding-top會(huì)設(shè)置為4px，符合用戶需求。兼容性建議：傳統(tǒng)寫法：為兼容舊版瀏覽器，建議改用：@media?(w
源碼教程
來源：源碼碼網(wǎng)
編輯：源碼碼網(wǎng)
時(shí)間：2025-05-06 21:55
閱讀：81

VS Code配置Vue自動(dòng)補(bǔ)全代碼教程
在VSCode中配置Vue開發(fā)的自動(dòng)補(bǔ)全代碼可以通過以下步驟實(shí)現(xiàn)，以提高開發(fā)效率：1.安裝必要插件Volar(推薦用于Vue3)針對(duì)Vue3和語法，提供更強(qiáng)大的支持。Vetur(適用于Vue2)若項(xiàng)目使用Vue2，安裝Vetur并禁用Volar以避免沖突。VueVSCodeSnippets提供常用代碼片段（如v-for,?v-model等）。2.配置VSCode設(shè)
源碼教程
來源：源碼碼網(wǎng)
編輯：源碼碼網(wǎng)
時(shí)間：2025-04-21 21:35
閱讀：189

Mockito is currently self-attaching to enable the inline-mock-maker. This will no longer work in future releases of the JDK. Please add Mockito as an agent to your build what is described in Mockito’s documentation
這個(gè)問題是由于Mockito在嘗試通過自我附加（self-attaching）的方式啟用inline-mock-maker時(shí)觸發(fā)的警告。隨著JDK版本的升級(jí)，這種機(jī)制可能不再被支持，需要顯式配置Mockito作為Java代理（agent）來解決問題。以下是逐步解決方案：1.確認(rèn)依賴版本首先檢查項(xiàng)目中Mockito的版本。較新的Mockito版本可能已優(yōu)化該問題。建議使用Mockito3.12.x及以上版本（推薦最新穩(wěn)定版）。Mave
源碼教程
來源：源碼碼網(wǎng)
編輯：源碼碼網(wǎng)
時(shí)間：2025-04-21 15:28
閱讀：129

org.xml.sax.SAXParseException; lineNumber: 4; columnNumber: 55; 外部 DTD: 無法讀取外部 DTD ’maybtis-3-mapper.dtd’, 因?yàn)?accessExternalDTD 屬性設(shè)置的限制導(dǎo)致不允許 ’http’ 訪問
針對(duì)因accessExternalDTD屬性限制導(dǎo)致無法通過HTTP訪問外部DTD（如MyBatis的mybatis-3-mapper.dtd）的問題，以下是詳細(xì)的解決方案：問題原因JavaXML解析器默認(rèn)禁止從外部加載DTD（防止XXE攻擊），因此當(dāng)XML文件嘗試通過HTTP訪問遠(yuǎn)程DTD（如
源碼教程
來源：源碼碼網(wǎng)
編輯：源碼碼網(wǎng)
時(shí)間：2025-04-19 23:43
閱讀：177

中文域名有價(jià)值嗎？他的優(yōu)缺點(diǎn)是什么？
中文域名（如“例子.中國”或“news.新華網(wǎng)”）作為互聯(lián)網(wǎng)本地化的重要體現(xiàn)，近年來在特定場景下展現(xiàn)了獨(dú)特的價(jià)值，但也存在爭議和局限性。以下從多個(gè)角度分析其價(jià)值與挑戰(zhàn)：1.核心價(jià)值點(diǎn)（1）用戶友好性與品牌本土化降低記憶門檻：對(duì)中文用戶而言，母語域名更直觀易記，尤其適合面向非英語用戶的中小企業(yè)、地方機(jī)構(gòu)或中老年群體。例如，“新華網(wǎng).中國”比“xinhuanet.com”更容易被普通用戶記住。強(qiáng)化品牌標(biāo)識(shí)：中文域名可直接體現(xiàn)品牌名稱（如“
行業(yè)資訊
來源：源碼碼網(wǎng)
編輯：源碼碼網(wǎng)
時(shí)間：2025-04-19 14:08
閱讀：178

資訊排行榜
更多>>

女人让男人桶爽30分钟,精品一区二区,在线观看 ,久久久久亚洲精品,免费网站看av片,男女啪啪18禁无遮挡激烈

編寫網(wǎng)絡(luò)爬蟲是違法的嗎？今天咱們來試圖推翻一下！

第一步：獲取頁面

第二步：提取需要的數(shù)據(jù)

echarts學(xué)習(xí)筆記(2)–同一頁面多圖表。我們可以用soup.find("h1",class_="post-title").a.text.strip()提取該博文的標(biāo)題。

第三步：存儲(chǔ)數(shù)據(jù)

echarts學(xué)習(xí)筆記(2)–同一頁面多圖表。我們可以用soup.find("h1",class_="post-title").a.text.strip()提取該博文的標(biāo)題。