99久久免费国产精精品,国产毛片一区二区,亚洲午夜免费视频

from crawlee.playwright_crawler import PlaywrightCrawler, PlaywrightCrawlingContext

async def main() -> None:
# Create a crawler instance
crawler = PlaywrightCrawler(
# headless=False,
# browser_type='firefox',
)

@crawler.router.default_handler
async def request_handler(context: PlaywrightCrawlingContext) -> None:
data = {
"request_url": context.request.url,
"page_url": context.page.url,
"page_title": await context.page.title(),
"page_content": (await context.page.content())[:10000],
}
await context.push_data(data)

await crawler.run(["https://crawlee.dev"])

if __name__ == "__main__":
asyncio.run(main())

使用Crawlee的PlaywrightCrawler抓取網(wǎng)站標(biāo)題及內(nèi)容示例

2.Requests

每個(gè)網(wǎng)絡(luò)抓取任務(wù)的首要步驟都是向目標(biāo)網(wǎng)站發(fā)送請(qǐng)求并獲取其內(nèi)容，這些內(nèi)容通常為HTML格式。Python中的Requests庫正是為此而生，它憑借“HTTP for humans”的核心理念，極大地簡化了這一過程，因此成為了下載次數(shù)最多的Python包。

? 特征

用于發(fā)出 HTTP 請(qǐng)求的簡單直觀的 API。
處理 GET、POST、PUT、DELETE、HEAD 和 OPTIONS 請(qǐng)求。
根據(jù)響應(yīng)標(biāo)頭自動(dòng)解碼內(nèi)容。
允許跨請(qǐng)求建立持久連接。
內(nèi)置對(duì) SSL/TLS 驗(yàn)證的支持，并可選擇繞過它。
輕松將標(biāo)頭、參數(shù)和 Cookie 添加到請(qǐng)求中。
為請(qǐng)求設(shè)置超時(shí)和重試策略。
通過以塊的形式流式傳輸響應(yīng)來支持大型文件下載。
支持代理配置。

?? 優(yōu)點(diǎn)

使用簡潔易讀的語法簡化復(fù)雜的 HTTP 任務(wù)。
龐大的用戶群和社區(qū)支持。
有據(jù)可查，包含大量示例和指南。

?? 缺點(diǎn)

相較于某些低級(jí)別庫（如http.client、urllib3），更適用于那些性能敏感的應(yīng)用程序。
缺乏內(nèi)置的異步功能，需要額外集成如asyncio、aiohttp等庫來實(shí)現(xiàn)非阻塞請(qǐng)求，增加了開發(fā)復(fù)雜度。
在最小環(huán)境或資源受限的應(yīng)用場景下，某些庫可能顯得較為笨重，增加了不必要的內(nèi)存與計(jì)算開銷。

?? 選擇

httpx, urlib3, http.client, aiohttp

?? 安裝請(qǐng)求

要安裝 Requests 庫，請(qǐng)使用 Python 包管理器 pip：

pip install requests

?? 代碼示例

import requests



response = requests.get('https://api.example.com/data')

if response.status_code == 200:

    data = response.json()  # Parse JSON response

    print(data)

else:

    print(f"Request failed with status code: {response.status_code}")

3. HTTPX

HTTPX 作為新一代 HTTP 庫，相較于 Requests，提供了異步和 HTTP/2 等高級(jí)功能。如異步和 HTTP/2 支持。HTTPX 在核心功能與 Requests 保持高度一致，易于上手。鑒于其高性能與良好的擴(kuò)展性，HTTPX 不僅適用于大型項(xiàng)目，也推薦用于小型項(xiàng)目，為未來可能的需求擴(kuò)展預(yù)留空間。

? 特征

利用 asyncio 內(nèi)置功能，實(shí)現(xiàn)非阻塞 HTTP 請(qǐng)求，提升效率。
原生兼容 HTTP/2 協(xié)議，相較于 HTTP/1.1，顯著提升性能。
提供同步和異步接口，以根據(jù)您的需求提供靈活性。
通過自動(dòng)連接池高效管理連接。
自動(dòng)跟隨重定向，同時(shí)提供比 Requests 更細(xì)致的控制選項(xiàng)。
支持自定義 HTTP 傳輸層，包括連接池與代理設(shè)置。
支持流式響應(yīng)、Cookie 管理和分段上傳。

?? 優(yōu)點(diǎn)

允許非阻塞請(qǐng)求，這使其成為 I/O 密集型任務(wù)或需要高并發(fā)性的應(yīng)用程序的理想選擇。
構(gòu)建時(shí)考慮了現(xiàn)代 Web 標(biāo)準(zhǔn)和實(shí)踐，包括 HTTP/2 支持。

?? 缺點(diǎn)

對(duì)于不熟悉異步編程的開發(fā)人員，與 Requests 相比，學(xué)習(xí)難度可能更高。
盡管迅速普及，但由于 Requests 更新，可能面臨社區(qū)規(guī)模較小、可用資源較少的現(xiàn)狀。

?? 選擇

Requests, aiohttp, urlib3, http.client

?? 安裝 HTTPX

要安裝 HTTPX 庫，請(qǐng)使用 Python 包管理器 pip：

pip install httpx

?? 代碼示例

import httpx

import asyncio



async def fetch_data():

    async with httpx.AsyncClient() as client:

        response = await client.get('https://api.example.com/data')

        if response.status_code == 200:

            data = response.json()  # Parse JSON response

            print(data)

        else:

            print(f"Request failed with status code: {response.status_code}")



# Run the asynchronous function

asyncio.run(fetch_data())

4. Beautiful Soup

一旦你擁有 HTML 內(nèi)容，你需要一種方法去解析它并提取你感興趣的數(shù)據(jù)。為此，Beautiful Soup這一流行的Python HTML解析器應(yīng)運(yùn)而生。它允許你在HTML樹結(jié)構(gòu)中輕松導(dǎo)航和搜索，從而獲取你感興趣的數(shù)據(jù)。其簡單的語法和簡單的設(shè)置也使 Beautiful Soup 成為中小型 Web 抓取項(xiàng)目和 Web 抓取初學(xué)者的絕佳選擇。

? 特征

靈活遍歷HTML/XML結(jié)構(gòu)。
解析樹的導(dǎo)航
處理不同的編碼并自動(dòng)將文檔轉(zhuǎn)換為 Unicode，確保兼容性。
可與 lxml、html.parser 和 html5lib 等多個(gè)解析器配合使用，從而靈活地處理不同的解析需求。
輕松訪問和修改文檔中的標(biāo)簽、屬性和文本。

?? 優(yōu)點(diǎn)

設(shè)計(jì)簡單易用，學(xué)習(xí)曲線平緩，初學(xué)者友好。
適用于各種解析庫，并適應(yīng)不同的抓取任務(wù)。
提供全面的文檔和大量教程，使其易于上手。
有效地從 HTML 中解析和提取數(shù)據(jù)。
在網(wǎng)絡(luò)抓取社區(qū)中很受歡迎，確保有充足的資源和社區(qū)驅(qū)動(dòng)的解決方案。

?? 缺點(diǎn)

有限的可擴(kuò)展性
無法抓取 JavaScript 密集型網(wǎng)站

?? 選擇

lxml、html5lib

?? 安裝 Beautiful Soup

為了安裝Beautiful Soup，請(qǐng)使用pip來安裝相應(yīng)的軟件包。此外，為了獲得更佳的解析功能，我們還建議安裝lxml或html5lib。這些庫與beautifulsoup4配合使用，能夠顯著提升HTML內(nèi)容的解析效果。

pip install beautifulsoup4 lxml

?? 代碼示例

from bs4 import BeautifulSoup

import httpx



# Send an HTTP GET request to the specified URL using the httpx library

response = httpx.get("https://news.ycombinator.com/news")



# Save the content of the response

yc_web_page = response.content



# Use the BeautifulSoup library to parse the HTML content of the webpage

soup = BeautifulSoup(yc_web_page)



# Find all elements with the class "athing" (which represent articles on Hacker News) using the parsed HTML

articles = soup.find_all(class_="athing")



# Loop through each article and extract relevant data, such as the URL, title, and rank

for article in articles:

    data = {

        "URL": article.find(class_="titleline").find("a").get('href'),  # Find the URL of the article by finding the first "a" tag within the element with class "titleline"

        "title": article.find(class_="titleline").getText(),  # Find the title of the article by getting the text content of the element with class "titleline"

        "rank": article.find(class_="rank").getText().replace(".", "")  # Find the rank of the article by getting the text content of the element with class "rank" and removing the period character

    }

    # Print the extracted data for the current article

    print(data)

5. Mechanical Soup

Mechanical Soup 是一個(gè) Python 庫，它提供了Requests和BeautifulSoup庫的更高級(jí)別抽象。它通過將 Requests 的易用性與 Beautiful Soup 的 HTML 解析功能相結(jié)合，簡化了 Web 抓取過程。

? 特征

簡化向網(wǎng)站發(fā)出 HTTP 請(qǐng)求的過程，并使其易于獲取網(wǎng)頁并與之交互
與 Beautiful Soup 強(qiáng)大的 HTML 解析功能集成，允許從網(wǎng)站輕松提取數(shù)據(jù)
具有在網(wǎng)頁上提交 HTML 表單的便捷方法，從而簡化了與需要提交表單的網(wǎng)站的自動(dòng)交互
支持會(huì)話管理，并幫助跨多個(gè)請(qǐng)求保持與網(wǎng)站的有狀態(tài)交互
與 Requests 一樣，Mechanical Soup 支持代理配置，并允許匿名抓取數(shù)據(jù)或繞過 IP 限制

?? 優(yōu)點(diǎn)

為 Web 抓取任務(wù)提供簡化的界面
與 Beautiful Soup 無縫集成以進(jìn)行 HTML 解析
支持表單提交和會(huì)話處理
為匿名和繞過限制提供代理支持

?? 缺點(diǎn)

與 Crawlee、Scrapy 或 Playwright 相比，高級(jí)功能有限。
可能不適合復(fù)雜或大規(guī)模的抓取項(xiàng)目。

?? 選擇

Selenium, Playwright, Beautiful Soup

?? 安裝 Mechanical Soup

要安裝 MechanicalSoup，請(qǐng)?jiān)诮K端或命令提示符中運(yùn)行以下命令：

pip install MechanicalSoup

?? 代碼示例

import mechanicalsoup



# Create a MechanicalSoup browser instance

browser = mechanicalsoup.StatefulBrowser()



# Perform a GET request to a webpage

browser.open("https://example.com")



# Extract data using BeautifulSoup methods

page_title = browser.get_current_page().title.text



print("Page Title:", page_title)

6. Selenium

Selenium 是一種廣泛使用的 Web 自動(dòng)化工具，它允許開發(fā)人員以編程方式與 Web 瀏覽器交互。通常用于測試 Web 應(yīng)用程序，但它也可以作為 Web 抓取的強(qiáng)大工具，尤其是在處理需要?jiǎng)討B(tài)內(nèi)容加載的 JavaScript 渲染的網(wǎng)站時(shí)。

? 特征

提供以編程方式控制 Web 瀏覽器的功能，模擬用戶交互，如單擊、鍵入和在頁面之間導(dǎo)航。
支持多種瀏覽器（Chrome、Firefox、Safari、Edge 等）和平臺(tái)，允許跨瀏覽器測試和抓取。
處理 JavaScript 生成的動(dòng)態(tài)內(nèi)容，使其成為抓取現(xiàn)代 Web 應(yīng)用程序的理想選擇。
為捕獲屏幕截圖、管理 Cookie 和執(zhí)行自定義 JavaScript 代碼提供全面支持。
支持無頭模式，允許在沒有 GUI 的情況下進(jìn)行自動(dòng)瀏覽，從而使抓取更快、資源消耗更少。

?? 優(yōu)點(diǎn)

非常適合在動(dòng)態(tài)的、JavaScript 密集型的網(wǎng)站上抓取和自動(dòng)化交互。
支持多種編程語言（Python、Java、C# 等）。
能夠模擬復(fù)雜的用戶交互并處理復(fù)雜的 Web 應(yīng)用程序。
具備跨瀏覽器和跨平臺(tái)的兼容性，適用范圍廣泛。

?? 缺點(diǎn)

由于完全的瀏覽器自動(dòng)化，與 Scrapy、Crawlee 或 Playwright 等無頭抓取庫相比，速度較慢。
需要針對(duì)不同的瀏覽器進(jìn)行額外設(shè)置（例如，安裝 WebDriver）。
在處理大規(guī)模抓取任務(wù)時(shí)，資源密集度更高，可能導(dǎo)致更高的運(yùn)行成本。

?? 選擇

Playwright, Mechanical Soup, Crawlee, Scrapy

?? 安裝 Selenium

要安裝 Selenium，請(qǐng)?jiān)诮K端或命令提示符中運(yùn)行以下命令：

pip install selenium

?? 代碼示例

from selenium import webdriver



# Setup the WebDriver (using Chrome in this example)

driver = webdriver.Chrome()



# Navigate to a web page

driver.get("https://example.com")



# Interact with the page (e.g., click a button)

button = driver.find_element_by_id("submit")

button.click()



# Extract data

content = driver.page_source



# Close the browser

driver.quit()

7. Playwright

Playwright 是由 Microsoft 開發(fā)的現(xiàn)代 Web 自動(dòng)化框架。它憑借單個(gè)API支持多個(gè)瀏覽器（包括Chromium、Firefox和WebKit），提供了與網(wǎng)頁交互的強(qiáng)大功能。Playwright因其出色的速度、可靠性和處理復(fù)雜Web應(yīng)用程序的能力，在測試和自動(dòng)化領(lǐng)域備受青睞。與Selenium相似，在處理需要?jiǎng)討B(tài)內(nèi)容加載的網(wǎng)站時(shí)，Playwright也是一個(gè)強(qiáng)大的網(wǎng)絡(luò)抓取工具。

? 特征

支持無頭和有頭模式下的多個(gè)瀏覽器引擎（Chromium、Firefox、WebKit）。
提供用于處理現(xiàn)代 Web 功能（如文件上傳/下載、網(wǎng)絡(luò)攔截和瀏覽器上下文）的內(nèi)置功能。
擅長自動(dòng)測試和抓取嚴(yán)重依賴JavaScript渲染的網(wǎng)站。
提供強(qiáng)大的工具，用于處理自動(dòng)等待元素、截取屏幕截圖和捕獲會(huì)話視頻等場景。
支持并行執(zhí)行，從而提高大規(guī)模抓取或測試任務(wù)的性能。

?? 優(yōu)點(diǎn)

與 Selenium 相比，在處理 JavaScript 密集型網(wǎng)站方面具有卓越的性能。
通過一個(gè)API接口，實(shí)現(xiàn)對(duì)所有主流瀏覽器引擎的全面支持。
為瀏覽器自動(dòng)化提供更高級(jí)的功能，包括網(wǎng)絡(luò)攔截和并行性。
相比其他工具，更加穩(wěn)定可靠，是測試和自動(dòng)化的理想選擇。

?? 缺點(diǎn)

由于其廣泛的功能，學(xué)習(xí)有些難度。
與 Selenium 相比，社區(qū)支持較少。

?? 選擇

Selenium, Crawlee, Scrapy

?? 安裝 Playwright

要安裝 Playwright，請(qǐng)?jiān)诮K端或命令提示符中運(yùn)行以下命令：

pip install playwright

然后，您需要安裝必要的瀏覽器二進(jìn)制文件：

playwright install

?? 代碼示例

from playwright.sync_api import sync_playwright



with sync_playwright() as p:

    browser = p.chromium.launch(headless=True)

    page = browser.new_page()

    page.goto("https://example.com")



    # Interact with the page

    page.click('button#submit')



    # Extract data

    content = page.content()



    browser.close()

8. Scrapy

Scrapy是一個(gè)功能強(qiáng)大且高度靈活的Python框架，專門用于網(wǎng)絡(luò)抓取。與常用于Web自動(dòng)化的Selenium和Playwright不同，Scrapy的設(shè)計(jì)目標(biāo)是以結(jié)構(gòu)化和可擴(kuò)展的方式從網(wǎng)站抓取大量數(shù)據(jù)。

? 特征

提供內(nèi)置的爬蟲框架，允許您輕松定義和自定義 Web 爬蟲以提取所需的數(shù)據(jù)
旨在快速高效，使您能夠以最少的資源使用快速從大型網(wǎng)站中提取數(shù)據(jù)。
支持將數(shù)據(jù)以多種格式導(dǎo)出，如HTML、XML和JSON。
能夠通過中間件、管道和擴(kuò)展添加自定義功能
支持分布式抓取，允許您在多臺(tái)計(jì)算機(jī)上擴(kuò)展 Web 抓取操作
高效處理 Web 抓取過程中可能發(fā)生的常見錯(cuò)誤和異常
支持處理身份驗(yàn)證和 cookie 以抓取需要登錄憑據(jù)的網(wǎng)站
Scrapy易于與其他Python工具集成，如數(shù)據(jù)處理和存儲(chǔ)庫，成為構(gòu)建端到端數(shù)據(jù)處理管道的強(qiáng)大工具。

?? 優(yōu)點(diǎn)

由于其異步請(qǐng)求處理，因此對(duì)于大規(guī)模抓取非常有效。
具有廣泛自定義選項(xiàng)的綜合框架。
輕松處理復(fù)雜的抓取場景，如鏈接跟蹤、分頁和數(shù)據(jù)清理。
內(nèi)置支持以各種格式（如 JSON、CSV 和 XML）導(dǎo)出數(shù)據(jù)。

?? 缺點(diǎn)

對(duì)于初學(xué)者學(xué)習(xí)稍有難度。
與 Crawlee、Selenium 或 Playwright 相比，不太適合抓取動(dòng)態(tài) JavaScript 內(nèi)容。
與 Beautiful Soup 和 Crawlee 等更簡單的庫相比，在較小的項(xiàng)目中需要更多的設(shè)置和配置。

?? 選擇

Crawlee, Beautiful Soup, Selenium, Playwright

?? 安裝 Scrapy

要安裝 Scrapy，請(qǐng)?jiān)谀慕K端或命令提示符中運(yùn)行以下命令：

pip install scrapy

?? 代碼示例

import scrapy



class HackernewsSpiderSpider(scrapy.Spider):

    name = 'hackernews_spider'

    allowed_domains = ['news.ycombinator.com']

    start_urls = ['http://news.ycombinator.com/']



    def parse(self, response):

        articles = response.css('tr.athing')

        for article in articles:

            yield {

                "URL": article.css(".titleline a::attr(href)").get(),

                "title": article.css(".titleline a::text").get(),

                "rank": article.css(".rank::text").get().replace(".", "")

        }

哪個(gè) Python 抓取庫適合您？

那么，在選擇網(wǎng)絡(luò)抓取項(xiàng)目的庫時(shí)，您應(yīng)該考慮哪些選項(xiàng)呢？以下表格總結(jié)了本文介紹的所有庫的功能特性、主要用途、顯著優(yōu)點(diǎn)及潛在缺點(diǎn)：

圖書館	用例	易用性	特征	優(yōu)點(diǎn)	缺點(diǎn)	選擇
Crawlee	大規(guī)模抓取和瀏覽器自動(dòng)化	簡單	自動(dòng)并行爬取、代理輪換、持久隊(duì)列	易于設(shè)置、干凈的代碼、集成功能	新的有限教程	Scrapy, Playwright, Beautiful Soup
Requests	發(fā)出 HTTP 請(qǐng)求	非常簡單	簡單的 API、SSL/TLS 支持、流媒體	大型社區(qū)，有據(jù)可查	沒有異步，對(duì)于性能敏感型任務(wù)來說速度較慢	httpx, urllib3, aiohttp
HTTPX	支持異步的 HTTP 請(qǐng)求	簡單	異步支持、HTTP/2、可自定義傳輸	非阻塞請(qǐng)求，現(xiàn)代標(biāo)準(zhǔn)	學(xué)習(xí)強(qiáng)度更大，社區(qū)規(guī)模更小	Requests, aiohttp, urllib3
Beautiful Soup	HTML/XML 解析	非常簡單	樹遍歷、編碼處理、多解析器支持	語法簡單，非常適合初學(xué)者	可擴(kuò)展性有限，不支持 JavaScript	lxml, html5lib
Mechanical Soup	表單處理、簡單的網(wǎng)頁抓取	簡單	請(qǐng)求 + Beautiful Soup 集成，表單提交	簡化的界面、會(huì)話處理	有限的高級(jí)功能	Selenium, Playwright
Selenium	瀏覽器自動(dòng)化、JavaScript 密集型網(wǎng)站	中等	跨瀏覽器的動(dòng)態(tài)內(nèi)容處理	模擬復(fù)雜的交互，多語言支持	速度較慢，資源密集	Playwright, Crawlee, Scrapy
Playwright	高級(jí)瀏覽器自動(dòng)化	中等	多瀏覽器支持、自動(dòng)等待、并行執(zhí)行	處理 JS 密集型網(wǎng)站、高級(jí)功能	學(xué)習(xí)強(qiáng)度更大，社區(qū)更小	Selenium, Crawlee, Scrapy
Scrapy	大規(guī)模 Web 抓取	難	異步、分布式抓取、可擴(kuò)展性	高效，處理復(fù)雜場景	學(xué)習(xí)強(qiáng)度更大，設(shè)置繁重	Crawlee, Playwright, Selenium