在 Linux 服务器上运行 Django 项目

Question

Red Fox

Asked:2022-12-15 12:29:32 +0000 UTC2022-12-15 12:29:32 +0000 UTC 2022-12-15 12:29:32 +0000 UTC

如何加速 Avatar 解析器？

772

我练习了多线程并决定制作一个头像解析器。但是数据收集的速度还有很多不足之处。我究竟做错了什么？或者也许在 asyncio 下重新制作它？

import threading
import requests
from bs4 import BeautifulSoup
import lxml

def getImage():
        #https://cspromogame.ru/avatars?page=1999
        links = set()
        for page in range(1,101): #2000
            url = "https://cspromogame.ru/avatars?page={page}"
            req = requests.get(url=url)
            soup = BeautifulSoup(req.text,"lxml")
            a = soup.findAll("a", class_="avatars__link")
            for link in a:
                link = link.get("href")
                alinks = link.split("/")[-1].replace(".jpg","")
                req2 = requests.get(link)
                out = open(f"Avatars/Картинка_{alinks}.jpg",'wb')
                out.write(req2.content)
                out.close()
                print("Обработано ", alinks)
                
threads  = []
for i in range(11):
    t = threading.Thread(target=getImage)
    t.start()

for th in threads:
    th.join()

1 个回答

Voted

Виктор · Answer 1 · 2022-12-15T13:57:47Z

实施方案（供审查）

from bs4 import BeautifulSoup
import lxml
import asyncio
import aiohttp
import time

start_time = time.time()

async def main():

    async def get_one_page(page:int):
        url = f'https://cspromogame.ru/avatars?page={page}'
              
        async with session.get(url) as resp:
            text = await resp.text()
            print(f'Page: {page}')

            soup = BeautifulSoup(text,"lxml")
            a = soup.findAll("a", class_="avatars__link")
            for link in a:
                link = link.get("href")
                alinks = link.split("/")[-1].replace(".jpg","")

                async with session.get(link) as resp:
                    filename = f'Avatars/Pic_{alinks}.jpg'
                    chunk_size = 64 * 1024
                    with open(filename, 'wb') as fd:
                        async for chunk in resp.content.iter_chunked(chunk_size):
                            fd.write(chunk)
                    print(f'Done: {filename}')

    async with aiohttp.ClientSession() as session:
        pages = [ get_one_page(page) for page in range(1, 3)]
        await asyncio.gather(*pages)

asyncio.run(main())

print("--- %s seconds ---" % (time.time() - start_time))

如何加速 Avatar 解析器？

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

如何加速 Avatar 解析器？

1 个回答

相关问题