是否可以以某种方式自定义 QTabWidget？

Question

Irking

Asked:2024-08-24 20:45:23 +0000 UTC2024-08-24 20:45:23 +0000 UTC 2024-08-24 20:45:23 +0000 UTC

解析 Habr (Python + LxmlSoup)

772

我刚刚开始尝试解析并决定制作一个发送文章列表的机器人。

我在这里收集了标题和最近文章的链接：

from LxmlSoup import LxmlSoup
import requests

html = requests.get('https://habr.com/ru/articles/').text
soup = LxmlSoup(html)

links = soup.find_all('a', class_='tm-title__link')

for i, link in enumerate(links, start=1):
    print(f'{i}: {link.text()}')
    print('https://habr.com' + link.get('href'), '\n')

现在的问题是：

如何将解析限制为 3-5 个结果？这样他就不会收集整个页面，而只会收集新的 3-5 篇文章（它们是在 hub 上订购的）。
如何获取一篇文章的发表时间？ Hub上的标题旁边写着“55分钟前”，我想记录一个特定的时间（收集统计数据，例如“周四，发表文章的平均时间为40分钟”）
在哪里以及从哪里阅读有关 html 的内容 - 我很难理解要查找哪些标签以及如何从中获取信息。

如果有的话，这些任务本质上纯粹是教育性的。

2 个回答

Voted

AnnaBazueva · Answer 1 · 2024-08-24T21:19:00Z

第一个问题：

“如何将解析限制为 3-5 个结果？”

magic_numbers = (13, 42, 54, 32, 12, 144)

for i, item in enumerate(magic_numbers, 1):
    if i > 5:
        print('Больше 5-ти элементов нам не надо, прерываем цикл.')
        break

    print(''.join(('Обработали:\n- первый элемент'.__mul__(i==1),
                   '- второй элемент'.__mul__(i==2),
                   '- третий элемент'.__mul__(i==3),
                   '- четвёртый элемент'.__mul__(i==4),
                   '- пятый элемент'.__mul__(i==5),)
                  )
    )

输出：

Обработали:     
- первый элемент
- второй элемент
- третий элемент
- четвёртый элемент
- пятый элемент
"Больше 5-ти элементов нам не надо, прерываем цикл."

第二、第三个问题：

在浏览器中，用鼠标选择所需的内容，然后人民币调出上下文菜单：（可能会有一个项目：“检查元素”-这取决于浏览器）然后查看哪个标签包含必要的数据，然后查看父标签 以了解如何提取所需的内容。

Mipsirint · Answer 2 · 2024-08-24T21:34:14Z

据我了解，该函数没有参数LxmlSoup，不像它的祖先 BeautifulSoup。所以你应该去：limitfind_all()bs4

from bs4 import BeautifulSoup
import requests

html = requests.get('https://habr.com/ru/articles/').text
soup = BeautifulSoup(html, 'html.parser')

articles_limit = 5  # Изменить число статей на любое душе угодное
links = soup.find_all('a', class_='tm-title__link', limit=articles_limit)

for i, link in enumerate(links, start=1):
    print(f'{i}: {link.text}')
    print('https://habr.com' + link.get('href'), '\n')

或者使用解析所有文章LxmlSoup，然后只显示前五个链接（如果不需要额外的文章存储在列表中，可以使用截图）：

...
articles_limit = 5
for i, link in enumerate(links[:articles_limit], start=1):
    ...

Habr 不仅仅将发布日期<time>及其相应属性放在标签中：

<time datetime="2024-08-24T12:36:58.000Z" title="2024-08-24, 20:36">18 минут назад</time>

datetime您可以通过、或属性从那里提取日期title，具体取决于您更容易使用哪种格式：

# В качестве примера взял код с bs4 выше
from bs4 import BeautifulSoup
import requests

html = requests.get('https://habr.com/ru/articles/').text
soup = BeautifulSoup(html, 'html.parser')

articles_count = 5
articles = soup.find_all('article', class_='tm-articles-list__item', limit=articles_count)

for i, article in enumerate(articles, start=1):
    link = article.find('a', class_='tm-title__link')
    date = article.find('a', class_='tm-article-datetime-published').find('time')
    print(f'{i}: {link.text}')
    print('https://habr.com' + link.get('href'))
    article_datetime = date.get('datetime')  # Либо date.get('title')
    print(f'Время публикации: {article_datetime}', '\n')

如果您基本上想了解什么是元素以及它们需要什么，我推荐英文版MDN 文档（ https://developer.mozilla.org/en-US/docs/Web/HTML/Element/ ）（可能是俄语，但并非所有内容都已翻译和转移）或俄语https://doka.guide/html/ 。如果您只需要了解 Habr 的语义，请打开 DevTools 并探索您感兴趣的所有内容。

解析 Habr (Python + LxmlSoup)

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

解析 Habr (Python + LxmlSoup)

2 个回答

相关问题