该网站上的 javascript 包含一些 Json,我使用正则表达式将其提取出来。
但是 Json 包含 html 元素。有没有办法摆脱它们,只留下文字?
例如
<div>Гарантированный анализ:</b> протеин 0,0014%, жиры 0,00029%, зола 5,3%, влага 81%, кальций 5,2%, калий 0,026%, магний 0,000014%, натрий 0,000047%, фосфор 0,0011%.</div><div style="text-align: justify;"><b>Состав: </b>минералы, сахар, молоко и молочные продукты, концентрат черной смородины.</div><div style="text-align: justify;"> </div><div style="text-align: justify;"><b>Гарантированный анализ:</b> протеин 0,0014%, жиры 0,00029%, зола 5,3%, влага 81%, кальций 5,2%, калий 0,026%, магний 0,000014%, натрий 0,000047%, фосфор 0,0011%.</div><div style="text-align: justify;"> </div><div style="text-align: justify;"><b>Добавки на 1 л:</b> витамин С 200 мг.</div>
更新:这些方法不适用于此:
\r\n\u003cul>\r\n \u003cli style=\"text-align: justify;\">Полноценный корм в виде хлопьев с натуральными усилителями цвета\u003c/li>
更新 如果您将 bs4 打印到控制台,它会打印
Результат:
Полноценный корм в виде хлопьев с натуральными усилителями цвета
Поддерживает яркость и полноту окраса всех видов красных, оранжевых и желтых декоративных рыб
Эффект усиления цвета виден всего через две недели
БиоАктив-формула поддерживает здоровой иммунную систему
Содержит пребиотики для лучшего переваривания пищи
Для здорового роста рыб и чистой воды
一切都很好,但是如果我将值输入字典,然后显示该字典,那么特殊字符会从我身上溜走
{'composition': 'Ингредиенты:\xa0рыба и побочные рыбные продукты, зерновые культуры, дрожжи, моллюски и раки, экстракты растительного белка, масла и жиры, водоросли, сахар (олигофруктоза 0,9%), минеральные вещества.\n\n\n\nАналитический состав:\n\n\
有几种方法可以删除标签:
使用正则表达式
用美丽的汤
使用元素树