Вопросы по теме 'html-parsing'
Варианты парсинга HTML?
Я подумываю попробовать Beautiful Soup , пакет Python для парсинга HTML. Есть ли другие пакеты для очистки HTML, на которые мне следует обратить внимание? Python не является обязательным требованием, мне интересно услышать и о других языках....
183173 просмотров
schedule
09.01.2023
Какое регулярное выражение будет соответствовать этим данным?
У меня есть следующее в документе XHTML:
<script type="text/javascript" id="JSBALLOONS">
function() {
this.init = function() {
this.wAPI = new widgetAPI('__BALLOONS__');
this.getRssFeed();
};...
579 просмотров
schedule
07.08.2023
Сопоставление тега пары с регулярным выражением
Я пытаюсь получить определенные теги с их содержимым из документа xhtml, но он соответствует неправильным конечным тегам.
В следующем содержании:
<cache_namespace name="content">
<content_block id="15">
some content here...
6705 просмотров
schedule
05.10.2022
Какой HTML-парсер лучший?
Я кодирую много парсеров. До сих пор я использовал безголовый браузер HtmlUnit для синтаксического анализа и автоматизации браузера.
Теперь я хочу разделить обе задачи.
Поскольку 80% моей работы включает только синтаксический анализ, я хочу...
190329 просмотров
schedule
01.03.2023
Выбор следующей ссылки с помощью XPath
Мне нужно написать выражение XPath, чтобы получить атрибут href тега привязки в html ниже, который идет сразу после того, который отмечен как «текущая страница» (в примере # notimportant / 2).
<dd>
<a href="#notimportant/1"...
933 просмотров
schedule
06.04.2024
Разбор искаженного HTML с помощью PHP Dom
У меня есть клиент, который хочет, чтобы его видео (предоставленное третьей стороной) отображалось на его веб-сайте. Веб-сайт использует swfobject для отображения видео, поэтому я подумал, что будет проще взять его и немного изменить, чтобы он...
2107 просмотров
schedule
05.01.2023
Удаление HTML-узлов из оболочки
Требуется решение для уничтожения таких узлов, как <footer>foobar</footer> и <div class="nav"></div> , из нескольких файлов HTML.
Я хочу сбросить сайт на диск без меню и нижних колонтитулов и прочего. В идеале я бы...
131 просмотров
schedule
10.03.2022
Помощь с разбором Java Swing HTML
Я анализирую коллекцию HTML-документов с помощью библиотек синтаксического анализа HTML Java Swing и пытаюсь изолировать текст между тегами <title> , чтобы я мог использовать их для идентификации документов, но мне трудно это сделать, поскольку...
649 просмотров
schedule
31.10.2022
Используя PHP, как разобрать заголовок и метатеги с HTML-страницы?
Возможный дубликат: CodeIgniter: класс/библиотека для получения метатегов с веб-страницы?
Мне нужно получить метаданные TITLE и DESCIPTION со страницы.
Я пытался сделать это, но я получаю больше ошибок, чем реальных результатов. (У...
1010 просмотров
schedule
23.02.2023
Проблема с восточноевропейскими символами при извлечении данных с веб-сайта Европейского парламента.
РЕДАКТИРОВАТЬ: большое спасибо за все ответы и поднятые вопросы. Как новичок, я немного ошеломлен, но это отличная мотивация для продолжения изучения Python!
Я пытаюсь собрать много данных с веб-сайта Европейского парламента для исследовательского...
1246 просмотров
schedule
16.04.2023
Функция PHP для удаления тегов, за исключением списка тегов и атрибутов из белого списка
Я должен удалить все HTML-теги и атрибуты из пользовательского ввода, кроме тех, которые считаются «безопасными» (т. е. подход с использованием белого списка).
strip_tags() удаляет все теги, кроме перечисленных в параметре $allowable_tags ....
2978 просмотров
schedule
08.03.2023
libxml2 разбор фрагментов HTML
Я загружаю HTML с веб-сайта. Файл может быть довольно большим, поэтому во время загрузки файла я хочу уже проанализировать доступные фрагменты HTML, чтобы процесс выполнялся быстрее для конечного пользователя моей программы. У меня нет контроля над...
1367 просмотров
schedule
12.04.2024
Удаление битых тегов и плохо отформатированного html из некоторого текста
У меня есть огромная база данных очищенных сообщений форума, которые я вставляю на веб-сайт. однако многие люди пытаются использовать html в своих сообщениях на форуме и часто делают это неправильно. из-за этого в сообщениях всегда есть случайные...
381 просмотров
schedule
01.03.2024
ошибка zend_mm_heap с simple_html_dom
Я пытаюсь разобрать HTML-файл с помощью simplehtmldom и получаю следующую ошибку:
zend_mm_heap corrupted
примерно через 4 секунды выполнения в HTML-файле на 8231 строку. Может быть, это ошибка или просто чрезмерное использование памяти?
4563 просмотров
schedule
12.10.2022
Замените пользовательский тег html гиперссылкой с помощью php
У меня есть пользовательский тег html в моих приложениях, который выглядит так:
<wiki href="articletitle">Text</wiki>`
и хочу заменить его на это:
<a...
2821 просмотров
schedule
06.10.2022
Элементы ввода вывода Zend_Form без тега / ›
При создании этой формы с помощью Zend Framework я хочу, чтобы выходные данные проверялись с помощью doctype strict, но это не удалось, потому что входные данные не имеют закрывающего тега "/>".
Как я могу пройти проверку?
Форма:...
1262 просмотров
schedule
19.04.2023
Есть ли хороший способ отлаживать незакрытые поплавки/незакрытые элементы div на странице?
Эти два могут стать сущим адом, особенно при построении на существующем шаблоне, и после стирания фрагмента кода, смешанного с HTML, вы обнаружите, что дизайн страницы испорчен. Итак, есть ли какие-нибудь инструменты, чтобы сказать вам, что div не...
1590 просмотров
schedule
09.03.2024
Аварийное завершение программы в веб-браузере Turbo C++
Я пытался сделать работоспособный веб-браузер на Turbo C++ (ничего не могу поделать, я должен работать в рамках своей образовательной системы). По сути, то, что я создал, представляет собой простой синтаксический анализатор, который берет HTML-файл,...
839 просмотров
schedule
22.12.2022
Groovy, разобрать html с помощью XmlSlurper, как получить код html в узле?
я разбираю html-страницу с помощью XmlSlurper и HtmlCleaner, у меня есть GPathResult с
def page = new XmlSlurper(false,false).parseText(xml)
теперь я могу использовать GPath для доступа к различным узлам.
В html у меня есть такой абзац:...
3839 просмотров
schedule
18.03.2023
Разбор HTML в android
У меня есть ответ Html для моего приложения, который мне нужно проанализировать в конечном итоге. Есть ли способ выполнить анализ HTML в приложении для Android. Я много искал в сети, но не нашел ничего, что искал.
Может у кого-нибудь есть...
3918 просмотров
schedule
31.07.2023