Вопросы по теме 'html-parsing'

Варианты парсинга HTML?
Я подумываю попробовать Beautiful Soup , пакет Python для парсинга HTML. Есть ли другие пакеты для очистки HTML, на которые мне следует обратить внимание? Python не является обязательным требованием, мне интересно услышать и о других языках....
183173 просмотров

Какое регулярное выражение будет соответствовать этим данным?
У меня есть следующее в документе XHTML: <script type="text/javascript" id="JSBALLOONS"> function() { this.init = function() { this.wAPI = new widgetAPI('__BALLOONS__'); this.getRssFeed(); };...
579 просмотров
schedule 07.08.2023

Сопоставление тега пары с регулярным выражением
Я пытаюсь получить определенные теги с их содержимым из документа xhtml, но он соответствует неправильным конечным тегам. В следующем содержании: <cache_namespace name="content"> <content_block id="15"> some content here...
6705 просмотров
schedule 05.10.2022

Какой HTML-парсер лучший?
Я кодирую много парсеров. До сих пор я использовал безголовый браузер HtmlUnit для синтаксического анализа и автоматизации браузера. Теперь я хочу разделить обе задачи. Поскольку 80% моей работы включает только синтаксический анализ, я хочу...
190329 просмотров
schedule 01.03.2023

Выбор следующей ссылки с помощью XPath
Мне нужно написать выражение XPath, чтобы получить атрибут href тега привязки в html ниже, который идет сразу после того, который отмечен как «текущая страница» (в примере # notimportant / 2). <dd> <a href="#notimportant/1"...
933 просмотров
schedule 06.04.2024

Разбор искаженного HTML с помощью PHP Dom
У меня есть клиент, который хочет, чтобы его видео (предоставленное третьей стороной) отображалось на его веб-сайте. Веб-сайт использует swfobject для отображения видео, поэтому я подумал, что будет проще взять его и немного изменить, чтобы он...
2107 просмотров
schedule 05.01.2023

Удаление HTML-узлов из оболочки
Требуется решение для уничтожения таких узлов, как <footer>foobar</footer> и <div class="nav"></div> , из нескольких файлов HTML. Я хочу сбросить сайт на диск без меню и нижних колонтитулов и прочего. В идеале я бы...
131 просмотров
schedule 10.03.2022

Помощь с разбором Java Swing HTML
Я анализирую коллекцию HTML-документов с помощью библиотек синтаксического анализа HTML Java Swing и пытаюсь изолировать текст между тегами <title> , чтобы я мог использовать их для идентификации документов, но мне трудно это сделать, поскольку...
649 просмотров
schedule 31.10.2022

Используя PHP, как разобрать заголовок и метатеги с HTML-страницы?
Возможный дубликат: CodeIgniter: класс/библиотека для получения метатегов с веб-страницы? Мне нужно получить метаданные TITLE и DESCIPTION со страницы. Я пытался сделать это, но я получаю больше ошибок, чем реальных результатов. (У...
1010 просмотров
schedule 23.02.2023

Проблема с восточноевропейскими символами при извлечении данных с веб-сайта Европейского парламента.
РЕДАКТИРОВАТЬ: большое спасибо за все ответы и поднятые вопросы. Как новичок, я немного ошеломлен, но это отличная мотивация для продолжения изучения Python! Я пытаюсь собрать много данных с веб-сайта Европейского парламента для исследовательского...
1246 просмотров
schedule 16.04.2023

Функция PHP для удаления тегов, за исключением списка тегов и атрибутов из белого списка
Я должен удалить все HTML-теги и атрибуты из пользовательского ввода, кроме тех, которые считаются «безопасными» (т. е. подход с использованием белого списка). strip_tags() удаляет все теги, кроме перечисленных в параметре $allowable_tags ....
2978 просмотров
schedule 08.03.2023

libxml2 разбор фрагментов HTML
Я загружаю HTML с веб-сайта. Файл может быть довольно большим, поэтому во время загрузки файла я хочу уже проанализировать доступные фрагменты HTML, чтобы процесс выполнялся быстрее для конечного пользователя моей программы. У меня нет контроля над...
1367 просмотров
schedule 12.04.2024

Удаление битых тегов и плохо отформатированного html из некоторого текста
У меня есть огромная база данных очищенных сообщений форума, которые я вставляю на веб-сайт. однако многие люди пытаются использовать html в своих сообщениях на форуме и часто делают это неправильно. из-за этого в сообщениях всегда есть случайные...
381 просмотров
schedule 01.03.2024

ошибка zend_mm_heap с simple_html_dom
Я пытаюсь разобрать HTML-файл с помощью simplehtmldom и получаю следующую ошибку: zend_mm_heap corrupted примерно через 4 секунды выполнения в HTML-файле на 8231 строку. Может быть, это ошибка или просто чрезмерное использование памяти?
4563 просмотров
schedule 12.10.2022

Замените пользовательский тег html гиперссылкой с помощью php
У меня есть пользовательский тег html в моих приложениях, который выглядит так: <wiki href="articletitle">Text</wiki>` и хочу заменить его на это: <a...
2821 просмотров
schedule 06.10.2022

Элементы ввода вывода Zend_Form без тега / ›
При создании этой формы с помощью Zend Framework я хочу, чтобы выходные данные проверялись с помощью doctype strict, но это не удалось, потому что входные данные не имеют закрывающего тега "/>". Как я могу пройти проверку? Форма:...
1262 просмотров

Есть ли хороший способ отлаживать незакрытые поплавки/незакрытые элементы div на странице?
Эти два могут стать сущим адом, особенно при построении на существующем шаблоне, и после стирания фрагмента кода, смешанного с HTML, вы обнаружите, что дизайн страницы испорчен. Итак, есть ли какие-нибудь инструменты, чтобы сказать вам, что div не...
1590 просмотров
schedule 09.03.2024

Аварийное завершение программы в веб-браузере Turbo C++
Я пытался сделать работоспособный веб-браузер на Turbo C++ (ничего не могу поделать, я должен работать в рамках своей образовательной системы). По сути, то, что я создал, представляет собой простой синтаксический анализатор, который берет HTML-файл,...
839 просмотров
schedule 22.12.2022

Groovy, разобрать html с помощью XmlSlurper, как получить код html в узле?
я разбираю html-страницу с помощью XmlSlurper и HtmlCleaner, у меня есть GPathResult с def page = new XmlSlurper(false,false).parseText(xml) теперь я могу использовать GPath для доступа к различным узлам. В html у меня есть такой абзац:...
3839 просмотров
schedule 18.03.2023

Разбор HTML в android
У меня есть ответ Html для моего приложения, который мне нужно проанализировать в конечном итоге. Есть ли способ выполнить анализ HTML в приложении для Android. Я много искал в сети, но не нашел ничего, что искал. Может у кого-нибудь есть...
3918 просмотров
schedule 31.07.2023