Вопросы по теме 'html-content-extraction'

Варианты парсинга HTML?
Я подумываю попробовать Beautiful Soup , пакет Python для парсинга HTML. Есть ли другие пакеты для очистки HTML, на которые мне следует обратить внимание? Python не является обязательным требованием, мне интересно услышать и о других языках....
183173 просмотров

Какие библиотеки синтаксического анализа HTML вы рекомендуете в Java
Я хочу проанализировать некоторый HTML, чтобы найти значения некоторых атрибутов / тегов и т. Д. Какие парсеры HTML вы рекомендуете? Есть плюсы и минусы?
3647 просмотров

C # - лучший подход к синтаксическому анализу веб-страницы?
Я сохранил html всей веб-страницы в виде строки, и теперь я хочу получить значения "href" из ссылок, желательно с возможностью позже сохранить их в других строках. Как лучше всего это сделать? Я попытался сохранить строку как XML-документ и...
19720 просмотров
schedule 10.08.2022

Сопоставьте записи RSS с телом HTML w. неточный поиск
Как бы вы решили эту проблему? Вы чистите HTML из блогов. Часть HTML-кода блога — это сообщения в блоге, часть — форматирование, боковые панели и т. д. Вы хотите иметь возможность определить, какой текст в HTML относится к какому сообщению...
230 просмотров

Как разобрать плохо отформатированный HTML-файл?
Мне нужно проанализировать серию веб-страниц, чтобы импортировать данные в приложение. Каждый тип веб-страницы предоставляет одни и те же данные. Проблема в том, что HTML-код каждой страницы отличается, поэтому расположение данных может быть разным....
1791 просмотров

Извлечение XQuery между двумя тегами
В настоящее время я работаю над извлечением данных из HTML . Я хотел бы извлечь текст между двумя тегами <p class="xfHeading"> . <p class="xfHeading"><b>XYZ:</b></p>...
917 просмотров
schedule 25.03.2022

Извлечение данных из HTML с помощью PHP
Вот что я ищу: У меня есть ссылка, которая отображает некоторые данные в формате HTML: http://www.118.com/people-search.mvc...0&pageNumber=1 Данные поступают в следующем формате: <div class="searchResult regular"> Птица Джон...
16826 просмотров
schedule 12.04.2022

iPhone: извлечение текста и кэш-памяти извлеченной веб-страницы
В моем приложении для iPhone есть информационная страница, которая содержит UIWebView, который я указал на информационной странице моего веб-сайта: NSString *urlAddress = @"http://www.toneme.org/Software"; NSURL *url = [NSURL URLWithString:...
430 просмотров

как извлечь список значений из определенного раскрывающегося списка в веб-форме, используя java/jsp
Я хочу извлечь все значения для определенного раскрывающегося списка в веб-форме. В исходном коде этой веб-формы соответствующий код для этого конкретного раскрывающегося списка приведен ниже: <div align="left"><select...
3117 просмотров

как использовать бойлерпайп с локальным html-файлом?
У меня есть html-файл на локальном диске, и я хочу извлечь из него текст с помощью BoilerPipe. Метод getText из класса ExtractorBase принимает ридер, поэтому я написал: FileReader fr = new FileReader("D:/myHTMLfile");...
3448 просмотров

Извлечение узлов HTML с помощью Jsoup
Это HTML-код: <!DOCTYPE html> <html> <title>Instructor's Page</title> <body> <h1>Instructor's Page</h1> <div class="check1"> <div id="check2"> <span id="check3" class="check4">...
1215 просмотров

В Java, как исправить ошибку HTTP 416 Requested Range Not Satisfiable? (При загрузке веб-контента с веб-страницы)
Я пытаюсь загрузить html-контент веб-страницы и получаю статус 416. Я нашел одно решение, которое правильно улучшает код состояния как 200, но все еще не загружает надлежащий контент. Я очень близок, но чего-то не хватает. Пожалуйста помоги. Код...
5179 просмотров

HTML XPath: извлечение текста, смешанного с многоуровневыми и сложными тегами?
связанные вопросы перед: HTML XPath: извлечение текста, смешанного с несколькими тегами? HTML XPath: выборочное исключение тегов при извлечении текста // извините за мой плохой английский Я новичок в написании веб-сканера, я пытаюсь...
1254 просмотров

Извлечь файл из HTTP-ответа в приложении логики Azure
У меня есть функция Azure (запускается http), которая в ответ возвращает CSV-файл. Я вызываю эту функцию из приложения логики, используя действие HTTP-запроса (поскольку мне нужно передать данные аутентификации) и получаю HTTP-ответ с CSV в теле....
966 просмотров