Вопросы по теме 'html-content-extraction'
Варианты парсинга HTML?
Я подумываю попробовать Beautiful Soup , пакет Python для парсинга HTML. Есть ли другие пакеты для очистки HTML, на которые мне следует обратить внимание? Python не является обязательным требованием, мне интересно услышать и о других языках....
183173 просмотров
schedule
09.01.2023
Какие библиотеки синтаксического анализа HTML вы рекомендуете в Java
Я хочу проанализировать некоторый HTML, чтобы найти значения некоторых атрибутов / тегов и т. Д.
Какие парсеры HTML вы рекомендуете? Есть плюсы и минусы?
3647 просмотров
schedule
19.03.2022
C # - лучший подход к синтаксическому анализу веб-страницы?
Я сохранил html всей веб-страницы в виде строки, и теперь я хочу получить значения "href" из ссылок, желательно с возможностью позже сохранить их в других строках. Как лучше всего это сделать?
Я попытался сохранить строку как XML-документ и...
19720 просмотров
schedule
10.08.2022
Сопоставьте записи RSS с телом HTML w. неточный поиск
Как бы вы решили эту проблему?
Вы чистите HTML из блогов. Часть HTML-кода блога — это сообщения в блоге, часть — форматирование, боковые панели и т. д. Вы хотите иметь возможность определить, какой текст в HTML относится к какому сообщению...
230 просмотров
schedule
07.06.2022
Как разобрать плохо отформатированный HTML-файл?
Мне нужно проанализировать серию веб-страниц, чтобы импортировать данные в приложение. Каждый тип веб-страницы предоставляет одни и те же данные. Проблема в том, что HTML-код каждой страницы отличается, поэтому расположение данных может быть разным....
1791 просмотров
schedule
23.01.2023
Извлечение XQuery между двумя тегами
В настоящее время я работаю над извлечением данных из HTML . Я хотел бы извлечь текст между двумя тегами <p class="xfHeading"> .
<p class="xfHeading"><b>XYZ:</b></p>...
917 просмотров
schedule
25.03.2022
Извлечение данных из HTML с помощью PHP
Вот что я ищу:
У меня есть ссылка, которая отображает некоторые данные в формате HTML:
http://www.118.com/people-search.mvc...0&pageNumber=1
Данные поступают в следующем формате:
<div class="searchResult regular">
Птица Джон...
16826 просмотров
schedule
12.04.2022
iPhone: извлечение текста и кэш-памяти извлеченной веб-страницы
В моем приложении для iPhone есть информационная страница, которая содержит UIWebView, который я указал на информационной странице моего веб-сайта:
NSString *urlAddress = @"http://www.toneme.org/Software";
NSURL *url = [NSURL URLWithString:...
430 просмотров
schedule
16.08.2023
как извлечь список значений из определенного раскрывающегося списка в веб-форме, используя java/jsp
Я хочу извлечь все значения для определенного раскрывающегося списка в веб-форме.
В исходном коде этой веб-формы соответствующий код для этого конкретного раскрывающегося списка приведен ниже:
<div align="left"><select...
3117 просмотров
schedule
08.04.2023
как использовать бойлерпайп с локальным html-файлом?
У меня есть html-файл на локальном диске, и я хочу извлечь из него текст с помощью BoilerPipe.
Метод getText из класса ExtractorBase принимает ридер, поэтому я написал:
FileReader fr = new FileReader("D:/myHTMLfile");...
3448 просмотров
schedule
15.10.2022
Извлечение узлов HTML с помощью Jsoup
Это HTML-код:
<!DOCTYPE html>
<html>
<title>Instructor's Page</title>
<body>
<h1>Instructor's Page</h1>
<div class="check1"> <div id="check2">
<span id="check3" class="check4">...
1215 просмотров
schedule
04.08.2022
В Java, как исправить ошибку HTTP 416 Requested Range Not Satisfiable? (При загрузке веб-контента с веб-страницы)
Я пытаюсь загрузить html-контент веб-страницы и получаю статус 416. Я нашел одно решение, которое правильно улучшает код состояния как 200, но все еще не загружает надлежащий контент. Я очень близок, но чего-то не хватает. Пожалуйста помоги.
Код...
5179 просмотров
schedule
24.03.2023
HTML XPath: извлечение текста, смешанного с многоуровневыми и сложными тегами?
связанные вопросы перед:
HTML XPath: извлечение текста, смешанного с несколькими тегами?
HTML XPath: выборочное исключение тегов при извлечении текста
// извините за мой плохой английский
Я новичок в написании веб-сканера, я пытаюсь...
1254 просмотров
schedule
20.04.2024
Извлечь файл из HTTP-ответа в приложении логики Azure
У меня есть функция Azure (запускается http), которая в ответ возвращает CSV-файл. Я вызываю эту функцию из приложения логики, используя действие HTTP-запроса (поскольку мне нужно передать данные аутентификации) и получаю HTTP-ответ с CSV в теле....
966 просмотров
schedule
08.11.2022