Извлечение резюме — это метод получения значимой и полной информации из текста с акцентом на разделы, которые передают полезную информацию, и без потери общего смысла текста. Извлечение резюме направлено на преобразование длинного текста в сокращенные версии, что облегчает его понимание.

Используемые методы и библиотеки

● NumPy
● nltk
● Spacy
● газета3k
● Регулярные выражения

Резюме Извлечение библиотекигазета3k.

Используя газетную библиотеку, мы можем собрать полный текст статьи, просто используя предопределенную функцию с именем Article. Есть некоторые преимущества и недостатки использования библиотекигазета3k.

from newspaper import Article
url = "Enter the url"
article = Article(url)

Полный текст статьи находился в переменной с именем article.

Преимущества использования газеты3k

● Предопределенные функции
● Простой доступ к полному тексту статьи
● Простой сбор имен авторов и дат публикации статьи с помощью функций авторов и publish_date.
● Использование библиотеки газеты3k. очень легко собрать аннотацию статьи с помощью переменной (функция сводки)

Недостатки использования газеты3k

● Невозможно загрузить полные URL-адреса веб-сайта, если мы запустим код n раз
● Сводка, собранная с помощью газеты3k, оказалась не такой, как ожидалось
● Использование газетной библиотеки становится затруднительным во время развертывания на Heroku . Поскольку Heroku не имеет ключевых слов корпусов, установленных по умолчанию, нам необходимо указать ключевые слова корпусов в текстовом файле во время развертывания.

Как сводка извлекается с использованием библиотекигазеты3k

Punkt может выбрать первые 5 токенизированных предложений и связать их вместе, чтобы сформировать полное резюме. Punkt помогает нам разделить полный текст на список предложений.
Преодолеть недостатки газет 3k и собрать содержательные резюме. Теперь мы используем библиотеку под названием spacy.

Прежде чем использовать методы библиотеки spacy, мы просто воспользовались помощью библиотеки nltk, чтобы преобразовать полный текст в предложения. Для этой цели мы используем функцию под названием tokenizer.

● Sent_tokenizer
● Word_tokenizer

Используя библиотеку spacy, мы полностью удаляем пунктуацию строки и нежелательные слова, что полностью портит данные.

Вместо того, чтобы собирать данные о 5 лучших предложениях в виде сводки. Использование spacy просто придаст важность каждому слову, называемому нормализацией текста, и разделит их на полную длину предложения данных. Будут собраны очень важные данные.

Мы можем собрать сводку в зависимости от значений вероятности из результата. 0,3 вероятности количество текста дает полное объяснение резюме. После сбора сводки лучше сделать чистящую часть для лучшего понимания. Использование регулярных выражений и специальных последовательностей и методов метасимволов для очистки данных.

Метасимволы

[] возвращает совпадение, если содержит шаблоны/символы, указанные в []
^ строка начинается с заданных шаблонов
$ заканчивается на
. любой символ, кроме символа новой строки
* Ноль или более вхождений
+ одно или более вхождений
{} указанное количество вхождений

Специальные последовательности

\d Если в данной строке есть цифры (0–9)
\DЕсли в данной строке нет строк
\w Если в данной строке есть символы слова (az, A-Z, 0–9)
\W Если в данной строке нет символов слова
\ sЕсли в данной строке есть пробелы
\SЕсли в данной строке нет пробелов

Методы, используемые для очистки данных

1. Удаление ненужных знаков препинания для текста
2. Удаление ссылок из текста
3. Удаление хэштегов
4. Удаление лишних пробелов
5. Удаление собственных упоминаний

Выходы

URL-адрес статьи



Краткое содержание

Этот стиль Pochampally Ikat получил статус географического индикатора GI в 2004 году и также известен как Bhoodan Pochampally в ознаменование движения Bhoodan, которое было начато Ачарьей Винобхой Бхаве из этой деревни 18 апреля 1951 года. Министерство туризма заявило, что разработало проект сельского туризма. политика, которая не только будет способствовать развитию туризма в наших деревнях, но и возродит местное искусство и ремесла и будет способствовать развитию сельской экономики. Пилотная инициатива ЮНВТО «Лучшие туристические деревни» направлена ​​на награждение тех деревень, которые являются выдающимися примерами сельских направлений и демонстрируют передовой опыт в соответствии с определенными оценочными областями. ХАЙДАРАБАД: Деревня Почампалли в районе Ядадри Бхуванагири, известная своими знаменитыми сари Икат ручной работы, была во вторник выбрана Всемирной туристической организацией ООН ЮНВТО одной из лучших туристических деревень. Награда будет вручена на 24-й сессии Генеральной ассамблеи ЮНВТО 2 декабря в Мадриде.

URL-адрес статьи



Краткое содержание

Прогнозируется, что БСП потеряет значительную долю своих голосов как в пользу СП, так и БДП и займет третье место с примерно 30 местами, в то время как Конгресс может получить от пяти до восьми мест, не сильно отличающихся от семи, которые он получил в 2017 году. Если прогнозы окажутся be aurate Йоги Адитьянатх станет первым главным министром в штате Уттар-Прадеш, который будет служить два срока подряд. Опрос общественного мнения показал сильную поддержку жесткого подхода правительства йогов к закону и порядку, а также, в меньшей степени, его законного пути противодействия «принудительному» обращению.

URL-адрес статьи



Краткое содержание

К ним относятся закрытие всех, кроме пяти тепловых электростанций, в радиусе 300 км от Дели до 30 ноября, прекращение въезда грузовиков в Дели, за исключением тех, которые перевозят товары первой необходимости, запрет на использование дизельных и бензиновых автомобилей старше 10 и 15 лет соответственно в НКР и запрет на строительство и снос в НКР до 21 ноября, за исключением некоторых государственных и инфраструктурных проектов. Это последовало за встречей с представителями штатов NCR ранее в тот же день, на которой основное внимание было уделено автомобильному загрязнению, пыли, загрязнению от строительных работ и дорог, а также выбросам от тепловых электростанций и промышленному загрязнению. По крайней мере, 50 государственных служащих в NCR будут работать из дома, а частные учреждения будут поощряться к работе до 21 ноября. в NCR с газовыми соединениями работают только на газе, при отказе которого они должны быть отключены. Качество воздуха в Дели во вторник снова ухудшилось, достигнув критической категории – 403. Из 11 тепловых электростанций пять, которым было разрешено функционировать, – это NTPC Jhajjar Mahatma Gandhi TPS CLP Jhajjar Panipat TPS HPGCL Nabha Power Ltd TPS Rajpura и Talwandi Sabo TPS Mansa.

Полезная информация

Рекомендации

Блог: https://www.bluetickconsultants.com/summary-extraction-of-an-article-using-experimental-NLP-techniques.html

Код GitHub: https://github.com/bluetickconsultants/summary-extraction-nlp

Другие проекты

Проекты с открытым исходным кодом: https://www.bluetickconsultants.com/open-source.html

Репозитории GitHub с открытым исходным кодом: https://github.com/orgs/bluetickconsultants/repositories

Автор:

ТОО Bluetick Consultantshttps://www.bluetickconsultants.com