Свободно распространяемые программы для Windows

Rss рассылка

Хотите подписаться на обновления?

Введите email адрес:

rss-лента

Форма входа

Поддержите нас

Обратите, пожалуйста, ваше внимание на нашу книгу на ЛитРес:

Книга "Легальность программного обеспечения в организациях" на ЛитРес

Создание sitemap.xml с извлечением даты последней модификации веб-страницы

Карта сайта для КонтинентСвободы.рф Пример готового sitemap.xml файла

Программа для создания sitemap.xml с поддержкой извлечения даты последнего изменения веб-страницы и учетом запретов в robots.txt. Написана на высокоуровневом языке программирования Python 3. Полностью на русском языке.

Особенности:

  • создание карты сайта в формате xml;
  • неограниченное количество url-адресов;
  • поддержка кириллицы в домене и url-адресе;
  • извлечение даты последнего изменения страницы;
  • заполнение приоритетов и регулярности обновления на основании уровня вложенности;
  • статистическая информация в режиме реального времени - количество обнаруженных ссылок и добавленных веб-страниц в sitemap.xml;
  • поддержка списка игнорирования для исключения мусорных страниц (взято за основу из CMS Joomla);
  • поддержка протоколов http и https.

Карта сайта сохраняется в папке с исполняемым файлом программы под именем sitemap.xml. Предполагается, что данный файл по завершении процесса создания карты сайта можно будет сразу загрузить на хостинг.

Существуют более удобные для веб-мастера html карты сайта, так как их не нужно каждый раз создавать отдельной программой, но любой опытный SEO-специалист объяснит, что xml карта сайта имеет больший вес для поисковых систем и является одним из 1000 факторов, которые учитываются при ранжировании сайта. Это подтверждается официальной документацией поисковых систем Яндекс и Google.

Множество подобных программ имеют ограничения по количеству страниц, которые программа может добавить в sitemap.xml. Чаще всего такие программы имеют ограничения в 500 адресов, но XmlSitemapGenerator не имеет ограничений по количеству веб-страниц, поэтому может использоваться для создания карты сайта любого размера, и, что не менее важно, абсолютно бесплатно.

Поддерживается извлечение даты обновления или создания веб-страниц для заполнения тега <lastmod>. Программа ищет дату на странице по словам "Обновлено:", "Опубликовано:" и "Создано:". Также она умеет распознавать текстовые названия месяцев.

Теги <priority> и <changefreq> на основании уровня вложенности конкретной веб-страницы.

Для удобства отслеживания процесса создания sitemap в формате xml отображается статистика - количество обнаруженных ссылок и добавленных в карту веб-страниц. Она обновляется в режиме реального времени.

Список игнорирования исключает из карты мусорные страницы с '.jpg', '.png', '/user?id=', 'login', 'logout', 'redirect.php', '.exe', '.zip', '.msi', '.JPG', '.PNG', 'comment-', 'component', 'users', '.tar.bz2'.

Язык: Русский

Лицензия: GNU GPL v2

Текущая версия: 1.0 (28-12-2020)

Разработчик: Алексей Черемных (КонтинентСвободы.рф)

Протестировано на ОС: Windows 7 x86, Windows 7 x64, Windows 10 x64

Скачать

Добавить комментарий


Комментарии  

# mrkaban 29.12.2020 22:17
Известные ошибки:
- при большом количестве добавленных страниц в текстовое поле может дёргаться скролл;
- добавляет gif картинки в список страниц (необходимо добавить в список игнорирования).
Ответить | Ответить с цитатой | Цитировать
# mrkaban 28.12.2020 22:27
if интерес > 1:
активное развитие программы
else:
очень медленное развитие программы

Иными словами, если будет интерес к этому генератору sitemap.xml, тогда буду активно развивать его. Иначе, буду его улучшить чисто для себя в образовательных целях.
Ответить | Ответить с цитатой | Цитировать