Настройки Паука

Паук можно настроить под ваши нужды для каждого проекта/сайта. Все изменения сохраняются только для текущего проекта.

Общие настройки

Общие настройки Паука

User-agent - Выберите User-Agent который должен использовать паук во время сканнирования. Так же вы можете указать свой User-Agent.

User-Agent

Глубина сканирования - Введите уровень вложности (глубину) для пакуа, если хотите ограничить глубину сканирования.

Пример значений: 0 - никаких ограничений, 1 - только корневая страница, 2 - все страницы которые ссылаются с корневой страницы и так далее.

Приоритеты по умолчанию - Тут можно задать приоритеты по умолчанию которые паук применит к найденным страницам.

Принцип применения: 0 - главная страница сайта, 1 - все страницы которые ссылаются с главной, 2 - все страницы которые ссылаются со страниц, которые ссылаются с главной и так далее можно добавить 3, 4 и т.п.

Расширения файлов

Список расширений страниц которые должен сканировать паук. Например если у страниц вашего сайта специфические расширения, например .file, то нужно в список добавить расширение file чтобы паук стал сканировать сайт. Добавить нужно именно расширение, без точек и звездочек. В список можно добавить свои расширения или удалить ненужные.

Расширения файлов паука

Исключения

Паук пропустить все те страницы в URL которых найдет заданные вами слова или символы. Примеры посмотрите в скриншоте.

Исключения паука

Исключения паука так же можно настроить на основе robots.txt сайта. Для этого нужно нажать на кнопку Импортировать из robots.txt и указать адрес robots.txt файла.

Включения

Паук проиндексирует только те страницы, в адреса которых содержаться тексты из этого списка. Пример использования в скриншоте.

Включения

Удалить параметры

Если в URL будут найдены данные параметры, то они будут отрезаны от URL-а прежде, чем URL будет помещен в список. Можно использовать эту функцию, чтобы отбрасывать Session-ID или подобные одноразовые параметры.

Пример:

Если Паук нашел такую ссылку: http://community.invisionpower.com/forum/297-ips-company-feedback/?session=02e0a436b7555ee760af1a1a70c266cb и в списке указали session то программа удалит из этой ссылки ?session=02e0a436b7555ee760af1a1a70c266cb и переместит в Sitemap файл чистую http://community.invisionpower.com/forum/297-ips-company-feedback/.

Удалить параметры

Типы контента

Введите тип контента файлов, которые паук должен индексировать. Пример: text/html, text/plain.

Типы контента

Готовые настройки

Мы подготовили готовые настройки паука для популярных CMS и движков форумов. Эти настройки помогут вам избавиться от индексации мусора, которые обычно эти движки имеют. Если применяете один из этих настроек то программа автоматически добавит все необходимые настройки Пауков в разделы Удаление параметров и Список исключений. Если хотите увидеть в списке другие популярные движки, то свяжитесь с нами и мы рассмотрим ваше предложение.

Готовые настройки

Обработка атрибутов

Выберите те атрибуты которые паук должен обработать и где ему следует искать ссылки на другие страницы сайта.

Обработка атрибутов