Навигация документации
Настройки Паука
Паук можно настроить под ваши нужды для каждого проекта/сайта. Все изменения сохраняются только для текущего проекта.
Общие настройки
User-agent - Выберите User-Agent который должен использовать паук во время сканнирования. Так же вы можете указать свой User-Agent.
Глубина сканирования - Введите уровень вложности (глубину) для пакуа, если хотите ограничить глубину сканирования.
Пример значений: 0 - никаких ограничений, 1 - только корневая страница, 2 - все страницы которые ссылаются с корневой страницы и так далее.
Приоритеты по умолчанию - Тут можно задать приоритеты по умолчанию которые паук применит к найденным страницам.
Принцип применения: 0 - главная страница сайта, 1 - все страницы которые ссылаются с главной, 2 - все страницы которые ссылаются со страниц, которые ссылаются с главной и так далее можно добавить 3, 4 и т.п.
Расширения файлов
Список расширений страниц которые должен сканировать паук. Например если у страниц вашего сайта специфические расширения, например .file, то нужно в список добавить расширение file чтобы паук стал сканировать сайт. Добавить нужно именно расширение, без точек и звездочек. В список можно добавить свои расширения или удалить ненужные.
Исключения
Паук пропустить все те страницы в URL которых найдет заданные вами слова или символы. Примеры посмотрите в скриншоте.
Исключения паука так же можно настроить на основе robots.txt сайта. Для этого нужно нажать на кнопку Импортировать из robots.txt и указать адрес robots.txt файла.
Включения
Паук проиндексирует только те страницы, в адреса которых содержаться тексты из этого списка. Пример использования в скриншоте.
Удалить параметры
Если в URL будут найдены данные параметры, то они будут отрезаны от URL-а прежде, чем URL будет помещен в список. Можно использовать эту функцию, чтобы отбрасывать Session-ID или подобные одноразовые параметры.
Пример:
Если Паук нашел такую ссылку: http://community.invisionpower.com/forum/297-ips-company-feedback/?session=02e0a436b7555ee760af1a1a70c266cb и в списке указали session то программа удалит из этой ссылки ?session=02e0a436b7555ee760af1a1a70c266cb и переместит в Sitemap файл чистую http://community.invisionpower.com/forum/297-ips-company-feedback/.
Типы контента
Введите тип контента файлов, которые паук должен индексировать. Пример: text/html, text/plain.
Готовые настройки
Мы подготовили готовые настройки паука для популярных CMS и движков форумов. Эти настройки помогут вам избавиться от индексации мусора, которые обычно эти движки имеют. Если применяете один из этих настроек то программа автоматически добавит все необходимые настройки Пауков в разделы Удаление параметров и Список исключений. Если хотите увидеть в списке другие популярные движки, то свяжитесь с нами и мы рассмотрим ваше предложение.
Обработка атрибутов
Выберите те атрибуты которые паук должен обработать и где ему следует искать ссылки на другие страницы сайта.