-- Leo's gemini proxy

-- Connecting to sysrq.in:1965...

-- Connected

-- Sending request

-- Meta line: 20 text/gemini;lang=ru

robots.txt для Gemini


Введение


Этот документ описывает адаптацию де-факто стандартного для веба механизма robots.txt для контроля доступа к Gemini-ресурсам со стороны автоматизированных клиентов (далее "ботов").


Администраторы Gemini-серверов могут использовать robots.txt, чтобы сообщать ботам правила поведения в машинно-считываемом формате.


Авторам автоматизированных Gemini-клиентов (например, сканеров поисковых движков, веб-прокси, и так далее) строго рекомендуется проверять серверы на наличие таких правил и соответствовать им в случае обнаружения.


Администраторы серверов должны понимать, что невозможно *заставить* ботов придерживаться правил robots.txt, и должны быть готовы использовать файрвол или что-то вроде него, чтобы блокировать доступ плохим ботам. Это одинаково верно и для Gemini, и для веба.


Основы


Администраторы Gemini-серверов могут определять правила для роботов по URL-пути /robots.txt, то есть сервер example.net должен предоставлять правила по адресу gemini://example.net/robots.txt.


Файл robots.txt должен передаваться с MIME-типом text/plain.


Формат файла robots.txt идентичен оригинальной спецификации robots.txt для WWW, то есть:


Строки, начинающиеся с #, являются комментариями

Строки, начинающиеся с "User-agent:", определяют агент пользователя, к которому применяются последующие строки

Строки, начинающиеся с "Disallow:", определяют префиксы URL-пути, которые боту запрещено запрашивать

Все остальные строки игнорируются


Единственное нетривиальное отличие robots.txt в WWW и в Gemini заключается в том, что раз администраторы Gemini не могут легко узнать, какие боты посещают их сайт и почему (потому что Gemini-клиенты не передают агент пользователя), Gemini-ботам рекомендуется подчиняться директивам для "виртуальных агентов пользователя", соответствующих их цели/функции. Они описаны ниже.


Несмотря на это различие, Gemini-боты всё ещё должны уважать директивы robots.txt для строки User-agent *, а также могут обрабатывать директивы для их собственного индивидуального User-agent, о котором они сообщают, например, на Gemini-капсуле любого из предоставляемых ими публичных сервисов.


Виртуальные User-agent


Ниже перечислены определения различных "виртуальных агентов пользователя", каждый из которых соответствует общей категории бота. Gemini-боты должны уважать директивы для любого виртуального агента пользователя, который соответствует их активности. Очевидно, что невозможно выдумать идеальные определения User-agent, которые бы позволили недвусмысленно распределить ботов по категориям. Тем, кто пишет ботов, всё-таки лучше перестраховаться и попытаться следовать "духу" системы вместо того, чтобы следовать букве. Если бот соответствует нескольким виртуальным агентам пользоваться и не способен адаптировать своё поведение для точной настройки параметров, ему следует подчиняться самому запретительному набору директив из сочетания всех применимых к нему агентов пользователя.


Архивирующие роботы


Gemini-боты, которые получают контент с целью создания публичных долговременных архивов Geminispace и которые будут передавать старый Gemini-контент даже после того, как оригинальный изменился или исчез (аналогично "Wayback Machine" на сайте web.archive.org), должны уважать директивы файла robots.txt для строки User-agent "archiver".


Индексирующие роботы


Gemini-боты, которые получают контент с целью создания поисковых индексов Geminispace, должны уважать директивы файла robots.txt для строки User-agent "indexer".


Исследовательские роботы


Gemini-боты, которые получают контент с целью изучения крупномасштабных статистических свойств Geminispace (таких, как число доменных имён/страниц, распределение по MIME-типам, размер ответа, версии TLS, частота появления битых ссылок, и так далее) и которые не повторяют, не ссылаются и не разрешают поиск по полученному контенту, должны уважать директивы файла robots.txt для строки User-agent "researcher".


Веб-прокси


Gemini-боты, которые получают контент с целью преобразования его в HTML и передачи результата по HTTP(S) публично (для того, чтобы сделать Geminispace доступным из стандартного веб-браузера), должны уважать директивы файла robots.txt для строки User-agent "webproxy".

-- Response ended

-- Page fetched on Mon May 20 11:26:23 2024