Histórico da Página
Índice |
---|
O Portal RM poderá bloquear A partir da versão 12.1.35, o Portal RM bloqueará sua indexação em buscadores/rastreadores como o Google por padrão. Esta medida de segurança vem para assegurar que informações confidenciais não sejam exibidas em buscas do Google por exemplo.
...
Aviso |
---|
Não recomendamos que essa medida de segurança seja desabilitada/removida, pois pode expor arquivos de seu Portal publicamente em rastreadores pela internet. |
...
O arquivo Robots.txt
...
Informações | ||
---|---|---|
| ||
"O robots.txt é um arquivo de texto simples que segue o Protocolo de exclusão de robôs(em inglês). Um arquivo robots.txt é constituído por uma ou mais regras. Cada regra bloqueia (ou permite) o acesso de um determinado rastreador a um caminho de arquivo especificado no site. A menos que você especifique o contrário no arquivo robots.txt, o rastreamento de todos os arquivos é permitido de forma implícita." - Google: LINK |
Este arquivo será enviado automaticamente na instalação do Portal RM, conforme demonstrada na estrutura de pastas abaixo:
...
Adicionando uma permissão de indexação
Caso seja necessário, é possível que apenas subdiretórios específicos da sua aplicação sejam permitidos. Dessa forma, mesmo que o diretório-pai esteja bloqueado, os diretórios que foram explicitamente liberados ainda poderam ser encontrados e indexados pelos rastreadores. O exemplo abaixo define bem esse comportamento, onde o bloqueio ocorre no diretório FrameHTML, porém o caminho /FrameHTML/web/app/Edu/PortalEducacional foi explicitamente liberado, utilizando a diretiva Allow, e dessa forma, pode ser indexado:
Informações |
---|
User-agent: * User-agent: * |
E testando:
Validade do arquivo Robots.txt
O arquivo robots.txt deve seguir algumas regras de validação para funcionar corretamente, algumas, de maior importância estão definidas abaixo:
Deve existir na pasta raiz do site, não sendo válido para subdiretórios
Os rastreadores buscaram o arquivo robots.txt diretamente na raiz do site, assim sendo, caso não esteja localizado corretamente, não funcionará:
Distinção entre Maiúsculas e Minúsculas
Os rastreadores irão diferenciar maiúsculas e minúsculas durante a leitura do robots.txt, então é importante compreendermos que os seguintes exemplos são totalmente distintos dentro do contexto dos rastreadores:
- http://meusite.com/Corpore.Net
- http://meusite.com/Corpore.net
- http://meusite.com/corpore.net
- http://meusite.com/corpore.Net
Informações | ||
---|---|---|
| ||
"O URL do arquivo robots.txt faz distinção entre maiúsculas e minúsculas, assim como outros URLs." - Google: LINK |
Distinção entre diferentes escritas de um possível mesmo site
Os rastreadores irão diferenciar escritas de sites e subdomínios durante a leitura do robots.txt, então é importante compreendermos que os seguintes exemplos são totalmente distintos dentro do contexto dos rastreadores:
Informações |
---|
Para mais informações acerca de como o arquivo Robots.txt é interpretado, acesse: LINK |
...
Meu Portal RM continua sendo indexado. E agora?
Caso, mesmo após a atualização, o Portal RM continue aparecendo em buscas do Google por exemplo, talvez o acesso ao arquivo robots.txt esteja sendo negado ou esteja em um lugar incorreto.
Informações |
---|
Caso seu arquivo robots.txt esteja localizado corretamente conforme o passo-a-passo a baixo, pode ser que ele ainda não tenha sido lido pelos rastreadores e por isso, seu Portal RM ainda apareça no cache das buscas online. |
Aviso |
---|
O arquivo robots.txt só será lido pelos buscadores caso esteja na raiz do seu site. Logo, caso seu arquivo robots.txt esteja em localizado tal qual [MEUSITE]/Corpore.Net/robots.txt, o bloqueio de rastreamento não funcionaráLeia a seção Validade do Arquivo Robots.txt para mais informações. |
Nesse caso, o que fazer?
...