wake-up-neo.com

Googlebot robots.txt-Zugriffsfehler auf HTTPS, wenn von HTTP umgeleitet

Dies mag eine dumme Frage sein, aber ich bin noch nie auf dieses Problem gestoßen und konnte im Internet keine eindeutigen Antworten finden:

Unser Client ist vor einigen Monaten auf HTTPS umgestiegen und hat seine HTTP-Sites entlang seiner HTTPS-Sites verwendet. Wir forderten sie auf, ihre HTTP-Sites auf die entsprechenden HTTPS-Sites umzuleiten. Bisher war alles in Ordnung ...

BIS wir eine Fehlermeldung in den Google Webmaster-Tools für https://www.example.com/robots.txt erhalten haben:

Googlebot hat beim Versuch, auf Ihre robots.txt zuzugreifen, 5429 Fehler festgestellt. Um sicherzustellen, dass wir keine in dieser Datei aufgeführten Seiten gecrawlt haben, haben wir das Crawlen verschoben. Die Gesamtfehlerrate von robots.txt auf Ihrer Website beträgt 12,9%.

Wir haben ihren IT-Dienstanbieter gebeten, das Problem zu untersuchen, da davon ausgegangen wurde, dass sie einen Fehler gemacht haben, indem sie die 301-Umleitung in der .htaccess-Datei festgelegt haben. Sie haben uns jedoch darauf hingewiesen, dass die Umleitung für robots.txt von Google generell möglicherweise nicht empfohlen wird (siehe hier ) und dass dies möglicherweise das Problem ist. Sie empfehlen, die HTTP-Datei robots.txt bei 200 zu belassen.

Ich bin bisher noch nie auf dieses Problem gestoßen. Haben Sie eine Idee, was das Problem verursachen könnte?

Wenn wir die HTTP-Datei robots.txt nicht mehr umleiten, versucht Googlebot möglicherweise, die HTTP-Versionen der Website zu crawlen. Was eigentlich kein Problem sein sollte, wenn alle HTTP-Versionen ordnungsgemäß auf die HTTPS-Versionen umgeleitet werden. Es fühlt sich einfach nicht richtig an ;) Ich bin daran interessiert, das Problem (durch Herausfinden der Ursache) zu beheben eine schnelle Lösung finden.

4
tentakellady

Der beste Weg, um festzustellen, warum Google nicht auf eine Seite zugreifen kann (einschließlich robots.txt ), ist die Verwendung von als Google abrufen = Funktion in den Google Webmaster-Tools.

  1. Melden Sie sich bei Google Webmaster-Tools an
  2. Wählen Sie Ihre Site aus (Stellen Sie sicher, dass Sie sie mit dem https:// registriert haben.)
  3. Navigiere zu "Crawl" -> "Fetch as Google"
  4. Geben Sie /robots.txt in das Textfeld ein
  5. Klicken Sie auf die Schaltfläche "Abrufen"

Google teilt Ihnen dann detailliertere Informationen mit, warum Ihre robots.txt-Datei nicht abgerufen werden kann.

3

Stellen Sie zunächst sicher, dass Ihre bevorzugten Sites in GWT auf den HTTPS-Modus eingestellt sind. Möglicherweise müssen Sie eine neue Eigenschaft erstellen und erneut überprüfen.

Sobald der SSL-Modus aktiviert ist, klicken Sie in der Seitenleiste auf "Crawl> robots.txt Tester". Unten sollte ein Feld angezeigt werden, das mit https://yoursite.com beginnt, gefolgt von einem Textfeld und der roten Schaltfläche "TEST".

Sie sollten sehen, wie Ihre Roboter-Direktiven geladen werden. Führen Sie den Test sowohl auf einer zulässigen als auch auf einer nicht zulässigen Seite aus und sehen Sie, was darin steht. Wenn es immer noch nicht darauf zugreifen kann, sollten Sie es testen. Öffnen Sie den Inspektor Chrome und dann die Registerkarte "Netzwerk". Aktualisieren Sie die Seite und klicken Sie dann auf den ersten oder zweiten Eintrag, um die Header anzuzeigen. Sie suchen nach Antworten, die fischartig aussehen, oder nach Codes, die nicht 200 sind ... Möglicherweise gibt es dort einen Hinweis darauf, warum G nicht eingeben kann.

Wenn Sie ein Redirect-Problem finden, müssen Sie den "IT-Dienstleister" zu Rate ziehen. Sie sollten in der Lage sein, korrekt in den HTTPS-Modus umzuleiten. Wenn dies nicht möglich ist, würde ich dem Kunden vorschlagen, einen neuen "IT-Dienstleister" zu finden, der verstehen kann, wie die Weiterleitung funktioniert.

Als Bonus sollten sie auch einen HSTS-Header setzen. HSTS verwendet eine clientseitige 307-Weiterleitung und ist strenger/zustandsbezogener als Weiterleitungen im 301-Stil. Es hat auch eine bessere Fähigkeit, unsichere Elemente zu mildern [blockieren].

3
dhaupin

Meine Hypothese zu den 5429-Fehlern lautet, dass Google versucht, ein HTML-Dokument zu analysieren (d. H. Die Umleitung funktioniert, landet jedoch am falschen Ort). Könnte eine 404 Seite, eine Fehlerseite oder sogar die Homepage sein.

Ich hatte gestern genau dieses Problem, als der http://example.com/robots.txt wegen eines zweifelhaften . Htaccess zu /index.php und dann wieder zu meiner Homepage weitergeleitet wurde.

Wenn dies der Fall ist, bedeutet dies, dass Google wahrscheinlich funktioniert Weiterleitungen auf robots.txt folgt

1
misteraidan