Google News Crawler mit Recrawl-Funktion für aktuelle Nachrichten-Artikel

Der Google News Crawler hat dazugelernt. In der Vergangenheit besuchte er jeden Artikel nur ein einziges Mal, um ihn für Google News zu crawlen. Änderte sich der Inhalt der Nachrichtenseite, ohne dass ebenfalls die URL geändert wurde, bekam Google News die Änderung schlicht und einfach nicht mit.

Das war insbesondere zu aktuellen Nachrichten ein Problem, bei dem sich die Nachrichtenlage stündlich oder sogar im Minutentakt änderte. Steht es zum Beispiel zur Halbzeit in einem Endspiel noch unentschieden, so führte plötzlich eine Mannschaft. Bei einem Banküberfall mit Geiselnahme laufen ständig neue Details über den Nachrichtenticker, die in den Artikel eingearbeitet werden und die Headlines ändern.

Im Bereich “SEO für Google News” war es daher bisher Best Practice jedes Update eines Artikels unter einer neuen URL zu veröffentlichen, damit der “Googlebot-News” die Veränderung crawlt und bei Google News anzeigt. Inklusive Weiterleitungen vom alten auf den neuen Artikel eine Aufgabe, der nicht jedes CMS-System einer Nachrichten-Redaktion gewachsen war.

In dem Blog-Post “Psst…secrets of Google News exposed!” vom 2. April 2008 gab Google zu, dass es Probleme mit Google News gibt, wenn ein Artikel aktualisiert wird, nachdem er veröffentlicht wurde:

Truths and Myths:
Updating an article after posting it will create problems with Google News TRUE
Currently, the Google News crawler only visits each article URL once. If you make updates to the article after we’ve crawled it, they won’t be reflected on our site. We hope that soon we’ll have the ability to re-crawl your articles to make sure we have the latest version displayed on our site, but for now this is not the case.



Heute ist im offiziellen Google News Blog zu lesen, das eine Recrawl-Funktion implementiert wurde.

Google News Come Back For More
To deal with these issues, Google News has implemented a recrawl feature that allows us to focus on getting the newest articles around while still ensuring that we’re displaying the most up-to-date information. From the moment we discover a new article, we’ll keep revisiting it looking for changes. Since we’ve noticed that most changes to articles occur just after they’re published, we revisit articles most frequently in the first day after we’ve found them. In some cases, we’ll even revisit articles we had trouble crawling the first time around. After that, we visit them less often.



Google News crawlt jetzt also insbesondere am ersten Tag der Veröffentlichung einen Nachrichten-Artikel mehrmals. Nach dem ersten Tag nimmt die Update-Frequenz ab.

Es wird zu beobachten sein, wie sich die Recrawl-Funktion auf die Sichtbarkeit eines Artikels bei Google News auswirkt. Eventuell werden Zeitungen profitieren, die bisher nicht willens oder in der Lage waren, eine Aktualisierung eines Artikels unter einer neuen URL zu veröffentlichen. Ebenfalls werden einige SEO-Tricks bei Google News nicht mehr in der bisherigen Art und Weise funktionieren.

Profitieren werden sicherlich die Nutzer, da Google verspricht aktuellere Nachrichten und weniger tote Links zu liefern.

Updates einer ganz anderen Art mit Hilfe von Google wurden heute übrigens auch bekannt. Verfügt eine Website nicht über einen RSS-Feeds, so ist es jetzt über den Google Reader möglich einen künstlichen RSS-Feed zu erstellen, der einen über signifikante Änderungen der Seite informiert.



Damit wurde ein mächtiges Tool geschaffen, dessen Einsatzmöglichkeiten gewaltig sind. Aus diesem Grund ermöglicht Google den Besitzern von Websites auch wohl eine Opt-Out-Funktion, um diese Funktion für die eigene Website zu unterbinden.

In Deutschland scheint die Erstellung dieser RSS-Feeds noch nicht zu funktionieren. Mit einer baldigen Einführung ist aber zu rechnen.

5 Gedanken zu „Google News Crawler mit Recrawl-Funktion für aktuelle Nachrichten-Artikel“

  1. Schön zu wissen, aber dass der NewsBot des öfteren vorbeischaut ist schon eine ganze Weile so… Warum das Google bisher nie kommuniziert hat, ist mir schleierhaft.

  2. Dass in Google News Updates erscheinen, passiert schon seit einiger Zeit (ich weiß allerdings nicht, wie das technisch passiert). Dass es die Recrawl-Funktion geben soll, habe ich letztens schon gelesen oder gehört (weiß leider nicht mehr wo). Dort wurde gesagt, dass der Bot eine Stunde nach Veröffentlichung wieder vorbeikommt, bei manchen Medien auch nach einer halben Stunde. Dann werden die Abstände größer. Wenn ich also nach nach sechs Stunden eine Korrektur der Pressestelle einpflege oder den Hinweis eines Lesers, habe ich immer noch keine Garantie, dass dieses umgehend auf Google News erscheint.

  3. das ist schon lange so und auch schon seit langer zeit so kommuniziert… es gibt ein google news video in dem es gesagt wird

Kommentare sind geschlossen.