Effizienz bedeutet Nutzen geteilt durch Aufwand. SEO-Effizienz kann man als Suchmaschinen-Sichtbarkeit geteilt durch die Anzahl indexierter Seiten definieren. Gibt es für eine Website eine optimale Anzahl indexierter Seiten? Oder sollte eine Website versuchen möglichst viele Seiten in den Google-Index zu schieben? Schließlich bedeutet jede zusätzliche Seite im Index eine weitere Chance Rankings zu erzielen und damit zusätzliche Besucher über Suchmaschinen zu gewinnen. Ich habe diese Fragen anhand der SEO-Effizienz von 30 Websites untersucht. Dabei sind erstaunlich klare Ergebnisse herausgekommen, die neue Fragen aufwerfen.
Mehr Seiten indexieren zu lassen bedeutet auch mehr Aufwand. Man muss mehr Content produzieren, die Website hat tendenziell mehr Probleme mir Duplicate Content und es wird schwieriger alle Seiten mit PageRank und Linkjuice zu versorgen. Daher ist die Frage berechtigt, wann sich der Aufwand lohnt und wo die Grenzen liegen.
Um herauszufinden, ob es einen klar erkennbaren Zusammenhang zwischen der SEO-Effizienz einer Website und der Anzahl indexierter Seiten gibt, habe ich für die aktuellen Top-30-Websites im SISTRIX Sichtbarkeitsindex (Woche vom 06.04.2009) die Anzahl der Sichtbarkeitsindexpunkte durch die Anzahl der indexierten Seiten geteilt (Effizienz gleich Nutzen geteilt durch Aufwand).
Beispiel:
SEO-Effizienz spiegel.de pro 1.000 indexierter Seiten = 445,78 Sichtbarkeitsindex-Punkte : (6.990.000 indexierte Seiten : 1.000) = 0,06
Die folgende Tabelle zeigt die Ergebnisse für die 30 untersuchten Websites sortiert nach SEO-Effizienz.
Jetzt kann man zwei grundsätzliche Thesen aufstellen:
These 1: Die SEO-Effizienz pro 1.000 indexierter Seiten ist unabhängig von der Anzahl indexierter Seiten
These 2: Die SEO-Effizienz pro 1.000 indexierter Seiten ist abhängig von der Anzahl indexierter Seiten
Wenn man die Zahlen grafisch darstellt, ergibt sich ein überraschend deutliches Bild.
Die Grafik bestätigt anscheinend These 2. Ich habe die Untersuchung durchgeführt, weil ich die Vermutung hatte, dass es einen Zusammenhang gibt. Aber die Deutlichkeit der Ergebnisse hat mich dann doch überrascht. Man sollte annehmen, dass Faktoren, wie die Qualität der On-Page-Optimierung und die Stärke der externen Verlinkung, auch unter den Top-30-Websites im SISTRIX-Sichtbarkeitsindex unterschiedlich genug sind, um die SEO-Effizienz der Websites stark zu beeinflussen. Eine so deutliche Abhängigkeit zwischen SEO-Effizienz und Anzahl indexierter Seiten sollte also gar nicht zu beobachten sein. Mathematisch gesehen kann man bei den Top-30-Websites aber 88,5 Prozent der unterschiedlichen SEO-Effizienz-Werte (Varianz) durch die Anzahl der indexierten Seiten erklären. Es gilt dabei natürlich zu bedenken, dass es sich nicht um eine zufällige Auswahl von Websites handelt, sondern um die 30 Websites mit den den besten Sichtbarkeitswerten in Deutschland. Alle diese Websites verstehen wahrscheinlich ihr SEO-Handwerk.
Offenbar gibt es also zumindest bei diesen Websites einen deutlichen direkten Zusammenhang zwischen SEO-Effizienz und Anzahl indexierter Seiten. Je mehr Seiten eine Website im Index hat, um so geringer ist tendenziell auch die durchschnittliche SEO-Effizienz pro 1.000 indexierter Seiten.
Mir fallen für diese Ergebnisse vier unterschiedliche Erklärungen ein:
Erklärung 1) Die Ergebnisse spiegeln den typischen Verlauf einer Long-Tail-Kurve. Je mehr Seiten eine Website im Index hat, um so mehr bedient sie automatisch den Long Tail. Da das Volumen der Suchanfragen im Long Tail schnell abnimmt, sinkt im Normalfall auch die durchschnittliche SEO-Effizienz pro 1.000 zusätzlich indexierter Seiten. Der SEO-Grenznutzen pro 1.000 weiterer Seiten im Index nimmt immer mehr ab und senkt somit auch die durchschnittliche SEO-Effizienz.
Erklärung 2) Der Sichtbarkeitsindex wird auf Grundlage der populärsten 250.000 Keywords bzw. Suchphrasen berechnet. Die tatsächliche Sichtbarkeit einer Website kann daher nur im Bereich der untersuchten 250.000 Keywords ermittelt werden. Hat eine Website mehr als 250.000 Seiten im Index (was auf 29 der 30 untersuchten Websites zutrifft), erzielt sie automatisch Sichtbarkeit in Bereichen des Long Tails, der vom SISTRIX Sichtbarkeitsindex nicht mehr erfasst werden kann (oder erzielt mehrfache Treffer zu einem untersuchten Keyword mit geringer Wertung). Daher nimmt bei sehr großen Websites die durchschnittliche SEO-Effizienz auf Grundlage des SISTRIX Sichtbarkeitsindex pro 1.000 zusätzliche indexierter Seiten zwangsläufig ab. Die Ergebnisse müssen eventuell anders interpretiert werden als bei kleineren Websites mit weniger Seiten im Index.
Erklärung 3) Die Ergebnisse lassen sich durch den Google Algorithmus erklären. So könnte z.B. eine größere Anzahl von indexierter Seiten tendenziell auch immer mit einer schlechteren Versorgung von PageRank und Linkjuice pro Seite einhergehen. Als Folge sinkt die durchschnittliche SEO-Effizienz der Website. Oder es gibt Grenzen, für wie viele Seiten einer Website gute Rankings erzielen kann (abhängig von der Bedeutung der Website). Will Google eventuell verhindern, dass starke Websites unbegrenzt für jedes beliebige Keyword gute Rankings erzielen und den Index dominieren? Die sinkende durchschnittliche SEO-Effizienz pro 1.000 zusätzliche indexierter Seiten könnte also auch auf Google-Rules beruhen.
Erklärung 4) Irgendeine Kombination aus 1-3
Auf den ersten Blick finde ich, dass Erklärung 1 logisch erscheint. Das gilt erst recht, wenn man in der Grafik die Achse mir der Anzahl indexierter Seiten (X-Achse) nicht logarithmisch, sondern linear skaliert. Dann gleicht die Kurve doch sehr frappierend einer typischen Long-Tail-Kurve.
Allerdings passen in beiden Grafiken ein paar Websites nicht ganz in das Bild. So erzielt z.B. Wikipedia mit 13,6 Mio. indexierter Seiten immer noch eine relativ gute SEO-Effizienz. Diese könnte aber durch eine Sonderbehandlung von Google erklärt werden (Erklärung 3). Ebenfalls können bei einzelnen Websites dann eben doch die Qualität der On-Page Optimierung und die Stärke der Verlinkung Ursache für Abweichungen von der Kurve sein. Trotzdem ist es erstaunlich, wie gering die Abweichungen sind und welche große Bedeutung offensichtlich die Anzahl indexierter Seiten für die SEO-Effizienz hat.
Die Frage ist ja, was für eine bestimmte Website die ideale Anzahl Seiten im Index ist und was passieren würde, wenn man die Anzahl der indexierten Seiten mit entsprechendem Aufwand verdoppeln würde. Würde man damit den Sichtbarkeitsindex von ciao.de, gutefrage.net oder chefkoch.de verdoppeln können? Wahrscheinlich nicht, da die interessanten Themen mit hohem Suchvolumen ausgehen, man immer weiter die Long-Tail-Kurve entlangfährt und der Grenznutzen sich immer stärker der Nulllinie annähert.
Interessant ist, dass bei den untersuchten 30 Websites relativ viele Seiten einen Wert für die SEO-Effizienz zwischen 0,42 und 0,52 besitzen. Danach folgt eine Website mit einem Wert von 0,36 und dann gibt es eine große Lücke. Einige Seiten besitzen nach dieser Lücke dann einen Wert von 0,19 bis 0,2. Die Verteilung sieht nicht normal aus sondern eher wie Stufen. Die Werte verteilen sich nicht zufällig, sondern es sieht aus, als ob es Cluster oder Gruppen gäbe. Sollte diese ungewöhnliche Verteilung vielleicht doch ein Hinweis auf Erklärung 3 sein?
Wenn man zugänglich für Verschwörungstheorien ist, dann könnte man hier eine bisher unentdeckte Eigenschaft des Google Algorithmus vermuten. Es wäre interessant die Untersuchung mit einem größeren Datensatz durchzuführen, um zu prüfen, ob sich diese Clusterungen auch bei einer Vielzahl von Websites beobachten lassen und wie sich die Werte bei kleineren Websites verhalten. Vielleicht hat Sistrix ja einmal Lust aus seiner Datenbank die entsprechenden Werte bereitzustellen. Die Werte für einen großen Datensatz händisch zusammenzustellen wäre ansonsten sehr zeitaufwendig.
Zusammengefasst zeigt die Untersuchung einen überraschend starken Zusammenhang zwischen SEO-Effizienz und der Anzahl indexierter Seiten. Betreiber großer Websites müssen sich fragen, bis zu welchem Punkt es sinnvoll ist, viele Millionen Seiten für den Index zur Verfügung zu stellen. Ebenfalls lassen sich interessante Ausreißer “nach oben” wie Wikipedia, aber auch Amazon beobachten. Wenn man die zweite Grafik vergrößert, werden diese Abweichungen sehr deutlich. Würde man nur die Subdomain de.wikipedia.org betrachten, wäre die Abweichung von der Linie wahrscheinlich noch wesentlich größer.
Ich habe versucht Erklärungen für die Ergebnisse zu finden, die aber nur erste Thesen sind. Es ist zu diskutieren, ob nicht doch andere Ursachen stärker berücksichtigt werden sollten. Ebenfalls sollte sie Datenbasis erweitert werden, um mehr über Zusammenhänge zu erfahren. Darüber hinaus haben sich neue Fragen ergeben, die noch nicht beantwortet werden können, z.B. warum anscheinend Clusterungen bei der Verteilung der Werte für die SEO-Effizienz zu beobachten sind.
Ich freue mich also auf einen intensiven Gedankenaustausch zum Thema SEO-Effizienz und Anzahl indexierter Seiten.
54 Gedanken zu „SEO-Effizienz – die optimale Anzahl indexierter Seiten“
Kommentare sind geschlossen.
Wirklich sehr guter Artikel und sehr gute Gedankengänge!
Ich bin mir aber nicht sicher, ob da nicht vielleicht ein Bug in den Annahmen bzw. dem zugrunde liegenden Datenmaterial liegen kann.
Du hast ja selber geschrieben:
“…Es wäre interessant die Untersuchung mit einem größeren Datensatz durchzuführen, um zu prüfen, ob sich diese Clusterungen auch bei einer Vielzahl von Websites beobachten lassen und wie sich die Werte bei kleineren Websites verhalten…”
Exakt das wäre aus meiner Sicht nötig. Verdichtete Indexzahlen aus einem gefiltert gesammelten Datenpool zu verwenden, scheint mir für solche Aussagen nicht unbedingt für eine Beweisführung geeignet.
Denken wir nur an die tolle SEO-Studie, welche die Internetworld zum Jahreswechsel auf Seite 1 hatte. Wer recherchiert hat, hatte gesehen, dass eine SEO-Company (unabhängig?) auf der OMD (Zielpublikum?) die Besucher auf dem eigenen Messestand (hallo? Stichprobe) mit einem Fragebogen beglückt hat und dann wurden etwa 80 Aussagen auf Deutschland hochgerechent 😉 Alle haben´s irgendwie geglaubt, weil es in der Branche (!) plausibel geklungen hat.
However. Es könnte (!) z. B. sein, dass im Datenbestand von Sistrix eine besonders hohe Menge an “SEO-orientierten” Seiten ist. Das hat nix mit der Güte des Sistrix-Datenbestandes zu tun, der ja immer nur einen relativ kleinen (trotz seiner imensen Größe!) Ausschnitt aus der Web-Welt liefern kann.
Es könnte auch sein, dass der Sichtbarkeitsindex für solche Betrachtungen zu kurz greift. Schließlich sind die Klicks auf die 10 Ergebnisse keinesfalls gleich verteilt, sondern höchst unterschiedlich. Platz 6 ist praktisch wertlos gegen über Platz 1. Das sind nicht nur “6 Plätze” im klasssischen Sinne.
Diese Überlegung müsste aber in die SEO-Effizienz mit hinein! Ein mal Platz 1 bringt mehr Effizienz, also 20 mal Platz 11. Eine recht komplexe Geschichte, wenn man sich eindenkt. Ist mir aber ehrlich gesagt jetzt noch zu früh am morgen 😉 Trotzdem wollte ich posten, weil ich den Ansatz und die Überlegungen oben sehr spannend finde! Vielen Dank dafür.
Der Artikel hat mir sehr gut gefallen und gibt neue Denkanstöße. Ich habe ihn auch auf YiGG verlinkt.
http://www.yigg.de/computer-und-technik/seo-effizienz-die-optimale-anzahl-indexierter-seiten
Hallo Hanns,
vielen Dank für diese interessante Untersuchung. Als Inhouse SEO beschäftige ich mich momentan genau mit diesem Thema und habe durch deinen Artikel nun eine weitere Sichtweise auf die Frage “Mehr Seiten indexieren ja oder nein” gewonnen. Muss ich gleich mal für unsere Firma genauer analysieren.
Gruß aus München
Matthias
P.S. der Vortrag von der SEO Campixx zum Thema SEO in Unternehmen hat mir auch sehr gut gefallen. Freu mich schon auf mehr Lesestoff von dir.
Wenn man sich so die Liste der Domains anschaut, dann fällt mir als Erstes auf, dass es sich ausschließlich um Seiten handelt die einen Longtail abdecken. Von daher finde ich Erklärung 1) am logischten.
Mich würde noch interessieren, welche Seite in der letzten Grafik unter Amazon und unter der Kurve liegt. Genauso interessant wie ein Ausreisser nach oben sollte auch der Ausreisser nach unten sein.
Bei solchen Analysen darf man nie vergessen (siehe Punkt 2), dass die Datenbasis der Sistrix Tools limitiert ist. Bei Analysen von Seiten, die sich weniger um besonders relevante Suchbegriffe kümmern, muss ich dies immer wieder feststellen. Sicherlich lassen die Tools Rückschlüsse auf zu erwartenden Traffic zu, aber im Rahmen dieser Untersuchung könnte diese begrenzte Datenbasis durchaus eine gewisse Unschärfe mit sich bringen.
@Valentin: Die Website unter Amazon ist die andere mit knapp über 26 Mio. Seiten im Index (siehe Tabelle oben). Ich würde nicht zwangsläufig sagen, dass sie ein deutlicher Ausreißer nach unten ist. Die Kurve wird natürlich gerade in diesem Bereich durch Wikipedia und Amazon etwas nach oben gezogen.
@Loewenherz: Ich grüble schon die ganze Zeit darüber nach, ob die Unschärfe nicht für alle Websites gleich ist und man sie daher dann doch vernachlässigen kann. Bin noch zu keiner abschließenden Antwort gekommen 😉
@Mario Fischer: Kann praktisch allen Deinen Punkten zustimmen, aber ich hoffe, ich habe auf alle diese Einschränkungen auch deutlich im Artikel hingewiesen. Der Beitrag soll ein erster Gedankenanstoß sein, den man weiter untersuchen sollte. Eine Gewichtung nach Klickrate findet meines Wissens nach allerdings bei der Berechnung des Sistrix Sichtbarkeitsindex statt.
zu Erklärung 2) meinem Wissen nach nutzt Sisi’s Toolbox mittlerweile nicht mehr nur 250k Keywords sonder etwas mehr als eine Mio
Hervorragender Artikel. Vielen Dank fürs sharen Deiner Ergebnisse. Erklärung 1 scheint mir auf den ersten Blick auch am Logischten, aber ich werde meine Denkmaschine über den Tag mal mit diesem Thema beschäftigen. Nochmals…Danke!
@andre: so weit ich von Johannes weiß, nutzt die Toolbox in einigen Bereichen, wie Du sagst, seit einiger Zeit über 1 Mio. Keywords, aber für die Berechnung des Sichtbarkeitsindex die 250k, damit die Daten über die letzen 12 Monate vergleichbar bleiben.
@Loewenherz: Ich schließe mich der Meinung an, dass die aufgestellten Korrelationen nur schwer an der vorhandenen Datenbasis von Sistrix nachweisbar sind. Gerade Diagramm 2 zeigt seinen dargestellten Zusammenhang nur wegen vier Datenpunkten auf: yahoo.com, youtube.com, ebay.de, shopping.com (nicht amazon.de) – die .com Vertreter haben größtenteils vor allem englische Seiten im Index, die im Sichtbarkeitsindex eher kaum vertreten sind, bleibt ebay.de, was sicherlich der größte Benutzer von gleichem Content auf Subdomains ist und war.
Der Ansatz ist brilliant, allerdings bräuchte man eine wesentlich größere Datenbasis, um mathematisch korrekt belastbare Korrelationen aufzustellen.
Ich würde mich der Behauptung anschließen, dass grundsätzlich alle Seiten in der Tabelle1 mehr Seiten crawlbar vorliegen hätten, als der site: Befehl zurückgibt. Das heißt, Google entscheidet selbst, ob alle Seiten (misterinfo) oder ein großer Teil (idealo) oder eben nicht alles (ciao) indiziert werden. Das wird die interne Versorgung mit Linkjuice regeln, die wiederum stark von der Power der Domain abhängt. Ist es SEO-Effizient, weniger Seiten zu haben, als Google indizieren würde? Optimal wäre demnach, ein paar Prozent mehr Seiten crawlfähig vorzuhalten, als Google als indiziert zurückgibt.
Ich prüfe oft und viel mit dem site: Parameter, meine Erfahrungen zeigen, dass die zurückgegebene Zahl sehr stark schwankt, völlig unabhängig vom Traffic auf die Seite ist und eine so enorme Unschärfe verursacht, dass es leider wahrscheinlich mühsam bleibt, o.g. Korrelationen zu vertiefen.
Viele Grüße,
Markus
p.s.: sehr guter Blog!
p.s.: deine WordPress-Uhr ist noch nicht auf MESZ 😉
Interessanter Beitrag über den ich erstmal genauer nachdenken muss. Was ich als spontan Erguss dazu sagen kann: Die These, je größer eine Seite, desto schwieriger die Optimierung da mehr eindeutiger Content produziert werden muss, kann ich auf jeden Fall nur bestätigen, mit wachsender Anzahl der indexierten Seiten habe ich dies schon öfters festgestellt das die Rankings sich langfristig stark verändert haben.
Hier fehlt die Abgrenzung der Content-Arten:
– unique vs. duplicate
– longterm vs. news
solange man z.B. auf uniquen longterm-Content setzt, bleibt die Effizienz auch bei grossen Seitenzahlen konstant.
Wir tracken das seit Jahren auf Basis indizierte Seiten vs. Suma-Besucherzahlen … imho der bessere Ansatz.
Viele Grüsse vom Wannsee,
Sebastian
Hallo, auch von mir ein Lob für die Untersuchung.
Vielleicht würde es Sinn machen, die zu untersuchenden Seiten etwas einzugrenzen auf ein bestimmtes Segment, etwa News. Dann bspw. die SEO-Effizienz von SPIEGEL,Fokus,SZ,FAZ etc. miteinander vergleichen? Dann würde auch der Effekt, den Ben 14) beschrieben hat, für alle Seiten auftreten und so gegeneinander aufgewogen.
Erst einmal muss ich sagen, super Ansatz, das zu untersuchen – bedeutet ja auch einen gewissen Zeitaufwand. Zu den Theorien:
Was man natürlich nicht vergessen darf, ist, dass sich eine Domain mit einem speziellen Themenfeld auseinandersetzt (bei den einen sehr spitz zugeschnitten, bei anderen dagegen sehr breit aufgestellt, wie z. B. Amazon). Trotzdem kann die Effizienz an einzelnen Seiten zu einer best. Keyword-Kombination auch nicht mehr großartig steigen, wenn die Seite sowieso schon fast optimal bis optimal rankt. D. h. dass beispielsweise immer mehr Reviews dazukommen, evtl. noch weitere Produktbeschreibungen oder Artikel zu dem Thema … doch das “Thema” an sich rankt ja schon. Deshalb würde in diesem Fall natürlich die Effizienz immer weiter abnehmen (sofern nicht zig-tausende Subdomains platziert werden, die den Index á la eBay verstopfen).
Soweit zumindest meine Gedanken: Oder liege ich da falsch?
Sehr genialer Beitrag. Und ich kann dazu nur sagen, dass die Möglichkeit “Verschwörungstheorie” vielleicht gar nicht so falsch ist. Ich kenne einige dieser Seiten auch aus technischer Hinsicht und kann sagen, dass die vor allem hinsichtlich der Artikelzahlen extrem unterschiedlich sind. Bei einigen davon kommen die vielen Seiten auch durch Permutationen von vorhandenem Content zu Stande. Hart an der der Grenze von DC. Und bei anderen Sites ist jede Unterseite eine echte Beitragsseite mit uniquem Content.
Wieso verhält sich aber deine “SEO-Effizienz” genannte Zahl dann so ähnlich?
Das ist schon sehr, sehr bemerkenswert.
Da haben wir wohl alle was dran zu knabbern. Danke!
eric
Ich glaube, ich habe inzwischen das richtige Modell im Kopf, dass nicht nur die SEO-Effizienz, sondern auch die SEO-Effektivität darstellt. Ich muss mich mal in meine alten BWL-Bücher über Produktionstheorie einlesen, da gab es ähnliche Modelle. Wenn meine Vermutung stimmt, funktioniert die Kurve oben immer mit einem Set von Websites, die einen ähnlich hohen Sichtbarkeitsindex (Output) haben (z.B. eben die Top-30, wobei Wikipedia und Amazon da schon Ausreißer sind, die ihr eigenes Niveau haben). Für jedes Set gibt es dann eine eigene Kurve. Je weiter oben rechts die Kurve liegt, um so effektiver sind die Websites, die auf der Kurve liegen. Aber es gibt immer mehrere Kombinationen, wie man die Effektivität (Sichtbarkeit) erreichen kann. Entweder durch relativ wenige Keywords, die häufig gesucht werden, oder durch relativ viele Keywords aus dem Long-Tail (und jede Kombination dazwischen).
Die Antwort liegt meiner Meinung nach vor allem in der Struktur skalenfreier Netzwerke. Diese Graphen zeichnen sich durch eine sehr große Anzahl an kleinen Knoten aus, die relativ wenige Verbindungen innerhalb des Netzwerks haben. Auf der anderen Seite gibt es einige wenige Hub-Knoten, die das gesamte Netzwerk untereinander in relativ wenigen Schritten verbinden (Stichwort Six-Degreees-of-Separation). Dabei bedeutet ein größeres Netzwerk nicht, dass die Anzahl der Hubs zunimmt.
Analog zu dem hier gezeigten Datenmaterial würde ich die Korrelation zwischen der Anzahl indizierter Seiten und der Sichtbarkeit folgendermaßen auslegen:
Wenn die einzelnen Webseiten als einzelne Netzwerke betrachtet werden (also ohne externe Inlinks) und eine relativ ähnliche Onsite-Verlinkung der einzelnen Seiten angenommen wird (vielleicht Amazon und Wikipedia ausgenommen), dann besitzt jedes Netzwerk eine ähnlich absolute Anzahl an Hubs (z.B. die Startseite, Kategorie-Seiten etc.), die durch ihre hohe Verlinkung natürlich eine hohe Sichtbarkeit aufweisen. Je größer eine Seite ist, desto mehr kleine Knoten (Artikel-Seiten etc.) mit relativ geringer Verlinkung und relativ geringer Sichtbarkeit besitzt sie. Das Verhältnis Hubs zur Anzahl der gesamten Seiten verkleinert sich also mit der Anzahl der Seiten und somit auch die hier aufgezeigte SEO-Effizienz. Dieser Erklärungsansatz ist dann wohl relativ nahe an der Long-Tail-Sache dran:-)
Das sind zumindest meine ersten Gedanken hierzu, ich würde da aber auch noch gerne eine Nacht drüber schlafen. Meiner Meinung wäre es für eine weitere Untersuchung interessant, die Linkstruktur von Amazon, misterinfo und hotfrog zu untersuchen. Ich bin mir sicher, dass hotfrog eine sehr geringe, währenddessen Amazon eine sehr hohe Anzahl an Hubs aufweist.
PS: Falls es jemand noch nicht kennt, ich kann hierzu nur das Buch Linked von Barabasi empfehlen, es ist sicherlich für jeden SEO interessant.
Vom Ansatz her sehr lustig und schön zu sehen, was man für Ansätze haben kann. Als Sozialwissenschaftler würde ich aber sagen: Leider sind viele Faktoren nicht berücksichtigt worden. Aus der Erfahrung heraus ist der Ansatz durchaus gut, allerdings funktioniert die Effizienz für jede Seite wieder anders. Ganz abgesehen davon, dass Effizienz ja erstmal nichts damit zu tun hat, wie gut eine Seite sichtbar ist. Wichtiger ist eigentlich eher, was ich mit dem Traffic über die Suchmaschinen mache. Da kann man tolle 10.000 Seiten im Index haben die zu 10.000 Keywords ranken und damit ja eigentlich einen optimale Effizienz, allerdings heisst dieses dann 1. noch nicht, dass ich überhaupt zu den Keywords ranke, die auch für mich wichtig sind (Will ich Kinderwagen verkaufen und ranke nur zu Autokrediten ist die tolle SEO Effizienz dahin) 2. dass ich nicht vielleicht ein tolles Keyword mit viel Traffic habe und 9.999 über die alle 5 Jahre mal jemand kommt, mal übetreiben gesprochen.
Was ich sagen will ist, dass die reine SEO Effizienz zu wenig Aussage hat. Erst wenn man anfängt in einem Unternehmen ein Online Controlling einzuführen, dass eben alle Fakten einer Seite anständig berücksichtigt (Ja, warum nicht Sistrix Daten mit dem SAP kombinieren?) wird man eben wirklich eine eindeutige Aussage über die Effizienz machen können.
Nebenbei sei noch angemerkt, dass es auch noch Seiten gibt, die jeden Tag neue Inhalte produzieren müssen, weil sie nicht nur vom Suchmaschinentraffic leben. Man stelle sich vor, tagesschau.de würde irgendwann sagen: Wenn wir jetzt noch mehr neue Nachrichten online stellen, werden wir ineffizient, also ab heute keine neuen Nachrichten mehr. Kann ja nicht Sinn der Sache sein 😉
@SEO Punk: Bei dem Thema geht es natürlich nicht um die Websites, die von 5 hochattraktiven Keywords leben, oder nur 5.000 Seiten im Index haben, sondern um die großen Wale und Index-Monster. Ich möchte 3 Dinge herausfinden:
1) Gibt es einen Zusammenhang zwischen der Anzahl indexierter Seiten und der SEO-Effizienz?
2) Wenn ja, welche Effekte kann man beobachten?
3) Wenn man die Effekte kennt, welche Entscheidungen und Maßnahmen kann man daraus für einzelne Websites ableiten?
Um bei Deinem Beispiel von tagesschau.de zu bleiben, so kommt natürlich keiner auf die Idee, keine neuen Nachrichten zu veröffentlichen, weil man irgendwelche Effekte aufgrund der Anzahl Seiten im Index befürchtet. Anders ist es aber, wenn es die Entscheidung geht, das Nachrichten-Archiv online zu stellen. Je nachdem wie man es gestaltet und remixt, lassen sich da wahrscheinlich 100.000 oder auch 5 Mio. mehr oder weniger sinnvolle Seiten in den Index schieben. Und an dem Punkt wird es dann interessant, dass man die Effekte kennt. Sind eher die 100.000 oder die 5 Mio. Seiten sinnvoll? Kann die Entscheidung Einfluss auf die Indexierung und das Ranking der aktuellen Nachrichten haben? Um in solchen Fällen eine möglichst gute Entscheidung zu finden, möchte ich gerne mehr über den Einfluss und die Effekte der Anzahl indexierter Seiten herausfinden. Das Bild ist heute schon ein ganzes Stück klarer geworden und ich bin gespannt auf die Ergebnisse aus einem größeren Datensatz.
Eine sehr interessante Diskussion und dazu eines meiner Lieblingsthemen.
Mal davon abgesehen, dass die SEO Effizienz für jedes Projekt individuell
herausgefunden werden muss (Gewinn Maximierung) liegt in Deiner These 3
auf jeden Fall ein Stück Wahrheit. Eine Domain besitzt immer eine bestimmte
Stärke (die man nur abschätzen kann). Diese Stärke verteilt sich über die
(SEO relevante) interne Verlinkung über alle URLs. Es gibt also für jede Domain eine
optimal URL Anzahl. Hier liegt, so denke ich, auch oft der Grenznutzen.
Wenn man sehr viele Inhalte hat gibt es meiner Meinung nach folgende Hebel:
– Domain stärken (mehr Links)
– Interne Verlinkung optimieren
– Aufräumen (kaum zu monetarisierende Inhalte auf noindex, follow)
Und natürlich immer alles messen 😉
Karsten: Genauso sehe ich es eben auch. ich glaube nicht, dass man eben mit den Daten der Sistrix Toolbox so etwas herausfinden kann. Da wären schon Zugänge zu den Google Webmaster Tools der Seiten und eventuell dem jeweiligen CMS nötig. Interessant ist aber eben tatsächlich eher der Grenznutzen. @Hanns: Das wäre dann der spannende Ansatz: Wie lässt sich dieser Grenznutzen bestimmen. Denn wie Du richtig angemerkt hast, sieht man ja, dass eben Archive mit Millionen von Artikeln nicht unbedingt eine Verbesserung bringen. Ganz davon abgesehen eben, dass Google diese größtenteils noch nichteinmal komplett indiziert.
hallo,
hier fällt mir inbesondere – neben der von vielen bereits erwähnten kleinen datenauswahl – noch auf, dass das verhalten von domains mit zehntausenden indexierten seiten sicherlich ein anderes ist, als bei 10, 30 oder 400 indexierten pages.
Ich habe zwar weder das Wissen noch die Tools, das zu beweisen, aber könnte es sein, dass die Amazon und Wikipedia Ausreißer sind, weil die einen überdurchschnittlich hohen Anteil an Deeplinks haben und somit auch viel Linkstärke auf die einzelnen Unterseiten gegeben wird? In diesem Fall kommt die Linkstärke eben nicht nur über die Domain und verteilt sich auf alle Seiten, sondern wird eher breiter gestreut.
Ob diese These richtig sein könnte, überlasse ich aber den Fachleuten. 🙂
ich habe viele Seiten durch das Tool gejagt – offenbar habe ich lauter Seiten, die kaum die Keys von Sistrix haben – für mich ist der Sichtbarkeitsindex bei diesen Tools unbrauchbar, insofern kann ich da nichts dazu sagen.
dennoch stimme ich Deiner These 1 zu: weil ich beobachte, dass 1 einziger Deeplink -und wenn er noch so poppelig- 1. das Ranking einer LongTeil Seite massiv beeinflusst und 2. deren sichtbaren PR *aufweckt* 😉 anders kann ich es nicht erklären.
die beobachteten Sites habe eine intensive interne Verlinkung und mit einem miniminiDeeplink kam (als Beispiel) eine Unterseite von grau auf PR4 – das ist -außer mit *aufwecken* des internen PRs nicht anders erklärbar- so es hier überhaupt Erklärungen gibt
habe ich xyz Seiten im Index kann man gar nicht mehr alle mit auch nur einem Deeplink von Aussen versorgen –
daher empfehle ich auch immer: reduzieren, Entscheidungen treffen – nicht die Masse, sondern die Stärke machts
lg
Interessanter Beitrag, der jedoch auf einem mathematischen Denkfehler basiert. Die statistische Auswertung ist leider ein Artefakt. Ausführliche Analyse unter
http://suchmaschinenoptimierung.michaelsattler.de/seo-effizienz.html
@Michael: Deine Analyse ist super! Ich war inzwischen auch darauf gekommen, dass bei ähnlich erfolgreichen Websites die Punkte auf einer Linie liegen müssen (siehe Kommentar Nr. 20), aber so schön mathematisch wie in Deiner Analyse hätte ich das nicht erläutern und darstellen können. Ich bin gerade dabei einen neuen Beitrag zu dem Thema zu schreiben, der das in dem Kommentar Nr. 20 beschriebene Modell erläutert. Über ein Feedback von Dir würde ich mich sehr freuen.
Vielen Dank für die Analyse.
Anhand dieses Artikels werde ich mir nochmal eigene Gedanken machen und versuchen herauszufinden, inwieweit es sinnvoll ist diesen Aufwand auch für kleinere Seiten zu betreiben. Oder besser gesagt, ab wann eine Seite es wert ist, dass dieser Artikel in der Analysephase Relevanz findet.
Besten Dank für die Analyse, klingt einleuchtend. Aber der Einwand mit den “Top” Keywords bei denen man ranken will stimmt auch!
Recht interessant und doch bleiben ein paar Fragen:
1. Wie kommt man an die Seitenzahlen, die sich im Google-Index befinden. Die Zahl, die Google nennt, die ist jedenfalls falsch. Bei meiner Seite (http://devsup.de/) werden zur Zeit 148 Seiten von Google aufgerufen, es sind aber – wenn man die Suchergebnisse 100-199 anzeigt nur 140. Der Fehler wird mit größeren Seiten größer.
2. Wenn man ein paar Seiten mit entsprechenden Begriffen “oben” hat, dann kann man sich den Luxus erlauben, Texte zu schreiben, die Fortsetzungen eines Beitrages sind. Sie erzeugen einen Besucherstrom auf und in der Seite. Fortsetzungsbeiträge müssen naturgemäß nicht oben sein.
3. Es gibt überall auch Informationen, die eigentlich gar nicht in den Index gehören, geschweige denn optimiert werden müssen. Eine Mitteilung über bevorstehende Betriebsferien muss nicht unter “Betriebsferien” in die Top-Ten, vor allem nicht, wenn diese drei Jahre alt ist.
4. Viele Beiträge sind überhaupt nicht SEO-Tauglich und sollen es auch gar nicht sein. Im Focus steht heute ein Beitrag unter dem Titel “Deutschland retten, nicht die Welt”. Der Beitrag richtet sich “Gegen höhere Benzinpreise”. Diesen Beitrag inhaltlich an irgend einer Stelle “nach oben bringen zu wollen” ist Unfug. Es ist eine Tagesmeldung ohne irgend eine Information, die morgen noch von Bedeutung ist. Ich selbst habe auch mal einen Beitrag geschrieben, der nur kurzfristig für die regelmäßigen Leser interessant ist – “Neue Reiter braucht das Land”.
guter blog
guter blog!
gruss,
nikki
http://www.mycrib.ch
Sehr interessantes Thema mit dem ich mich bisher noch nicht auseinandergesetzt habe. Vielen Dank für den Einblick in die Materie der indexierten Seiten in Bezug auf SEO!
Wow, guter Ansatz.
Spannend find ich auch, dass “Webmarketing-Papst” Mario den ersten Beitrag schrieb.
Auf den Grenznutzen kommt es an! Richtig erkannt.
LG
Gute Ideen, aber die Untersuchung müsste weitergehend und differenzierter sein im Hinblick auf unique / duplicate / news Inhalten. Grüße aus Bamberg
Zunächst einmal finde ich es toll, dass es noch SEOs gibt, die sich dem Thema mit einem gewissen wissenschaftlichen Anspruch nähern!
Die Durchführung der Analyse ist so weit auch in Ordnung.
Einen Grundlegenden Fehler hat sie allerdings: Dadurch, dass die Top30-Sichtbarkeitindex-Seiten betrachtet wurden, ist eine Aussage auf die Korrelation mit der Anzahl der Seiten nur sehr bedingt machbar!
Einfach gesagt:
1. Mehr Seiten als 30 mit einbeziehen
2. Seiten mit niedrigerem SIX integrieren
Trotzdem gibt’s von mir ein “weiter so” 🙂
Gute Ideen, aber die Untersuchung müsste weitergehend und differenzierter sein im Hinblick auf unique / duplicate / news Inhalten. Grüße aus Bamberg
Excellent post at SEO-Effizienz – die optimale Anzahl indexierter Seiten. I was checking constantly this blog and I am impressed! Extremely useful information specially the last part 🙂 I care for such information a lot. I was seeking this particular info for a long time. Thank you and best of luck.
Nützlicher Beitrag. Allerdings finde ich die auswahl an untersuchten Websites nicht optimal. Die Internet-Riesen werden mit sicherheit anders von Google bewertet als kleinere private Seiten.