Wieso ist meine index.html nicht mehr im Google Index?
Die Startseite ist in der Regel die wichtigste Seite eines Website. Sie ist die am häufigsten verlinkte Seite und hat den meisten Page Rank. Auch wenn PR mittlerweile nicht mehr den selben Stellenwert hat wie früher, so ist Linkpopularität doch einer der wichtigsten Faktoren.
Die inneren Seiten sind oftmals gar nicht von außen verlinkt und leben davon, von der Startseite gefüttert zu werden, wenn diese plötzlich nicht mehr im Index vertreten ist kann das einen enormen wirtschaftlichen Verlust an Werbeeinnahmen bedeuten.
Duplicate Content
Der Grund für aus dem Inhalt "gelöschte" Seiten liegt in der Regel an sogenanntem "Duplicate Content" (doppelter Inhalt).
Wenn zwei Seiten im Google Index sehr ähnlich sind, wirft Google unter Umständen eine davon aus dem Index.
Leider geht Google bei der Entscheidung welche der Seiten das Duplikat darstellt nicht sehr intelligent vor.
Scraper
Was klingt wie die Schafsvariante von BSE sind Spammer, die - automatiesiert - das Internet abgrasen und dabei Texte kopieren um sie auf eigene generierte Seiten zu stellen.
Möglicherweise bevorzugt Google den Content mit dem ältesten Zeitstempel und entfernt jüngere Kopien. Zumindest wäre es die einleuchtendste Lösung. Allerdings kann dies bei dynamischen Seiten zu Problemen führen, wenn die Seiten bei jedem Request neu generiert werden und immer eine aktuelle Timestamp tragen.
Lösung
In meinem Fall hingegen war es eigene Dummheit, obwohl ich von der Problematik wusste, hatte ich ausgerechnet für meine wichtigste Seite selbst Duplicate Content generiert.
Seit einigen Jahren habe ich für meine wichtigste Seite weitere Domains registriert, die aber keinen eigenen Inhalt haben und nur Tippfehler abfangen sollen.
Die einzige saubere Lösung ist hier im Webserver jeden Request mit einem sogenannten "301 Permanently Moved" zu beantworten und auf die entsprechende Seite der Hauptdomain weiterzuleiten (redirect).
Aus irgendeinem Grund hatte ich damals allerdings einfach einen symbolischen link gesetzt, und für Google sah es so aus, als gäbe es zwei exakt gleiche Kopien der Website.
Google hat dann salomonisch geteilt und jeder der Domains wurden ein paar Seiten zugeteilt. Leider wurde hierbei die index.html einer Nebendomain zugeteilt, die damit allerdings nichts anfangen konnte, da "ihre Kopie" keine eingehenden Links hatte. Die eingehenden Links der Hauptdomain wurden von Google ignoriert und die Website bekam keinen Traffic mehr.
Andere Ursachen für Duplicate Content
Duplicate Content entsteht häufig im Zusammenhang mit dynamischem Inhalt, z.b. mit PHP oder CGI.
Seiten dieser Websites werden on-the-fly aus einer Datenbank und in der URL kodierten Parametern zusammengebaut.
Die Reihenfolge der Parameter in der URL ist für die Ergebnisseite irrelevant, allerdings betrachten Suchmaschinen URLs nicht im Detail sondern als ganzes und sehen so zwei - der Adresse nach verschiedene - Seiten mit gleichem Inhalt.
Man sollte darauf achten, dass in den URLs - zumindest für Google - keine Session IDs auftauchen.