Seitenaufrufe der robots einschränken

Hallo ng,

meine schöne Zugriffsstatistik wird in den
letzten Tagen massiv von googlebot & Co.
verfälscht.

Technisch sieht die Seite so aus:
eine php-Formularseite schickt per GET die
Anfrage an eine php-Ergebnisseite, die,
neben dem Ergebnis, die php-Formularseite
am Seitenanfang wieder darstellt.

Nun wurde die php-Ergebnisseite(!) im Abstand
von 7-12 Sek. in den letzten Tagen mehrmals einige
Hundert Mal aufgerufen.

Hab mal hier nachgeschaut
http://tools.whois.net/index.php?fuseaction=ipaddress.result s
und da zeigte sich als häufig z.B.
crawl-.....googlebot.com
spider...picsearch.com


Nutzen diese "robots" die GET-Url in der Adresszeile
für die Aufrufe?


Im meinem root-Verzeichnis des Servers habe ich
eine robots.txt liegen (orientiert an
http://www.wikipedia.org/)
würde z.B. ein
User-agent: googlebot.com
Disallow: /
etwas bringen / sinnvoll sein?
(beeinflußt ein Eintrag das Ranking auf der Googleseite?)

Kann man da php-technisch etwas regulieren?
Würde es was ändern, die Abfrage per POST zu schicken?


.... noch ein paar Wochen und smallint reicht nicht
mehr ...


Danke für Tipps,
Grüße, J.
schurig [ Di, 25 September 2007 13:06 ] [ ID #1828989 ]

Re: Seitenaufrufe der robots einschränken

nachträglich:

seh grad (hat jetzt nichts mit php zu tun ...),
dass ich in Meta-Tags noindex vergessen hatte
<meta name="robots" content="noindex,nofollow">
sofern die robots sich dran halten ...

Grüße, J.
schurig [ Di, 25 September 2007 13:26 ] [ ID #1828990 ]

Re: Seitenaufrufe der robots einschränken

hallo,
mmhpf - scheint die falsche Gruppe zu sein??
> ...
das Problem ist jedenfalls noch nicht gebannt.

Diese "Firmen", z.B.
---------
OrgName: Google Inc.
OrgID: GOGL
Address: 1600 Amphitheatre Parkway
City: Mountain View
StateProv: CA
PostalCode: 94043
Country: US
NetRange: 66.249.64.0 - 66.249.95.255
CIDR: 66.249.64.0/19
NetName: GOOGLE ...
---------
haben meine DB-Abfrage im Sekundentakt 20000 aufgerufen
(weiß nicht ob noch andere beteiligt waren, ... check nicht alle ...)
... :-(
Gruß, Jörg
schurig [ Mo, 01 Oktober 2007 13:56 ] [ ID #1833592 ]

Re: Seitenaufrufe der robots einschränken

Jörg schrieb:
> hallo,
> mmhpf - scheint die falsche Gruppe zu sein??

Wir hier in de.lang.PHP.DATENBANKEN fuehlen uns nicht so wirklich
angesprochen.


>> ...
> das Problem ist jedenfalls noch nicht gebannt.
>
> Diese "Firmen", z.B.
> ---------
> OrgName: Google Inc.
> OrgID: GOGL
> Address: 1600 Amphitheatre Parkway
> City: Mountain View
> StateProv: CA
> PostalCode: 94043
> Country: US
> NetRange: 66.249.64.0 - 66.249.95.255
> CIDR: 66.249.64.0/19
> NetName: GOOGLE ...
> ---------
> haben meine DB-Abfrage im Sekundentakt 20000 aufgerufen
> (weiß nicht ob noch andere beteiligt waren, ... check nicht alle ...)=

> ... :-(
> Gruß, Jörg

Wenn deine Seite SessionsIDs per URL transportiert dann kann sich ein
crawler schon mal leicht verirren. Fuer den sieht dann unter Umstaenden
jede URL anders aus. Hinzu kommt wenn du per Hyperlink z.b die
Sortierung einer Datenanzeige umschalten kannst oder unten ein
"Weiterblaettern" hast. Ein Crawler versucht halt jeden LINK welchen er
da im HTML findet.

Gruss
Joerg

--
TakeNet GmbH, Geschaeftsfuehrer Wolfgang Meier
97080 Wuerzburg Tel: +49 931 903-2243
Alfred-Nobel-Straße 20 Fax: +49 931 903-3025
HRB Wuerzburg 6940 http://www.takenet.de
Joerg Behrens [ Mo, 01 Oktober 2007 15:19 ] [ ID #1833593 ]

Re: Seitenaufrufe der robots einschränken

Hallo Joerg,
> ...
> Wir hier in de.lang.PHP.DATENBANKEN fuehlen uns nicht so wirklich
> angesprochen.
hab keine andere "erkannt". Da dachte ich, weil Datenbank & php ...

> ...
>
> Wenn deine Seite SessionsIDs per URL transportiert dann kann sich ein
> crawler schon mal leicht verirren.
keine SessionsIDs
nur ganz einfach:
file.php?band=45%2F1&jahr=&aut= ...

> Fuer den sieht dann unter Umstaenden
> jede URL anders aus. Hinzu kommt wenn du per Hyperlink z.b die
> Sortierung einer Datenanzeige umschalten kannst
das könnte ich: man kann die Abfrage als Autor-Sortierung,
Jahrgangs-Sortierung, ... abschicken.

> oder unten ein
> "Weiterblaettern" hast.
das gibts nicht.

> Ein Crawler versucht halt jeden LINK welchen er
> da im HTML findet.
also kein "Angriff", nix böswilliges.
Eigenartig, dass die Seite schon 5-6 Jahre ohne Probleme läuft.
Außerdem soll die Seite natürlich laut meta-tags nicht indiziert werden
noindex,nofollow.

So: einfach die Abfrage per POST schicken.?

Danke für die Hinweise,
Grüße, Jörg
schurig [ Mo, 01 Oktober 2007 16:50 ] [ ID #1833594 ]
PHP » de.comp.lang.php.datenbanken » Seitenaufrufe der robots einschränken

Vorheriges Thema: [Propel] Abfragen überdiverse Tabellen mit Alternativen
Nächstes Thema: Re: PDO: Wie Anzahl der Ergebnisse abfragen?