
Foto: projecthoneypot.org
Ich war letztens bei einem Bekannten gewesen, der eine kleine Netzseite betreibt. Nichts besonderes, eine kleine private Webseite mit paar Bildern.
In seinem Kundenbereich des Hosters wurden ca. 5- 7 GByte an Traffic / Monat angezeigt.
War zwar schwer zu glauben bei 15 Besucher / Tag, aber die Logfiles sollten Licht ins Dunkel bringen.
Anhand der Logfiles konnte man sehen, dass die Seite permanent von unzähligen Bots/Useragenten durchwühlt wird.
Die Webpräsenz mit ihrer Struktur war offen für jeden und jeder Bot konnte sich nach belieben austoben. Es wurde Traffikklau anhand von Bildern betrieben, Bots durchsuchten rund um die Uhr nach Inhalten, der anschließend in andere Portale integriert wurde (fündig wird man zb. mit www.copyscape.com.) Harvester durchsuchten die Präsenz nach E-Mail bzw. Kontakt Adressen.
Weitere negative Nebenwirkungen die daraus entstehen können sind DC (Duplicate Content). Der entsteht dann, wenn der eigene Inhalt 1:1 in fremde Systeme integriert wird.
Für diesen Inhaltsklau sind auch größtenteils Bots verantwortlich.
Dabei kann / sollte auch der unerfahrene Webmaster schon einiges dagegen unternehmen.
Das erste was man machen sollte, ist eine robots.txt zu erstellen und in das Root- Verzeichnis seiner Webpräsenz hochladen. Verzeichnisse, wo Bilder, Include- Dateien, Stylesheets, Downloads usw. liegen, haben einen Bot nicht zu interessieren.
Beispiel für den Inhalt einer robots.txt
User-agent: * Disallow: /images Disallow: /include Disallow: /templates Disallow: /Downloads
Der Wildchar * hinter User-agent: sollte alle Crawler daran hintern, diese Verzeichnisse zu durchsuchen. Das es leider in der Praxis nicht so abläuft, erfahren sie später im Text.
Sollte der Webhoster das Directory Listing aktiviert haben, so ist es ratsam, in jedes Verzeichnis eine leere index.html zu speichern.
Rundherum wimmelt aber das Netz von unzähligen Bots / Spidern, die ständig auf der Suche nach Informationen sind und sich nicht an die robots.txt halten.
Seit einigen Jahren gibt es bereits das Projekt Honeypot. Ein Honigtopf für Angreifer, E-Mail Sammler, Spambots und mehr. Geschaffen wurde dieses Netzwerk von Universitäten in Amerika.
Folgende Schritte sollte man anschließend ausführen:
Anmelden bei http://www.projecthoneypot.org/.
Dort bekommt man daraufhin einen API Schlüssel.
http://planetozh.com/ hat einen super Script programmiert, womit die Nutzung des Service von projecthoneypot problemlos ermöglicht wird. Damit kann jeder Betreiber von Webprojekten diesen Service nutzen. (Voraussetzung ist PHP seitens des Hosters).
Die Datei httpbl.php mit einem Texteditor öffnen (diese Datei gibt es am Ende des Artikels zum DL.)
Tragen sie hier den API Schlüssel ein:
function ozh_httpbl_check() { // your http:BL key $apikey = 'Schlüssel'; // IP to test
Die Einbindung in die eigene Webseite ist einfach (index. php).
require('httpbl.php');
Einen großen Anteil von Spambots, Attacker und Harvester kann man dadurch abwehren.
Wenn der Server Mod_Rewrite unterstützt, hat man mehr Möglichkeiten um den Zugriff durch Dritte auf die eigene Webpräsenz einzuschränken.
Traffikklau durch die Verlinkung von Bildern / Downloads verhindern.
Das Verlinken von fremden Bildern oder Downloads ist gängige Praxis.
Um den entgegenzuwirken reicht es, eine .htaccess mit nachfolgenden Inhalt zu erstellen und in die betreffenden Verzeichnisse zu kopieren.
RewriteEngine on
RewriteCond %{HTTP_REFERER} !^http://(www.)?domain.de(/)?.*$
RewriteRule (.*).(gif|jpg|jpeg|bmp|zip|ace|tar|gz|rar|png|exe|pdf|htm|html|doc)$ http://www.domain.de/werbung.html
Oft ist es notwendig, Domains, Useragenten oder IP’s per Hand den Zugriff auf die eigene Webpräsenz zu verbieten.
Bitte beachten, RewriteEngine on wird einmalig am Anfang der .htaccess geschrieben.
Kleines Beispiel, wie Useragenten, IP’s und Domains ausgesperrt werden.
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^.*PycURL.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Python-urllib.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*larbin_.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WWWeasel.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*libwww-perl.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*IEAutoDiscovery.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Mizzu\ Labs.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Twiceler-0\.9.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Xaldon\ WebSpider.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Spidy\ von\ PaderMedien.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Gaisbot/3\.0.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*appie\ 1\.1.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Microsoft\ URL\ Control.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Missigua\ Locator\ 1\.9.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NASA\ Search.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*GSiteCrawler.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*askpeter_jeanie_2008_bot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Java/1\.4\.1_04.*$ [NC]
RewriteRule ^.* - [F]
#http-variablen verbieten
RewriteCond %{QUERY_STRING} (=http)+
RewriteRule ^.*$ - [F]
RewriteCond %{REMOTE_ADDR} ^82.99.30.([0-127]) [OR]
RewriteCond %{REMOTE_ADDR} ^80.145.107.115 [OR]
RewriteCond %{REMOTE_ADDR} ^85.25.131.163 [OR]
RewriteCond %{REMOTE_ADDR} ^62.178.247.153 [OR]
RewriteCond %{REMOTE_ADDR} ^208.115.111.248 [OR]
RewriteCond %{REMOTE_ADDR} ^85.214.84.64 [OR]
RewriteCond %{REMOTE_ADDR} ^64.72.116. [OR]
RewriteCond %{REMOTE_ADDR} ^64.131.77.96 [OR]
RewriteCond %{REMOTE_ADDR} ^212.227.103.74 [OR]
RewriteCond %{REMOTE_ADDR} ^208.97.172.180$
RewriteRule ^.* - [F]
Deny from .anonymizationservice.com
Deny from .anon-online.org
Deny from .anonymizer.com
Deny from .anonymouse.ws
Deny from .ourhostingserver.com
Deny from .anonymouse.orgDownload: [download id="2"] (*.zip Archiv)
Oktober 16th, 2009
Brainstorm
Posted in
Tags: