VoyForums
[ Show ]
Support VoyForums
[ Shrink ]
VoyForums Announcement: Programming and providing support for this service has been a labor of love since 1997. We are one of the few services online who values our users' privacy, and have never sold your information. We have even fought hard to defend your privacy in legal cases; however, we've done it with almost no financial support -- paying out of pocket to continue providing the service. Due to the issues imposed on us by advertisers, we also stopped hosting most ads on the forums many years ago. We hope you appreciate our efforts.

Show your support by donating any amount. (Note: We are still technically a for-profit company, so your contribution is not tax-deductible.) PayPal Acct: Feedback:

Donate to VoyForums (PayPal):

Login ] [ Contact Forum Admin ] [ Main index ] [ Post a new message ] [ Search | Check update time | Archives: 123[4]5678 ]


[ Next Thread | Previous Thread | Next Message | Previous Message ]

Date Posted: 20:09:12 05/25/12 Fri
Author: Fosca
Subject: Re: 3222 neu http://www.voy.com/228518/
In reply to: no name 's message, "Re: 3222 neu http://www.voy.com/228518/" on 13:55:24 05/25/12 Fri

>ich ein teil.aber nicht den letzten rest, und gerade
>da stand sehr detailreich drin, wie man sich atypisch
>erhängt, und weil ich das vorhabe, brauche ich diese
>infos....

Das mit dem Erhängen gefällt mir zwar nicht, aber da mir die selbstherrliche Entmündigung von Menschen auch nicht gefällt: du bekommst doch alles noch im google-cache.

Du schaust dir den Index an und merkst dir den Namen der Datei, die du dir ansehen willst.

<a rel=nofollow target=_blank href="http://webcache.googleusercontent.com/search?q=cache:www.voy.com/40597/">http://webcache.googleusercontent.com/search?q=cache:www.voy.com/40597/</a>

Angenommen du willst dir die Datei 49138.html anschauen, dann gibst du einfach

<a rel=nofollow target=_blank href="http://webcache.googleusercontent.com/search?q=cache:www.voy.com/40597/49138.html">http://webcache.googleusercontent.com/search?q=cache:www.voy.com/40597/49138.html</a>

in die Adresszeile ein.


Wer Perl auf seinem Rechner installiert hat, kann den Cache auch einfach mit folgendem Skript auslesen:

#!/usr/bin/perl
use sigtrap;
use IO::Socket::INET;
use LWP::UserAgent;

$my_ua = LWP::UserAgent->new();
$my_ua->agent('Mozilla/4.0');
$my_ua->timeout(60);
$my_ua->max_size(307200); #

$base = '<a rel=nofollow target=_blank href="http://webcache.googleusercontent.com/search?q=cache:www.voy.com/40597/';">http://webcache.googleusercontent.com/search?q=cache:www.voy.com/40597/';</a>

$my_ua->mirror($base, 'index.html');

for ($i=48799; $i < 49250; $i++)
{
$add = $base . $i . ".html";
$my_ua->mirror($add, "$i.html");
}


In die Schleife gibt man einfach den Nummernbereich der zu lesenden Dateien ein.
Allerdings macht bei mir google nach 100 Anfragen dicht, da es sich von nem Bot missbraucht fühlt. Aber wenn man mit einer neuen Einwahl wieder eine neue IP-Adresse hat, kann's weitergehen. Aber wenn man ein sleep in die Schleife einbaut - und nicht alles direkt hintereinander auslesen will - akzeptiert google das vielleicht.

Aber vielleicht gibt's dafür auch bessere Methoden - ist schon länger her, dass ich mich mit so einem Kram beschäftigt hab.

[ Next Thread | Previous Thread | Next Message | Previous Message ]

Post a message:
This forum requires an account to post.
[ Create Account ]
[ Login ]
[ Contact Forum Admin ]


Forum timezone: GMT+1
VF Version: 3.00b, ConfDB:
Before posting please read our privacy policy.
VoyForums(tm) is a Free Service from Voyager Info-Systems.
Copyright © 1998-2019 Voyager Info-Systems. All Rights Reserved.