Wikipedia MWdumper

Jeg vil gerne være i stand til at oprette en offlineversion af et MediaWiki-sted på en ugentlig basis.

DumpHTML-udvidelsen gør faktisk, hvad jeg vil, da den dumper alle artikler og mediefiler, men jeg kan ikke se noget indeks over alle de artikler, den har dumpet, så jeg kan ikke navigere i dumpen.

Når jeg læser om XML-dumpfunktionen, som MediaWiki har, spekulerer jeg på, om det ville være muligt enten at bruge et program til at se disse filer eller måske konvertere dem til html?

Eller er der andre måder at oprette en offlineversion af et MediaWiki-sted på?

  • Har du virkelig brug for et indeks? Bare start kl Main Page og følg linkene derfra.
  • Her er Cam Webbs instruktioner til oprettelse af en statisk version af et MediaWiki-websted. Her er mine egne, hvis de hjælper nogen. Begge giver links til det statiske resultat (min her).

Du kan bruge et webcrawler-værktøj, der gemmer webstedet som HTML-filer. Alle links konverteres, så du kan åbne hovedsiden, siger og derefter klikke på links og komme til hele webstedet.

Der er et antal af disse værktøjer til rådighed. Jeg bruger wget, som er kommandolinjebaseret og har tusindvis af muligheder, så ikke meget venlig. Det er dog ret kraftfuldt.

For eksempel er her kommandolinjen, jeg brugte til at dumpe mit eget mediawiki-websted. Jeg foreslår, at du forstår hver mulighed, selvom du bruger den selv:

'c:\program files\wget\wget' -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki 

Du kan tage -pages-articles.xml.bz2 fra Wikimedia dumps-webstedet og behandle dem med WikiTaxi (download i øverste venstre hjørne). Wikitaxi Import-værktøj opretter en .taxi(omkring 15 GB til Wikipedia) fil ud af .bz2 fil. Denne fil vil blive brugt af WikiTaxi-programmet til at søge i artikler. Oplevelsen ligner meget browseroplevelsen.

Eller du kan bruge Kiwix hurtigere til at konfigurere, fordi det også giver de allerede behandlede lossepladser (.zim filer). Som kommentaren angiver for at tage andre MediaWiki-sider til kiwix mwoffliner kan bruges, det fungerer muligvis ikke med alle, da de kan have brugerdefinerede forskelle, men det er den eneste variant, jeg stødte på.

At tage Wikimedia-ting med wget er ikke god praksis. Hvis for mange mennesker ville gøre det, kan det oversvømme webstederne med anmodninger.


Senere redigering for den sag, du også vil have billederne offline:

XOWA-projekt

Hvis du vil have et komplet spejl af Wikipedia (inklusive billeder) fuld HTML-formatering intakt, der downloades ca. 30 timer, skal du bruge:

Engelsk Wikipedia har en masse data. Der er 13,9+ millioner sider med 20,0+ GB tekst samt 3,7+ millioner miniaturer.

XOWA:

Opsætning af alt dette på din computer er ikke en hurtig proces ... Selve importen kræver 80 GB diskplads og fem timers behandlingstid for tekstversionen. Hvis du også vil have billeder, øges antallet til 100 GB diskplads og 30 timers behandlingstid. Når du er færdig, har du dog en komplet, nylig kopi af engelsk Wikipedia med billeder, der kan passe på et 128 GB SD-kort.

Men offlineversionen ligner meget onlineversionen, inkluderer fotos osv .: (Jeg testede nedenstående artikel helt offline)


Senere redigering, hvis intet af ovenstående gælder:

Hvis wiki ikke er en del af Wikimedia eller ikke har et dump, er der et projekt på github, der downloader den wiki ved hjælp af dens API:

WikiTeam - Vi arkiverer wikier, fra Wikipedia til mindste wikier

  • 1 I tilfælde af dumping af en brugerdefineret mediawiki-installation er XOWA ret i stand til at gøre det (nogle problemer kan eksistere), efter artikel xowa.org/home/wiki/App/Wiki_types/Wikia.com er ret nyttig. Brug af Kiwix med brugerdefinerede wikier er endnu ikke testet (man skal først dumpe wiki'en med github.com/kiwix/mwoffliner eller et andet værktøj først)

arbejdet for dig: Charles Robertson | Ønsker du at kontakte os?