Vikipēdija MWdumper

Es vēlētos, lai katru nedēļu varētu izveidot MediaWiki vietnes bezsaistes versiju.

Paplašinājums DumpHTML faktiski dara to, ko es vēlos, jo tas izgāž visus rakstus un multivides failus, bet es nevaru redzēt nevienu visu to izmesto rakstu indeksu, tāpēc es nevaru pārvietoties izgāztuvē.

Lasot par MediaWiki pieejamo XML dump funkciju, nez vai būtu iespējams vai nu izmantot programmu, lai skatītu šos failus, vai varbūt pārveidot tos par html?

Vai arī ir citi veidi, kā padarīt bezsaistes versiju MediaWiki vietnei?

  • Vai jums tiešām ir nepieciešams indekss? Vienkārši sāciet plkst Main Page un sekojiet saitēm no turienes.
  • Šeit ir Cam Webb norādījumi par statiskas MediaWiki vietnes versijas izveidošanu. Šeit ir manējie, ja tie kādam palīdz. Abi sniedz saites uz statisko rezultātu (mans šeit).

Jūs varētu izmantot tīmekļa rāpuļprogrammas rīku, kas vietni saglabās kā HTML failus. Visas saites tiks konvertētas, tāpēc jūs varat atvērt galveno lapu, teiksim, un pēc tam noklikšķiniet uz saitēm un nokļūstiet visā vietnē.

Ir pieejami vairāki šie rīki. Es izmantoju wget, kas ir balstīts uz komandrindu un kuram ir tūkstošiem iespēju, tāpēc tas nav ļoti draudzīgs. Tomēr tas ir diezgan spēcīgs.

Piemēram, šeit ir komandrinda, kuru es izmantoju, lai izgāztu savu mediawiki vietni. Es iesaku jums saprast katru iespēju, pirms pats to lietojat:

'c:\program files\wget\wget' -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki 

Jūs varat veikt -pages-articles.xml.bz2 no Wikimedia izgāztuves vietnes un apstrādājiet tos ar WikiTaxi (lejupielādējiet augšējā kreisajā stūrī). Wikitaxi importēšanas rīks izveidos .taxi(apmēram 15 Gb Vikipēdijai) fails no .bz2 failu. Šo failu izmantos WikiTaxi programma, lai meklētu rakstos. Pieredze ir ļoti līdzīga pārlūkprogrammas pieredzei.

Vai arī jūs varat izmantot Kiwix ātrāk, lai to iestatītu, jo tas nodrošina arī jau apstrādātās izgāztuves (.zim faili). Kā norādīts komentārā, lai ņemtu citas KiWix MediaWiki vietnes mwoffliner var izmantot, tas var nedarboties ar visiem, jo ​​tiem var būt pielāgotas atšķirības, bet tas ir vienīgais variants, ar kuru es saskāros.

Ņemot Wikimedia lietas ar wget nav laba prakse. Ja to izdarītu pārāk daudz cilvēku, vietnes varētu pārpludināt ar pieprasījumiem.


Vēlāk rediģējiet gadījumu, kad vēlaties arī attēlus bezsaistē:

XOWA projekts

Ja vēlaties, lai pilnīgs Wikipedia (ieskaitot attēlus) HTML formāta spogulis būtu neskarts, un tas tiks lejupielādēts aptuveni 30 stundu laikā, jums jāizmanto:

Angļu Vikipēdijā ir daudz datu. Ir 13,9+ miljoni lapu ar 20,0+ GB tekstu, kā arī 3,7+ miljoni sīktēlu.

XOWA:

Šī visa iestatīšana datorā nebūs ātrs process ... Importēšanai būs nepieciešama 80 GB diska vietas un piecu stundu apstrādes laiks teksta versijai. Ja vēlaties arī attēlus, to skaits palielinās līdz 100 GB diska vietas un 30 stundu apstrādes laikam. Tomēr, kad esat pabeidzis, jums būs pilnīga, nesen sagatavota angļu valodas Vikipēdijas kopija ar attēliem, kas var ievietot 128 GB SD kartē.

Bet bezsaistes versija ļoti līdzinās tiešsaistes versijai, ietver fotoattēlus utt.: (Es pārbaudīju zemāk redzamo rakstu pilnīgi bezsaistē)


Vēlāk rediģējiet, ja neviens no iepriekš minētajiem neattiecas:

Ja wiki nav daļa no Wikimedia vai tai nav izgāztuves, vietnē github ir projekts, kas šo wiki lejupielādē, izmantojot tā API:

WikiTeam - Mēs arhivējam wiki, sākot no Wikipedia līdz vissīkākajiem wiki

  • 1 Gadījumā, ja tiek izmesta pielāgota mediawiki instalācija, XOWA to spēj paveikt (daži jautājumi var pastāvēt). Šis raksts xowa.org/home/wiki/App/Wiki_types/Wikia.com ir diezgan noderīgs. Kiwix lietošana ar pielāgotajiem wiki vēl nav pārbaudīta (vispirms vispirms jāizvieto wiki ar vietni github.com/kiwix/mwoffliner vai kādu citu rīku)

strādāja par jums: Charles Robertson | Vēlies ar mums sazināties?