Posted By: Twider (Twider) on 'CZscripts'
Title:     Re: HTML panic
Date:      Thu Jan 18 15:02:34 2001

> Zdar,
> 
> az doteraz sa mi celkom darilo vyhybat sa praci s HTML, no teraz sa mi to 
> vypomstilo. Potrebujem spravit nieco ako "filter" na HTML zdrojak, cize 
> vytiahnut z neho dolezite veci. 
> Napriklad vytiahnut z HTML cisty text (ten, ktory sa zobrazuje v 
> prehliadaci), pripadne povytahovat vsetky odkazy, alebo cesty k obrazkom. 
> Vraj mam vytahovat nejake tagy typu <META NAME="XXXXX" CONTENT="text">. Naco
> je tento tag ? Vyskytuje sa v HTML kode viackrat ?
> 
> Da sa vlastne nejako jednoducho extrahovat plain text z HTML kodu ? Ake 
> dalsie tagy sa oplati este vytahovat ?

a co takhle lynx -dump zdroj.html > vystup.txt ? 
je to to nejjednodussi co muzes udelat ... (a taky nejlepsi)

 jinak doporucuju vzit referenci a project si to pak poznas ktery tagy maji v 
sobe neco "citelneho". (treba http://www.nastenky.cz/html4.0/) 

 
-= Ne  abyste propadli demonu  alkoholu, jako muj dedecek, ktery nedbal =-
=- varovani, az se nakonec upil k smrti ve 117 letech pri praci v lomu! -=
-=                                    Vylet s Lomcovakem,Simek&Grossman =-
=- Tento post spachal                                                   -=
-=     T  w  i  d  e  r    <twider@volny.cz> http://www.volny.cz/twider =-

Search the boards