Posted By: Radecek () on 'CZunix'
Title:     Re: inteligentni sort
Date:      Mon Aug 18 06:21:45 2008

> jako sort | uniq -c, ALE kterej by byl schopnej to udelat na
> obrovskejch datech (rekneme stovky gig) inteligentne, tj. idealne 
> ze by ty temporarni soubory, co si odklada na disk, uz za jizdy 
> uniqoval a pocital si tam prubezny soucty a pak je pri mergovani 
> scital. Proste aby to nebylo tak, jak to je, kdyz pouziju tu pajpu, 
> kdy tam poslu tech 100 giga, sort si nacuni 100+ giga temporarnich 
> souboru na disk, a pak teprv az to slavnostne vsechno sleje zase 
> do 100 giga, tak to posle do toho uniqu. (Vadi mi jak to zabrany 
> misto, tak ze je to kvuli tomu dost pomaly, trva to treba i nekolik
> dni.) Nemate zkusenost s nejakym toolem, co by to umel?
> 
> Dik
>                       johanka

Tak Johanko, takovyto dotaz bych od slavne matematicky necekal. :-) Skoro se 
bojim, ze jsem to pochopil spatne a udelam tu ze sebe blba, jako dost casto 
jinde. Ale i kdyz jsem si tvuj prispevek precetl nekolikrat, chapu ho porad 
stejne, takze se pokusim odpovedet.
Nastroj neznam, unix nepouzivam, dokonce jsem se musel podivat, co ze to uniq 
-c vlastne dela a zjistil jsem, ze je preci kravina tridit obrovsky data 
driv, nez z nich ty redundance odstranim. Podle povahy tve prace 
predpokladam, ze ta data jsou nejake texty, takze je predpoklad, ze tech 
opakovani tam bude mnoho. Takze ja bych na to sel obracene. Nejprve bych 
odstranil duplicity a spocital vyskyty. Pak bych to cislo z pocatku radku 
vykousnul a pripojil naopak na konec radku. Pak bych to setridil. A pak zase 
vykousl cislo z konce radku a dal ho na zacatek radku.
Pro cloveka v unixu delajiciho bych ocekaval, ze vhodny prikaz dokaze napsat 
do minuty, takze je zbytecne, abych se ja trapil a vymyslel presny zapis, jak 
to setridit podle tvych pozadavku.

 
                                                                 Radecek

Search the boards