Posted By: Radecek () on 'CZunix' Title: Re: inteligentni sort Date: Mon Aug 18 06:21:45 2008 > jako sort | uniq -c, ALE kterej by byl schopnej to udelat na > obrovskejch datech (rekneme stovky gig) inteligentne, tj. idealne > ze by ty temporarni soubory, co si odklada na disk, uz za jizdy > uniqoval a pocital si tam prubezny soucty a pak je pri mergovani > scital. Proste aby to nebylo tak, jak to je, kdyz pouziju tu pajpu, > kdy tam poslu tech 100 giga, sort si nacuni 100+ giga temporarnich > souboru na disk, a pak teprv az to slavnostne vsechno sleje zase > do 100 giga, tak to posle do toho uniqu. (Vadi mi jak to zabrany > misto, tak ze je to kvuli tomu dost pomaly, trva to treba i nekolik > dni.) Nemate zkusenost s nejakym toolem, co by to umel? > > Dik > johanka Tak Johanko, takovyto dotaz bych od slavne matematicky necekal. :-) Skoro se bojim, ze jsem to pochopil spatne a udelam tu ze sebe blba, jako dost casto jinde. Ale i kdyz jsem si tvuj prispevek precetl nekolikrat, chapu ho porad stejne, takze se pokusim odpovedet. Nastroj neznam, unix nepouzivam, dokonce jsem se musel podivat, co ze to uniq -c vlastne dela a zjistil jsem, ze je preci kravina tridit obrovsky data driv, nez z nich ty redundance odstranim. Podle povahy tve prace predpokladam, ze ta data jsou nejake texty, takze je predpoklad, ze tech opakovani tam bude mnoho. Takze ja bych na to sel obracene. Nejprve bych odstranil duplicity a spocital vyskyty. Pak bych to cislo z pocatku radku vykousnul a pripojil naopak na konec radku. Pak bych to setridil. A pak zase vykousl cislo z konce radku a dal ho na zacatek radku. Pro cloveka v unixu delajiciho bych ocekaval, ze vhodny prikaz dokaze napsat do minuty, takze je zbytecne, abych se ja trapil a vymyslel presny zapis, jak to setridit podle tvych pozadavku. Radecek