TwojePC.pl © 2001 - 2024
|
|
A R C H I W A L N A W I A D O M O Ś Ć |
|
|
|
Potrzebny magiczny edytor lub program do XML , Bergerac 19/06/12 14:47 Leży sobie 3000 artykułów prasowych przerobionych na jeden plik XML. Tekst jest fragmentami poujmowany w różne tagi. Trzeba w sposób automatyczny powyciągać z niego zawartość zadanych tagów, a inne pousuwać. Do tego celu potrzebujemy jakiegoś edytora, który na życzenie usera wyciągnie z pliku XML tekst ujęty w tagi zgodnie z życzeniem usera. Innym zadaniem byłoby działanie odwrotne, czyli usunięcie fragmentów tekstu ujętych w tagi podane przez usera.
Mam nadzieję, że nie namotałem zbytnio ;)
Generalnie do ww. zadań przydałby się jakiś edytor/program/parser/wtyczka do office'a/whatever, najlepiej darmowy.
Byłbym wdzięczny za wskazanie takiego sofciku.Barbossa: You're supposed to be dead!
Jack Sparrow: Am I not? - Excel + VBA , Ramol 19/06/12 15:03
i jużRamol - Choć w sumie , Ramol 19/06/12 15:07
niekoniecznie excel, ale Office + VBARamol - No dobra , Bergerac 19/06/12 15:24
A jeżeli nie umiem programować? Jeżeli userem ma być osoba nietechniczna? Potrzebne jest raczej coś do ''wyklikania'', coś łatwiejszego niż napisanie skryptu.Barbossa: You're supposed to be dead!
Jack Sparrow: Am I not? - no to , RusH 19/06/12 15:25
600zl + vatI fix shit
http://raszpl.blogspot.com/
- linia polecen , RusH 19/06/12 15:25
i regexI fix shit
http://raszpl.blogspot.com/ - Doczytałem , Bergerac 19/06/12 15:33
że chodzi o wyrażenia regularne. Jak się tego używa w tym konkretnym przypadku i jak to ująć w jakiś skrypt? Albo: czy istnieje gotowiec?Barbossa: You're supposed to be dead!
Jack Sparrow: Am I not? - ... , RusH 19/06/12 15:59
https://class.coursera.org/automata/
jeden semestr i ogarnieszI fix shit
http://raszpl.blogspot.com/ - to mu , Deus ex machine 19/06/12 21:27
podałeś. Swoja droga co to jest? Bo wygląda ciekawie.
@Bergerac: 3k artykułów, jaki rozmiar tego XML. Jeśli kilka mega to jeszcze edytorkiem do XML ogarniesz. Jeśli kilkaset mega, to pod winda jest kiepsko i jak RusH radzi regexpy i jakis skrypt pod linucha. Nawet w php spokojnie da się ukulać. I jeśli więcej masz się tym zajmować to propozycja RusH z douczeniem się jest całkiem fajna, bo trochę się pomęczysz a nauczysz się sporo."Uti non Abuti" - Swoja droga co to jest? , RusH 19/06/12 23:18
teoria automatow, 3/4 semestr na informie/elektronice/automatyce/itd
tak troche podstawowa wiedza informatyka ;)I fix shit
http://raszpl.blogspot.com/ - ah suuuu , Deus ex machine 20/06/12 07:51
u mnie jakoś inaczej to nazwali, ale regexpów nie miałem na uczelni .)"Uti non Abuti" - jak nie miales? , RusH 20/06/12 11:58
to co ty miales? praca z wordem101? wdrazanie produktow M$ i ja?
turing, wyrazenia regularne, P v NP. Bez tych podstaw nie da sie praktycznie pisac nic poza aplikacyjkami na ajfona :( Ktora to uczelnia nas tak uszczesliwia?I fix shit
http://raszpl.blogspot.com/ - Turing , Deus ex machine 20/06/12 14:59
był inne ciekawostki też, ale zapomnij o Regexpach .) Tak lat temu chyba z 6 uszczęśliwiał UŚ."Uti non Abuti" - na szybko , RusH 20/06/12 15:43
przeszukalem google code jam, ACM, i faktycznie US nie ksztalci programistow :/I fix shit
http://raszpl.blogspot.com/ - polsl (Politechnika Śląska) też nie, programista przytchodził i wychodził , Tomasz 20/06/12 20:42
właściwie z taką samą wiedzą. Nie-programista przychodził i wychodził jako nie-programista, czyt nawet jako nie-informatyk (ogólniej).
Ogólnie był wyraźny podział na ludzi wciągniętych i ludzi chyba tylko po papier.https://www.siepomaga.pl/milosz-mosko
- na linuxa/unixa , szarp 19/06/12 15:51
można takie cuś zrobić awk'iem
ładnie obudować w skrypt i brykaKS - Wydaje mi sie ze moze jednak odpowiedni edytor , Bierioza 19/06/12 18:37
XML Notepad od MS. Prosty, darmowy, "klikalny" ale bez automatyki. Jest tree view ktory nietechnicznej osobie moze pomoc sie w tym zorientowac i zastosowac rozne kombinacje kopiuj/wklej/zamien/cokolwiek. Jak za prosty, moze Editix, ktory ma duzo wiecej mozliwosci modyfikacji. Moim zdaniem czas poswiecony na stworzenie automatyki moze sie rownac czasowi manualnej obrobki, chyba ze ma to byc rozwiazanie do codziennego, intensywnego uzytkowania. Jesli ostatnie jest prawda, jakiekolwiek rozwiazanie wspomniane wczesniej (wlacznie z "600+VAT", ktore moze sie okazac najbardziej realne przy przedstawionych warunkach i nie jest bardzo pracochlonne ;). Czy kompletnie minalem sie z sensem pytania? - notepad++ lub perl+simplexml , ptoki 19/06/12 21:48
Co prawda podales troche szczegolow ale nie wiadomo czy to ma byc robione masowo czy okazjonalnie, czy przez normalnego czlowieka czy idiote.
Sprawdz notepad++ jak xml jest sensownie ulozony to wygodnie sie szuka i "zwija" miepotrzebne fragmenty. A tak naprawde chyba lepiej to wsiorbac do bazy i sie z niej zabawiac.
XML to jedna z najwiekszych porazek jakie wymyslili inteligentniu ludzie, prawie tak duza jak UTF-y...- Looknij może tutaj , Fox 19/06/12 22:30
Regexp i na przód - sprawdź -> http://www.hongkiat.com/...ession-tools-resources/Powered by Linux and siemens s7
PLCs...
- xml jest spoko , RusH 19/06/12 23:21
json jeszcze bardziej czytelny, a przy tym idealnie sie to siorbie automagicznieI fix shit
http://raszpl.blogspot.com/ - a co w tym xml takiego złego? , mehow 20/06/12 10:33
wrzucanie tego do bazy żeby stamtąd znów wyciągać to bardzo zabawowe rozwiązanie.Na cudze błędy patrzymy jak na
cudze kobiety. Mamy z nich dużo
więcej radości niż z własnych. - Ano to złe że w 95% przypadkow mozna spokojnie sprawe obrobic , ptoki 20/06/12 11:45
za pomoca csv czy tsv a korzystanie z xml czesto prowadzi do absurdów gdzie proste przeslanie prostego komunikatu konczy sie uzyyciem XML-a tylko po to zeby bylo koszernie. Po drodze i tak okazuje sie ze gdzies tam kodowanie jest niepoprawnie zrobione, ktos sobie pola dodal a ten co odbiera nie parsuje tak aby obsluzyc wielokrotne wystapienia itp.
Inny problem to pierdylion implementacji parsowania xml, skutkujacy np tym ze parser sie wywala jak w tresci poza UTF-em pojawi sie tez np. iso-8859-2, jak xml jest troche wiekszy (np. 50MB) to tez roznie moze byc.
Przyklad idiotyzmu jest w konfiguracjach aplikacji javoskich.
Takiego pierdyliona parametrow ktorych nikt nie uzywa nie widzialem nigdzie indziej. Wszystko w XML. Tyle ze te XML-e to nie obrabiaja maszyny tylko admini/programisci. Po co tam xml?
Innymi slowy, XML to mądra rzecz ale implementacje i trzymanie sie standardow jest tak slabe ze warto unikac. Podobnie UTF. Niby nieglupie ale i edytory i ludzie nie sa w stanie sobie z tym sensownie poradzic.
A wystarczylo sprowadzic format pliku tekstowego o rozszerzeniu utf i stwierdzic ze tam beda tylko znaki kodowane scisle zgodnie z UTF-em, najlepiej dwubajtowo (olac mozna te 50% straty pojemnosci). Programista kazdy pierwszy lepszy wiedzial by ze takie pliki sie traktuje 16 bitowo i cześć.
A tak ani prostoty ani sensownych bibliotek. - A co do bazy w tym przypadku to ja nie widze sensu zeby czlowiek , ptoki 20/06/12 11:48
musial grzebac w XML.
Jesli tem xml to wynik jakiegos procesu i musi byc grzebnięty i popchniety dlaej jako xml to nalezy napisac do tego skrypt.
A jak akcja jest okresowa i nieprosta to lepiej wlasnie wsysac xml do bazy, niech czlowiek edytuje do woli a po skonczonej edycji kilku wpisów niech inicjuje zaladunek tych danych dalej ubranych w nowy xml.
Ale jak sie ktos uprze to nie widze przeskod zeby sobie notepadem dac rade, byle pamietac o nie psuciu struktury i pilnowaniu kodowania znaków...
- widze to tak , Tomasz 20/06/12 00:18
1.bierzesz programiste który robi ci klasę PHP - szkielet,
2.implementuje parę założonych funkcji o których piszesz
3.robi do tego formatkę na www do upload/download plików i obsługę ogólną
4.wrzuca to na twój serwer www/cms/cokolwiek gdzie możesz/możecie tego używać
5.jak będziesz miał nowe potrzeby -> GOTO 2 (tak wiem: http://xkcd.com/292/ )
Cene już znasz.https://www.siepomaga.pl/milosz-mosko - Generalnie , Bergerac 21/06/12 10:53
Dzięki za odzew. Proponujecie żeby zajrzeć tu, douczyć się tam, ale (tak jak wspomniałem pod Ramolem) to mam nie być ja tylko niedouczalna pani Ziuta z pilnikiem do pazurów. Powiem jej o skrypcie, a ona dostanie stupora i tak jej zostanie do emerytury :D
Ponowię więc pytanie: czy są jakieś programy łatwe w obsłudze, gotowce, wtyczki?Barbossa: You're supposed to be dead!
Jack Sparrow: Am I not? - ponownie , RusH 21/06/12 15:02
tak sa, 600zl + vat
napisane przez kogos kto "zajrzal tu, douczyl się tam" :)I fix shit
http://raszpl.blogspot.com/ - Jak pani ziuta to tylko automatyczny skrypt z dwoma guzikami , ptoki 21/06/12 15:35
znam ją ona wiecej poprawnie nie obsluzy.
Albo napiszesz im te stronke w PHP albo trza zatrudnic kogos kto to zrobi.
Nie ma gotowych notepadow do xml-a ukrywajacych technikalnia przed niedouczonymi ziutami.
- Obejrzałem ten plik z artykułami , Bergerac 22/06/12 11:26
Z tego co widziałem to nie ma tam aż 3 tys. artykułów lecz 300 (subtelna różnica), a cały plik waży mniej niż mega. Uzyskałem też dokładniejsze info na temat usuwanej treści, a także przyjrzałem się strukturze pliku.
Otóż każdy z tych 300 artykułów składa się z nagłówka i dwu części otagowanych jako <wersja html> oraz <czysty tekst>. Cały kod, jak można się spodziewać, jest dzielony na linijki zakończone enterem. Ma to znaczenie w przypadku wyszukiwania całych bloków przy użyciu wyrażeń regularnych - tak mi się przynajmniej wydaje. Na szczęście widać światełko w tunelu, a mianowicie początki linijek <wersja html> i <czysty tekst> różnią się od siebie początkiem, linijki html mają zestaw znaków inicjujących linijkę: ''<p''.
Czy w związku z tym pomyślałem, że może wystarczy po prostu usunąć linijki z tagiem <wersja html> oraz wszystkie rozpoczynające się ciągiem ''<p''. Pytanie: jak wygląda linijka z poleceniem usunięcia czegoś takiego? Próbuję wpisywać w edytor regex różne znaki znalezione w googlach, ale się na tym nie znam i nie wychodzi. Jakaś podpowiedź?Barbossa: You're supposed to be dead!
Jack Sparrow: Am I not? |
|
|
|
|
All rights reserved ® Copyright and Design 2001-2024, TwojePC.PL |
|
|
|
|