|
|
|
|
tjahahaah
Modsde Perl Module zum zerlegen des Boards. Da findet sich so mancher reg ex. Vielleicht interessierts dich ja
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von GH@NDI am 24.10.2006 14:20]
|
|
|
|
|
|
Ich würd ja Ruby anbieten, ist wie Python nur schicker, aber man würde mich eh wieder ignorieren.
|
|
|
|
|
|
|
| Zitat von GH@NDI
Modsde Perl Module zum zerlegen des Boards. Da findet sich so mancher reg ex. Vielleicht interessierts dich ja | | Hm...das was du da hast hab ich größtenteils auch. Ich war jetzt dabei die einzelne Post zu zerlegen.
Folgendes:
|
PHP: |
<a
href='http://forum.counter-strike.de/bb/thread.php?TID=146862&SID=324ed2e99ef15aa7eab2454e6f1af44d&page=1&override='
target='_blank'>[URL]http://forum.counter-strike.de/bb/thread.php?TID=146862&SID=324ed2e99ef15aa7eab2454e6f1af44d&page=1&override=[/URL]</a>
|
|
Die newlines sind da drin (warum auch immer) und genau die machen wmir das Leben schwer.
Info: re.sub(pattern, replace, string, flags)
Das hier:
|
PHP: |
links = re.sub("""<a[^>]*""", "foobar", post_text, re.MULTILINE)
|
|
Schmeißt das hier raus:
|
PHP: |
foobar>[URL]http://forum.counter-strike.de/bb/thread.php?TID=146862&SID=324ed2e99ef15aa7eab2454e6f1af44d&page=1&override[/URL]
=</a>
|
|
Und ich verstehe nicht warum
Die Python Doku sagt: "(Caret.) Matches the start of the string, and in MULTILINE mode also matches immediately after each newline." aber das erklärt das verhalten doch nicht. Wieso matcht das ding alles bis zum nächsten >.
Bin ich zu blöd oder is Python schuld?
|
|
|
|
|
|
|
Warum schmeißt du nicht einfach alle Newlines vorher raus. Keine Newlines, kein Problem.
|
|
|
|
|
|
|
Ach ne, die wollte ich behalten.
Ich war jetzt ganz clever ( ) und hab einfach ein "<a\s+href..." genommen...dann können da so viele Whitespaces, Tabs und Newlines stehen wie sie wollen.
Irgendwie mag ich Regex nicht
|
|
|
|
|
|
|
Baust du das XML-Backend übers Frontend?
|
|
|
|
|
|
|
Erwischt
Wenn sich die Administration gegen meine - geniale - Idee sträuben sollte...ich bekomm es trotzdem
Und sie mehr Serverlast
|
|
|
|
|
|
|
| Zitat von [mathu]
Erwischt
Wenn sich die Administration gegen meine - geniale - Idee sträuben sollte...ich bekomm es trotzdem
Und sie mehr Serverlast | |
Wenn du es nicht übertreibst verbrauchts nicht mehr als ein normaler User sowieso...
|
|
|
|
|
|
|
Naja, er hatte doch mal ausgerechnet wieviel Traffic der Erstimport machen würde, mehrere Terrabyte warens wohl.
|
|
|
|
|
|
|
| Zitat von SirSiggi
Naja, er hatte doch mal ausgerechnet wieviel Traffic der Erstimport machen würde, mehrere Terrabyte warens wohl. | |
Vielleicht könnte man es aufteilen. Erst das eine Forum, dann das andere. Oder er fängt jetzt erst an und nimmt nur alles was neuer ist als heute. Dann hält es sich wohl in Grenzen würd ich sagen.
Aber braten kann man dann schon auf dem Server/den Leitungen
|
|
|
|
|
|
|
Ich fordere freien Datenbankzugriff für freie pOTler.
|
|
|
|
|
|
|
| Zitat von SirSiggi
Ich fordere freien Datenbankzugriff für freie pOTler. | | Schreibzugriff! Aber sofort!
|
|
|
|
|
|
|
Reicht doch wenn ein paar Daten zu den Threads in ne "externe" DB geschrieben werden
|
|
|
|
|
|
|
| Zitat von Ashtray
| Zitat von [mathu]
Erwischt
Wenn sich die Administration gegen meine - geniale - Idee sträuben sollte...ich bekomm es trotzdem
Und sie mehr Serverlast | | Wenn du es nicht übertreibst verbrauchts nicht mehr als ein normaler User sowieso... | | Naja, wenn dann würde ich das ganze ja nicht als einzelnen Thread laufen lassen, der schön hintereinander durchgeht sondern Multithreaded Applikation.
Was mir wirklich Kopfzerbrechen bereitet, sind die einzelen Posts
Nun gäbe es entweder die möglichkeit, direkt aus dem Quelltext jeder Seite die Posts rauszuziehen, dass ist aber böse aufwendig weil das Forum dutzende Tabellen schachtelt und auch nicht wirklich sauber arbeitet...mit irgendeiner HTML/XML-Libarie kommt man da nicht weiter. Da blieben nur Regex über und da wiederrum schreck ich irgendwie vor zurück ...schon weil es relativ fehleranfällig ist
Die andere möglichkeit wäre für jeden Post einem newreply.php aufzurufen. Das allerdings geht nur bei offenen Threads und außerdem sind das immer gleich ~50kb Daten von denen gerade mal eins interessant ist.
Beides blöd
/: Ich hab auch schonmal Testweise nur TID, Threadtitel, Ersteller und Datum/Uhrzeit. 50 Gleichzeitig Workerthreads haben für ~15000 Threads ne knappe halbe Stunde gebraucht und dabei meine 2Mbit voll ausgenutzt und war eindeutig das Nadelöhr CPU Last bei mir hielt sich in Grenzen, lag so bei 10%
Die Logfiles in der Zeit zeigen vermutlich einen hektischen Zugriff von einer ganz bestimmten IP
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von [mathu] am 24.10.2006 16:34]
|
|
|
|
|
|
Und wofür braucht man sowas?
|
|
|
|
|
|
|
| Zitat von [Dicope]
Und wofür braucht man sowas? | |
Soweit war ich noch nicht. Mir ist einfach langweilig
/: Und selbstverständlich weil es geht.
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von [mathu] am 24.10.2006 16:36]
|
|
|
|
|
|
Mein Forenparser grast seit dem 02.09.2003 alle Threads in BaWü ab und packt die Daten in ne Datenbank.
Darin kann ich dann suchen, erstelle Forenstatistiken und berechne die tägliche Annäherung an die NRWler.
|
|
|
|
|
|
|
Cool.
Die Quersumme von 56432798489189456732189432457 ist übrigens 47.
Toll was ich für wichtige Statistiken erzeugen kann, näch?
|
|
|
|
|
|
|
Ich find Dicope riecht komisch
|
|
|
|
|
|
|
Stimmt übrigens nicht, ist 153.
|
|
|
|
|
|
|
| Zitat von SirSiggi
Stimmt übrigens nicht, ist 153. | | Woher wusste ich, dass das irgend ein Irrer nachrechnet?
|
|
|
|
|
|
|
Also Server4you ist ja wohl ein Saftladen. Da haben die 3 Wochen für einen RootDS gebraucht und dann ist er nicht mal so, wie angekündigt, nämlich ab dem 3. Quartal mit VPN Support. Wer bringt den Leuten eigentlich bei, dass Sie mich einfach belügen dürfen?
|
|
|
|
|
|
|
|
|
|
|
| Zitat von [Dicope]
| Zitat von SirSiggi
Stimmt übrigens nicht, ist 153. | | Woher wusste ich, dass das irgend ein Irrer nachrechnet? | |
perl -e "$s+=$_ foreach(split //,'56432798489189456732189432457'); print $s"
|
|
|
|
|
|
|
| Zitat von [DK]Peacemaker
Also Server4you ist ja wohl ein Saftladen. Da haben die 3 Wochen für einen RootDS gebraucht und dann ist er nicht mal so, wie angekündigt, nämlich ab dem 3. Quartal mit VPN Support. Wer bringt den Leuten eigentlich bei, dass Sie mich einfach belügen dürfen? | |
Willkommen in der Welt des Marketings.
/e:
ruby -e "s = 0; 56432798489189456732189432457.to_s.split(//).each { | i | s += i.to_i; }; puts s"
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von SirSiggi am 24.10.2006 19:19]
|
|
|
|
|
|
Scheiss auf Marketing, das ist Betrug!
|
|
|
|
|
|
|
Marketing eben.
Kannst ja klagen...
|
|
|
|
|
|
|
Die sollen mir einfach mein Ticket beantworten. Ich hab wirklich keine Lust wegen dem Scheiss auf nen Dedicated umzusteigen, da nur eine minimale Last auf dem VPN wäre.
Wenns jetzt irgendwo einen Linux VServer mit Minimalkonfiguration und VPN gäbe, fänd ich das schon toll.
|
|
|
|
|
|
|
| Zitat von [DK]Peacemaker
Baust du das XML-Backend übers Frontend? | |
passiert hier was? Ein umbau? Ein übersichtliches Forum?
|
|
|
|
|
|
|
Nicht so richtig, es sei denn ihr reicht ne Petition ein, dass man das Forum auch als XML bekommt
|
|
|
|
|
|
Thema: Gehirnsalat ( wir unter uns ) |