|
|
|
|
Wir können die eigenen einfacher integrieren!
|
|
|
|
|
|
|
Dann ist die Sache klar!
|
|
|
|
|
|
|
| Zitat von monischnucki
| Zitat von Lightspeed
Wie wäre es, wenn wir die Forensoftware neu schreiben?
| |
Nehmen wir die von Heise, Reddit oder Disqus?
| |
GRINDR natürlich.
zielgruppengerecht
|
|
|
|
|
|
|
| Zitat von Bregor
Ach das gabs nie?
War das pot schon immer "Nicht sicher"?
| |
Ja, afaik weil nen SSL Zertifikat zu teuer und aufwendig ist.
|
|
|
|
|
|
|
| Zitat von audax
| Zitat von Bregor
Ach das gabs nie?
War das pot schon immer "Nicht sicher"?
| |
Ja, afaik weil nen SSL Zertifikat zu teuer und aufwendig ist.
| |
seit Let's Encrypt sind diese Argumente nichtig
|
|
|
|
|
|
|
|
|
|
|
| Zitat von csde_rats
Zumindest die Statistik (potstats2) scheint ja DSGVO/BDSG-kompatibel zu sein, aber Suche ist natürlich ne andere Frage
| |
Warum darf Google das dann?
|
|
|
|
|
|
|
Bei Google könntest du z.B. nicht explizit nach Posts von User Sahnehawk die nach 23:00 erstellt wurden, suchen. Die pOTStats Suchmaschine hat ja Zugriff auf die komplett strukturierten Daten und solche Anfragen wären möglich. Aus gutem Grund (also Vorsicht ) hat man auf der momentanen Anwendung auch keine Möglichkeit, explizit nach Usern zu filtern.
|
|
|
|
|
|
|
v0.1
https://potstats2.enkore.de/search/
Mit Benutzername bin ich mir unschlüssig. Ganz viele Felder indizieren ist eher nicht drin, Elasticsearch ist so schon arg langsam bei der Indizierung (ehrlich gesagt ein bisschen negativ überrascht, wie viele Ressourcen das auffrisst und wie lange das dauert [1]).
Der Inhalt von Quotes wird jeweils nicht als Teil eines Posts indiziert. Das einleitende Quote-Tag ist allerdings drin und taucht öfter mal in Snippets auf, keine Ahnung ob ich Lust hab das zu fixen
[1] Größenordnung und Kontext:
Es gibt ein Skript (potstats2-analytics), was einmal über alle Posts rüberrutscht und die Basisdaten der Statistiken extrahiert (wer wen zitiert hat etc.). Das ist in Python geschrieben inkl. einem nicht optimierten BB-Code Parser. Das macht so 25000 Posts/s auf dem Server.
Ich hab das Skript jetzt darum ergänzt, dass es die Daten dabei in nen Elastic-Search stopft. Das hat einerseits CPU-Overhead im Skript selbst (aber nicht so krass viel), aber viel signifkanter ist, dass Elasticsearch dabei konstant 1-2 CPU Kerne verbraucht und öfter mal für >10 Sekunden komplett blockiert (was nicht so krass dramatisch ist, das Skript hat ne relativ große Queue zwischen Elasticsearch und der Verarbeitung der Posts).
Durchsatz mit Elasticsearch: 6500 Posts/s (-75 %)
Sehr angetan bin ich allerdings von der Lookup-Performance. Wirkt sehr Googly.
|
[Dieser Beitrag wurde 3 mal editiert; zum letzten Mal von csde_rats am 03.12.2018 18:21]
|
|
|
|
|
|
|
|
|
|
| Zitat von csde_rats
v0.1
https://potstats2.enkore.de/search/
Mit Benutzername bin ich mir unschlüssig. Ganz viele Felder indizieren ist eher nicht drin, Elasticsearch ist so schon arg langsam bei der Indizierung (ehrlich gesagt ein bisschen negativ überrascht, wie viele Ressourcen das auffrisst und wie lange das dauert [1]).
Der Inhalt von Quotes wird jeweils nicht als Teil eines Posts indiziert. Das einleitende Quote-Tag ist allerdings drin und taucht öfter mal in Snippets auf, keine Ahnung ob ich Lust hab das zu fixen
[1] Größenordnung und Kontext:
Es gibt ein Skript (potstats2-analytics), was einmal über alle Posts rüberrutscht und die Basisdaten der Statistiken extrahiert (wer wen zitiert hat etc.). Das ist in Python geschrieben inkl. einem nicht optimierten BB-Code Parser. Das macht so 25000 Posts/s auf dem Server.
Ich hab das Skript jetzt darum ergänzt, dass es die Daten dabei in nen Elastic-Search stopft. Das hat einerseits CPU-Overhead im Skript selbst (aber nicht so krass viel), aber viel signifkanter ist, dass Elasticsearch dabei konstant 1-2 CPU Kerne verbraucht und öfter mal für >10 Sekunden komplett blockiert (was nicht so krass dramatisch ist, das Skript hat ne relativ große Queue zwischen Elasticsearch und der Verarbeitung der Posts).
Durchsatz mit Elasticsearch: 6500 Posts/s (-75 %)
Sehr angetan bin ich allerdings von der Lookup-Performance. Wirkt sehr Googly.
| |
Nutz du schon die bulk-api?
|
|
|
|
|
|
|
hehe
|
|
|
|
|
|
|
Ja
e: Ich hab index.refresh_interval hochgesetzt, das hat auch schon ein bisschen was gebracht.
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von csde_rats am 03.12.2018 18:28]
|
|
|
|
|
|
Etzala kann man nach Threads suchen und den Kram sortieren
|
|
|
|
|
|
|
Wirklich klasse!
edit: Wäre cool, wenn man noch nach Strings mit Leerzeichen suchen könnte.
edit2: Was bedeutet denn "Relevanz"?
|
[Dieser Beitrag wurde 2 mal editiert; zum letzten Mal von mYstral am 03.12.2018 21:24]
|
|
|
|
|
|
Mit "Relevanz" drückt die Suchmaschine aus, wie gut der fragliche Post/Thread zu deiner Suchanfrage passt. Hohe Relevanz = hoffentlich passt es zur Suchanfrage. Niedrige Relevanz = passt vielleicht nicht so gut zur Suchanfrage.
|
|
|
|
|
|
|
|
|
|
|
| Zitat von csde_rats
Mit "Relevanz" drückt die Suchmaschine aus, wie gut der fragliche Post/Thread zu deiner Suchanfrage passt. Hohe Relevanz = hoffentlich passt es zur Suchanfrage. Niedrige Relevanz = passt vielleicht nicht so gut zur Suchanfrage.
| |
Was das Wort bedeutet, ist mir schon klar. Nur wie ist das operationalisiert? Anscheinend zählt das Postdatum nicht mit rein, das wäre aber vielleicht ganz nützlich.
|
|
|
|
|
|
|
| Zitat von csde_rats
...
Ganz viele Felder indizieren ist eher nicht drin, Elasticsearch ist so schon arg langsam bei der Indizierung (ehrlich gesagt ein bisschen negativ überrascht, wie viele Ressourcen das auffrisst und wie lange das dauert [1]).
...
| |
Bei der Bulk API musste aufpassen, daß Du auch genug docs/genug daten per index request rüberschiebst. Sonst macht er zu viele Requests und hängt.
In meinem Bastel/Spielprojekt (Java) hab ich diese Werte:
|
elastic.bulkaction.count=10000
# 4 MB = 1024*1024*4
elastic.bulkaction.size.in.bytes=4194304
| |
Damit indiziert das ca. 600k Dokumente (mit ca. 10 Feldern) in ungefähr 30s auf meinem Laptop.
Rumprobieren.
/e Irgendwie funz die Suche bei mir grad nicht
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Op3r4tor am 04.12.2018 13:04]
|
|
|
|
|
|
Definiere funzen? Wenn die Seite erreichbar ist, sollte sie (zumindeset jetzt gerade) funktionieren
Guter Tipp mit den Bulk-Parametern.
Defaults waren: 500 Requests pro Bulk Request und max. 100 MB (scheinen Defaults für große Dokumente zu sein).
Mit 10000 Requests pro Bulk Request und nach wie vor max. 100 MB pro Bulk Request ist die Performance schon deutlich besser geworden. (100 MB / 10k = 10 kB, die meisten Posts sind viel viel kleiner).
e: Jetzt wird sie erstmal nicht mehr funzen
Wir haben jetzt:
+ Mehr Ergebnisse wenn man weiter rumscrollt (Kategorie der Idee: Ist das eine gute Idee?)
+ Datum, wobei die Zeit manchmal um zwei Stunden falsch ist (da hat wohl "jemand" nicht aufgepasst mit seinen Zeitzonen)
+ kein bbcode mehr in den snippets (aber der Inhalt von img Tags etc bleibt, nur url=XYZ wäre nicht drin)
Meine Liste
- "foo bar" für exakte Matches
- Nächtliche Updates (aktuell sind die Daten schon wieder ~zwei Wochen alt)
e^n: Mit Shards rumzuspielen bringt auch einiges. Da jeder Shard eigene Indizies mitbringt, erhöht die Anzahl der Sharts natürlich auch den Speicherbedarf. Von 5 (Default) auf 1 runtergegangen => mehrere GB kleinerer Index, schnellere Abfragen, kein relevanter Unterschied beim Indizieren. Später teste ich nochmal mit 2 Shards gegen.
Kurioserweise ist es anscheinend deutlich langsamer nach _id (builtin feld) zu sortieren anstatt seine eigenen ID-Felder zu erstellen. Sehr merkwürdig. Hat aber evtl. damit zu tun, dass _id grundsätzlich nach String coerced wird, während die eigenen Felder Integers sind/bleiben.
e^n+1: Mal ein paar Zahlen:
Der Elasticsearch-Index verbraucht jetzt nur noch ~3.8 GB Speicherplatz (mit 5 Shards waren das iirc knapp 7 GB).
Die postgres-DB ist 13 GB groß.
Elasticsearch verbraucht im Idle ca. 1.6 GB (PSS), postgres gönniert sich rund 2 GB, der API-Anwendungsserver so 50 MB oder so.
Der Server ist nen Sandy-Bridge 3 GHz i3 (2 Kerne / 4 Threads) mit 16 GB RAM.
| Zitat von mYstral
| Zitat von csde_rats
Mit "Relevanz" drückt die Suchmaschine aus, wie gut der fragliche Post/Thread zu deiner Suchanfrage passt. Hohe Relevanz = hoffentlich passt es zur Suchanfrage. Niedrige Relevanz = passt vielleicht nicht so gut zur Suchanfrage.
| |
Was das Wort bedeutet, ist mir schon klar. Nur wie ist das operationalisiert? Anscheinend zählt das Postdatum nicht mit rein, das wäre aber vielleicht ganz nützlich.
| |
Elasticsearch ist standardmäßig tf-idf, aber man könnte es sicherlich so modifizieren, dass neuere Posts einen leichten Score-Boost erhalten. Also z.B. ältester Post = 0% Boost, neuester Post = 20% Boost.
|
[Dieser Beitrag wurde 9 mal editiert; zum letzten Mal von csde_rats am 04.12.2018 20:29]
|
|
|
|
|
|
Die Datenbank ist komplett? Wie wäre es mit einer Anzeige aller Posts des eigenen Users. Also nur meine Posts, keine anderen.
Das WBB konnte das Anfang der 2000er und das fand ich eigentlich ganz praktisch.
|
|
|
|
|
|
|
| Zitat von monischnucki
Die Datenbank ist komplett? Wie wäre es mit einer Anzeige aller Posts des eigenen Users. Also nur meine Posts, keine anderen.
Das WBB konnte das Anfang der 2000er und das fand ich eigentlich ganz praktisch.
| |
Subtil
|
|
|
|
|
|
|
Nein, eigentlich garnicht. Woran denkst du?
/
Also wirklich ohne Hintergedanken. Nur zur Ansicht meiner eigenen Posts. Dass man das irgendwie ans Login koppeln müsste, ist mir auch klar, sonst kann man ja jeden User auslesen.
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von monischnucki am 04.12.2018 15:16]
|
|
|
|
|
|
Nur wie könnte man es sinnvoll koppeln?
|
|
|
|
|
|
|
So ähnlich wie das Login über Steam bei fremden Anbietern?
|
|
|
|
|
|
|
Dafür bräuchten wir so oder so erstmal nen Zugang zur Forensoftware/server.
Über Cookie lässt sich das nämlich meines Wissens nicht so leicht lösen.
Wie willst du validieren, dass du tatsächlich der User bist und nicht nur vorgibst, jemand anderes zu sein.
|
|
|
|
|
|
|
Vertrauen?
|
|
|
|
|
|
|
Eigener Zugang über Gesichtskontrolle!
|
|
|
|
|
|
|
|
|
|
|
Bot im p0t, dem man PMs schicken kann, um die Identität zu bestätigen?
|
|
|
|
|
|
Thema: pOTStats 2.0 ( Ein pOTsches Informationsportal ) |