Du bist nicht eingeloggt! Möglicherweise kannst du deswegen nicht alles sehen.
  (Noch kein mods.de-Account? / Passwort vergessen?)
Zur Übersichtsseite
Hallo anonymer User.
Bitte logge dich ein
oder registriere dich!
 Moderiert von: Irdorath, statixx, Teh Wizard of Aiz


 Thema: pOTStats 2.0 ( Ein pOTsches Informationsportal )
« erste « vorherige 1 ... 5 6 7 8 [9] 10 11 12 13 ... 32 nächste » letzte »
erste ungelesene Seite | letzter Beitrag 
monischnucki

AUP monischnucki 06.06.2018
Wir können die eigenen einfacher integrieren!
03.12.2018 13:04:25  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
statixx

AUP statixx 14.11.2023
...
Dann ist die Sache klar!
03.12.2018 13:05:10  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Aspe

Aspe_Kasper
 
Zitat von monischnucki

 
Zitat von Lightspeed

Wie wäre es, wenn wir die Forensoftware neu schreiben?



Nehmen wir die von Heise, Reddit oder Disqus?



GRINDR natürlich.
zielgruppengerecht
03.12.2018 13:28:11  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
audax

AUP audax 03.12.2007
 
Zitat von Bregor

Ach das gabs nie? Breites Grinsen

War das pot schon immer "Nicht sicher"? traurig


Ja, afaik weil nen SSL Zertifikat zu teuer und aufwendig ist.

03.12.2018 13:41:56  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Dagrachon

AUP Dagrachon 12.09.2013
 
Zitat von audax

 
Zitat von Bregor

Ach das gabs nie? Breites Grinsen

War das pot schon immer "Nicht sicher"? traurig


Ja, afaik weil nen SSL Zertifikat zu teuer und aufwendig ist.





Mata halt...

seit Let's Encrypt sind diese Argumente nichtig
03.12.2018 13:45:29  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
monischnucki

AUP monischnucki 06.06.2018
*loriot*
03.12.2018 13:56:52  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
mYstral

Arctic
Frage
 
Zitat von csde_rats

Zumindest die Statistik (potstats2) scheint ja DSGVO/BDSG-kompatibel zu sein, aber Suche ist natürlich ne andere Frage


Warum darf Google das dann?
03.12.2018 14:05:15  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
audax

AUP audax 03.12.2007
Bei Google könntest du z.B. nicht explizit nach Posts von User Sahnehawk die nach 23:00 erstellt wurden, suchen. Die pOTStats Suchmaschine hat ja Zugriff auf die komplett strukturierten Daten und solche Anfragen wären möglich. Aus gutem Grund (also Vorsicht Augenzwinkern ) hat man auf der momentanen Anwendung auch keine Möglichkeit, explizit nach Usern zu filtern.
03.12.2018 17:20:44  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
csde_rats

AUP csde_rats 04.09.2021
v0.1

https://potstats2.enkore.de/search/

Mit Benutzername bin ich mir unschlüssig. Ganz viele Felder indizieren ist eher nicht drin, Elasticsearch ist so schon arg langsam bei der Indizierung (ehrlich gesagt ein bisschen negativ überrascht, wie viele Ressourcen das auffrisst und wie lange das dauert [1]).


Der Inhalt von Quotes wird jeweils nicht als Teil eines Posts indiziert. Das einleitende Quote-Tag ist allerdings drin und taucht öfter mal in Snippets auf, keine Ahnung ob ich Lust hab das zu fixen Breites Grinsen


[1] Größenordnung und Kontext:
Es gibt ein Skript (potstats2-analytics), was einmal über alle Posts rüberrutscht und die Basisdaten der Statistiken extrahiert (wer wen zitiert hat etc.). Das ist in Python geschrieben inkl. einem nicht optimierten BB-Code Parser. Das macht so 25000 Posts/s auf dem Server.
Ich hab das Skript jetzt darum ergänzt, dass es die Daten dabei in nen Elastic-Search stopft. Das hat einerseits CPU-Overhead im Skript selbst (aber nicht so krass viel), aber viel signifkanter ist, dass Elasticsearch dabei konstant 1-2 CPU Kerne verbraucht und öfter mal für >10 Sekunden komplett blockiert (was nicht so krass dramatisch ist, das Skript hat ne relativ große Queue zwischen Elasticsearch und der Verarbeitung der Posts).
Durchsatz mit Elasticsearch: 6500 Posts/s (-75 %)

Sehr angetan bin ich allerdings von der Lookup-Performance. Wirkt sehr Googly.
[Dieser Beitrag wurde 3 mal editiert; zum letzten Mal von csde_rats am 03.12.2018 18:21]
03.12.2018 18:09:07  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
SwissBushIndian

AUP SwissBushIndian 07.11.2011
03.12.2018 18:14:32  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Renga

renga
 
Zitat von csde_rats

v0.1

https://potstats2.enkore.de/search/

Mit Benutzername bin ich mir unschlüssig. Ganz viele Felder indizieren ist eher nicht drin, Elasticsearch ist so schon arg langsam bei der Indizierung (ehrlich gesagt ein bisschen negativ überrascht, wie viele Ressourcen das auffrisst und wie lange das dauert [1]).


Der Inhalt von Quotes wird jeweils nicht als Teil eines Posts indiziert. Das einleitende Quote-Tag ist allerdings drin und taucht öfter mal in Snippets auf, keine Ahnung ob ich Lust hab das zu fixen Breites Grinsen


[1] Größenordnung und Kontext:
Es gibt ein Skript (potstats2-analytics), was einmal über alle Posts rüberrutscht und die Basisdaten der Statistiken extrahiert (wer wen zitiert hat etc.). Das ist in Python geschrieben inkl. einem nicht optimierten BB-Code Parser. Das macht so 25000 Posts/s auf dem Server.
Ich hab das Skript jetzt darum ergänzt, dass es die Daten dabei in nen Elastic-Search stopft. Das hat einerseits CPU-Overhead im Skript selbst (aber nicht so krass viel), aber viel signifkanter ist, dass Elasticsearch dabei konstant 1-2 CPU Kerne verbraucht und öfter mal für >10 Sekunden komplett blockiert (was nicht so krass dramatisch ist, das Skript hat ne relativ große Queue zwischen Elasticsearch und der Verarbeitung der Posts).
Durchsatz mit Elasticsearch: 6500 Posts/s (-75 %)

Sehr angetan bin ich allerdings von der Lookup-Performance. Wirkt sehr Googly.



Nutz du schon die bulk-api?
03.12.2018 18:27:20  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
blue

Bluay
...
 
Zitat von SwissBushIndian

https://i.imgur.com/9Cb6urZ.png



hehe

03.12.2018 18:27:25  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
csde_rats

AUP csde_rats 04.09.2021
Ja

e: Ich hab index.refresh_interval hochgesetzt, das hat auch schon ein bisschen was gebracht.
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von csde_rats am 03.12.2018 18:28]
03.12.2018 18:28:05  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
csde_rats

AUP csde_rats 04.09.2021
Etzala kann man nach Threads suchen und den Kram sortieren
03.12.2018 20:54:02  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
mYstral

Arctic
...
 
Zitat von csde_rats

v0.1

https://potstats2.enkore.de/search/



Wirklich klasse!

edit: Wäre cool, wenn man noch nach Strings mit Leerzeichen suchen könnte.
edit2: Was bedeutet denn "Relevanz"?
[Dieser Beitrag wurde 2 mal editiert; zum letzten Mal von mYstral am 03.12.2018 21:24]
03.12.2018 21:21:05  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
csde_rats

AUP csde_rats 04.09.2021
Mit "Relevanz" drückt die Suchmaschine aus, wie gut der fragliche Post/Thread zu deiner Suchanfrage passt. Hohe Relevanz = hoffentlich passt es zur Suchanfrage. Niedrige Relevanz = passt vielleicht nicht so gut zur Suchanfrage.
03.12.2018 21:44:10  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Oli

AUP Oli 21.12.2018
Angular?

</rats>
03.12.2018 22:26:32  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
mYstral

Arctic
 
Zitat von csde_rats

Mit "Relevanz" drückt die Suchmaschine aus, wie gut der fragliche Post/Thread zu deiner Suchanfrage passt. Hohe Relevanz = hoffentlich passt es zur Suchanfrage. Niedrige Relevanz = passt vielleicht nicht so gut zur Suchanfrage.


Was das Wort bedeutet, ist mir schon klar. Nur wie ist das operationalisiert? Anscheinend zählt das Postdatum nicht mit rein, das wäre aber vielleicht ganz nützlich.
04.12.2018 7:54:27  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Op3r4tor

AUP Op3r4tor 01.06.2009
Pfeil
 
Zitat von csde_rats

...
Ganz viele Felder indizieren ist eher nicht drin, Elasticsearch ist so schon arg langsam bei der Indizierung (ehrlich gesagt ein bisschen negativ überrascht, wie viele Ressourcen das auffrisst und wie lange das dauert [1]).
...


Bei der Bulk API musste aufpassen, daß Du auch genug docs/genug daten per index request rüberschiebst. Sonst macht er zu viele Requests und hängt.
In meinem Bastel/Spielprojekt (Java) hab ich diese Werte:
 

elastic.bulkaction.count=10000
# 4 MB = 1024*1024*4
elastic.bulkaction.size.in.bytes=4194304


Damit indiziert das ca. 600k Dokumente (mit ca. 10 Feldern) in ungefähr 30s auf meinem Laptop.
Rumprobieren.

/e Irgendwie funz die Suche bei mir grad nicht
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Op3r4tor am 04.12.2018 13:04]
04.12.2018 13:04:01  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
csde_rats

AUP csde_rats 04.09.2021
Definiere funzen? peinlich/erstaunt Wenn die Seite erreichbar ist, sollte sie (zumindeset jetzt gerade) funktionieren Breites Grinsen

Guter Tipp mit den Bulk-Parametern.
Defaults waren: 500 Requests pro Bulk Request und max. 100 MB (scheinen Defaults für große Dokumente zu sein).
Mit 10000 Requests pro Bulk Request und nach wie vor max. 100 MB pro Bulk Request ist die Performance schon deutlich besser geworden. (100 MB / 10k = 10 kB, die meisten Posts sind viel viel kleiner).

e: Jetzt wird sie erstmal nicht mehr funzen Breites Grinsen
Wir haben jetzt:
+ Mehr Ergebnisse wenn man weiter rumscrollt (Kategorie der Idee: Ist das eine gute Idee?)
+ Datum, wobei die Zeit manchmal um zwei Stunden falsch ist (da hat wohl "jemand" nicht aufgepasst mit seinen Zeitzonen)
+ kein bbcode mehr in den snippets (aber der Inhalt von img Tags etc bleibt, nur url=XYZ wäre nicht drin)

Meine Liste
- "foo bar" für exakte Matches
- Nächtliche Updates (aktuell sind die Daten schon wieder ~zwei Wochen alt)

e^n: Mit Shards rumzuspielen bringt auch einiges. Da jeder Shard eigene Indizies mitbringt, erhöht die Anzahl der Sharts natürlich auch den Speicherbedarf. Von 5 (Default) auf 1 runtergegangen => mehrere GB kleinerer Index, schnellere Abfragen, kein relevanter Unterschied beim Indizieren. Später teste ich nochmal mit 2 Shards gegen.

Kurioserweise ist es anscheinend deutlich langsamer nach _id (builtin feld) zu sortieren anstatt seine eigenen ID-Felder zu erstellen. Sehr merkwürdig. Hat aber evtl. damit zu tun, dass _id grundsätzlich nach String coerced wird, während die eigenen Felder Integers sind/bleiben.

e^n+1: Mal ein paar Zahlen:
Der Elasticsearch-Index verbraucht jetzt nur noch ~3.8 GB Speicherplatz (mit 5 Shards waren das iirc knapp 7 GB).
Die postgres-DB ist 13 GB groß.
Elasticsearch verbraucht im Idle ca. 1.6 GB (PSS), postgres gönniert sich rund 2 GB, der API-Anwendungsserver so 50 MB oder so.
Der Server ist nen Sandy-Bridge 3 GHz i3 (2 Kerne / 4 Threads) mit 16 GB RAM.

 
Zitat von mYstral

 
Zitat von csde_rats

Mit "Relevanz" drückt die Suchmaschine aus, wie gut der fragliche Post/Thread zu deiner Suchanfrage passt. Hohe Relevanz = hoffentlich passt es zur Suchanfrage. Niedrige Relevanz = passt vielleicht nicht so gut zur Suchanfrage.


Was das Wort bedeutet, ist mir schon klar. Nur wie ist das operationalisiert? Anscheinend zählt das Postdatum nicht mit rein, das wäre aber vielleicht ganz nützlich.



Elasticsearch ist standardmäßig tf-idf, aber man könnte es sicherlich so modifizieren, dass neuere Posts einen leichten Score-Boost erhalten. Also z.B. ältester Post = 0% Boost, neuester Post = 20% Boost.
[Dieser Beitrag wurde 9 mal editiert; zum letzten Mal von csde_rats am 04.12.2018 20:29]
04.12.2018 13:30:08  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
monischnucki

AUP monischnucki 06.06.2018
Die Datenbank ist komplett? Wie wäre es mit einer Anzeige aller Posts des eigenen Users. Also nur meine Posts, keine anderen.

Das WBB konnte das Anfang der 2000er und das fand ich eigentlich ganz praktisch.
04.12.2018 13:51:45  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Klabusterbeere

tf2_medic.png
 
Zitat von monischnucki

Die Datenbank ist komplett? Wie wäre es mit einer Anzeige aller Posts des eigenen Users. Also nur meine Posts, keine anderen.

Das WBB konnte das Anfang der 2000er und das fand ich eigentlich ganz praktisch.


Subtil
04.12.2018 15:14:20  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
monischnucki

AUP monischnucki 06.06.2018
Nein, eigentlich garnicht. Woran denkst du?
/
Also wirklich ohne Hintergedanken. Nur zur Ansicht meiner eigenen Posts. Dass man das irgendwie ans Login koppeln müsste, ist mir auch klar, sonst kann man ja jeden User auslesen.
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von monischnucki am 04.12.2018 15:16]
04.12.2018 15:15:29  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Lightspeed

AUP Lightspeed 20.06.2011
Nur wie könnte man es sinnvoll koppeln?
05.12.2018 10:08:47  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
monischnucki

AUP monischnucki 06.06.2018
So ähnlich wie das Login über Steam bei fremden Anbietern?
05.12.2018 10:10:37  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Lightspeed

AUP Lightspeed 20.06.2011
Dafür bräuchten wir so oder so erstmal nen Zugang zur Forensoftware/server.

Über Cookie lässt sich das nämlich meines Wissens nicht so leicht lösen.
Wie willst du validieren, dass du tatsächlich der User bist und nicht nur vorgibst, jemand anderes zu sein.
05.12.2018 10:24:56  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Bregor

AUP Bregor 26.01.2009
Vertrauen?
05.12.2018 10:38:04  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
monischnucki

AUP monischnucki 06.06.2018
Eigener Zugang über Gesichtskontrolle!
05.12.2018 10:39:12  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Lightspeed

AUP Lightspeed 20.06.2011
Lieber Peniskontrolle.
05.12.2018 10:57:08  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Izmir

Guerilla
Bot im p0t, dem man PMs schicken kann, um die Identität zu bestätigen?
05.12.2018 12:49:16  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
 Thema: pOTStats 2.0 ( Ein pOTsches Informationsportal )
« erste « vorherige 1 ... 5 6 7 8 [9] 10 11 12 13 ... 32 nächste » letzte »

mods.de - Forum » Public Offtopic » 

Hop to:  

Thread-Tags:
| tech | impressum