Du bist nicht eingeloggt! Möglicherweise kannst du deswegen nicht alles sehen.
  (Noch kein mods.de-Account? / Passwort vergessen?)
Zur Übersichtsseite
Hallo anonymer User.
Bitte logge dich ein
oder registriere dich!
 Moderiert von: Atomsk, Maestro, statixx, Teh Wizard of Aiz


 Thema: pOT-lnformatik, Mathematik, Physik XXIII
« erste « vorherige 1 ... 22 23 24 25 [26] letzte »
erste ungelesene Seite | letzter Beitrag 
PutzFrau

Phoenix Female
Von mir auch +1 für Zotero. Disclaimer: bin jetzt schon einige Zeit aus dem Business raus.

19.10.2020 13:55:49 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
RichterSkala

AUP RichterSkala 31.12.2010
Bin auch Zotero Nutzer. Großer Fan von der sync Funktion, der Browserintegration und der .aux Scanfunktion.
19.10.2020 15:48:20 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
DeineOmi

DeineOmi
Ich mag JabRef, da es besser in meine toolchain passt.
Ansonsten fand ich Zotero bis auf die eher misslungene Kommentarfunktion ganz brauchbar.
19.10.2020 16:21:14 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
R

Arctic
Zotero > JabRef, bei mind. bis zu ~ 50 Zitationen reicht aber auch einfach die .bib Datei.

@homer:
vllt. für dich interessant? https://mailchi.mp/42de43f98cd2/pymcon-virtual-conference-learn-bayesian-stats-from-over-25-experts

Ich denke, es ist letztendlich rel. egal, ob man edward, pyro oder pymc nutzt und es kommt eher auf den eigenen Hintergrund an. Ich bspw. hab mich mit Pyro beschäftigt, weil ich schon etwas Pytorch konnte.
Btw. gleichzeitig mit dem Blogpost von letztens ist eine neue Numpyro Version rausgekommen, gibt einige neue Tutorials, vllt. helfen die dir ...
20.10.2020 14:28:31 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
homer is alive

AUP homer is alive 04.06.2011
Mega cool, vielen Dank für den Link und die Infos!
20.10.2020 14:38:08 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
RichterSkala

AUP RichterSkala 31.12.2010
Klar reicht auch die bib-Datei, aber wir organisiert ihr dann eure Artikelsammlungen? Zettelkasten? Breites Grinsen Notitzsystem? Jedes Paper neue Literaturrecherche?
20.10.2020 15:12:27 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Xerxes-3.0

AUP Xerxes-3.0 05.11.2018
Also ich hab bei meiner Diss alles mit Mendeley gemacht, da kann man netterweise auch noch eigene Sammlungen (Playlists) für bestimmte Projekte und Themen anlegen und so. Und direkte Quellensuche über doi.
Jede Sammlung kriegt dann auch ne eigene .bib-Datei.

Und Cloud und Android-Client, wenn man lieber auf dem Tablet lesen will.
20.10.2020 18:08:27 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
homer is alive

AUP homer is alive 04.06.2011
Wie würdet ihr Variation in Daten messen?

Klar, ich weiß, Varianz wäre der einfachste Fall. Ich habe allerdings Werte zwischen 0 und 1. An sich ist der globale Mittelwert der Daten um 0.1.

Dabei habe ich im Groben zwei Fälle:
* Die Daten sind sehr vielfältig gestreut:


* Die Daten sind eigentlich bimodal in 0 und 1 und sonst nichts (Zeichnung ist nicht so gut an der Stelle, Verzeihung).


Wenn ich jetzt die Varianz vergleiche, dann stehe ich teilweise im zweiteren Fall mit einer größeren Varianz da, obwohl die Daten überhaupt nicht wirklich variieren. Ich dachte irgendwie an Entropie, aber ich weiß nicht, wie ich das sinnvoll darstellen soll. Wenn ich 10 Bins mache und die Daten in jedes dieser Bins einteile, dann landen im ersten Fall auch wieder viele Daten in denselben Bins. Hat jemand eine gute Idee, welches Maß der Variation ich auf diese Daten gut anwenden könnte?

Im ersten der beiden Fälle ist es sogar gewünscht, dass eigentlich alle Variation um 0.1 stattfindet (auch, wenn sie nicht sonderlich groß ist), da ich hier viele Daten habe, um meine Proportionen (z.B. 100/1000) zu berechnen, im anderen Fall nur wenige (oft habe ich 0/1 oder 1/1), weshalb diese komischen Camel-Peaks überhaupt erst entstehen.
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von homer is alive am 21.10.2020 12:02]
21.10.2020 11:59:16 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Irdorath

AUP Irdorath 07.04.2014
Keine Ahnung, aber laut gedacht:

Die Varianz ist sowas wie die mittlere Abweichung vom Erwartungswert,
Var(X) = E[(X-E[X])^2]
.
Wenn die Verteilung symmetrisch und unimodal mit Modus
m
ist, ist das das gleiche wie
E[(X-m)^2]
.
Fuer deine bimodale Verteilung jetzt Modi
m_1, m_2
hat, koenntest du die Abweichung von den Peaks mit
min(E[(X-m_1)^2], E[(X-m_2)^2])
messen.
Wenn ich dich richtig verstehe, ist deine bimodale Verteilung aber eigentlich diskret? Was meinst du dann mit Variation, einen Peak treffen scheint dir ja zu reichen, was eine diskrete Verteilung natuerlich per Definition ausschliesslich macht.
21.10.2020 12:10:43 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
B0rG*

Gordon
 
Zitat von homer is alive

Wenn ich jetzt die Varianz vergleiche, dann stehe ich teilweise im zweiteren Fall mit einer größeren Varianz da, obwohl die Daten überhaupt nicht wirklich variieren. Ich dachte irgendwie an Entropie, aber ich weiß nicht, wie ich das sinnvoll darstellen soll.



Naja variieren im Sinne von Varianz tun die Daten eben im zweiten Fall mehr als im ersten Fall. Kannst du in Worte fassen, wann du finden würdest, dass Daten in deinem Sinne sehr variabel sind? Dann können wir uns auf die Suche nach einer entsprechenden Metrik machen.

Die Entropie ist schon kein schlechtes Maß um allgemeine Verteilungen zu vergleichen, aber auch schwer zu interpretieren. Möchtest du vielleicht die Bimodalität deiner Daten messen? Oder allgemeiner die Abweichung von deiner erwarteten Verteilung? Dann könntest du vielleicht über eine Distanzmetrik zu einer Referenzverteilung nachdenken (z.b. einer Beta-Verteilung mit Peak bei der 0.1). Zum Beispiel in Form einer Likelihood der Daten unter deinem Prior.
21.10.2020 12:41:44 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
homer is alive

AUP homer is alive 04.06.2011
Danke, damit könnte ich wahrscheinlich sogar etwas zusammenfrickeln. Allerdings weiß ich nicht, ob ich mir damit nicht dann auch wieder neue Probleme schaffe.

Meine Verteilung ist nicht wirklich diskret. Wenn ich die Daten beschreiben müsste, dann würde ich dazu eine Beta-Verteilung wählen. Letztendlich habe ich Successes und Observations, woraus ich eine Proportion ableite (bzw. eine Erfolgswahrscheinlichkeit). Ganz normelles MLE für Binomialvertielungen also.

Leider ist es aber so, dass ich bei manchen Gruppen von Datenpunkten in einer quasi-diskreten bimodalen Verteilung lande, die ihre Peaks in 0 und in 1 hat (vielleicht noch manchmal 0.5), da ich nur sehr spärlich Erfolge und Beobachtungen habe. Deshalb habe ich einen Beta-Binomial-Ansatz gewählt, wie in einem früheren Post schon beschrieben, aber ein Maß für die Variation der nicht-geglätteten Daten suche ich immer noch.

 
Dann könntest du vielleicht über eine Distanzmetrik zu einer Referenzverteilung nachdenken (z.b. einer Beta-Verteilung mit Peak bei der 0.1). Zum Beispiel in Form einer Likelihood der Daten unter deinem Prior.


Uh, das klingt nach einer guten Idee.

 
Zitat von B0rG*
Kannst du in Worte fassen, wann du finden würdest, dass Daten in deinem Sinne sehr variabel sind? Dann können wir uns auf die Suche nach einer entsprechenden Metrik machen.


Das mache ich gerne nach dem Mittag.
[Dieser Beitrag wurde 2 mal editiert; zum letzten Mal von homer is alive am 21.10.2020 12:50]
21.10.2020 12:44:46 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
homer is alive

AUP homer is alive 04.06.2011
Also:
Variabel sind die Daten für mich, wenn sie viele verschiedene Werte annehmen können. Wenn ich nur wenige mögliche Werte habe (0, 0.5, 1), dann habe ich wenig Variation in den Daten. Wenn ich allerdings viele mögliche Werte habe, dann habe ich viel Variation. Dazu zähle ich allerdings auch 0.09, 0.11, 0.12, 0.15 als viel Variation. Grund für diese Annahme ist, dass ich eigentlich einen Bereich kenne, in dem die Daten realistisch sind. Innerhalb dieses Bereichs kann ich dann alle mögliche Variation haben. Unrealistische Daten, also exakt 0, 0.5 oder sogar 1, resultieren dann auch in wenig Variation. Eine 0 ist auf jeden Fall schonmal besser als eine 1, aber immer noch nicht so gut. Es wäre dann vielleicht sogar cool, wenn ich auf meine beta-binomial-geglätteten Daten das neue Variationsmaß anwenden könnte.

Ist das etwas verständlicher?

Edit: es kann natürlich auch sein, dass ich gar nicht mal unbedingt auf der Suche nach Variation bin. Allerdings finde ich die Idee nett, die Daten irgendwie zu z-scoren, wobei ich dann aber ein Substitut für die Varianz haben möchte, dass die Variation ein bisschen besser in meinem Sinne beschreibt.

Edit 2: Vielleicht kann ich die durchschnittliche Likelihood zu einer Referenzverteilung hierzu durchaus missbrauchen. Dem könnte noch im Weg stehen, dass die Referenz pro Cluster sich etwas unterscheidet. Aber das würde ich dann auch noch hinbekommen, denke ich. Eventuell brauche ich aber einfach bessere Prior.
[Dieser Beitrag wurde 3 mal editiert; zum letzten Mal von homer is alive am 21.10.2020 13:54]
21.10.2020 13:45:25 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
B0rG*

Gordon
 
Zitat von homer is alive

Edit 2: Vielleicht kann ich die durchschnittliche Likelihood zu einer Referenzverteilung hierzu durchaus missbrauchen. Dem könnte noch im Weg stehen, dass die Referenz pro Cluster sich etwas unterscheidet. Aber das würde ich dann auch noch hinbekommen, denke ich. Eventuell brauche ich aber einfach bessere Prior.



Ich glaube das ist kein Missbrauch, das ist ein Gebrauch .

Wenn es wirklich um exakte Werte geht kannst du nach denen im Zweifel auch extra suchen. Eine mögliche Modellierungsannahme wäre, dass deine Daten aus einer Mixture einer Beta-Verteilung (oder einer Verteilung über Beta-Verteilungen) und einer diskreten Verteilung kommen. Dann kannst du für eine konkrete Beobachtung die Frage stellen, aus welcher der Komponenten die Daten kamen. Einfacher gesprochen: Du rechnest die Likelihood unter den beiden Priors aus und bekommst eine Aussage darüber, welches Modell wahrscheinlicher ist. Für Spezialfälle für solche Mixture-Models wie GMMs oder k-Means gibt es vermutlich sowohl im Murphy als auch im Bishop Herleitungen.

Bei einer normalen Likelihood nimmt man ja Unabhängigkeit der Beobachtungen an. Wenn es dir speziell darum geht Häufungen von Werten (ganz viele 1en oder so) zu finden, dann musst du vermutlich ein etwas komplexeres Modell betrachten, bei der auch die Interaktion der Werte mit modelliert wird. Aber vermutlich ist das nicht wirklich notwendig.

Unter'm Strich: Ich würde für den Anfang einen guten Prior für "normal" definieren und schauen ob du damit schon die seltsamen Daten finden kannst, wenn du eine Grenze für die Likelihood formulierst. Wenn das nicht klappt dann vielleicht noch einen Prior für unnormale Daten hinzufügen und wenn das nicht klappt dann vielleicht Abhänigigkeiten zwischen Daten betrachten. Ich glaube aber, dass der erste Ansatz schon funktionieren wird.
21.10.2020 14:21:03 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
homer is alive

AUP homer is alive 04.06.2011
Hmm, ich finde den Ansatz mit den Mixtures ziemlich cool, allerdings weiß ich nicht, ob ich damit dann erreiche, was ich will. Ich möchte ja über eine Menge von Datenpunkten ein Maß für die Variation innerhalb dieser Datenpunkte finden (um dann so etwas ähnliches wie eine z-score-Normierung machen zu können). Letztendlich weiß ich nämlich schon, woher die extremen Werte kommen: wenn mein n (=die Observations) sehr klein ist, denn dann sind Peaks bei diskreten Werten vorprogrammiert. Wichtiger wäre mir für ein bestimmtes Cluster eher die Aussage, ob es innerhalb dieses Clusters eher die Norm ist, sinnvolle Werte zu bekommen (irgendwas in der Nähe von 0.1, dort aber alles mögliche) oder ob ich eigentlich nur in Peaks reinlaufe.

Aber auch, wenn ich die Ideen hier nicht direkt verwerten kann, so habe ich direkt wieder etwas gelernt, was mir ganz sicher an anderer Stelle wieder helfen wird.


/Was hältst du eigentlich davon, bisschen quick-and-dirty einen "zweistufigen Beta-Fit" zu machen?

Stufe 1: Einen globalen Prior finden (Moment Matching) und meine Beobachtungen mit dem Prior "glätten" (also mit Alpha, Beta im Zähler bzw. Nenner).
Stufe 2: Auf die geglätteten Werte pro Cluster einen unabhängigen Prior finden (Moment Matching) und dann wieder verrechnen.

Rollen sich da bei dir die Zehnägel hoch? Breites Grinsen Oder kann man das so ein bisschen als die "Layman's-Variante" eines hierarchischen Modells sehen?

Sorry, ich jongliere hier ein bisschen mit beiden Themen hin und her, aber ich glaube auch, dass man sie nicht getrennt voneinander betrachten kann. Nur weiß ich noch nicht, für welche Richtung ich mich entscheiden soll.
21.10.2020 14:47:42 Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
 Thema: pOT-lnformatik, Mathematik, Physik XXIII
« erste « vorherige 1 ... 22 23 24 25 [26] letzte »

mods.de - Forum » Public Offtopic » 

Hop to:  

Thread-Tags:
pimp 
Mod-Aktionen:
05.04.2020 13:23:20 red hat diesem Thread das ModTag 'pimp' angehängt.

| tech | impressum