Likelihood-Funktion
In der Statistik misst die Likelihood-Funktion (oft einfach als Likelihood bezeichnet ) die Anpassungsgüte eines statistischen Modells an eine Datenstichprobe für gegebene Werte der unbekannten Parameter . Sie wird aus der gemeinsamen Wahrscheinlichkeitsverteilung der Stichprobe gebildet, aber nur als Funktion der Parameter betrachtet und verwendet, wodurch die Zufallsvariablen als auf den beobachteten Werten fixiert behandelt werden. [ein]
Die Likelihood-Funktion beschreibt eine Hyperfläche, deren Peak, falls vorhanden, die Kombination von Modellparameterwerten darstellt, die die Wahrscheinlichkeit des Ziehens der erhaltenen Stichprobe maximieren. [1] Das Verfahren zum Erhalten dieser Argumente des Maximums der Likelihood-Funktion ist als Maximum-Likelihood-Schätzung bekannt , die zur Vereinfachung der Berechnung normalerweise unter Verwendung des natürlichen Logarithmus der Likelihood, bekannt als Log-Likelihood-Funktion, durchgeführt wird . Zusätzlich geben Form und Krümmung der Likelihood-Fläche Auskunft über die Stabilitätder Schätzungen, weshalb die Likelihood-Funktion oft im Rahmen einer statistischen Analyse aufgetragen wird. [2]
Die Verwendung von Likelihood wurde zuerst von RA Fisher [3] vorgebracht , der glaubte, dass es sich um einen in sich geschlossenen Rahmen für statistische Modellierung und Inferenz handelt. Später leiteten Barnard und Birnbaum eine Denkschule , die das Likelihood-Prinzip befürwortete und postulierte, dass alle relevanten Informationen für die Inferenz in der Likelihood-Funktion enthalten sind. [4] [5] Aber sowohl in der frequentistischen als auch in der Bayesschen Statistik spielt die Likelihood-Funktion eine grundlegende Rolle. [6]
Definition
Die Likelihood-Funktion wird normalerweise für diskrete und kontinuierliche Wahrscheinlichkeitsverteilungen unterschiedlich definiert . Auch eine allgemeine Definition ist möglich, wie unten diskutiert.
Diskrete Wahrscheinlichkeitsverteilung
Lassen sei eine diskrete Zufallsvariable mit Wahrscheinlichkeits-Massenfunktion abhängig von einem Parameter . Dann die Funktion
betrachtet als Funktion von , ist die Likelihood-Funktion , gegeben das Ergebnis der Zufallsvariablen . Manchmal ist die Wahrscheinlichkeit "der Wert" von für den Parameterwert " wird als P ( X = x | θ ) oder P ( X = x ; θ ) geschrieben . nicht zu verwechseln mit ; die Wahrscheinlichkeit ist gleich der Wahrscheinlichkeit, dass ein bestimmtes Ergebnis wird beobachtet, wenn der wahre Wert des Parameters ist , und ist daher gleich einer Wahrscheinlichkeitsdichte über dem Ergebnis , nicht über den Parameter .
Bei keinem Ereignis (keine Daten) ist die Wahrscheinlichkeit und damit die Wahrscheinlichkeit 1; [ Zitat erforderlich ] Jedes nicht-triviale Ereignis hat eine geringere Wahrscheinlichkeit.
Beispiel


Betrachten Sie ein einfaches statistisches Modell eines Münzwurfs: ein einzelner Parameter das drückt die "Fairness" der Münze aus. Der Parameter ist die Wahrscheinlichkeit, dass eine Münze beim Werfen mit dem Kopf nach oben ("H") landet.kann jeden Wert im Bereich von 0,0 bis 1,0 annehmen. Für eine vollkommen faire Münze ,.
Stellen Sie sich vor, Sie werfen zweimal eine faire Münze und beobachten die folgenden Daten: zwei Köpfe in zwei Würfen ("HH"). Angenommen, jeder aufeinanderfolgende Münzwurf ist iid , dann ist die Wahrscheinlichkeit, HH zu beobachten,
Angesichts der beobachteten Daten HH ist daher die Wahrscheinlichkeit, dass der Modellparametergleich 0,5 ist 0,25. Mathematisch wird dies geschrieben als
Dies ist nicht dasselbe wie zu sagen, dass die Wahrscheinlichkeit, dass , bei der Beobachtung HH, beträgt 0,25. (Dafür könnten wir den Satz von Bayes anwenden , der impliziert, dass die A-Wahrscheinlichkeit proportional zur Wahrscheinlichkeit mal der A-Wahrscheinlichkeit ist.)
Angenommen, die Münze ist keine faire Münze, sondern hat sie . Dann ist die Wahrscheinlichkeit, zwei Köpfe zu bekommen,
Daher
Allgemeiner gesagt, für jeden Wert von , können wir die entsprechende Wahrscheinlichkeit berechnen. Das Ergebnis solcher Berechnungen ist in Abbildung 1 dargestellt.
In Abbildung 2 beträgt das Integral der Likelihood über das Intervall [0, 1] 1/3. Dies veranschaulicht einen wichtigen Aspekt von Likelihoods: Likelihoods müssen im Gegensatz zu Wahrscheinlichkeiten nicht zu 1 integriert (oder summiert) werden.
Kontinuierliche Wahrscheinlichkeitsverteilung
Lassen sei eine Zufallsvariable nach einer absolut stetigen Wahrscheinlichkeitsverteilung mit der Dichtefunktion (eine Funktion von ) die von einem Parameter abhängt . Dann die Funktion
betrachtet als Funktion von , ist die Likelihood-Funktion (von, angesichts des Ergebnisses von ). Manchmal ist die Dichtefunktion für "den Wert von den Parameterwert gegeben " wird geschrieben als . Die Wahrscheinlichkeitsfunktion,, nicht zu verwechseln mit ; die Wahrscheinlichkeit ist gleich der Wahrscheinlichkeitsdichte des beobachteten Ergebnisses,, wenn der wahre Wert des Parameters ist , und ist daher gleich einer Wahrscheinlichkeitsdichte über dem Ergebnis , dh die Likelihood-Funktion ist keine Dichte über dem Parameter . Einfach ausgedrückt,ist das Testen von Hypothesen , das Finden der Wahrscheinlichkeit unterschiedlicher Ergebnisse bei gegebenem Satz von Parametern, die in der Nullhypothese definiert sind ; wie ist die Inferenz, das Finden der wahrscheinlichen Parameter bei einem bestimmten Ergebnis.
Im Allgemeinen
In der maßtheoretischen Wahrscheinlichkeitstheorie wird die Dichtefunktion als Radon-Nikodym-Ableitung der Wahrscheinlichkeitsverteilung relativ zu einem gemeinsamen dominierenden Maß definiert. [7] Die Likelihood-Funktion ist die Dichte, die als Funktion des Parameters (möglicherweise eines Vektors) interpretiert wird, und nicht der möglichen Ergebnisse. [8] Dies liefert eine Likelihood-Funktion für jedes statistische Modell mit allen Verteilungen, ob diskret, absolut stetig, eine Mischung oder etwas anderes. (Wahrscheinlichkeiten sind z. B. für Parameterschätzungen nur dann vergleichbar, wenn es sich um Radon-Nikodym-Derivate in Bezug auf dasselbe dominierende Maß handelt.)
Die obige Diskussion der Wahrscheinlichkeit mit diskreten Wahrscheinlichkeiten ist ein Spezialfall davon unter Verwendung des Zählmaßes , das die Wahrscheinlichkeitsdichte bei jedem Ergebnis gleich der Wahrscheinlichkeit dieses einzelnen Ergebnisses macht.
Likelihood-Funktion eines parametrisierten Modells
Unter vielen Anwendungen betrachten wir hier eine von breiter theoretischer und praktischer Bedeutung. Gegeben eine parametrisierte Familie von Wahrscheinlichkeitsdichtefunktionen (oder Wahrscheinlichkeitsmassenfunktionen im Fall von diskreten Verteilungen)
wo ist der Parameter die, Funktion Wahrscheinlichkeit ist
geschrieben
wo ist das beobachtete Ergebnis eines Experiments. Mit anderen Worten, wenn wird als Funktion von . angesehen mit fest, es ist eine Wahrscheinlichkeitsdichtefunktion, und wenn man sie als Funktion von betrachtet mit fest, es ist eine Likelihood-Funktion.
Dies ist nicht dasselbe wie die Wahrscheinlichkeit, dass diese Parameter bei der beobachteten Stichprobe richtig sind. Der Versuch, die Wahrscheinlichkeit einer Hypothese anhand der beobachteten Beweise als Wahrscheinlichkeit der Hypothese zu interpretieren, ist ein häufiger Fehler mit potenziell katastrophalen Folgen. Siehe Staatsanwaltschaft Irrtum für ein Beispiel dafür.
Aus geometrischer Sicht, wenn wir berücksichtigen als Funktion zweier Variablen kann man die Schar der Wahrscheinlichkeitsverteilungen als eine Schar von Kurven parallel zum -Achse, während die Familie der Likelihood-Funktionen die orthogonalen Kurven parallel zur -Achse.
Wahrscheinlichkeiten für kontinuierliche Ausschüttungen
Die Verwendung der Wahrscheinlichkeitsdichte bei der Spezifizierung der obigen Likelihood-Funktion ist wie folgt begründet. Gegeben eine Beobachtung, die Wahrscheinlichkeit für das Intervall , wo ist eine Konstante, ist gegeben durch . Beobachte das
- ,
schon seit ist positiv und konstant. weil
wo die Wahrscheinlichkeitsdichtefunktion ist, folgt
- .
Der erste fundamentale Satz der Infinitesimalrechnung und die Regel von l'Hôpital ergeben zusammen, dass
Dann
Deshalb,
und so die Wahrscheinlichkeitsdichte bei maximieren bedeutet, die Wahrscheinlichkeit der spezifischen Beobachtung zu maximieren .
Wahrscheinlichkeiten für gemischte stetig-diskrete Verteilungen
Obiges kann auf einfache Weise erweitert werden, um Verteilungen zu berücksichtigen, die sowohl diskrete als auch kontinuierliche Komponenten enthalten. Angenommen, die Verteilung besteht aus einer Anzahl diskreter Wahrscheinlichkeitsmassen und eine Dichte , wobei die Summe aller wird zum Integral von hinzugefügt ist immer eins. Unter der Annahme, dass es möglich ist, eine Beobachtung, die einer der diskreten Wahrscheinlichkeitsmassen entspricht, von einer zu unterscheiden, die der Dichtekomponente entspricht, kann die Wahrscheinlichkeitsfunktion für eine Beobachtung von der kontinuierlichen Komponente in der oben gezeigten Weise behandelt werden. Für eine Beobachtung aus der diskreten Komponente ist die Likelihood-Funktion für eine Beobachtung aus der diskreten Komponente einfach
wo ist der Index der diskreten Wahrscheinlichkeitsmasse entsprechend der Beobachtung , weil die Maximierung der Wahrscheinlichkeitsmasse (oder Wahrscheinlichkeit) bei bedeutet, die Wahrscheinlichkeit der spezifischen Beobachtung zu maximieren.
Die Tatsache, dass die Likelihood-Funktion so definiert werden kann, dass nicht äquivalente Beiträge (die Dichte und die Wahrscheinlichkeitsmasse) enthalten sind, ergibt sich aus der Art und Weise, wie die Likelihood-Funktion bis zu einer Proportionalitätskonstante definiert ist, wobei diese "Konstante" kann sich mit der Beobachtung ändern , aber nicht mit dem Parameter .
Regelmäßigkeitsbedingungen
Im Zusammenhang mit der Parameterschätzung wird normalerweise davon ausgegangen, dass die Likelihood-Funktion bestimmten Bedingungen, den sogenannten Regularitätsbedingungen, entspricht. Diese Bedingungen werden angenommen in verschiedenen Beweisen die Wahrscheinlichkeitsfunktionen und muß bei jeder besonderen Anwendung überprüft werden. Für die Maximum-Likelihood-Schätzung ist die Existenz eines globalen Maximums der Likelihood-Funktion von größter Bedeutung. Nach dem Extremwertsatz genügt es, dass die Likelihood-Funktion auf einem kompakten Parameterraum stetig ist, damit der Maximum-Likelihood-Schätzer existiert. [9] Während die Kontinuitätsannahme normalerweise erfüllt ist, ist die Kompaktheitsannahme über den Parameterraum oft nicht erfüllt, da die Grenzen der wahren Parameterwerte unbekannt sind. Dabei spielt die Konkavität der Likelihood-Funktion eine Schlüsselrolle.
Genauer gesagt, wenn die Likelihood-Funktion auf dem k- dimensionalen Parameterraum zweimal stetig differenzierbar istangenommen, eine offene zusammenhängende Teilmenge von sub zu sein, gibt es ein eindeutiges Maximum wenn
- ist bei jedem negativ definit für welche Steigung verschwindet, und
- , dh die Likelihood-Funktion nähert sich einer Konstanten am Rand des Parameterraums, der die Punkte im Unendlichen einschließen kann, wenn ist unbegrenzt.
Mäkeläinenet al. beweisen dieses Ergebnis mit der Morse-Theorie und appellieren dabei informell an eine Gebirgspasseigenschaft. [10] Mascarenhas wiederholt ihren Beweis mit dem Gebirgspasssatz . [11]
Bei den Beweisen der Konsistenz und der asymptotischen Normalität des Maximum-Likelihood-Schätzers werden zusätzliche Annahmen über die Wahrscheinlichkeitsdichten getroffen, die einer bestimmten Likelihood-Funktion zugrunde liegen. Diese Bedingungen wurden zuerst von Chanda aufgestellt. [12] Insbesondere für fast alle , und für alle ,
für alle existieren um die Existenz einer Taylorentwicklung sicherzustellen . Zweitens für fast alle und für jeden das muss es sein
wo ist so . Diese Beschränktheit der Ableitungen wird benötigt, um eine Differenzierung unter dem Integralzeichen zu ermöglichen . Und schließlich wird davon ausgegangen, dass die Informationsmatrix ,
ist positiv definit undist endlich. Dadurch wird sichergestellt, dass der Score eine endliche Varianz hat. [13]
Die obigen Bedingungen sind ausreichend, aber nicht notwendig. Das heißt, ein Modell, das diese Regularitätsbedingungen nicht erfüllt, kann einen Maximum-Likelihood-Schätzer der oben genannten Eigenschaften aufweisen oder nicht. Außerdem müssen bei nicht unabhängig oder nicht identisch verteilten Beobachtungen möglicherweise zusätzliche Eigenschaften angenommen werden.
Likelihood Ratio und relative Wahrscheinlichkeit
Wahrscheinlichkeitsverhältnis
Ein Likelihood-Quotient ist das Verhältnis von zwei beliebigen angegebenen Likelihoods, häufig geschrieben als:
Die Likelihood-Ratio ist von zentraler Bedeutung für die Likelihood-Statistik : Das Gesetz der Wahrscheinlichkeit gibt an, in welchem Maße Daten (als Beweise betrachtet) einen Parameterwert gegenüber einem anderen unterstützen, der durch die Likelihood-Ratio gemessen wird.
Bei der frequentistischen Inferenz ist die Likelihood-Ratio die Grundlage für eine Teststatistik , den sogenannten Likelihood-Ratio-Test . Nach dem Neyman-Pearson-Lemma ist dies der leistungsstärkste Test zum Vergleich zweier einfacher Hypothesen auf einem gegebenen Signifikanzniveau . Zahlreiche andere Tests können als Likelihood-Ratio-Tests oder Annäherungen davon angesehen werden. [14] Die asymptotische Verteilung der Log-Likelihood-Ratio, die als Teststatistik betrachtet wird, wird durch den Satz von Wilks gegeben .
Die Likelihood-Ratio ist auch von zentraler Bedeutung bei der Bayesschen Inferenz , wo sie als Bayes-Faktor bekannt ist und in der Bayes-Regel verwendet wird . In Bezug auf die Quoten ausgedrückt , lautet die Bayes-Regel, dass die Posterior- Quoten von zwei Alternativen, und , ein Ereignis gegeben , ist die Prior- Quote mal der Likelihood-Quote. Als Gleichung:
Die Likelihood Ratio wird in AIC-basierten Statistiken nicht direkt verwendet. Stattdessen wird die relative Wahrscheinlichkeit von Modellen verwendet (siehe unten).
Unterscheidung zu Odds Ratio
Das Likelihood-Verhältnis von zwei Modellen bei gleichem Ereignis kann der Wahrscheinlichkeit von zwei Ereignissen bei gleichem Modell gegenübergestellt werden. Im Sinne einer parametrisierten Wahrscheinlichkeits-Massenfunktion, das Likelihood-Verhältnis von zwei Werten des Parameters und , ein Ergebnis gegeben ist:
während die Wahrscheinlichkeit von zwei Ergebnissen, und , gegeben einen Wert des Parameters , ist:
Dies unterstreicht den Unterschied zwischen Likelihood und Odds: In Likelihood vergleicht man Modelle (Parameter) und hält die Daten fest; während man bei Quoten Ereignisse (Ergebnisse, Daten) vergleicht und das Modell festhält.
Das Quotenverhältnis ist ein Verhältnis von zwei bedingten Quoten (eines Ereignisses, wenn ein anderes Ereignis vorhanden oder nicht vorhanden ist). Die Odds Ratio kann aber auch als Verhältnis zweier Likelihood-Quotienten interpretiert werden, wenn man eines der Ereignisse für leichter beobachtbar hält als das andere. Siehe diagnostisches Odds Ratio , bei dem das Ergebnis eines diagnostischen Tests leichter zu beobachten ist als das Vorhandensein oder Fehlen einer zugrunde liegenden Erkrankung .
Relative Likelihood-Funktion
Da der tatsächliche Wert der Likelihood-Funktion von der Stichprobe abhängt, ist es oft praktisch, mit einem standardisierten Maß zu arbeiten. Angenommen, die maximale Wahrscheinlichkeitsschätzung für den Parameter θ ist. Relative Plausibilitäten anderer θ- Werte können gefunden werden, indem die Wahrscheinlichkeiten dieser anderen Werte mit der Wahrscheinlichkeit von . verglichen werden. Die relative Wahrscheinlichkeit von θ ist definiert als [15] [16] [17] [18] [19]
Somit ist die relative Likelihood das Likelihoodverhältnis (oben diskutiert) mit dem festen Nenner . Dies entspricht einer Standardisierung der Wahrscheinlichkeit, maximal 1 zu haben.
Wahrscheinlichkeitsregion
Eine Wahrscheinlichkeitsbereich ist die Menge aller Werte von θ , deren relative Wahrscheinlichkeit größer als oder gleich einem bestimmten Schwellenwert liegt. In Prozent ausgedrückt ist eine p %-Wahrscheinlichkeitsregion für θ definiert als [15] [17] [20]
Wenn θ ein einzelner reeller Parameter ist, umfasst ein p %-Likelihood-Bereich normalerweise ein Intervall von reellen Werten. Wenn die Region ein Intervall umfasst, wird sie als Likelihood-Intervall bezeichnet . [15] [17] [21]
Likelihood-Intervalle und allgemeiner Likelihood-Regionen werden für die Intervallschätzung in Likelihood-Statistiken verwendet: Sie ähneln Konfidenzintervallen in frequentistischen Statistiken und glaubwürdigen Intervallen in Bayes-Statistiken. Likelihood-Intervalle werden direkt als relative Wahrscheinlichkeit interpretiert, nicht als Überdeckungswahrscheinlichkeit (Frequenzismus) oder Posterior-Wahrscheinlichkeit (Bayesianismus).
Bei einem gegebenen Modell können Wahrscheinlichkeitsintervalle mit Konfidenzintervallen verglichen werden. Wenn θ ein einzelner reeller Parameter ist, dann ist unter bestimmten Bedingungen ein 14.65% Likelihood - Intervall (etwa 1: 7 - Likelihood) für θ wird das gleiche wie ein 95% Konfidenzintervall (19/20 Deckungswahrscheinlichkeit) sein. [15] [20] In einer etwas anderen Formulierung, die für die Verwendung von Log-Likelihoods geeignet ist (siehe Wilks' Theorem ), ist die Teststatistik das Doppelte der Differenz der Log-Likelihoods und die Wahrscheinlichkeitsverteilung der Teststatistik ist ungefähr ein chi- quadrierte Verteilung mit Freiheitsgraden (df) gleich der Differenz der dfs zwischen den beiden Modellen (daher ist das e −2 Wahrscheinlichkeitsintervall das gleiche wie das 0,954 Konfidenzintervall; angenommen, dass die Differenz der dfs 1 beträgt). [20] [21]
Wahrscheinlichkeiten, die störende Parameter eliminieren
In vielen Fällen hängt die Wahrscheinlichkeit von mehr als einem Parameter ab, aber das Interesse konzentriert sich auf die Schätzung nur eines oder höchstens einiger weniger, während die anderen als störende Parameter betrachtet werden . Es wurden mehrere alternative Ansätze entwickelt, um solche störenden Parameter zu eliminieren, so dass eine Likelihood nur als Funktion des Parameters (oder der Parameter) von Interesse geschrieben werden kann: Die wichtigsten Ansätze sind Profil-, bedingte und marginale Likelihoods. [22] [23] Diese Ansätze sind auch nützlich, wenn eine hochdimensionale Likelihood-Oberfläche auf einen oder zwei interessierende Parameter reduziert werden muss, um einen Graphen zu ermöglichen .
Profilwahrscheinlichkeit
Es ist möglich, die Dimensionen zu reduzieren, indem die Wahrscheinlichkeitsfunktion für eine Teilmenge von Parametern konzentriert wird, indem die Störparameter als Funktionen der interessierenden Parameter ausgedrückt und in der Wahrscheinlichkeitsfunktion ersetzt werden. [24] [25] Allgemein gilt für eine Likelihood-Funktion in Abhängigkeit vom Parametervektor das kann unterteilt werden in , und wo eine Korrespondenz explizit bestimmt werden kann, reduziert die Konzentration den Rechenaufwand des ursprünglichen Maximierungsproblems. [26]
Zum Beispiel in einer linearen Regression mit normalverteilten Fehlern,Könnte der Koeffizientenvektor wird aufgeteilt in(und folglich die Designmatrix ). Maximierung in Bezug auf ergibt eine Optimalwertfunktion . Mit diesem Ergebnis wird der Maximum-Likelihood-Schätzer für kann dann abgeleitet werden als
wo ist die Projektionsmatrix von. Dieses Ergebnis ist als Frisch-Waugh-Lovell-Theorem bekannt .
Da die Konzentrationsprozedur grafisch äquivalent ist, die Likelihood-Oberfläche entlang des Wertekamms des Störparameters aufzuschneiden die die Likelihood-Funktion maximiert und ein isometrisches Profil der Likelihood-Funktion für eine gegebene erstelltDas Ergebnis dieses Verfahrens wird auch als Profilwahrscheinlichkeit bezeichnet . [27] [28] Zusätzlich zur grafischen Darstellung kann die Profil-Likelihood auch zur Berechnung von Konfidenzintervallen verwendet werden , die oft bessere Eigenschaften für kleine Stichproben aufweisen als solche, die auf asymptotischen Standardfehlern basieren , die aus der vollen Wahrscheinlichkeit berechnet werden. [29] [30]
Bedingte Wahrscheinlichkeit
Manchmal ist es möglich, eine ausreichende Statistik für die Störparameter zu finden, und die Konditionierung dieser Statistik führt zu einer Wahrscheinlichkeit, die nicht von den Störparametern abhängt. [31]
Ein Beispiel tritt in 2×2-Tabellen auf, wo die Konditionierung auf alle vier Randsummen zu einer bedingten Wahrscheinlichkeit basierend auf der nicht zentralen hypergeometrischen Verteilung führt . Diese Form der Konditionierung ist auch die Grundlage für den exakten Test nach Fisher .
Geringfügige Wahrscheinlichkeit
Manchmal können wir die störenden Parameter entfernen, indem wir eine Wahrscheinlichkeit berücksichtigen, die nur auf einem Teil der Informationen in den Daten basiert, beispielsweise indem wir die Rangordnung anstelle der numerischen Werte verwenden. Ein weiteres Beispiel tritt in linearen gemischten Modellen auf , bei denen die Berücksichtigung einer Wahrscheinlichkeit für die Residuen nur nach Anpassung der festen Effekte zu einer Schätzung der maximalen Wahrscheinlichkeit der Varianzkomponenten führt.
Teilwahrscheinlichkeit
Eine partielle Likelihood ist eine Anpassung der Full Likelihood, so dass nur ein Teil der Parameter (der interessierenden Parameter) darin vorkommt. [32] Es ist eine Schlüsselkomponente des Proportional-Hazards-Modells : Bei Verwendung einer Einschränkung der Hazard-Funktion enthält die Likelihood nicht die Form der Gefahr im Zeitverlauf.
Produkte von Wahrscheinlichkeiten
Die Wahrscheinlichkeit bei zwei oder mehr unabhängigen Ereignissen ist das Produkt der Wahrscheinlichkeiten jedes einzelnen Ereignisses:
Dies folgt aus der Definition der Unabhängigkeit in der Wahrscheinlichkeit: Die Wahrscheinlichkeiten für das Eintreten zweier unabhängiger Ereignisse sind bei einem gegebenen Modell das Produkt der Wahrscheinlichkeiten.
Dies ist besonders wichtig, wenn die Ereignisse von unabhängigen und identisch verteilten Zufallsvariablen stammen , wie beispielsweise unabhängige Beobachtungen oder Stichproben mit Ersetzung . In einer solchen Situation faktorisiert die Likelihood-Funktion in ein Produkt einzelner Likelihood-Funktionen.
Das leere Produkt hat den Wert 1, der der Likelihood entspricht, wenn kein Ereignis gegeben ist: Vor allen Daten ist die Likelihood immer 1. Dies ist ähnlich einem einheitlichen Prior in der Bayes-Statistik, aber in der Likelihood-Statistik ist dies kein uneigentliches vor, weil Wahrscheinlichkeiten nicht integriert sind.
Log-Wahrscheinlichkeit
Die Log-Likelihood-Funktion ist eine logarithmische Transformation der Likelihood-Funktion, die oft mit einem Kleinbuchstaben l oder bezeichnet wird, im Gegensatz zum Großbuchstaben L oderfür die Wahrscheinlichkeit. Da Logarithmen streng ansteigende Funktionen sind, ist die Maximierung der Wahrscheinlichkeit gleichbedeutend mit der Maximierung der Log-Likelihood. Für praktische Zwecke ist es jedoch bequemer, mit der Log-Likelihood-Funktion bei der Maximum-Likelihood-Schätzung zu arbeiten , insbesondere da die meisten verbreiteten Wahrscheinlichkeitsverteilungen – insbesondere die Exponentialfamilie – nur logarithmisch konkav sind , [33] [34] und die Konkavität des Ziels Funktion spielt eine Schlüsselrolle bei der Maximierung .
Angesichts der Unabhängigkeit jedes Ereignisses entspricht die gesamte logarithmische Wahrscheinlichkeit der Schnittmenge der Summe der logarithmischen Wahrscheinlichkeiten der einzelnen Ereignisse. Dies ist analog zu der Tatsache, dass die Gesamt- Log-Wahrscheinlichkeit die Summe der Log-Wahrscheinlichkeit der einzelnen Ereignisse ist. Zusätzlich zu der daraus resultierenden mathematischen Bequemlichkeit hat der Additionsprozess der Log-Likelihood eine intuitive Interpretation, die oft als "Unterstützung" durch die Daten ausgedrückt wird. Wenn die Parameter unter Verwendung der Log-Likelihood für die Maximum-Likelihood-Schätzung geschätzt werden , wird jeder Datenpunkt verwendet, indem er zur gesamten Log-Likelihood hinzugefügt wird. Da die Daten als Beweise angesehen werden können, die die geschätzten Parameter stützen, kann dieser Prozess als "Unterstützung durch unabhängige Beweise hinzugefügt" interpretiert werden , und die Log-Likelihood ist die "Gewichtung der Beweise". Interpretiert man die negative Log-Wahrscheinlichkeit als Informationsgehalt oder Überraschung , so ist die Unterstützung (Log-Likelihood) eines Modells bei einem gegebenen Ereignis das Negative der Überraschung des Ereignisses bei einem gegebenen Modell: Ein Modell wird durch ein Ereignis insofern unterstützt dass das Ereignis angesichts des Modells nicht überraschend ist.
Ein Logarithmus eines Likelihood-Quotienten ist gleich der Differenz der Log-Likelihoods:
So wie die Likelihood bei keinem Ereignis 1 ist, ist die Log-Likelihood bei keinem Ereignis 0, was dem Wert der leeren Summe entspricht: Ohne Daten gibt es keine Unterstützung für irgendwelche Modelle.
Wahrscheinlichkeitsgleichungen
Wenn die Log-Likelihood-Funktion glatt ist , wird ihr Gradient in Bezug auf den Parameter, bekannt als Score und geschrieben, existiert und ermöglicht die Anwendung der Differentialrechnung . Der grundlegende Weg, eine differenzierbare Funktion zu maximieren, besteht darin, die stationären Punkte zu finden (die Punkte, bei denen die Ableitung null ist); da die Ableitung einer Summe nur die Summe der Derivate ist, aber die Ableitung eines Produkts das erfordert Produktregel , ist es einfacher , die stationären Punkte des Log-Likelihood von unabhängigen Ereignissen zu berechnen als für die Wahrscheinlichkeit von unabhängigen Ereignissen.
Die durch den stationären Punkt der Bewertungsfunktion definierten Gleichungen dienen als Schätzgleichungen für den Maximum-Likelihood-Schätzer.
In diesem Sinne ist der Maximum-Likelihood-Schätzer implizit definiert durch den Wert at der Umkehrfunktion , wo ist der d- dimensionale euklidische Raum . Mit dem Umkehrfunktionssatz kann gezeigt werden, dassist wohldefiniert in einer offenen Umgebung zu mit einer Wahrscheinlichkeit von eins, und ist eine konsistente Schätzung von . Als Konsequenz existiert eine Folge so dass asymptotisch fast sicher , und. [35] Ein ähnliches Ergebnis lässt sich mit dem Satz von Rolle feststellen . [36] [37]
Die zweite Ableitung bewertet zu , bekannt als Fisher-Information , bestimmt die Krümmung der Likelihood-Oberfläche, [38] und gibt damit die Genauigkeit der Schätzung an. [39]
Exponentielle Familien
Die Log-Likelihood ist auch besonders nützlich für exponentielle Verteilungsfamilien, die viele der gängigen parametrischen Wahrscheinlichkeitsverteilungen enthalten . Die Wahrscheinlichkeitsverteilungsfunktion (und damit die Wahrscheinlichkeitsfunktion) für exponentielle Familien enthält Produkte von Faktoren, die eine Potenzierung beinhalten . Der Logarithmus einer solchen Funktion ist eine Summe von Produkten, die wiederum leichter zu unterscheiden ist als die ursprüngliche Funktion.
Eine exponentielle Familie ist eine Familie, deren Wahrscheinlichkeitsdichtefunktion die Form hat (für einige Funktionen schreibt man für das innere produkt ):
Jeder dieser Terme hat eine Interpretation, [b] aber einfach von Wahrscheinlichkeit zu Wahrscheinlichkeit zu wechseln und Logarithmen zu nehmen, ergibt die Summe:
Das und entsprechen jeweils einer Änderung der Koordinaten , so dass in diesen Koordinaten die Log-Likelihood einer Exponentialfamilie durch die einfache Formel gegeben ist:
In Worten, die Log-Likelihood einer Exponentialfamilie ist das innere Produkt des natürlichen Parameters und die ausreichende Statistik , abzüglich des Normalisierungsfaktors ( Log-Partitionsfunktion ). Somit kann beispielsweise die Schätzung der maximalen Wahrscheinlichkeit berechnet werden, indem Ableitungen der ausreichenden Statistik T und der logarithmischen Partitionsfunktion A gebildet werden .
Beispiel: die Gammaverteilung
Die Gammaverteilung ist eine exponentielle Familie mit zwei Parametern, und . Die Likelihood-Funktion ist
Ermitteln der maximalen Wahrscheinlichkeitsschätzung von für einen einzelnen beobachteten Wert sieht eher abschreckend aus. Sein Logarithmus ist viel einfacher zu handhaben:
Um die Log-Likelihood zu maximieren, nehmen wir zunächst die partielle Ableitung nach:
Wenn es mehrere unabhängige Beobachtungen gibt , dann ist die gemeinsame Log-Likelihood die Summe der einzelnen Log-Likelihoods, und die Ableitung dieser Summe ist eine Summe der Ableitungen jeder einzelnen Log-Likelihood:
Um das Maximierungsverfahren für die gemeinsame Log-Likelihood abzuschließen, wird die Gleichung auf Null gesetzt und aufgelöst nach solved :
Hier bezeichnet die Maximum-Likelihood-Schätzung, und ist der Stichprobenmittelwert der Beobachtungen.
Hintergrund und Interpretation
Historische Bemerkungen
Der Begriff "Likelihood" wird im Englischen mindestens seit dem späten Mittelenglischen verwendet . [40] Seine formale Anwendung auf eine bestimmte beziehen Funktion der mathematischen Statistik wurde vorgeschlagen Ronald Fisher , [41] im Jahr 1921 veröffentlicht in zwei Forschungsarbeiten [42] und 1922. [43] Die 1921 Papier eingeführt , was heute ist ein sogenannter " Wahrscheinlichkeitsintervall"; das Papier von 1922 führte den Begriff „ Methode der maximalen Wahrscheinlichkeit “ ein. Zitat von Fischer:
[I]n 1922 schlug ich den Begriff 'Wahrscheinlichkeit' vor, da dieser in Bezug auf [den Parameter] keine Wahrscheinlichkeit ist und nicht den Gesetzen der Wahrscheinlichkeit gehorcht, während er gleichzeitig hat für das Problem der rationalen Wahl unter den möglichen Werten des [Parameters] eine ähnliche Beziehung wie die Wahrscheinlichkeit für das Problem der Vorhersage von Ereignissen in Glücksspielen. . . .Während jedoch in Bezug auf das psychologische Urteil die Wahrscheinlichkeit eine gewisse Ähnlichkeit mit der Wahrscheinlichkeit hat, sind die beiden Konzepte völlig verschieden. . . ." [44]
Das Konzept der Wahrscheinlichkeit sollte nicht mit Wahrscheinlichkeit verwechselt werden, wie es von Sir Ronald Fisher erwähnt wurde
Ich betone dies, weil trotz der Betonung, die ich immer auf den Unterschied zwischen Wahrscheinlichkeit und Wahrscheinlichkeit gelegt habe, immer noch eine Tendenz besteht, Wahrscheinlichkeit als eine Art Wahrscheinlichkeit zu behandeln. Das erste Ergebnis ist somit, dass es zwei verschiedene Maße rationalen Glaubens gibt, die für verschiedene Fälle geeignet sind. Wenn wir die Grundgesamtheit kennen, können wir unsere unvollständige Kenntnis oder Erwartung der Stichprobe in Bezug auf die Wahrscheinlichkeit ausdrücken; Wenn wir die Stichprobe kennen, können wir unser unvollständiges Wissen über die Grundgesamtheit in Form von Wahrscheinlichkeiten ausdrücken. [45]
Fishers Erfindung der statistischen Wahrscheinlichkeit war eine Reaktion auf eine frühere Form der Argumentation, die inverse Wahrscheinlichkeit genannt wird . [46] Seine Verwendung des Begriffs "Wahrscheinlichkeit" legte die Bedeutung des Begriffs in der mathematischen Statistik fest.
AWF Edwards (1972) legte die axiomatische Grundlage für die Verwendung des Log-Likelihood-Verhältnisses als Maß für die relative Unterstützung einer Hypothese gegen eine andere. Die Stützfunktion ist dann der natürliche Logarithmus der Likelihood-Funktion. Beide Begriffe werden in der Phylogenetik verwendet , wurden jedoch nicht in eine allgemeine Behandlung des Themas der statistischen Evidenz übernommen. [47]
Interpretationen unter verschiedenen Grundlagen
Unter Statistikern besteht kein Konsens darüber, was die Grundlage der Statistik sein soll. Es gibt vier Hauptparadigmen, die für die Stiftung vorgeschlagen wurden: Frequentismus , Bayesianismus , Likelihoodismus und AIC-basiert . [6] Für jede der vorgeschlagenen Grundlagen ist die Interpretation der Wahrscheinlichkeit unterschiedlich. Die vier Interpretationen werden in den folgenden Unterabschnitten beschrieben.
Frequentistische Interpretation
Bayessche Interpretation
Bei der Bayesschen Inferenz kann man zwar von der Wahrscheinlichkeit einer Aussage oder Zufallsvariablen bei einer anderen Zufallsvariablen sprechen : zum Beispiel der Wahrscheinlichkeit eines Parameterwerts oder eines statistischen Modells (siehe Marginal Likelihood ), gegebenen Daten oder anderen Beweisen, [48 ] [49] [50] [51] die Likelihood-Funktion bleibt dieselbe Einheit, mit den zusätzlichen Interpretationen von (i) einer bedingten Dichte der Daten, die dem Parameter gegeben sind (da der Parameter dann eine Zufallsvariable ist) und (ii) a Maß oder Informationsmenge, die die Daten über den Parameterwert oder sogar das Modell bringen. [48] [49] [50] [51] [52] Aufgrund der Einführung einer Wahrscheinlichkeitsstruktur in den Parameterraum oder in die Sammlung von Modellen ist es möglich, dass ein Parameterwert oder ein statistisches Modell einen großen Likelihood-Wert hat für gegebene Daten und dennoch eine geringe Wahrscheinlichkeit haben oder umgekehrt. [50] [52] Dies ist im medizinischen Kontext häufig der Fall. [53] Gemäß der Bayes-Regel kann die Wahrscheinlichkeit, wenn sie als bedingte Dichte betrachtet wird, mit der vorherigen Wahrscheinlichkeitsdichte des Parameters multipliziert und dann normalisiert werden, um eine nachfolgende Wahrscheinlichkeitsdichte zu erhalten. [48] [49] [50] [51] [52] Allgemeiner die Wahrscheinlichkeit einer unbekannten Größe eine andere unbekannte Größe gegeben ist proportional zur Wahrscheinlichkeit von gegeben . [48] [49] [50] [51] [52]
Likelihoodistische Interpretation
In der frequentistischen Statistik ist die Likelihood-Funktion selbst eine Statistik , die eine einzelne Stichprobe aus einer Grundgesamtheit zusammenfasst, deren berechneter Wert von einer Auswahl mehrerer Parameter abhängt θ 1 ... θ p , wobei p die Anzahl der Parameter in einigen bereits ausgewählten . ist statistisches Modell . Der Wert der Wahrscheinlichkeit dient als Gütefaktor für die Wahl der Parameter, und der Parametersatz mit der maximalen Wahrscheinlichkeit ist angesichts der verfügbaren Daten die beste Wahl.
Die spezifische Berechnung der Wahrscheinlichkeit ist die Wahrscheinlichkeit, mit der die beobachtete Stichprobe zugewiesen würde, unter der Annahme, dass das gewählte Modell und die Werte der verschiedenen Parameter θ eine genaue Annäherung an die Häufigkeitsverteilung der Grundgesamtheit ergeben, aus der die beobachtete Stichprobe gezogen wurde. Heuristisch macht es Sinn, dass eine gute Wahl von Parametern diejenigen ist, die der tatsächlich beobachteten Stichprobe die maximal mögliche post-hoc- Wahrscheinlichkeit verleihen. Der Satz von Wilks quantifiziert die heuristische Regel, indem er zeigt, dass die Differenz zwischen dem Logarithmus der Wahrscheinlichkeit, die durch die Parameterwerte der Schätzung erzeugt wird, und dem Logarithmus der Wahrscheinlichkeit, die durch die "wahren" (aber unbekannten) Parameterwerte der Population erzeugt wird, asymptotisch χ 2 verteilt ist .
Die Maximum-Likelihood-Schätzung jeder unabhängigen Stichprobe ist eine separate Schätzung des "wahren" Parametersatzes, der die Stichprobenpopulation beschreibt. Aufeinanderfolgende Schätzungen aus vielen unabhängigen Stichproben werden zusammen mit dem "wahren" Satz von Parameterwerten der Population irgendwo in ihrer Mitte versteckt. Die Differenz der Logarithmen der Maximum - Likelihood und benachbarte Likelihoods Parametersätze kann eine ziehen verwendet werden Vertrauensbereich auf einem Grundstück , dessen Koordinaten sind die Parameter θ 1 ... θ p . Die Region umgibt die Maximum-Likelihood-Schätzung, und alle Punkte (Parametersätze) innerhalb dieser Region unterscheiden sich höchstens in der Log-Likelihood um einen festen Wert. Die durch Wilks' Theorem gegebene χ 2 -Verteilung wandelt die Log-Likelihood-Differenzen der Region in die "Zuversicht" um, dass der "wahre" Parametersatz der Population darin liegt. Die Kunst der Wahl der festen Log-Likelihood-Differenz besteht darin, die Konfidenz akzeptabel hoch zu machen, während die Region akzeptabel klein gehalten wird (kleiner Schätzbereich).
Wenn mehr Daten beobachtet werden, anstatt sie für unabhängige Schätzungen zu verwenden, können sie mit den vorherigen Stichproben kombiniert werden, um eine einzelne kombinierte Stichprobe zu bilden, und diese große Stichprobe kann für eine neue Schätzung der maximalen Wahrscheinlichkeit verwendet werden. Wenn die Größe der kombinierten Stichprobe zunimmt, schrumpft die Größe des Likelihood-Bereichs mit derselben Konfidenz. Schließlich beträgt entweder die Größe des Konfidenzbereichs fast einen einzelnen Punkt oder die gesamte Grundgesamtheit wurde erfasst; in beiden Fällen ist der geschätzte Parametersatz im Wesentlichen der gleiche wie der Populationsparametersatz.
AIC-basierte Interpretation
Unter dem AIC- Paradigma wird die Wahrscheinlichkeit im Kontext der Informationstheorie interpretiert . [54] [55] [56]
Siehe auch
- Bayes-Faktor
- Bedingte Entropie
- Bedingte Wahrscheinlichkeit
- Empirische Wahrscheinlichkeit
- Wahrscheinlichkeitsprinzip
- Likelihood-Ratio-Test
- Likelihood-Statistiken
- Maximale Wahrscheinlichkeit
- Prinzip der maximalen Entropie
- Pseudowahrscheinlichkeit
- Punktzahl (Statistik)
Anmerkungen
- ^ Obwohl die Begriffe „ Wahrscheinlichkeit “ und „ Wahrscheinlichkeit “im allgemeinen Sprachgebrauch oft synonym verwendet werden,haben sie in der Statistik unterschiedliche Bedeutungen. Die Wahrscheinlichkeit ist eine Eigenschaft der Stichprobe, insbesondere wie wahrscheinlich es ist, eine bestimmte Stichprobe für einen bestimmten Wert der Parameter der Verteilung zu erhalten; Likelihood ist eine Eigenschaft der Parameterwerte. Siehe Valavanis, Stefan (1959). „Wahrscheinlichkeit und Wahrscheinlichkeit“. Ökonometrie: Eine Einführung in Maximum-Likelihood-Methoden . New York: McGraw-Hill. S. 24–28. OCLC 6257066 .
- ^ Siehe Exponentialfamilie § Interpretation
Verweise
- ^ Myung, In Jae (2003). „Tutorial auf Maximum Likelihood Estimation“. Zeitschrift für Mathematische Psychologie . 47 (1): 90–100. doi : 10.1016/S0022-2496(02)00028-7 .
- ^ Box, George EP ; Jenkins, Gwilym M. (1976), Time Series Analysis: Forecasting and Control , San Francisco: Holden-Day, p. 224, ISBN 0-8162-1104-3
- ^ Fisher, RA Statistische Methoden für Forscher . §1.2.
- ^ Edwards, AWF (1992). Wahrscheinlichkeit . Johns Hopkins University Press . ISBN 97805213118716.
- ^ Berger, James O.; Wolpert, Robert L. (1988). Das Likelihood-Prinzip . Hayward: Institut für Mathematische Statistik. s. 19. ISBN 0-940600-13-7.
- ^ ein b Bandyopadhyay, PS; Forster, MR, Hrsg. (2011). Philosophie der Statistik . Nordholland Publishing .
- ^ Billingsley, Patrick (1995). Wahrscheinlichkeit und Maß (Dritte Aufl.). John Wiley & Söhne . S. 422–423.
- ^ Shao, Juni (2003). Mathematische Statistik (2. Aufl.). Springer. §4.4.1.
- ^ Gouriéroux, Christian ; Monfort, Alain (1995). Statistik und ökonometrische Modelle . New York: Cambridge University Press. s. 161. ISBN 0-521-40551-3.
- ^ Mäkeläinen, Timo; Schmidt, Klaus; Styan, George PH (1981). "Über die Existenz und Eindeutigkeit der Maximum-Likelihood-Schätzung eines vektorbewerteten Parameters in Stichproben fester Größe" . Annalen der Statistik . 9 (4): 758–767. doi : 10.1214/aos/1176345516 . JSTOR 2240844 .
- ^ Mascarenhas, WF (2011). „Ein Mountain Pass Lemma und seine Auswirkungen auf die Einzigartigkeit von eingeschränkten Minimierern“. Optimierung . 60 (8–9): 1121-1159. doi : 10.1080/02331934.2010.527973 . S2CID 15896597 .
- ^ Chanda, KC (1954). „Eine Anmerkung zur Konsistenz und Maxima der Wurzeln der Wahrscheinlichkeitsgleichungen“. Biometrie . 41 (1–2): 56–61. doi : 10.2307/2333005 . JSTOR 2333005 .
- ^ Greenberg, Edward; Webster, Charles E. Jr. (1983). Fortgeschrittene Ökonometrie: Eine Brücke zur Literatur . New York: John Wiley & Söhne. S. 24–25. ISBN 0-471-09077-8.
- ^ Buse, A. (1982). „The Likelihood Ratio, Wald und Lagrange Multiplikator Tests: Eine Erläuterung“. Der amerikanische Statistiker . 36 (3a): 153–157. doi : 10.1080/00031305.1982.10482817 .
- ^ a b c d Kalbfleisch, JG (1985), Wahrscheinlichkeit und statistische Inferenz , Springer (§9.3).
- ^ Azzalini, A. (1996), Statistische Inferenz – Basierend auf der Wahrscheinlichkeit , Chapman & Hall , ISBN 9780412606502 (§1.4.2).
- ^ a b c Sprott, DA (2000), Statistische Inferenz in der Wissenschaft , Springer (Kap. 2).
- ^ Davison, AC (2008), Statistische Modelle , Cambridge University Press (§4.1.2).
- ^ Held, L.; Sabanés Bové, DS (2014), Angewandte statistische Inferenz – Wahrscheinlichkeit und Bayes , Springer (§2.1).
- ^ a b c Rossi, RJ (2018), Mathematische Statistik , Wiley , p. 267.
- ^ ein b Hudson, DJ (1971), "Interval Estimate from the Likelihood Function", Journal of the Royal Statistical Society, Series B , 33 (2): 256–262.
- ^ Pawitan, Yudi (2001). In All Likelihood: Statistische Modellierung und Inferenz mit Likelihood . Oxford University Press .
- ^ Wen Hsiang Wei. "Verallgemeinertes lineares Modell - Kursnotizen" . Taichung, Taiwan: Tunghai-Universität . S. Kapitel 5 . Abgerufen 2017-10-01 .
- ^ Amemiya, Takeshi (1985). "Konzentrierte Likelihood-Funktion" . Erweiterte Ökonometrie . Cambridge: Harvard University Press. S. 125–127 . ISBN 978-0-674-00560-0.
- ^ Davidson, Russell; MacKinnon, James G. (1993). „Konzentration der Loglikelihood-Funktion“. Schätzung und Inferenz in der Ökonometrie . New York: Oxford University Press. S. 267–269. ISBN 978-0-19-506011-9.
- ^ Gourieroux, Christian; Monfort, Alain (1995). "Konzentrierte Likelihood-Funktion" . Statistik und ökonometrische Modelle . New York: Cambridge University Press. S. 170–175. ISBN 978-0-521-40551-5.
- ^ Pickles, Andrew (1985). Eine Einführung in die Wahrscheinlichkeitsanalyse . Norwich: WH Hutchins & Söhne. S. 21–24 . ISBN 0-86094-190-6.
- ^ Bolker, Benjamin M. (2008). Ökologische Modelle und Daten in R . Princeton University Press. S. 187–189. ISBN 978-0-691-12522-0.
- ^ Aitkin, Murray (1982). "Direkte Wahrscheinlichkeitsinferenz". GLIM 82: Proceedings of the International Conference on Generalized Linear Models . Springer. S. 76–86. ISBN 0-387-90777-7.
- ^ Venzon, DJ; Moolgavkar, SH (1988). „A Method for Computing Profile-Likelihood-Based Confidence Intervals“. Zeitschrift der Royal Statistical Society . Serie C (Angewandte Statistik). 37 (1): 87–94. doi : 10.2307/2347496 . JSTOR 2347496 .
- ^ Kalbfleisch, JD; Sprott, D. A. (1973). „Marginale und bedingte Wahrscheinlichkeiten“. Sankhyā: Das indische Statistikjournal . Serie A. 35 (3): 311–328. JSTOR 25049882 .
- ^ Cox, DR (1975). "Teilwahrscheinlichkeit". Biometrie . 62 (2): 269–276. doi : 10.1093/biomet/62.2.269 . MR 0.400.509 .
- ^ Kass, Robert E.; Vos, Paul W. (1997). Geometrische Grundlagen der asymptotischen Inferenz . New York: John Wiley & Söhne. s. 14. ISBN 0-471-82668-5.
- ^ Papadopoulos, Alecos (25. September 2013). "Warum setzen wir log() immer vor das gemeinsame PDF, wenn wir MLE (Maximum Likelihood Estimation) verwenden?" . Stapelaustausch .
- ^ Foutz, Robert V. (1977). „Über die einzigartige konsistente Lösung der Wahrscheinlichkeitsgleichungen“. Zeitschrift der American Statistical Association . 72 (357): 147–148. doi : 10.1080/01621459.1977.10479926 .
- ^ Tarone, Robert E.; Grünhage, Gary (1975). „Eine Anmerkung zur Eindeutigkeit der Wurzeln der Wahrscheinlichkeitsgleichungen für vektorbewertete Parameter“. Zeitschrift der American Statistical Association . 70 (352): 903–904. doi : 10.1080/01621459.1975.10480321 .
- ^ Rai, Kamta; Van Ryzin, John (1982). „Eine Anmerkung zu einer multivariaten Version von Rolle's Theorem und Eindeutigkeit der Maximum Likelihood Roots“. Kommunikation in der Statistik . Theorie und Methoden. 11 (13): 1505–1510. doi : 10.1080/03610928208828325 .
- ^ Rao, B. Raja (1960). „Eine Formel für die Krümmung der Likelihood-Oberfläche einer Stichprobe, die aus einer Verteilung gezogen wurde, die ausreichende Statistiken zulässt“. Biometrie . 47 (1–2): 203–207. doi : 10.1093/biomet/47.1-2.203 .
- ^ Ward, Michael D.; Ahlquist, John S. (2018). Maximum Likelihood für Sozialwissenschaften: Strategien für die Analyse . Cambridge University Press . S. 25–27.
- ^ "Wahrscheinlichkeit", Kürzeres Oxford English Dictionary (2007).
- ^ Hald, A. (1999). "Über die Geschichte der maximalen Wahrscheinlichkeit in Bezug auf die inverse Wahrscheinlichkeit und die kleinsten Quadrate" . Statistische Wissenschaft . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741 .
- ^ Fisher, RA (1921). "Über den "wahrscheinlichen Fehler" eines aus einer kleinen Stichprobe abgeleiteten Korrelationskoeffizienten". Metron . 1 : 3–32.
- ^ Fisher, RA (1922). "Über die mathematischen Grundlagen der theoretischen Statistik" . Philosophische Transaktionen der Royal Society A . 222 (594–604): 309–368. Bibcode : 1922RSPTA.222..309F . doi : 10.1098/rsta.1922.0009 . JFM 48.1280.02 . JSTOR 91208 .
- ^ Klemens, Ben (2008). Modellieren mit Daten: Werkzeuge und Techniken für das wissenschaftliche Rechnen . Princeton University Press . s. 329.
- ^ Fischer, Ronald (1930). "Inverse Wahrscheinlichkeit". Mathematische Verfahren der Cambridge Philosophical Society . 26 (4): 528–535. Bibcode : 1930PCPS...26..528F . doi : 10.1017/S0305004100016297 .
- ^ Fienberg, Stephen E. (1997). „Einführung in RA Fisher über inverse Wahrscheinlichkeit und Wahrscheinlichkeit“. Statistische Wissenschaft . 12 (3): 161. doi : 10.1214/ss/1030037905 .
- ^ Royall, R. (1997). Statistische Beweise . Chapman & Halle .
- ^ a b c d I. J. Gut: Wahrscheinlichkeit und das Abwägen von Beweisen (Griffin 1950), §6.1
- ^ a b c d H. Jeffreys: Theory of Probability (3. Aufl., Oxford University Press 1983), §1.22
- ^ a b c d e E. T. Jaynes: Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft (Cambridge University Press 2003), §4.1
- ^ a b c d D. V. Lindley: Einführung in Wahrscheinlichkeit und Statistik aus Bayesianischer Sicht. Teil 1: Wahrscheinlichkeit (Cambridge University Press 1980), §1.6
- ^ a b c d A. Gelman, JB Carlin, HS Stern, DB Dunson, A. Vehtari, DB Rubin: Bayesian Data Analysis (3. Aufl., Chapman & Hall/CRC 2014), §1.3
- ^ Sox, HC; Higgins, MC; Owens, DK (2013), Medizinische Entscheidungsfindung (2. Aufl.), Wiley, Kapitel 3–4, doi : 10.1002/978118341544 , ISBN 9781118341544
- ^ Akaike, H. (1985). "Vorhersage und Entropie". In Atkinson, AC; Fienberg, SE (Hrsg.). Ein Fest der Statistik . Springer. S. 1–24.
- ^ Sakamoto, Y.; Ishiguro, M.; Kitagawa, G. (1986). Akaike Informationskriteriumsstatistik . D. Reidel . Teil I.
- ^ Burnham, KP; Anderson, DR (2002). Modellauswahl und Multimodell-Inferenz: Ein praktischer informationstheoretischer Ansatz (2. Aufl.). Springer-Verlag . Kerl. 7.
Weiterlesen
- Azzalini, Adelchi (1996). "Wahrscheinlichkeit". Statistische Inferenz basierend auf der Wahrscheinlichkeit . Chapman und Halle. S. 17–50. ISBN 0-412-60650-X.
- Boos, Dennis D.; Stefanski, LA (2013). „Wahrscheinlichkeitskonstruktion und Schätzung“. Wesentliche statistische Inferenz: Theorie und Methoden . New York: Springer. S. 27–124. doi : 10.1007/978-1-4614-4818-1_2 . ISBN 978-1-4614-4817-4.
- Edwards, AWF (1992) [1972]. Wahrscheinlichkeit (erweiterte Hrsg.). Johns Hopkins University Press . ISBN 0-8018-4443-6.
- König, Gary (1989). „Das Wahrscheinlichkeitsmodell der Inferenz“ . Vereinheitlichende politische Methodik: die Likehood-Theorie der statistischen Inferenz . Cambridge University Press. S. 59–94. ISBN 0-521-36697-6.
- Lindsey, JK (1996). "Wahrscheinlichkeit" . Parametrische statistische Inferenz . Oxford University Press. S. 69–139. ISBN 0-19-852359-9.
- Rohde, Charles A. (2014). Einführende statistische Inferenz mit der Likelihood-Funktion . Berlin: Springer. ISBN 978-3-319-10460-7.
- Royall, Richard (1997). Statistische Beweise: Ein Paradigma der Wahrscheinlichkeit . London: Chapman & Hall. ISBN 0-412-04411-0.
- Ward, Michael D. ; Ahlquist, John S. (2018). „Die Wahrscheinlichkeitsfunktion: Ein tieferer Tauchgang“ . Maximum Likelihood für Sozialwissenschaften: Strategien für die Analyse . Cambridge University Press . S. 21–28. ISBN 978-1-316-63682-4.
Externe Links
- Likelihood-Funktion bei Planetmath
- "Log-Wahrscheinlichkeit" . Statlekt .