Wednesday 8 November 2017

Zeitreihenhandelsstrategien


Zeitreihenanalyse und Statistisches Arbitrage G63.2707, Herbst 2009 Wie analysieren wir historische Finanzdaten, um rentable und risikoarme Handelsstrategien zu entwickeln Dieser Kurs ist eine Einführung in die Zeitreihenanalyse, wie er in der Finanzwirtschaft verwendet wird, und Handelsstrategien, Seite und Sell-Side-Marktteilnehmer. Der Kurs wird grob in drei Teile unterteilt: Lineare Modelle: AR und MA für Skalar - und Vektorprozesse sowie einfache Volatilitäts - und Kovarianzschätzungen. Modellauswertung und Restanalyse. Kointegration und ihre Anwendung in der Risikomodellierung und Paarhandelsstrategien. Nichtlineare Modelle: ARCH, GARCH und allgemeinere Volatilitätsmodelle. Anwendungen: Marktmikrostruktur, Transaktionskostenmodellierung und optimale Handelsstrategien für Agentur - und Haupthandel. Instructors Lin Li, ll1084 at nyu Voraussetzungen Der Kurs richtet sich an Studierende des zweiten Studienjahres im Courant Institute MS-Programm für Mathematik in Finance. Von den Studierenden wird erwartet, dass sie eine exzellente Basis in der Finanzmathematik (Stochastische Kalkül und PDEs), einen vernünftigen Hintergrund in der Finanzierung (Portfolio-Theorie und Risikomanagement) und in der EDV, aber nicht unbedingt eine intensive Statistikkenntnis haben. Studierende mit vergleichbarer Vorbereitung können sich einschreiben, wenn Platz vorhanden ist. Etwa 5 Hausaufgaben (insgesamt 40), ein Quiz (30) und ein abschließendes Projekt (30). Referenzen Wir haben ein Klassenkonto bei Wharton Research Data Services. Anmeldeinformationen werden in der Klasse angegeben. Carol Alexander, Marktmodelle. James D. Hamilton, Zeitreihenanalyse, Princeton University Press 1994. Joel Hasbrouck, Empirical Market Microstructure, Oxford University Press 2006 (mehr Infos auf Hasbroucks Seite). Stephen J. Taylor, Asset Price Dynamics, Volatility und Prediction, Princeton University Press 2005. Ruey S. Tsay, Analyse der finanziellen Zeitreihen, 2. Auflage, Wiley 2005. Forschungsartikel werden bei Bedarf zur Verfügung gestellt. Montag Abend, 7:10 bis 9 PM in Silber 713, vom 14. September bis 7. oder 14. Dezember. (Es gibt keine Columbus Day Urlaub in diesem Jahr.) Der Zeitplan und der Umriss unten sind abhängig von der Art des Kurses abhängig Entwickelt, und auf den Lehrern reisen requests. Beginner39s Guide to Zeitreihenanalyse In den letzten Jahren weve sahen wir verschiedene Tools, um uns zu identifizieren ausnutzbare Muster in Assetpreise. Insbesondere haben wir grundlegende Ökonometrie, statistisches Maschinenlernen und Bayessche Statistik betrachtet. Dies sind zwar alle großartigen modernen Werkzeuge für die Datenanalyse, die überwiegende Mehrheit der Asset-Modellierung in der Branche immer noch Nutzung der statistischen Zeitreihe Analyse. In diesem Artikel werden wir untersuchen, welche Zeitreihe Analyse ist, umreißt seinen Umfang und lernen, wie wir die Techniken auf verschiedene Frequenzen von Finanzdaten anwenden können. Was ist Zeitreihenanalyse Zuerst wird eine Zeitreihe als eine bestimmte Menge definiert, die sequentiell in der Zeit über irgendein Intervall gemessen wird. In ihrer breitesten Form geht es bei der Zeitreihenanalyse darum, das, was mit einer Reihe von Datenpunkten in der Vergangenheit geschehen ist, zu schließen und zu versuchen, vorauszusagen, was mit der Zukunft passieren wird. Wir werden jedoch einen quantitativen statistischen Ansatz für Zeitreihen nehmen, indem wir davon ausgehen, dass unsere Zeitreihen Realisierungen von Folgen von Zufallsvariablen sind. Das heißt, wir gehen davon aus, dass es einen zugrunde liegenden Erzeugungsprozess für unsere Zeitreihen gibt, basierend auf einer oder mehreren statistischen Verteilungen, aus denen diese Variablen gezeichnet werden. Die Zeitreihenanalyse versucht, die Vergangenheit zu verstehen und die Zukunft vorauszusagen. Eine solche Sequenz von Zufallsvariablen ist als diskreter zeitlicher stochastischer Prozess (DTSP) bekannt. Im quantitativen Handel befassen wir uns mit dem Versuch, statistische Modelle an diese DTSPs anzupassen, um die zugrundeliegenden Beziehungen zwischen Reihen zu schließen oder zukünftige Werte vorherzusagen, um Handelssignale zu erzeugen. Zeitreihen im Allgemeinen, auch außerhalb der Finanzwelt, enthalten oft die folgenden Merkmale: Trends - Ein Trend ist eine konsequente Richtungsbewegung in einer Zeitreihe. Diese Trends werden entweder deterministisch oder stochastisch sein. Ersteres erlaubt uns, eine zugrundeliegende Begründung für den Trend zu liefern, während letztere ein zufälliges Merkmal einer Reihe ist, die wir kaum erklären werden. Trends zeigen sich häufig in Finanzserien, vor allem Rohstoffpreise, und viele Commodity Trader Advisor (CTA) Fonds verwenden ausgefeilte Trendidentifikationsmodelle in ihren Handelsalgorithmen. Saisonale Variation - Viele Zeitreihen enthalten saisonale Variationen. Dies gilt insbesondere für Serien, die Geschäftsverkäufe oder Klimaebenen repräsentieren. In der quantitativen Finanzierung sehen wir oft saisonale Schwankungen der Rohstoffe, insbesondere jene, die mit Jahreszeiten oder jährlichen Temperaturschwankungen (wie Erdgas) zusammenhängen. Serial Dependence - Eines der wichtigsten Merkmale der Zeitreihe, insbesondere der Finanzserien, ist die serielle Korrelation. Dies geschieht, wenn Zeitreihen-Beobachtungen, die zeitlich nahe beieinander liegen, tendenziell korreliert werden. Volatilitäts-Clustering ist ein Aspekt der seriellen Korrelation, der im quantitativen Handel besonders wichtig ist. Wie können wir die Zeitreihenanalyse in der quantitativen Finanzierung anwenden? Unser Ziel als quantitative Forscher ist es, Trends, saisonale Variationen und Korrelationen unter Verwendung statistischer Zeitreihenmethoden zu identifizieren und schließlich Handelssignale oder Filter zu generieren, die auf Schlussfolgerungen oder Vorhersagen basieren. Unser Ansatz wird sein: Prognose und Ausblick auf zukünftige Werte - Um erfolgreich zu handeln, müssen wir die zukünftigen Vermögenspreise zumindest im statistischen Sinne genau prognostizieren. Simulationsreihe - Sobald wir die statistischen Eigenschaften der finanziellen Zeitreihen identifizieren, können wir sie zur Simulation zukünftiger Szenarien nutzen. Dies ermöglicht es uns, die Anzahl der Trades, die erwarteten Handelskosten, das erwartete Renditeprofil, die technischen und finanziellen Investitionen in die Infrastruktur und damit letztendlich das Risikoprofil und die Profitabilität einer bestimmten Strategie oder eines Portfolios abzuschätzen. Schlussfolgerungen - Die Identifikation von Beziehungen zwischen Zeitreihen und anderen quantitativen Werten ermöglicht es uns, unsere Handelssignale durch Filtrationsmechanismen zu verbessern. Wenn wir beispielsweise schließen können, wie sich die Spreizung in einem Devisenpaar mit dem Bidask-Volumen ändert, können wir alle potenziellen Geschäfte filtern, die in einem Zeitraum auftreten können, in dem wir eine breite Spanne prognostizieren, um die Transaktionskosten zu senken. Darüber hinaus können wir in unseren Zeitreihenmodellen standardisierte statistische Klassifikationsstudien anwenden, um bestimmte Verhaltensweisen wie den Regimewechsel an den Aktienmärkten zu rechtfertigen. Time Series Analysis Software Bisher haben wir fast ausschließlich C und Python für unsere Trading-Strategie implementiert. Beide Sprachen sind erstklassige Umgebungen für das Schreiben eines gesamten Handelsstapels. Beide enthalten viele Bibliotheken und ermöglichen eine durchgängige Konstruktion eines Handelssystems ausschließlich innerhalb dieser Sprache. Leider besitzen C und Python keine umfangreichen statistischen Bibliotheken. Dies ist einer ihrer Mängel. Aus diesem Grund werden wir das R-statistische Umfeld als Mittel zur Durchführung von Zeitreihenforschung nutzen. R eignet sich aufgrund der Verfügbarkeit von Zeitreihenbibliotheken, statistischen Methoden und einfachen Darstellungsmöglichkeiten gut für den Job. Wir lernen R in einer problemlösenden Weise, wobei neue Befehle und Syntax bei Bedarf eingeführt werden. Glücklicherweise gibt es viele sehr nützliche Tutorials für R availabile im Internet, und ich werde sie zeigen, wie wir durch die Reihenfolge der Zeitreihe Analyse Artikel gehen. QuantStart-Zeitreihenanalyse Roadmap Bisherige Artikel zu den Themen des statistischen Lernens, der Ökonometrie und der Bayesschen Analyse waren zumeist einführend in der Natur und hielten die Anwendung solcher Techniken auf moderne, hochfrequente Preisinformationen. Um einige der oben genannten Techniken auf Daten mit höherer Frequenz anzuwenden, benötigen wir einen mathematischen Rahmen, um unsere Forschung zu vereinheitlichen. Die Zeitreihenanalyse liefert eine solche Vereinheitlichung und ermöglicht es uns, einzelne Modelle innerhalb eines statistischen Umfelds zu diskutieren. Schließlich werden wir Bayes'sche Werkzeuge und maschinelle Lernmethoden in Verbindung mit den folgenden Methoden nutzen, um Preisniveau und - richtung zu prognostizieren, als Filter zu fungieren und den Regimewechsel zu bestimmen, dh, wenn unsere Zeitreihen ihr statistisches Verhalten geändert haben. Unsere Zeitreihen-Roadmap ist wie folgt. Jedes der folgenden Themen wird einen eigenen Artikel oder eine Reihe von Artikeln. Nachdem wir diese Methoden eingehend untersucht haben, werden wir in der Lage sein, anspruchsvolle moderne Modelle für die Untersuchung hochfrequenter Daten zu erstellen. Zeitreihe Einführung - Dieser Artikel beschreibt den Bereich der Zeitreihenanalyse, seinen Anwendungsbereich und seine Anwendung auf Finanzdaten. Korrelation - Ein absolut grundlegender Aspekt der Modellierung von Zeitreihen ist das Konzept der seriellen Korrelation. Wir werden sie definieren und einen der größten Fallstricke der Zeitreihenanalyse beschreiben, nämlich dass Korrelation keine Verursachung bedeutet. Prognose - In diesem Abschnitt werden wir das Konzept der Prognose. Das Vorhersagen der zukünftigen Richtung oder des Niveaus für eine bestimmte Zeitreihe macht und wie es in der Praxis durchgeführt wird. Stochastische Modelle - Wir haben einige Zeit in Anbetracht stochastischer Modelle im Bereich der Optionen-Preisgestaltung auf der Website, nämlich mit Geometrische Brownsche Bewegung und Stochastische Volatilität. Wir werden uns auf andere Modelle, einschließlich weißes Rauschen und autoregressive Modelle. Regression - Wenn wir deterministische (im Gegensatz zu stochastischen) Trends in den Daten haben, können wir ihre Extrapolation mit Regressionsmodellen rechtfertigen. Wir betrachten sowohl lineare als auch nicht-lineare Regression und berücksichtigen die serielle Korrelation. Stationäre Modelle - Stationäre Modelle gehen davon aus, dass die statistischen Eigenschaften (dh der Mittelwert und die Varianz) der Reihe zeitlich konstant sind. Wir können Moving Average (MA) Modelle, sowie kombinieren sie mit autoregressiven Modellen zu ARMA-Modelle. Nicht stationäre Modelle - Viele finanzielle Zeitreihen sind nicht stationär, dh sie haben unterschiedliche Mittelwerte und Varianz. Insbesondere weisen Assetpreise oft Perioden hoher Volatilität auf. Für diese Serien benötigen wir nichtstationäre Modelle wie ARIMA, ARCH und GARCH. Multivariate Modellierung - Wir haben multivariate Modelle auf QuantStart in der Vergangenheit, nämlich, wenn wir Mittelwert-reverting Paaren von Aktien betrachten. In diesem Abschnitt werden wir die Kointegration rigoros definieren und weitere Tests für sie untersuchen. Wir werden auch prüfen, Vektor autoregressive (VAR) Modelle nicht mit Value-at-Risk verwechselt werden. State-Space-Modelle - State Space Modelling borgt eine lange Geschichte der modernen Steuerungstheorie, die in der Technik verwendet wird, um es uns zu ermöglichen, Zeitreihen mit schnell variierenden Parametern (wie die Beta-Slope-Variable zwischen zwei kointegrierten Assets in einer linearen Regression) zu modellieren. Insbesondere betrachten wir den berühmten Kalman-Filter und das Hidden-Markov-Modell. Dies wird eine der Hauptanwendungen der Bayesschen Analyse in Zeitreihen sein. Wie steht es mit anderen QuantStart Statistical Articles Mein Ziel mit QuantStart war schon immer zu versuchen und skizzieren die mathematischen und statistischen Rahmen für die quantitative Analyse und quantitative Handel, von den Grundlagen bis hin zu den fortgeschrittenen modernen Techniken. Bisher haben wir die Mehrheit der Zeit auf Einführungs - und Zwischentechniken verbracht. Allerdings werden wir jetzt unsere Aufmerksamkeit auf die neuesten fortgeschrittenen Techniken, die in quantitativen Firmen verwendet werden. Dies wird nicht nur helfen, diejenigen, die eine Karriere in der Branche zu gewinnen, aber es wird auch den quantitativen Einzelhändlern unter Ihnen eine viel breitere Toolkit der Methoden, sowie eine einheitliche Ansatz für den Handel. Nachdem ich zuvor in der Branche gearbeitet habe, kann ich mit Sicherheit sagen, dass ein erheblicher Teil der quantitativen Fonds-Profis sehr anspruchsvolle Techniken einsetzen, um nach Alpha zu jagen. Jedoch sind viele dieser Firmen so groß, dass sie nicht an Kapazitätsbeschränkungsstrategien interessiert sind, d. h. jene, die arent skalierbar über 1-2million USD sind. Als Einzelhändler, wenn wir ein anspruchsvolles Trading Framework auf diese Bereiche anwenden können, können wir die Rentabilität auf lange Sicht zu erreichen. Zusammen mit dem optimierten C-, R - und Python-Code können wir unsere Artikel zur Zeitreihenanalyse mit dem Bayesschen Ansatz für Hypothesentests und Modellauswahl kombinieren, um nichtlineare, nicht stationäre Zeitreihenmodelle zu produzieren, Frequenz. Nachdem sich die QSForex-Software für die Hochfrequenz-Backtesting von mehreren Währungspaaren als tragfähig erwiesen hat, haben wir ein fertiges Framework zum Testen dieser Modelle, zumindest an den Devisenmärkten. Der nächste Artikel in der Serie wird die Korrelation zu diskutieren und warum es ist einer der grundlegendsten Aspekte der Zeitreihe analysis. Forecasting Financial Time Series - Teil I In dieser Serie von Artikeln werden wir ein statistisch robustes Verfahren für die Prognose von finanziellen Zeitreihen zu erstellen . Diese Prognosen bilden die Grundlage für eine Gruppe automatisierter Handelsstrategien. Der erste Artikel in der Serie diskutieren den Modellierungsansatz und eine Gruppe von Klassifikationsalgorithmen, die es uns ermöglichen, die Marktrichtung vorherzusagen. Innerhalb dieser Artikel werden wir nutzen scikit-lernen. Eine maschinelle Lernbibliothek für Python. Scikit-Learn enthält Implementierungen vieler maschineller Lerntechniken. Dies erspart uns nicht nur viel Zeit in der Implementierung unserer eigenen, sondern minimiert das Risiko von Bugs, die durch unseren eigenen Code eingeführt werden, und ermöglicht eine zusätzliche Überprüfung gegen Bibliotheken, die in anderen Paketen wie R geschrieben sind. Das gibt uns sehr viel Wenn wir unsere eigene benutzerdefinierte Implementierung erstellen müssen (aus Gründen der Ausführungsgeschwindigkeit, sagen wir). Prozess für die Prognose Eine detaillierte Erklärung des Feldes der statistischen maschinellen Lernen ist jenseits dieses Artikels. Um Techniken wie Logistische Regression zu nutzen. Lineare Diskriminanzanalyse und Quadratische Diskriminanzanalyse müssen wir einige grundlegende Konzepte skizzieren. Betrachtete Lerntechniken Die überwachten Lerntechniken beinhalten eine Menge bekannter Tupel (xi, yi), i in, wobei xi die Prädiktorvariablen (z. B. verzögerte Aktienrenditen oder gehandeltes Volumen) und yi repräsentiert, die die zugehörigen Responseobservationsvariablen (wie die Aktie) repräsentieren Marktrückkehr heute). In dieser Situation interessieren wir uns für die Vorhersage. Bei zukünftigen Vorhersagevariablen wollen wir die Antworten dieser Prädiktoren abschätzen. Dies steht im Gegensatz zur Schlussfolgerung, wo wir mehr an der Beziehung zwischen den Variablen interessiert sind. Alle Algorithmen, die wir in diesem Artikel verwenden, zusammen mit vielen anderen, die wir in Zukunft verwenden werden, sind aus der überwachten Lerndomäne. Messung der Vorhersagegenauigkeit Die besondere Klasse von Methoden, die wir interessieren, beinhaltet binäre Klassifizierung. Das heißt, wir werden versuchen, die prozentuale Rendite für einen bestimmten Tag in zwei Buckets zuzuordnen: Up oder Down. In einem Produktionsprognostiker würden wir sehr mit der Größe dieser Vorhersage und den Abweichungen der Vorhersage vom tatsächlichen Wert beschäftigen. In solchen Fällen können wir den Mean-Squared Error nutzen. Mittlerer Absolutabweichungs - und Root-Mean-Squared-Fehler, um eine Schätzung der Prognosegenauigkeit bereitzustellen. Die Literatur bietet zahlreiche weitere Beispiele für die Prognose von Genauigkeitsmaßnahmen. In diesem Fall werden wir uns nur mit der Trefferquote befassen. Was einfach der prozentuale Anteil ist, zu dem der Prognostiker eine genaue Vorhersage erreicht hat (d. h., wenn der Tag ansteht und umgekehrt). In späteren Beispielen werden wir eine Konfusionsmatrix verwenden, um die Vorhersageleistung klassenbasiert zu bestimmen. Darüber hinaus werden wir die oben genannten Werte berechnen und in unseren Handelsforschungsprozess einfließen lassen. Prognosefaktoren Eine Prognosemethode ist nur so gut wie die Faktoren, die als Prädiktoren gewählt werden. Es gibt eine erstaunliche Zahl der möglichen Faktoren, zum von zu wählen, wenn Vorhersage Börse Indexrückkehr. In diesem Artikel werden wir die Faktoren auf Zeitverzögerungen der aktuellen Prozentsatzrenditen beschränken. Dies ist nicht, weil sie die besten Prädiktoren sind, sondern es ist, weil es einfach ist, den Prozeß der Prognose auf einem leicht erhaltenen Datensatz zu demonstrieren. Prognose Faktor Wahl ist äußerst wichtig, wenn nicht die wichtigste Komponente des Prognosters. Auch einfache maschinelle Lerntechniken werden gute Ergebnisse auf gut gewählten Faktoren zu produzieren. Beachten Sie, dass die Umkehrung nicht oft der Fall ist. Werfen Sie einen Algorithmus auf ein Problem wird in der Regel zu einer schlechten Prognose Genauigkeit. Für diesen Prognostiker habe ich speziell die ersten und zweiten Zeitverzögerungen der prozentualen Renditen als Prädiktoren für die aktuelle Börsenrichtung gewählt. Dies ist eine relativ willkürliche Wahl und es gibt viel Spielraum für Veränderungen, zum Beispiel durch Hinzufügen von zusätzlichen Verzögerungen oder des Volumens der gehandelten Aktien. Es ist im Allgemeinen besser, weniger Prädiktoren in einem Modell zu haben, obwohl es statistische Tests gibt, die die prädiktive Fähigkeit jedes Faktors nachweisen können. Prognose von SampP500 mit logistischer Regression, LDA und QDA Der SampP500 ist ein gewichteter Index der 500 größten börsennotierten Unternehmen (nach Marktkapitalisierung) am US-Aktienmarkt. Es wird oft als Aktien-Benchmark. Viele derivative Produkte existieren, um Spekulationen oder Absicherungen auf dem Index zu ermöglichen. Insbesondere ist der SampP500 E-Mini Index-Futures-Kontrakt ein äußerst liquides Mittel, um den Index zu handeln. In diesem Abschnitt werden wir drei Klassifizierer verwenden, um die Richtung des Schlusskurses am Tag N, basierend auf den am Tag N-1 bekannten Preisinformationen, vorherzusagen. Eine nach oben gerichtete Bewegung bedeutet, dass der Schlusskurs bei N höher ist als der Preis bei N-1, während eine Abwärtsbewegung einen Schlusskurs bei N niedriger als bei N-1 impliziert. Wenn wir die Bewegungsrichtung in einer Weise bestimmen können, die eine 50 Trefferquote mit einem niedrigen Fehler und einer guten statistischen Signifikanz signifikant übersteigt, dann sind wir auf dem Weg zu einer grundlegenden systematischen Handelsstrategie, die auf unseren Prognosen basiert. In diesem Stadium befassten sich nicht mit den modernsten Maschinellen Lernklassifikationsalgorithmen. Im Moment waren nur die Einführung von Konzepten und so gut beginnen die Diskussion über die Prognose mit einigen elementaren Methoden. Logistische Regression Die erste Technik, die wir betrachten, ist logistische Regression (LR). In unserem Fall werden wir LR verwenden, um die Beziehung zwischen einer binär kategorialen abhängigen Variablen (Up oder Down) und mehreren unabhängigen kontinuierlichen Variablen (den verzögerten Prozentsatzrenditen) zu messen. Das Modell liefert die Wahrscheinlichkeit, dass ein bestimmter (nachfolgender) Tag als Up oder Down kategorisiert wird. In dieser Implementierung haben wir gewählt, jeden Tag als Up zuzuweisen, wenn die Wahrscheinlichkeit 0,5 übersteigt. Wir könnten von einer anderen Schwelle Gebrauch machen, aber der Einfachheit halber habe ich 0,5 gewählt. LR verwendet die Logistikformel, um die Wahrscheinlichkeit des Erhaltens eines Aufwärtstags (YU) basierend auf den Lagfaktoren (L1, L2) zu modellieren: Die logistische Funktion wird verwendet, weil sie eine Wahrscheinlichkeit zwischen 0,1 für alle Werte von L1 und L2 liefert, Im Gegensatz zu einer linearen Regression, bei der negative Wahrscheinlichkeiten in derselben Einstellung erzeugt werden können. Um das Modell anzupassen (d. H. Die Beta-Koeffizienten zu schätzen), wird das Maximum-Likelihood-Verfahren verwendet. Zum Glück für uns wird die Implementierung der Anpassung und Vorhersage des LR-Modells von der scikit-learn-Bibliothek übernommen. Lineare Diskriminanzanalyse Die nächste verwendete Methode ist die lineare Diskriminanzanalyse (LDA). LDA unterscheidet sich von LR in, weil in LR Modell P (YUL1, L2) als eine bedingte Verteilung der Antwort Y bei den Prädiktoren Li unter Verwendung einer logistischen Funktion modelliert wird. In LDA wird die Verteilung der Li-Variablen separat modelliert, wenn Y gegeben wird und P (YUL1, L2) über den Bayes-Satz erhalten wird. Im Wesentlichen geht LDA davon aus, dass Prädiktoren aus einer multivariaten Gaußschen Verteilung gezogen werden. Nach Berechnen von Schätzungen für die Parameter dieser Verteilung können die Parameter in den Bayes-Theorem eingegeben werden, um Vorhersagen darüber zu treffen, zu welcher Klasse eine Beobachtung gehört. LDA geht davon aus, dass alle Klassen die gleiche Kovarianzmatrix haben. Ich werde nicht auf die Formeln für die Schätzung der Verteilung oder posterior Wahrscheinlichkeiten, die benötigt werden, um Vorhersagen, wie noch einmal scikit-lernen behandelt dies für uns. Quadratische Diskriminanzanalyse Quadratische Diskriminanzanalyse (QDA) ist eng mit LDA verwandt. Der wesentliche Unterschied besteht darin, dass jede Klasse nun eine eigene Kovarianzmatrix besitzen kann. QDA führt im Allgemeinen besser, wenn die Entscheidungsgrenzen nicht-linear sind. LDA führt im Allgemeinen besser, wenn es weniger Trainingsbeobachtungen gibt (d. h. wenn es erforderlich ist, die Varianz zu verringern). QDA auf der anderen Seite führt gut aus, wenn das Trainingsset groß ist (d. H. Die Varianz ist weniger von Interesse). Die Verwendung der einen oder anderen letztlich kommt auf die Bias-Varianz-Trade-off. Wie bei LR und LDA kümmert sich scikit-learn um die QDA-Implementierung, so dass wir nur Trainingsdaten für die Parameterschätzung und - vorhersage benötigen. Python Implementation Für die Umsetzung dieser Prognostiker werden wir von NumPy Gebrauch machen. Pandas und Scikit-lernen. Ive vorher ein Tutorial geschrieben, wie man diese Bibliotheken anbringt. Ive stark kommentierte den Code selbst, also sollte es einfach sein, festzustellen, was geschieht. Der erste Schritt besteht darin, die entsprechenden Module und Bibliotheken zu importieren. Waren die LogisticRegression importieren. LDA - und QDA-Klassifikatoren für diesen Prognostiker: Nachdem die Bibliotheken importiert wurden, müssen wir ein Pandas DataFrame erstellen, das die verzögerten Prozentsätze für eine vorherige Anzahl von Tagen enthält (standardmäßig auf fünf). Createlaggedseries wird ein Lager-Symbol (wie von Yahoo Finanzen erkannt) und erstellen Sie eine verzögerte DataFrame über den angegebenen Zeitraum: Die nächste Helferfunktion ist entworfen, um eine prozentuale Hitrate für jedes Modell, durch die Beseitigung von duplizierten Code zu erstellen. Es beruht auf der Tatsache, dass die logistischen Regression, LDA und QDA-Objekte haben die gleichen Methoden (passen und vorherzusagen). Die Trefferquote wird an das Terminal ausgegeben: Schließlich binden wir es zusammen mit einer Hauptfunktion. In diesem Fall würden wir versuchen, die US-Aktienmarkt-Richtung im Jahr 2005 mit Rückkehrdaten von 2001 bis 2004 zu prognostizieren: Die Ausgabe des Codes ist wie folgt: Es ist ersichtlich, dass die logistische Regression und der lineare Diskriminanz-Analysator beide in der Lage waren Gewinnen eine 56 Trefferquote. Der quadratische Diskriminanzanalysator war jedoch in der Lage, beide zu verbessern, um eine 60 Trefferrate zu erzeugen. Für den bestimmten analysierten Zeitraum ist dies wahrscheinlich aufgrund der Tatsache, dass es eine gewisse Nichtlinearität in der Beziehung zwischen den verzögerten Faktoren und der Richtung gibt, die in der linearen Analyse nicht gut erfasst ist. So gibt es Hoffnung, dass wir vielleicht in der Lage, die US-Aktienmarkt vorherzusagen. Es gibt ein paar Einschränkungen für diese Prognosemethode: Wir haben keine Form der Kreuzvalidierung verwendet, um Anpassungsfehler zu reduzieren. Ein Produktionsprognostiker würde eine solche Analyse als robust erachten. Der Prognostiker wurde nur auf Daten zwischen 2001-2004 einschließlich geschult. Neuere Aktienmarktdaten können eine wesentlich andere Prädiktionsgenauigkeit aufweisen. Wir haben tatsächlich versucht, diese Informationen auszutauschen. Insbesondere, wie würden wir tatsächlich handeln. Würden wir die US-e-mini Zukunft nutzen Wir würden von Market-On-Open (MOO) oder Market-On-Close (MOC) Bestellungen Gebrauch machen Wir müssten auch Transaktionskosten berücksichtigen. In den folgenden Artikeln werden wir diese Fragen ausführlicher behandeln. Eine Warnung zur zufälligen Prognose In diesem Abschnitt möchte ich das Problem der statistischen Signifikanz im Umgang mit Prognostikern deutlich hervorheben. Zusätzlich zu dem oben beschriebenen Prognosemodell habe ich auch eine Prognosereihe erstellt, die ausschließlich auf dem Vorzeichen von Zufallszahlen aus einer Normalnormalverteilung basiert. Beachten Sie, dass im selben Zeitraum hat es eine Prognose Hit-Rate von 53,4 produziert und doch die Methode verwendet, um die Serie zu generieren ist im Wesentlichen nicht anders als das Werfen einer Münze Beachten Sie dies, wenn Sie die Durchführung von Prognoseverfahren, wie es oft zu düster führen kann Wenn nicht berücksichtigt. In den folgenden Artikeln betrachten wir erweiterte überwachte nichtlineare Vorhersageklassifizierer wie künstliche neuronale Netze (ANN) und Unterstützungsvektormaschinen (SVM). Mit einem stabilen maschinellen Lernverfahren werden wir dann in der Lage sein, Ensemble-Methoden zu nutzen, um eine Prognosegenauigkeit und Robustheit zu erzeugen, die manchmal die der einzelnen Prognostiker übersteigen können.

No comments:

Post a Comment