ARMA Unplugged Il s'agit de la première entrée de notre série de tutoriels Unplugged, dans laquelle nous approfondissons les détails de chacun des modèles de séries chronologiques que vous connaissez déjà, en mettant en évidence les hypothèses sous-jacentes et en dirigeant les intuitions derrière eux. Dans ce numéro, nous abordons le modèle ARMA comme une pierre angulaire dans la modélisation des séries temporelles. Contrairement aux problèmes d'analyse antérieurs, nous allons commencer ici par la définition du processus ARMA, énoncer les entrées, les sorties, les paramètres, les contraintes de stabilité, les hypothèses et finalement dessiner quelques lignes directrices pour le processus de modélisation. Contexte Par définition, la moyenne mobile auto-régressive (ARMA) est un processus stochastique stationnaire constitué de sommes d'Excel autorégressif et de composantes de moyenne mobile. Alternativement, dans une formulation simple: Hypothèses Examinons de plus près la formulation. Le processus ARMA est simplement une somme pondérée des observations et chocs de sortie passés, avec peu d'hypothèses clés: Que signifient ces hypothèses? Un processus stochastique est une contrepartie d'un processus déterministe. Il décrit l'évolution d'une variable aléatoire dans le temps. Dans notre cas, la variable aléatoire est Le processus ARMA capture uniquement la corrélation sérielle (c'est-à-dire l'auto-corrélation) entre les observations. En termes simples, le processus ARMA résume les valeurs des observations passées, et non leurs valeurs au carré ou leurs logarithmes, etc. La dépendance d'ordre supérieur impose un processus différent (par exemple ARCH GARCH, modèles non linéaires, etc.). Il existe de nombreux exemples d'un processus stochastique dans lequel les valeurs passées affectent les processus actuels. Par exemple, dans un bureau de vente qui reçoit des appels d'offres sur une base continue, certains sont réalisés comme ventes-gagné, certains comme des ventes perdues, et quelques-uns ont débordé au cours du mois prochain. Par conséquent, au cours d'un mois donné, certains des cas vendus-gagnés sont des appels d'offres ou sont des ventes répétées des mois précédents. Quels sont les chocs, les innovations ou les termes d'erreur Cette question est difficile, et la réponse n'est pas moins déroutant. Pourtant, laissez-le essayer: Dans des mots simples, le terme d'erreur dans un modèle donné est un seau de catch-all pour toutes les variations que le modèle n'explique pas. Perdu encore Permet d'utiliser un exemple. Pour un processus de cours des actions, il y a peut-être des centaines de facteurs qui font baisser le niveau des prix, notamment: Dividendes et annonces divisées Rapports trimestriels sur les bénéfices Activités de fusion et acquisition (MampA) La menace de recours collectifs. Autres Un modèle, par sa conception, est une simplification d'une réalité complexe, donc tout ce que nous laissons en dehors du modèle est automatiquement regroupé dans le terme d'erreur. Le processus ARMA suppose que l'effet collectif de tous ces facteurs agit plus ou moins comme le bruit gaussien. Pourquoi s'inquiéter des chocs passés Contrairement à un modèle de régression, la survenue d'un stimulus (par exemple, un choc) peut avoir un effet sur le niveau actuel et éventuellement sur les niveaux futurs. Par exemple, un événement corporatif (par exemple l'activité de MampA) affecte le cours des actions de la société sous-jacente, mais le changement peut prendre un certain temps pour avoir son impact complet, les analystes analysant les informations disponibles et réagissant en conséquence. Cela soulève la question: ne pas les valeurs passées de la sortie ont déjà les chocs après l'information OUI, l'histoire des chocs est déjà comptabilisée dans les niveaux de sortie passé. Un modèle ARMA peut être représenté uniquement comme un modèle auto-régressif (AR) pur, mais l'exigence de stockage d'un tel système en infini. C'est la seule raison d'inclure la composante MA: économiser sur le stockage et simplifier la formulation. Encore une fois, le processus ARMA doit être stationnaire pour que la variance marginale (inconditionnelle) existe. Note: Dans ma discussion ci-dessus, je ne fais pas de distinction entre l'absence d'une racine unitaire dans l'équation caractéristique et la stationnarité du processus. Ils sont liés, mais l'absence d'une racine unitaire n'est pas une garantie de stationnarité. Cependant, la racine unitaire doit être située à l'intérieur du cercle de l'unité pour être précise. Conclusion Récapitulons ce que nous avons fait jusqu'à présent. Tout d'abord, nous avons examiné un processus stationnaire ARMA, avec sa formulation, les intrants, les hypothèses et les exigences de stockage. Ensuite, nous avons montré qu'un processus ARMA incorpore ses valeurs de sortie (auto-corrélation) et les chocs qu'il a expérimentés plus tôt dans la sortie courante. Enfin, nous avons montré que le processus stationnaire ARMA produit une série chronologique avec une moyenne et une variance stables à long terme. Dans notre analyse des données, avant de proposer un modèle ARMA, nous devrions vérifier l'hypothèse de stationnarité et les besoins en mémoire finie. Dans le cas où la série de données montre une tendance déterministe, nous devons enlever (dé-tendance) d'abord, puis utiliser les résidus pour ARMA. Dans le cas où le jeu de données présente une tendance stochastique (par exemple randonnée aléatoire) ou la saisonnalité, nous avons besoin de divertir ARIMA SARIMA. Enfin, le corrélogramme (c'est-à-dire ACF PACF) peut être utilisé pour évaluer l'exigence de mémoire du modèle, nous devrions attendre que l'ACF ou le PACF se désintègrent rapidement après quelques décalages. Si ce n'est pas le cas, cela peut être un signe de non-stationnarité ou un modèle à long terme (par exemple ARFIMA). ARIMA Prévision avec Excel et R Bonjour Aujourd'hui, je vais vous présenter une introduction au modèle ARIMA et ses composants, ainsi Comme une brève explication de la méthode Box-Jenkins de la façon dont les modèles ARIMA sont spécifiés. Enfin, j'ai créé une implémentation Excel en utilisant R, qui I8217ll vous montrer comment configurer et utiliser. Modèles de moyenne mobile autorégressive (ARMA) Le modèle de moyenne mobile autorégressive est utilisé pour la modélisation et la prévision de processus de séries temporelles stochastiques stationnaires. C'est la combinaison de deux techniques statistiques développées auparavant, les modèles Autoregressive (AR) et Moving Average (MA) et a été initialement décrit par Peter Whittle en 1951. George E. P. Box et Gwilym Jenkins ont popularisé le modèle en 1971 en spécifiant des étapes distinctes pour modéliser l'identification, l'estimation et la vérification. Ce processus sera décrit plus loin pour référence. Nous allons commencer par introduire le modèle ARMA par ses différents composants, les modèles AR et MA, puis présenter une généralisation populaire du modèle ARMA, ARIMA (moyenne mobile intégrée Autoregressive) et des étapes de prévision et de spécification du modèle. Enfin, je vais expliquer une implémentation Excel que j'ai créée et comment l'utiliser pour faire vos prévisions de séries chronologiques. Modèles autorégressifs Le modèle autorégressif est utilisé pour décrire des processus aléatoires et des processus variables dans le temps et spécifie que la variable de sortie dépend linéairement de ses valeurs précédentes. Le modèle est décrit comme: Où sont les paramètres du modèle, C est constant, et est un terme de bruit blanc. Essentiellement, ce que le modèle décrit est pour n'importe quelle valeur donnée. Il peut être expliqué par des fonctions de sa valeur précédente. Pour un modèle avec un paramètre. Est expliquée par sa valeur passée et son erreur aléatoire. Pour un modèle avec plus d'un paramètre, par exemple. est donné par. Et erreur aléatoire. Modèle de moyenne mobile Le modèle de moyenne mobile (EM) est souvent utilisé pour modéliser des séries temporelles univariées et est défini comme suit: est la moyenne des séries chronologiques. Sont les paramètres du modèle. Sont les termes d'erreur de bruit blanc. Est l'ordre du modèle de moyenne mobile. Le modèle de la moyenne mobile est une régression linéaire de la valeur actuelle de la série par rapport aux termes de la période précédente. Par exemple, un modèle MA de. Est expliquée par l'erreur courante dans la même période et la dernière valeur d'erreur. Pour un modèle d'ordre 2 (), est expliquée par les deux dernières valeurs d'erreur, et. Les termes AR () et MA () sont utilisés dans le modèle ARMA, qui sera maintenant introduit. Modèle de moyenne mobile autorégressif Les modèles de moyenne mobile autorégressive utilisent deux polynômes, AR () et MA () et décrivent un processus stochastique stationnaire. Un processus stationnaire ne change pas lorsqu'il est décalé dans le temps ou dans l'espace; par conséquent, un processus stationnaire a une moyenne et une variance constantes. Le modèle ARMA est souvent appelé en termes de ses polynômes, ARMA (). La notation du modèle est écrite: La sélection, l'estimation et la vérification du modèle est décrite par le processus de Box-Jenkins. Méthode de Box-Jenkins pour l'identification de modèle Le dessous est plus d'un aperçu de la méthode de Box-Jenkins, comme le processus réel de trouver ces valeurs peut être tout à fait accablant sans paquet statistique. La feuille Excel incluse dans cette page détermine automatiquement le modèle le mieux adapté. La première étape de la méthode de Box-Jenkins est l'identification du modèle. L'étape comprend l'identification de la saisonnalité, la différenciation si nécessaire et la détermination de l'ordre de, et en traçant les fonctions d'autocorrélation et d'autocorrélation partielle. Une fois le modèle identifié, l'étape suivante consiste à estimer les paramètres. L'estimation des paramètres utilise des paquets statistiques et des algorithmes de calcul pour trouver les meilleurs paramètres d'ajustement. Une fois les paramètres sélectionnés, la dernière étape consiste à vérifier le modèle. La vérification du modèle se fait en testant pour voir si le modèle est conforme à une série temporelle stationnaire univariée. On doit également vérifier que les résidus sont indépendants les uns des autres et qu'ils présentent une moyenne et une variance constantes dans le temps, ce qui peut se faire en effectuant un test de Ljung-Box ou encore en traçant l'autocorrélation et l'autocorrélation partielle des résidus. Notez que la première étape consiste à vérifier la saisonnalité. Si les données avec lesquelles vous travaillez contiennent des tendances saisonnières, vous devez 8220différence8221 afin de rendre les données stationnaires. Cette étape de différenciation généralise le modèle ARMA en un modèle ARIMA, ou moyenne mobile auto-régressive, où 8216Intégré 8217 correspond à l'étape de différenciation. Modèles de moyenne mobile intégrée Autoregressive Le modèle ARIMA a trois paramètres. Afin de définir le modèle ARMA pour inclure le terme de différenciation, nous commençons par réarranger le modèle ARMA standard pour séparer de la sommation. Où se trouve l 'opérateur de retard et. Sont des paramètres autorégressifs et de moyenne mobile, et les termes d'erreur, respectivement. Nous faisons maintenant l'hypothèse du premier polynôme de la fonction, a une racine unitaire de la multiplicité. Nous pouvons ensuite le réécrire de la façon suivante: Le modèle ARIMA exprime la factorisation polynomiale avec et nous donne: Enfin, nous généralisons le modèle en ajoutant un terme de dérive, qui définit le modèle ARIMA comme ARIMA () avec dérive. Avec le modèle maintenant défini, nous pouvons voir le modèle ARIMA comme deux parties distinctes, l'une non stationnaire et l'autre stationnaire de sens large (la distribution de probabilité conjointe ne change pas lorsqu'elle est décalée dans le temps ou dans l'espace). Le modèle non stationnaire: Le modèle stationnaire à sens large: On peut maintenant faire des prévisions sur l'utilisation d'une méthode de prévision généralisée autorégressive. Maintenant que nous avons discuté des modèles ARMA et ARIMA, nous examinons maintenant comment pouvons-nous les utiliser dans les applications pratiques pour fournir des prévisions. Ive a construit une mise en œuvre avec Excel en utilisant R pour faire des prévisions ARIMA ainsi qu'une option pour exécuter la simulation Monte Carlo sur le modèle pour déterminer la probabilité des prévisions. Mise en œuvre d'Excel et comment utiliser Avant d'utiliser la feuille, vous devez télécharger R et RExcel à partir du site Web Statconn. Si vous avez déjà installé R, vous pouvez simplement télécharger RExcel. Si vous n'avez pas R installé, vous pouvez télécharger RAndFriends qui contient la dernière version de R et RExcel. Veuillez noter que RExcel ne fonctionne que sur 32 bits Excel pour sa licence non commerciale. Si vous avez 64 bits Excel installé, vous devrez obtenir une licence commerciale de Statconn. Il est recommandé de télécharger RAndFriends car il fait pour l'installation la plus rapide et la plus simple cependant, si vous avez déjà R et que vous souhaitez l'installer manuellement, suivez les étapes suivantes. Installation manuelle de RExcel Pour installer RExcel et les autres packages pour faire fonctionner R dans Excel, ouvrez d'abord R en tant qu'administrateur en cliquant avec le bouton droit de la souris sur le fichier. exe. Dans la console R, installez RExcel en tapant les instructions suivantes: Les commandes ci-dessus installeront RExcel sur votre machine. L'étape suivante consiste à installer rcom, qui est un autre package de Statconn pour le package RExcel. Pour l'installer, tapez les commandes suivantes, qui installeront également automatiquement rscproxy à partir de la version R 2.8.0. Avec ces paquets installés, vous pouvez passer à la configuration de la connexion entre R et Excel. Bien qu'il ne soit pas nécessaire à l'installation, un paquet pratique à télécharger est Rcmdr, développé par John Fox. Rcmdr crée des menus R qui peuvent devenir des menus dans Excel. Cette fonctionnalité est fournie par défaut avec l'installation de RAndFriends et rend plusieurs commandes R disponibles dans Excel. Tapez les commandes suivantes dans R pour installer Rcmdr. Nous pouvons créer le lien vers R et Excel. Notez que dans les versions récentes de RExcel, cette connexion est faite avec un simple double-clic du fichier. bat fourni. ActivateRExcel2010, donc vous devrez suivre ces étapes uniquement si vous avez installé manuellement R et RExcel ou si pour une raison quelconque la connexion n'est pas faite pendant L'installation de RAndFriends. Créer la connexion entre R et Excel Ouvrez un nouveau livre dans Excel et accédez à l'écran des options. Cliquez sur Options, puis sur Compléments. Vous devriez voir une liste de tous les compléments actifs et inactifs que vous avez actuellement. Cliquez sur le bouton Aller en bas. Dans la boîte de dialogue Compléments, vous verrez toutes les références de compléments que vous avez apportées. Cliquez sur Parcourir. Accédez au dossier RExcel, généralement situé dans C: Program FilesRExcelxls ou quelque chose de similaire. Recherchez le complément RExcel. xla et cliquez dessus. L'étape suivante consiste à créer une référence pour que les macros utilisant R fonctionnent correctement. Dans votre document Excel, entrez Alt F11. Cela ouvrira Excels VBA éditeur. Allez dans Tools - gt References et trouvez la référence RExcel, RExcelVBAlib. RExcel devrait maintenant être prêt à utiliser Utilisation de la feuille Excel Maintenant que R et RExcel sont correctement configurés, il est temps de faire des prévisions Ouvrez la feuille de prévision et cliquez sur Charger le serveur. Il s'agit de démarrer le serveur RCom et de charger également les fonctions nécessaires à la prévision. Une boîte de dialogue s'affiche. Sélectionnez le fichier itall. R inclus avec la feuille. Ce fichier contient les fonctions utilisées par l'outil de prévision. La plupart des fonctions contenues ont été développées par le Professeur Stoffer à l'Université de Pittsburgh. Ils étendent les capacités de R et nous donnent des graphiques de diagnostic utiles ainsi que nos résultats de prévision. Il existe également une fonction permettant de déterminer automatiquement les meilleurs paramètres d'ajustement du modèle ARIMA. Une fois le serveur chargé, saisissez vos données dans la colonne Données. Sélectionnez la plage de données, cliquez avec le bouton droit de la souris et sélectionnez Nom Range. Nommez la plage en tant que données. Ensuite, réglez la fréquence de vos données dans la cellule C6. La fréquence désigne les périodes de temps de vos données. Si elle est hebdomadaire, la fréquence serait 7. Mensuelle serait de 12 alors que trimestrielle serait de 4, et ainsi de suite. Entrez les périodes à prévoir. Notez que les modèles ARIMA deviennent très imprécis après plusieurs prévisions de fréquence successives. Une bonne règle empirique est de ne pas dépasser 30 étapes comme quoi que ce soit passé qui pourrait être peu fiable. Cela dépend de la taille de votre ensemble de données ainsi. Si vous disposez de données limitées, il est recommandé de choisir un nombre d'étapes plus petit. Après avoir saisi vos données, l'avoir nommé et défini la fréquence et les étapes souhaitées en prévision, cliquez sur Exécuter. Cela peut prendre un certain temps pour la prévision à traiter. Une fois qu'il est terminé, vous obtiendrez des valeurs prédites sur le nombre que vous avez spécifié, l'erreur standard des résultats et deux graphiques. La gauche correspond aux valeurs prédites tracées avec les données, tandis que la droite contient des diagnostics pratiques comportant des résidus standardisés, l'autocorrélation des résidus, un graphique gg des résidus et un graphique statistique de Ljung-Box pour déterminer si le modèle est bien adapté. Je n'arriverai pas à trop de détails sur la façon dont vous recherchez un modèle bien équipé, mais sur le graphique ACF vous ne voulez pas (ou beaucoup) des pointes de retard traversant la ligne bleue pointillée. Sur le graphique gg, plus les cercles qui passent par la ligne, le plus normalisé et mieux adapté le modèle est. Pour les ensembles de données plus volumineux, cela pourrait traverser beaucoup de cercles. Enfin, le test de Ljung-Box est un article en lui-même, cependant, plus les cercles sont au-dessus de la ligne bleue pointillée, meilleur est le modèle. Si le résultat du diagnostic ne semble pas bon, vous pouvez essayer d'ajouter plus de données ou de démarrer à un point différent de la plage que vous souhaitez prévoir. Vous pouvez facilement effacer les résultats générés en cliquant sur le bouton Effacer les valeurs prévues. Et thats it Actuellement, la colonne date ne fait rien d'autre que pour votre référence, mais ce n'est pas nécessaire pour l'outil. Si je trouve le temps, je vais revenir en arrière et ajouter que si le graphique affiché montre l'heure correcte. Vous pouvez également recevoir une erreur lors de l'exécution de la prévision. Cela est généralement dû à la fonction qui trouve les meilleurs paramètres est incapable de déterminer l'ordre approprié. Vous pouvez suivre les étapes ci-dessus pour essayer de mieux organiser vos données pour que la fonction fonctionne. J'espère que vous obtenez l'utilisation de l'outil Sa m'a sauvé beaucoup de temps au travail, comme maintenant tout ce que j'ai à faire est d'entrer les données, charger le serveur et l'exécuter. J'espère également que cela vous montre comment awesome R peut être, surtout lorsqu'il est utilisé avec un front-end comme Excel. Code, feuille de calcul Excel et fichier. bas sont également sur GitHub ici.
No comments:
Post a Comment