Sunday, 23 July 2017

Listando Missing Values In Stata Forex


Bem-vindo ao Instituto de Pesquisas Digitais e Educação Stata FAQ: Como posso ver o número de valores e padrões faltantes de valores perdidos no meu arquivo de dados Às vezes, um conjunto de dados pode ter quothassesquot, isto é, valores em falta. Alguns procedimentos estatísticos, como a análise de regressão, também não funcionam, ou em tudo, em um conjunto de dados com valores faltantes. As observações com valores em falta devem ser excluídas ou os valores em falta devem ser substituídos para que um procedimento estatístico produza resultados significativos. A maioria dos programas estatísticos (incluindo SAS, SPSS e Stata) removerá automaticamente esses casos de qualquer análise que você executar (sem excluir os casos do conjunto de dados). É por isso que o quotnquot muitas vezes varia de análise para análise, mesmo que o conjunto de dados seja o mesmo. Diferentes variáveis ​​têm quantidades diferentes de dados ausentes e, portanto, alterar as variáveis ​​em um modelo altera o número de casos com dados completos em todas as variáveis ​​do modelo. Como o software deixa cair casos com valores faltantes para nós, é muito fácil abordar completamente os dados perdidos. No entanto, a presença de dados em falta pode influenciar nossos resultados, especialmente quando um conjunto de dados ou mesmo uma única variável, tem uma porcentagem elevada de valores em falta. Assim, é sempre uma boa idéia verificar um conjunto de dados para dados em falta e pensar sobre como os dados em falta podem influenciar nossas análises. Esta página mostra alguns métodos para analisar os valores em falta em um conjunto de dados, esta informação pode ser usada para tomar decisões mais bem informadas sobre como lidar com os valores em falta. Antes de começar, precisamos de alguns dados com valores em falta, o código abaixo insere um pequeno conjunto de dados no Stata e, em seguida, exibe esses dados. Em um conjunto de dados pequeno, como o abaixo, é muito fácil olhar para os dados brutos e ver onde os valores estão faltando. No entanto, quando os conjuntos de dados são amplos, precisamos de uma maneira mais sistemática de examinar nosso conjunto de dados para os valores em falta. Abaixo, mostramos algumas maneiras de fazer isso, usando os dados abaixo como exemplo. 1. Número de valores faltantes em relação ao número de valores não perdidos A primeira coisa que vamos fazer é determinar quais variáveis ​​têm muitos valores faltantes. Criamos um pequeno programa Stata chamado mdesc que conta o número de valores faltantes em variáveis ​​numéricas e de caracteres. Você pode baixar o mdesc dentro do Stata digitando findit mdesc (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso de finidit). Então você pode executar o mdesc para uma ou mais variáveis, conforme ilustrado abaixo. Agora, conhecemos o número de valores em falta em cada variável. Por exemplo, o salespric variável tem quatro valores faltantes e saltoapr tem dois valores faltantes. 2. Obtendo o número de valores faltantes por observação, também podemos observar a distribuição de valores faltantes nas observações. O código abaixo cria uma variável chamada nmis que dá o número de valores faltantes para cada observação. A função rmiss2 () usada aqui é uma extensão para a função egen rmiss (). Ele conta o número de valores em falta na lista var. Rmiss2 () aceita variáveis ​​de string e numéricas. (Stata rmiss () apenas aceita variáveis ​​numéricas.) Você pode baixar o rmiss2 () pela Internet a partir do Stata, digitando findit rmiss2 (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit ). Abaixo, nós tabulamos a variável que acabamos de criar. Olhando para a tabela de frequências, sabemos que existem quatro observações sem valores ausentes, nove observações com valores faltantes, uma observação com dois valores faltantes e uma observação com três valores faltantes. 3. Padrões de valores em falta Também podemos observar os padrões de valores em falta. Você pode fazer o download de mvpatterns pela internet a partir do Stata digitando findit mvpatterns (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). O mvpatterns de comando produz saída para todas as variáveis ​​no conjunto de dados, para os padrões de dados ausentes em um subconjunto de variáveis, uma lista de variáveis ​​pode ser incluída, por exemplo, ovalvalvalvalvalvalvalvalvalvalvnterns de mvpatterns. A saída produzida por mvpatterns é mostrada abaixo. A primeira tabela lista as variáveis, o tipo de armazenamento (tipo), o número de observações (obs), o número de valores ausentes (mv) e o rótulo variável se as variáveis ​​tiverem um. A segunda tabela contém as informações sobre o padrão de valores em falta. O primeiro bloco de colunas na saída mostra os padrões de dados ausentes. Dentro do bloco, cada variável é representada por uma coluna, um quotquot indica que os valores dessa variável estão presentes em um dado padrão de dados faltando, um quot. quot indica que eles estão faltando. As colunas seguem a mesma ordem que a lista de variáveis ​​na primeira tabela, de modo que a primeira coluna na saída abaixo representa landval. A segunda melhoria. e assim por diante. Os padrões de dados em falta estão listados na freqüência descendente, aqui o padrão de dados faltantes mais comum é o de dados completos (quotquot). A tabela também mostra o número de valores ausentes nesse padrão (mv) e o número de casos com o padrão de dados ausente (freq). Com base nas informações da segunda tabela, sabemos que há quatro observações sem valores faltantes, faltando dois casos apenas na variável salepric. E uma observação com valores faltantes na melhoria. Salepric e saltoapr. 4. Quando todas as variáveis ​​de interesse são numéricas. Os exemplos acima tudo funcionam independentemente de as variáveis ​​de interesse (ou seja, as variáveis ​​cujos padrões de dados perdidos você deseja examinar) são numéricas ou de cadeia. Quando todas as variáveis ​​que você deseja verificar por valores em falta são numéricas, podemos usar um programa chamado misschk para simplificar as etapas de examinar os dados que faltam em nosso conjunto de dados. (Nota: as variáveis ​​numéricas incluem aquelas com rótulos de valores que são strings, desde que os valores reais das variáveis ​​sejam armazenados como números.) Você pode fazer o download do misschk dentro do Stata digitando findit misschk (consulte Como posso usar o comando findit para Procure programas e obtenha ajuda adicional para obter mais informações sobre o uso de findit). Abaixo está o comando para a misschk. Nós incluímos as cinco variáveis ​​em nosso conjunto de dados na lista de variáveis ​​após o comando misschk. No entanto, poderíamos ter deixado a lista de variáveis ​​em branco (ou seja, usamos apenas misschk. Gen (miss)), se tivéssemos, a misschk teria executado usando todas as variáveis ​​em nosso conjunto de dados. A lista de variáveis ​​só é necessária se quisermos executar o misschk em apenas algumas das variáveis ​​em nosso conjunto de dados. A opção gen (miss) diz ao misschk que queremos que ele crie duas novas variáveis, ambas começando com quotmissquot. Essas duas variáveis ​​serão denominadas misspattern e missnumber. A variável misspattern indica quais dos padrões de dados faltantes que cada caso segue. O número de falta variável indica o número de valores em falta para cada caso. A saída para misschk consiste em três tabelas. A primeira tabela lista o número de valores em falta, bem como a percentagem em falta para cada variável, isto é semelhante à tabela produzida pelo mdesc na parte 1 acima. Esta tabela também contém uma coluna rotulada que atribui a cada variável um número que é usado para identificar a variável mais tarde na saída. A segunda tabela mostra a distribuição dos valores em falta. O padrão de falta é descrito usando os números variáveis ​​da primeira tabela e sublinhados (). Os números indicam quais variáveis ​​estão faltando nesse padrão, os sublinhados representam observações não faltantes. Por exemplo, a partir da segunda tabela, vemos que dois casos têm valores em falta na variável 1 (landval), mas dados completos em todas as outras variáveis ​​e que um caso está faltando dados nas variáveis ​​2, 4 e 5. A linha inferior mostra Que quatro casos não estão faltando nenhum valor (todos os sublinhados). Esta tabela mostra a mesma informação gerada na terceira parte acima, mas em um formato ligeiramente diferente. O padrão de dados ausentes para cada caso é descrito na variável misspattern. Finalmente, a terceira tabela mostra a distribuição do número de valores faltantes por caso. Esta é a mesma informação discutida acima na parte 2. O número de variáveis ​​que cada caso está faltando também está contido na variável missnumber. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Módulo de Aprendizado STATA Dados perdidos 1. Introdução Este módulo irá Explore a falta de dados no STATA, com foco em dados faltantes numéricos. Ele irá descrever como indicar a falta de dados em seus arquivos de dados brutos, bem como como os dados faltantes são tratados nos comandos lógicos STATA e instruções de atribuição. Vamos ilustrar algumas das propriedades de dados ausentes em STATA usando dados de um estudo de tempo de reação com oito assuntos indicados pelo ID da variável. E os tempos de reação dos sujeitos foram medidos em três pontos de tempo (trial1 trial2 trial3). O arquivo de dados de entrada é mostrado abaixo. Você pode notar que alguns dos tempos de reação são codificados usando um único. Como é o caso para o assunto 2. A pessoa que mede o tempo para esse teste não mediu o tempo de resposta adequadamente, portanto, os dados para o segundo julgamento estão faltando. 2. Como o STATA lida com dados faltantes nos procedimentos STATA Como regra geral, os comandos STATA que executam cálculos de qualquer tipo manipulam dados ausentes, omitiendo os valores faltantes. No entanto, a forma como os valores faltantes são omitidos nem sempre é consistente em todos os comandos, então deixe-nos dar uma olhada em alguns exemplos. Primeiro, let39s resumem nossas variáveis ​​de tempo de reação e veja como o STATA lida com os valores que faltam. Como você vê na saída abaixo, resuma os meios calculados usando 4 observações para trial1 e trial2 e 6 observações para trial3. Em resumo, o comando de resumo executou os cálculos em todos os dados disponíveis. Um segundo exemplo, mostra como o comando tabulação ou tab1 lida com os dados que faltam. Como resumir, tab1 usa apenas dados disponíveis. Observe que as porcentagens são calculadas com base no número total de casos não faltantes. É possível que você possa querer que as porcentagens sejam calculadas a partir do número total de observações, e a porcentagem em falta para cada variável mostrada na tabela. Isso pode ser alcançado incluindo a opção em falta após a tabulação. Comando, Let39s veja como o comando correlate lida com dados faltantes. Esperamos que ele execute os cálculos com base nos dados disponíveis e omita os valores em falta. Aqui está um exemplo de comando. A saída é mostrada abaixo. Observe como os valores em falta foram excluídos. O Stata executará a exclusão da lista e exibirá apenas correlação para observações que tenham valores não faltantes em todas as variáveis ​​listadas. A Stata também permite a eliminação em pares. As correlações são exibidas para as observações que possuem valores não faltantes para cada par de variáveis. Isso pode ser feito usando o comando pwcorr. Usamos a opção obs para exibir o número de observação usado para cada par, como você pode ver, eles diferem dependendo da quantidade de falta. 3. Resumo de como os valores faltantes são tratados nos procedimentos STATA resumem. Para cada variável, o número de valores não faltantes é usado. Tabulação Por padrão, os valores em falta são excluídos e as porcentagens são baseadas no número de valores não faltantes. Se você usar a opção perdida no comando tab, as porcentagens são baseadas no número total de observações (não faltando e faltando) e a porcentagem de valores faltantes é relatada na tabela. Corrente Por padrão, as correlações são calculadas com base no número de pares com dados não faltantes (emparelhamento de dados faltantes). O comando pwcorr pode ser usado para solicitar que as correlações sejam computadas apenas para observações que tenham dados não faltantes para todas as variáveis ​​listadas após o comando pwcorr (eliminação de dados faltantes). Reg Se alguma das variáveis ​​listadas após o comando reg estiver faltando, as observações que faltam esse (s) valor (es) são excluídas da análise (ou seja, a eliminação de dados faltantes). Para outros procedimentos, consulte o manual STATA para obter informações sobre como os dados em falta são tratados. 4. Valores faltantes nas declarações de atribuição É importante entender como os valores faltantes são tratados nas instruções de atribuição. Considere o exemplo mostrado abaixo. O comando da lista a seguir ilustra como os valores faltantes são tratados nas instruções de atribuição. A variável soma1 é baseada nas variáveis ​​trial1 trial2 e trial3. Se alguma dessas variáveis ​​estivesse faltando, o valor para sum1 estava definido como ausente. Portanto, a soma 1 está faltando para as observações 2, 3 e 4, como é o caso da observação 7. Como regra geral, os cálculos envolvendo valores perdidos produzem valores faltantes. Por exemplo, 2 2 produz 4 2. rendimentos . 2 2 produz 1. 2 rendimentos. 2 3 produz 6 2. rendimentos . Sempre que você adicionar, subtrair, multiplicar, dividir, etc. valores que envolvem dados ausentes, o resultado está faltando. Em nosso experimento de tempo de reação, o tempo de reação total 1 está faltando para quatro dos sete casos. Poderíamos tentar totalizar os dados para os ensaios não faltantes usando a função rowtotal como mostrado no exemplo abaixo. Os resultados abaixo mostram que sum2 agora contém a soma dos testes não faltantes. Observe que a função rowtotal trata faltando como um valor zero. Ao somar várias variáveis, pode não ser razoável tratar falta como zero se falta uma observação em todas as variáveis ​​a serem somadas. A função rowtotal com a opção ausente retornará um valor faltante se uma observação estiver faltando em todas as variáveis. Outras declarações funcionam de forma semelhante. Por exemplo, observamos o que aconteceu quando tentamos criar uma variável média sem usar uma função (como no exemplo abaixo). Se alguma das variáveis ​​trial1, trial2 ou trial3 estiver faltando, o valor para avg1 está definido como ausente. Alternativamente, a função rowmean mede os dados para os ensaios que não faltam da mesma maneira que a função rowtotal. Nota: Houve um grande número de testes, digamos 50 tentativas, então seria irritante ter que digitar avgrowmean (trial1 trial2 trial3 trial4.). Aqui está um atalho que você pode usar neste tipo de situação: Finalmente, você pode usar as funções rowmiss e rownomiss para determinar o número de falta e o número de valores não faltantes, respectivamente, em uma lista de variáveis. Isso é ilustrado abaixo. Para nomiss variável. As observações 1, 5 e 6 tinham três valores válidos, as observações 2 e 3 tinham dois valores válidos, a observação 4 tinha apenas um valor válido e a observação 7 não tinha valores válidos. A variável miss mostra o contrário, fornece uma contagem do número de valores em falta. 5. Valores em falta em declarações lógicas É importante entender como os valores em falta são tratados em declarações lógicas. Por exemplo, diga que deseja criar uma variável 01 para trial1 que seja 1 se for 1.5 ou menos e 0 se for superior a 1.5. Mostramos isso abaixo (incorretamente, como você verá). Parece que algo deu errado com a nova variável new1 da nossa nova criação. As observações com valores faltantes para trial2 receberam um zero para newvar1. Vamos explorar por que isso aconteceu olhando a tabela de freqüência do teste2. Como você pode ver na saída, os valores ausentes estão listados após o valor mais alto 2.1 Isso ocorre porque STATA trata um valor ausente como o maior valor possível (por exemplo, infinito positivo) e esse valor é maior que 2.1, então os valores para Newvar1 torna-se 0. Agora que entendemos como o STATA trata os valores faltantes, excluiremos explicitamente os valores faltantes para garantir que sejam tratados adequadamente, conforme mostrado abaixo. Como você pode ver na saída STATA abaixo, a nova variável newvar2 possui valores faltantes para observações que também estão faltando para trial2. 6. Valores em falta em declarações lógicas Ao criar ou recodificar variáveis ​​que envolvem valores em falta, sempre preste atenção se a variável inclui valores faltantes. 7. Para obter mais informações, o conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment