Análise de regressão 13 Para encontrar o erro padrão da estimativa, tomamos a soma de todos os termos residuais quadrados e dividimos por (n - 2), e depois tomamos a raiz quadrada do resultado. Neste caso, a soma dos resíduos quadrados é de 0.090.160.642.250.04 3.18. Com cinco observações, n - 2 3 e SEE (3.18 / 3) 1/2 1.03. O cálculo do erro padrão é relativamente semelhante ao do desvio padrão para uma amostra (n - 2 é usado em vez de n - 1). Dá alguma indicação da qualidade preditiva de um modelo de regressão, com números mais baixos da SEE indicando que previsões mais precisas são possíveis. No entanto, a medida de erro padrão não indica até que ponto a variável independente explica variações no modelo dependente. Coeficiente de determinação Como o erro padrão, essa estatística fornece uma indicação de quão bem um modelo de regressão linear serve como um estimador de valores para a variável dependente. Ele funciona medindo a fração da variação total da variável dependente que pode ser explicada pela variação na variável independente. Neste contexto, a variação total é composta por duas frações: Variação total explicada variação variação não explicada variação total variação total O coeficiente de determinação. ou explicou a variação como uma porcentagem da variação total, é o primeiro desses dois termos. Às vezes é expresso como 1 - (variação inexplicada / variação total). Para uma regressão linear simples com uma variável independente, o método simples para calcular o coeficiente de determinação é quadrar o coeficiente de correlação entre as variáveis dependentes e independentes. Como o coeficiente de correlação é dado por r, o coeficiente de determinação é popularmente conhecido como R 2 ou R ao quadrado. Por exemplo, se o coeficiente de correlação é 0,76, o R-quadrado é (0,76) 2 0,578. Termos de R-quadrado são geralmente expressos como porcentagens, portanto, 0,578 seria 57,8. Um segundo método de calcular esse número seria encontrar a variação total na variável dependente Y como a soma dos desvios quadrados da média da amostra. Em seguida, calcule o erro padrão da estimativa seguindo o processo descrito na seção anterior. O coeficiente de determinação é então calculado por (variação total em Y - variação inexplicada em Y) / variação total em Y. Este segundo método é necessário para regressões múltiplas, onde há mais de uma variável independente, mas para nosso contexto seremos forneceu o r (coeficiente de correlação) para calcular um R ao quadrado. O que R 2 nos diz são as mudanças na variável dependente Y que são explicadas pelas mudanças na variável independente X. R 2 de 57,8 diz que 57,8 das mudanças em Y resultam de X isso também significa que 1 - 57,8 ou 42,2 as mudanças em Y são inexplicáveis por X e são o resultado de outros fatores. Então, quanto maior o R-quadrado, melhor a natureza preditiva do modelo de regressão linear. Coeficientes de regressão Para qualquer um dos coeficientes de regressão (intercepto a, ou declive b), um intervalo de confiança pode ser determinado com a seguinte informação: 13 Um valor de parâmetro estimado de uma amostra 13 Erro padrão da estimativa (SEE) 13 Nível de significância para t - distribuição 13 Graus de liberdade (que é o tamanho da amostra - 2) 13 Para um coeficiente de inclinação, a fórmula para o intervalo de confiança é dada por btc SEE, onde tc é o valor t crítico em nosso nível significativo escolhido. Para ilustrar, faça uma regressão linear com retornos de fundos mútuos como a variável dependente e o índice SampP 500 como a variável independente. Para cinco anos de retornos trimestrais, o coeficiente de inclinação b é de 1,18, com um erro padrão da estimativa de 0,147. A distribuição t de estudantes para 18 graus de liberdade (20 quartos - 2) a um nível de significância de 0,05 é de 2,101. Esses dados nos dão um intervalo de confiança de 1,18 (0,147) (2,101), ou um intervalo de 0,87 a 1,49. Nossa interpretação é que há apenas uma chance de que a inclinação da população seja menor que 0,87 ou maior que 1,49 - estamos 95 confiantes de que esse fundo é pelo menos 87 tão volátil quanto o SampP 500, mas não mais do que 149 volátil, com base em nossa amostra de cinco anos. Teste de hipóteses e coeficientes de regressão Os coeficientes de regressão são frequentemente testados usando o procedimento de teste de hipóteses. Dependendo do que o analista pretende provar, podemos testar um coeficiente de inclinação para determinar se ele explica as chances na variável dependente e até que ponto explica as mudanças. Os betas (coeficientes de inclinação) podem ser determinados acima ou abaixo de 1 (mais voláteis ou menos voláteis que o mercado). O alfas (o coeficiente de intercepção) pode ser testado numa regressão entre um fundo mútuo e o índice de mercado relevante para determinar se existe evidência de um alfa suficientemente positivo (sugerindo valor acrescentado pelo gestor do fundo). A mecânica do teste de hipóteses é semelhante aos exemplos que usamos anteriormente. Uma hipótese nula é escolhida com base em um valor não igual a, maior que ou menor que, com a alternativa satisfazendo todos os valores não cobertos no caso nulo. Suponha, em nosso exemplo anterior, onde regredimos um retorno de fundos mútuos no SampP 500 por 20 trimestres, nossa hipótese é que esse fundo mútuo é mais volátil do que o mercado. Um fundo igual em volatilidade ao mercado terá a inclinação b de 1,0, portanto, para este teste de hipótese, declaramos a hipótese nula (H 0) como o caso em que a inclinação é menor ou maior que 1,0 (isto é, H 0: b l 1,0 ). A hipótese alternativa H a tem b gt 1.0. Sabemos que este é um caso maior do que o caso (ie unicaudal) - se assumirmos um nível de significância de 0,05, t é igual a 1,734 em graus de liberdade n - 2 18. Exemplo: Interpretando um Teste de Hipótese De nossa amostra, tinha estimado b de 1,18 e erro padrão de 0,147. Nossa estatística de teste é calculada com esta fórmula: coeficiente estimado - coeficiente hipotético. / erro padrão (1,18 - 1,0) / 0,147 0,18 / 0,147, ou t 1,224. Para este exemplo, nossa estatística de teste calculada está abaixo do nível de rejeição de 1.734, portanto, não podemos rejeitar a hipótese nula de que o fundo é mais volátil do que o mercado. Interpretação: a hipótese de que b gt 1 para este fundo provavelmente precisa de mais observações (graus de liberdade) para ser comprovada com significância estatística. Além disso, com 1,18 apenas ligeiramente acima de 1,0, é bem possível que esse fundo não seja tão volátil quanto o mercado, e estávamos corretos em não rejeitar a hipótese nula. Exemplo: Interpretando um coeficiente de regressão É provável que o exame CFA forneça as estatísticas resumidas de uma regressão linear e peça interpretação. Para ilustrar, assuma as seguintes estatísticas para uma regressão entre um fundo de crescimento small cap e o índice Russell 2000: 13 Coeficiente de correlação 13 As duas abreviações a serem entendidas são RSS e SSE: 13 RSS. ou a soma de regressão de quadrados, é a quantidade de variação total na variável dependente Y que é explicada na equação de regressão. O RSS é calculado calculando cada desvio entre um valor Y previsto e o valor Y médio, enquadrando o desvio e somando todos os termos. Se uma variável independente não explica nenhuma das variações em uma variável dependente, então os valores previstos de Y são iguais ao valor médio e RSS 0. 13 SSE. ou a soma do erro quadrado dos resíduos, é calculada encontrando o desvio entre um Y previsto e um Y real, quadrando o resultado e somando todos os termos. 13 TSS, ou variação total, é a soma de RSS e SSE. Em outras palavras, esse processo ANOVA divide a variação em duas partes: uma explicada pelo modelo e outra não. Essencialmente, para uma equação de regressão ter alta qualidade preditiva, precisamos ver um RSS alto e um SSE baixo, o que tornará a proporção (RSS / 1) / SSE / (n - 2) alta e (com base em uma comparação com um valor F crítico) estatisticamente significativo. O valor crítico é retirado da distribuição F e é baseado em graus de liberdade. Por exemplo, com 20 observações, os graus de liberdade seriam n - 2, ou 18, resultando em um valor crítico (da tabela) de 2,19. Se RSS fosse 2.5 e SSE fosse 1.8, então a estatística de teste seria F (2.5 / (1.8 / 18) 25, que está acima do valor crítico, o que indica que a equação de regressão tem qualidade preditiva (b é diferente de 0) Estimando Estatísticas Econômicas com Modelos de Regressão Modelos de regressão são freqüentemente usados para estimar estatísticas econômicas tais como inflação e crescimento do PIB, assumindo a seguinte regressão entre inflação anual estimada (X, ou variável independente) e o número real (Y, ou variável dependente) Usando este modelo, o número de inflação previsto seria calculado com base no modelo para os seguintes cenários de inflação: 13 Estimativa de inflação 13 Inflação baseada no modelo 13 As previsões baseadas neste modelo parecem funcionar melhor para estimativas de inflação típicas, e sugerem que extremos as estimativas tendem a superestimar a inflação - por exemplo, uma inflação real de apenas 4,46 quando a estimativa era de 4,7. O modelo parece sugerir que as estimativas são altamente previsíveis. e. Porém, para avaliar melhor esse modelo, precisaríamos ver o erro padrão e o número de observações nas quais ele se baseia. Se soubermos o verdadeiro valor dos parâmetros de regressão (declive e intercepto), a variância de qualquer valor Y previsto seria igual ao quadrado do erro padrão. Na prática, devemos estimar os parâmetros de regressão, portanto, nosso valor previsto para Y é uma estimativa baseada em um modelo estimado. Quão confiantes podemos estar em tal processo? Para determinar um intervalo de previsão, use os seguintes passos: 1. Preveja o valor da variável dependente Y com base na observação independente X. 2. Calcule a variância do erro de predição, usando o a seguinte equação: 13 Onde: s 2 é o erro padrão quadrado da estimativa, n é o número de observações, X é o valor da variável independente usada para fazer a predição, X é o valor médio estimado da variável independente e sx 2 é a variância de X. 3. Escolha um nível de significância para o intervalo de confiança. 4. Construa um intervalo com (1 -) por cento de confiança, usando a estrutura Y t c s f. Aqui está outro caso em que o material se torna muito mais técnico do que o necessário e pode-se atolar na preparação, quando na realidade a fórmula para a variação de um erro de previsão provavelmente não será coberta. Priorize - não esbanje preciosas horas de estudo memorizando-o. Se o conceito for testado, você provavelmente receberá a resposta para a Parte 2. Simplesmente saiba como usar a estrutura da Parte 4 para responder a uma pergunta. Por exemplo, se a observação X prevista for 2 para a regressão Y 1,5 a 2,5X, teríamos um Y previsto de 1,5 a 2,5 (2) ou 6,5. Nosso intervalo de confiança é de 6,5 t c s f. O t-stat é baseado em um intervalo de confiança escolhido e graus de liberdade, enquanto sf é a raiz quadrada da equação acima (para a variância do erro de predição. Se estes números são tc 2.10 para 95 de confiança, e sf 0.443, o intervalo é 6,5 (2,1) (0,443), ou 5,57 a 7,43 Limitações da Análise de Regressão Concentre-se em três limitações principais: 1. Instabilidade de Parâmetro - Esta é a tendência de as relações entre variáveis mudarem ao longo do tempo devido a mudanças na economia ou nos mercados. Entre outras incertezas: se um fundo mútuo produziu um histórico de retorno em um mercado onde a tecnologia era um setor de liderança, o modelo pode não funcionar quando os mercados estrangeiros e de baixa capitalização são líderes. 2. Divulgação pública do relacionamento - Em um mercado eficiente Isso pode limitar a eficácia desse relacionamento em períodos futuros, por exemplo, a descoberta de que os baixos valores de preço para valor contábil superam o alto valor de preço para o valor contábil significa que esses estoques podem ser lances mais altos e baseados em valor. As abordagens de investimento não manterão o mesmo relacionamento que no passado. 3. Violação de relações de regressão - Anteriormente, resumimos os seis pressupostos clássicos de uma regressão linear. No mundo real, estas suposições são frequentemente irrealistas - por ex. supondo que a variável independente X não é aleatória. Regressão O que é Regressão é uma medida estatística usada em finanças, investimentos e outras disciplinas que tenta determinar a força da relação entre uma variável dependente (geralmente denotada por Y) e uma série de outras variáveis. variáveis variáveis (conhecidas como variáveis independentes). A regressão ajuda os gestores de investimento e financeiros a avaliar os ativos e a entender as relações entre variáveis, como os preços das commodities e os estoques de empresas que negociam nessas commodities. Carregando o jogador. Regressão Os dois tipos básicos de regressão são a regressão linear e a regressão linear múltipla, embora existam métodos de regressão não linear para dados e análises mais complicados. A regressão linear usa uma variável independente para explicar ou prever o resultado da variável dependente Y, enquanto a regressão múltipla usa duas ou mais variáveis independentes para prever o resultado. A regressão pode ajudar os profissionais de finanças e investimentos, bem como profissionais de outros negócios. A regressão pode ajudar a prever as vendas de uma empresa com base no clima, nas vendas anteriores, no crescimento do PIB ou em outras condições. O modelo de precificação de ativos de capital (CAPM, capital asset pricing model) é um modelo de regressão usado com frequência para financiar ativos de precificação e descobrir custos de capital. A forma geral de cada tipo de regressão é: Regressão Linear: Y a bX u Y a variável que você está tentando prever (variável dependente) X a variável que você está usando para predizer Y (variável independente) a interceptar a regressão Regressão residual leva um grupo de variáveis aleatórias. pensado para prever Y, e tenta encontrar uma relação matemática entre eles. Essa relação é tipicamente na forma de uma linha reta (regressão linear) que melhor se aproxima de todos os pontos de dados individuais. Na regressão múltipla, as variáveis separadas são diferenciadas usando números com subscrito. Regressão na Regressão de Investimento é freqüentemente usada para determinar quantos fatores específicos, como o preço de uma commodity, as taxas de juros. indústrias ou setores específicos influenciam o movimento de preço de um ativo. O CAPM acima mencionado é baseado em regressão, e é utilizado para projetar os retornos esperados para as ações e para gerar custos de capital. Os retornos das ações são regredidos em relação aos retornos de um índice mais amplo, como o SP 500, para gerar um beta para o estoque específico. Beta é o risco das ações em relação ao mercado ou índice e é refletido como a inclinação no modelo CAPM. O retorno esperado para a ação em questão seria a variável dependente Y, enquanto a variável independente X seria o prêmio de risco de mercado. Variáveis adicionais, como a capitalização de mercado de um estoque, índices de avaliação e retornos recentes, podem ser adicionados ao modelo CAPM para obter melhores estimativas de retornos. Esses fatores adicionais são conhecidos como fatores Fama-franceses, nomeados em homenagem aos professores que desenvolveram o modelo de regressão linear múltipla para explicar melhor os retornos dos ativos. Bem-vindo ao Instituto de Pesquisa Digital e Regressão Educacional com SAS Capítulo 5: Sistemas de codificação adicionais para variáveis categóricas na análise de regressão Capítulo Outline 5.1 Codificação Simples 5.2 Codificação Forward Difference 5.3 Codificação Backward 5.4 Codificação Helmert 5.5 Codificação Helmert Reversa 5.6 Codificação de Desvio 5.7 Codificação Polinomial Ortogonal 5.8 Codificação Definida pelo Usuário 5.9 Resumo Variáveis categóricas requerem atenção especial na análise de regressão porque, diferentemente de dicotômica ou variáveis contínuas, eles não podem entrar na equação de regressão exatamente como eles são. Por exemplo, se você tiver uma variável chamada race que é codificada como 1 hispânico, 2 asiático 3 preto 4 branco, então, ao entrar na corrida, sua regressão examinará o efeito linear da corrida, que provavelmente não é o que você pretendia. Em vez disso, variáveis categóricas como essa precisam ser recodificadas em uma série de variáveis que podem ser inseridas no modelo de regressão. Há uma variedade de sistemas de codificação que podem ser usados ao codificar variáveis categóricas. Idealmente, você escolheria um sistema de codificação que refletisse as comparações que você deseja fazer. No Capítulo 3 da Regressão com o SAS Web Book, abordamos o uso de variáveis categóricas na análise de regressão com foco no uso de variáveis dummy, mas esse não é o único esquema de codificação que você pode usar. Por exemplo, você pode querer comparar cada nível com o próximo nível superior, caso em que você gostaria de usar a codificação de diferença entre aspas, ou você pode querer comparar cada nível com a média dos níveis subseqüentes da variável, caso em que você gostaria de usar a codificação "Homelert". Ao escolher deliberadamente um sistema de codificação, você pode obter comparações que sejam mais significativas para testar suas hipóteses. Independentemente do sistema de codificação escolhido, o teste do efeito geral da variável categórica (ou seja, o efeito geral da corrida) permanecerá o mesmo. Abaixo está uma tabela listando vários tipos de contrastes e a comparação que eles fazem. Nome do contraste Compara cada nível de uma variável com o nível de referência Níveis adjacentes de uma variável (cada nível menos o próximo nível) Níveis adjacentes de uma variável (cada nível menos o nível anterior) Compare os níveis de uma variável com a média da subseqüente Níveis da variável Compara os níveis de uma variável com a média dos níveis anteriores da variável Compara os desvios da grande média Contratos polinomiais ortogonais Há algumas notas a serem feitas sobre os sistemas de codificação listados acima. A primeira é que eles representam comparações planejadas e não comparações post hoc. Em outras palavras, são comparações que você planeja fazer antes de começar a analisar seus dados, e não comparações nas quais você pensa depois de ter visto os resultados das análises preliminares. Além disso, algumas formas de codificação fazem mais sentido com variáveis categóricas ordinais do que com variáveis categóricas nominais. Abaixo, mostraremos exemplos usando race como variável categórica, que é uma variável nominal. Como codificação de efeito simples compara a média da variável dependente para cada nível da variável categórica com a média da variável dependente para o nível de referência, faz sentido com uma variável nominal. No entanto, pode não fazer tanto sentido usar um esquema de codificação que testa o efeito linear da corrida. Como descrevemos cada tipo de sistema de codificação, notamos os sistemas de codificação com os quais não faz tanto sentido usar uma variável nominal. Além disso, você pode perceber que seguimos várias regras ao criar os esquemas de codificação de contraste. Para obter mais informações sobre essas regras, consulte a seção sobre codificação definida pelo usuário. Esta página ilustrará duas maneiras pelas quais você pode conduzir análises usando esses esquemas de codificação: 1) usando proc glm com instruções de estimativa para definir coeficientes quotcontrastquot que especificam níveis da variável categórica que devem ser comparados, e 2) usando proc reg. Ao usar proc reg para fazer contrastes, primeiro você precisa criar novas variáveis k-1 (onde k é o número de níveis da variável categórica) e usar essas novas variáveis como preditores em seu modelo de regressão. O método 1 usa um tipo de codificação que chamaremos de codificação porcontraste, enquanto o método 2 usa um tipo de codificação que chamaremos de codificação por regressão. O arquivo de dados de exemplo Os exemplos nesta página usarão o conjunto de dados chamado hsb2.sas7bdat e focaremos na variável variável categórica. que tem quatro níveis (1 hispânico, 2 asiático, 3 afro-americanos e 4 brancos) e usaremos a escrita como nossa variável dependente. Embora nosso exemplo use uma variável com quatro níveis, esses sistemas de codificação trabalham com variáveis que têm mais ou menos categorias. Não importa qual sistema de codificação você selecione, você sempre terá menos uma variável recodificada do que os níveis da variável original. Em nosso exemplo, nossa variável categórica tem quatro níveis, portanto, teremos três novas variáveis (uma variável correspondente ao nível final das variáveis categóricas seria redundante e, portanto, desnecessária). Antes de considerar qualquer análise, vamos ver a média da variável dependente, escreva. para cada nível de corrida. Isso ajudará na interpretação da saída de análises posteriores. Os resultados da codificação simples são muito semelhantes à codificação fictícia, em que cada nível é comparado ao nível de referência. No exemplo abaixo, o nível 4 é o nível de referência e a primeira comparação compara o nível 1 ao nível 4, a segunda compara o nível 2 ao nível 4 e a terceira compara o nível 3 ao nível 4. Método 1: PROC GLM A tabela abaixo mostra a codificação simples fazendo as comparações descritas acima. O primeiro contraste compara o nível 1 ao nível 4, e o nível 1 é codificado como 1 e o nível 4 é codificado como -1. Da mesma forma, o segundo contraste compara o nível 2 ao nível 4, codificando o nível 2 como 1 e o nível 4 como -1. Como você pode ver com a codificação de contraste, você pode discernir o significado das comparações simplesmente inspecionando os coeficientes de contraste. Por exemplo, olhando os coeficientes de contraste para c3, você pode ver que ele compara o nível 3 ao nível 4. CÓDIGO SIMPLES DE CONTRASTE Nova variável 1 (c1) Nova variável 2 (c2) Abaixo ilustramos como formar essas comparações usando proc glm. Como você vê, uma instrução de estimativa separada é usada para cada contraste. A estimativa de contraste para o primeiro contraste compara a média da variável dependente, write. para os níveis 1 e 4, obtendo -7,597 e é estatisticamente significativa (plt. 000). O valor de t associado a este teste é de -3,82. Os resultados do segundo contraste, comparando a média da escrita para os níveis 2 e 4, não são estatisticamente significativos (t 1,40, p. 1638), enquanto o terceiro contraste é estatisticamente significativo. Observe que, embora tenhamos incluído a saída SAS completa para este exemplo, mostraremos somente a saída relevante em exemplos posteriores para economizar espaço. Método 2: Regressão A codificação de regressão é um pouco mais complexa que a codificação de contraste. Em nosso exemplo abaixo, o nível 4 é o nível de referência e x1 compara o nível 1 ao nível 4, x2 compara o nível 2 ao nível 4 e x3 compara o nível 3 ao nível 4. Para x1, a codificação é 3/4 para o nível 1 e -1/4 para todos os outros níveis. Da mesma forma, para x2, a codificação é 3/4 para o nível 2 e -1/4 para todos os outros níveis, e para x3 a codificação é 3/4 para o nível 3 e -1/4 para todos os outros níveis. Não é intuitivo que este esquema de codificação de regressão produza essas comparações, no entanto, se você desejar comparações simples, você pode seguir esta regra geral para obter essas comparações. Codificação de regressão simples Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) 3 (afro-americana) Abaixo mostramos a regra mais geral para criar este tipo de esquema de codificação usando codificação de regressão, onde k é o número de níveis da variável categórica (neste caso, k 4). Codificação de regressão simples Nova variável 1 (x1) Nova variável 2 (x2) Abaixo ilustramos como criar x1. x2 e x3 e insira essas novas variáveis no modelo de regressão usando proc reg. Você notará que os coeficientes de regressão na tabela abaixo são os mesmos que os coeficientes de contraste que vimos usando proc glm. Tanto o coeficiente de regressão para x1 quanto a estimativa de contraste para c1 são a média de escrita para o nível 1 de raça (hispânico) menos a média de escrita para o nível 4 (branco). Da mesma forma, o coeficiente de regressão para x2 e a estimativa de contraste para c2 são a média de gravação para o nível 2 (asiático) menos a média de gravação para o nível 4 (branco). Você também pode ver que os valores t e os níveis de significância também são os mesmos da saída proc glm. Observe que, embora tenhamos incluído a saída SAS completa para este exemplo, mostraremos somente a saída relevante em exemplos posteriores para economizar espaço. 5.2 Codificação de Diferença Avançada Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada com a média da variável dependente para o próximo nível (adjacente). Em nosso exemplo abaixo, a primeira comparação compara a média de gravação para o nível 1 com a média de gravação para o nível 2 de raça (hispânicos menos asiáticos). A segunda comparação compara a média de gravação para o nível 2 menos o nível 3, e a terceira comparação compara a média de gravação para o nível 3 menos o nível 4. Esse tipo de codificação pode ser útil com uma variável nominal ou ordinal. Método 1: DIFERENÇA PROC GLM FORWARD codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados. Assim, a média da variável dependente no nível 1 é comparada com a média da variável dependente no nível 2: 46.4583 - 58 -11.542, o que é estatisticamente significativo. Para a comparação entre os níveis 2 e 3, o cálculo do coeficiente de contraste seria 58 - 48,2 9,8, o que também é estatisticamente significativo. Finalmente, comparando os níveis 3 e 4, 48,2 - 54,0552 -5,855, uma diferença estatisticamente significativa. Um concluiria disto que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro e o segundo níveis são comparados, x1 é codificado 3/4 para o nível 1 e os outros níveis são codificados -1/4. Para a segunda comparação, onde o nível 2 é comparado com o nível 3, x2 é codificado 1/2 1/2 -1/2 -1/2, e para a terceira comparação, onde o nível 3 é comparado com o nível 4, x3 é codificado 1 / 4 1/4 1/4 -3/4. DIFERENÇA FUTURA regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (Afro-Americano) A regra geral para este O esquema de codificação de regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso k 4). DIFERENÇA FUTURA regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Você pode ver que o coeficiente de regressão para x1 é a média de gravação para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Da mesma forma, o coeficiente de regressão para x2 é a média de escrita para o nível 2 (asiático) menos a média de escrita para o nível 3 (afro-americano), e o coeficiente de regressão para x3 é a média de escrita para o nível 3 (afro-americano) menos a média de escrever para o nível 4 (branco). 5.3 Codificação de Diferença Reversa Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada com a média da variável dependente para o nível adjacente anterior. Em nosso exemplo abaixo, a primeira comparação compara a média de gravação para o nível 2 com a média de gravação para o nível 1 de raça (hispânicos menos asiáticos). A segunda comparação compara a média de gravação para o nível 3 menos o nível 2, e a terceira comparação compara a média de gravação para o nível 4 menos o nível 3. Esse tipo de codificação pode ser útil com uma variável nominal ou ordinal. Método 1: PROC GLM DIFERENÇA ANTERIOR codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (Afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados, com cada nível comparado ao nível anterior. Assim, a média da variável dependente no nível 2 é comparada com a média da variável dependente no nível 1: 58 - 46,4583 11,542, o que é estatisticamente significativo. Para a comparação entre os níveis 3 e 2, o cálculo do coeficiente de contraste é 48,2 - 58 - 9,8, o que também é estatisticamente significativo. Finalmente, comparando os níveis 4 e 3, 54,0552 - 48,2 5,855, uma diferença estatisticamente significante. Um concluiria disto que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro e o segundo níveis são comparados, x1 é codificado 3/4 para o nível 1, enquanto os outros níveis são codificados -1/4. Para a segunda comparação em que o nível 2 é comparado com o nível 3, x2 é codificado 1/2 1/2 -1/2 -1/2 e, para a terceira comparação, onde o nível 3 é comparado com o nível 4, x3 é codificado 1 / 4 1/4 1/4 -3/4. DIFERENÇA TRASEIRA regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 2 v. Nível 1 Nível 3 v. Nível 2 Nível 4 v. Nível 3 3 (Afro-americano) A regra geral para este O esquema de codificação de regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso, k 4). DIFERENÇA RETORNADA codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) No exemplo acima, o coeficiente de regressão para x1 é a média de gravação para o nível 2 menos a média de escrita para o nível 1 (58- 46.4583 11.542). Da mesma forma, o coeficiente de regressão para x2 é a média de gravação para nível 3 menos a média de gravação para nível 2, e o coeficiente de regressão para x3 é a média de gravação para nível 4 menos a média de gravação para nível 3. 5.4 Codificação Helmert A codificação de Helmert compara cada nível de uma variável categórica com a média dos níveis subseqüentes. Assim, o primeiro contraste compara a média da variável dependente para o nível 1 de raça com a média de todos os níveis subseqüentes de raça (níveis 2, 3 e 4), o segundo contraste compara a média da variável dependente para nível 2 de raça com a média de todos os níveis subseqüentes de raça (níveis 3 e 4), e o terceiro contraste compara a média da variável dependente para o nível 3 de raça com a média de todos os níveis subseqüentes de raça (nível 4). Enquanto este tipo de sistema de codificação não faz muito sentido com uma variável nominal como a corrida. é útil em situações onde os níveis da variável categórica são ordenados, do menor para o maior, ou menor para maior, etc. Para codificação Helmert, vemos que a primeira comparação comparando o nível 1 com os níveis 2, 3 e 4 é codificada 1, -1/3, -1/3 e -1/3, refletindo a comparação do nível 1 com todos os demais níveis. A segunda comparação é codificada como 0, 1, -1/2 e -1/2, refletindo que compara o nível 2 com os níveis 3 e 4. A terceira comparação é codificada 0, 0, 1 e -1, refletindo que o nível 3 é comparado ao nível 4. Método 1: Codificação de contraste PROC GLM HELMERT Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Mais tarde Nível 2 v. Mais tarde Nível 3 v. Mais tarde 3 (afro-americana ) A seguir ilustramos como formar essas comparações usando proc glm com instruções de estimativa. Observe que na primeira declaração de estimativa, indicamos -.33333 e não apenas -.33. Precisamos usar esta quantidade de decimais para que a soma de todos os coeficientes de contraste (isto é, 1-0,333333-0,333333-0,333333) seja suficientemente próxima de zero, caso contrário o SAS dirá que o termo não pode ser estimado. A estimativa de contraste para a comparação entre nível 1 e os demais níveis é calculada tomando a média da variável dependente para o nível 1 e subtraindo a média da variável dependente para os níveis 2, 3 e 4: 46,4583 - (58 48,2 54,0552) / 3 -6.960, o que é estatisticamente significativo. Isso significa que a média de gravação para o nível 1 de raça é estatisticamente diferente da média de gravação para os níveis de 2 a 4. Como observado acima, essa comparação provavelmente não é significativa porque a variável race é nominal. Esse tipo de comparação seria mais significativo se a variável categórica fosse ordinal. Para calcular o coeficiente de contraste para a comparação entre o nível 2 e os níveis posteriores, você subtrai a média da variável dependente dos níveis 3 e 4 da média da variável dependente para o nível 2: 58 - (48,2 54,0552) / 2 6,872, que é estatisticamente significante. A estimativa de contraste para a comparação entre o nível 3 e o nível 4 é a diferença entre a média da variável dependente para os dois níveis: 48,2 - 54,0552 -5,855, que também é estatisticamente significante. Método 2: Regressão Abaixo, vemos um exemplo de codificação de regressão de Helmert. Para a primeira comparação (comparando o nível 1 com os níveis 2, 3 e 4), os códigos são 3/4 e -1/4 -1/4 -1/4. A segunda comparação compara o nível 2 com os níveis 3 e 4 e é codificada como 0 2/3 -1/3 -1/3. A terceira comparação compara o nível 3 ao nível 4 e está codificada em 0 0 1/2 -1/2. Codificação de regressão de HELMERT Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo ilustramos como criar x1. x2 e x3 e insira essas novas variáveis no modelo de regressão usando porc reg. Como você vê abaixo, o coeficiente de regressão para x1 é a média de gravação para o nível 1 (hispânico) versus todos os níveis subseqüentes (níveis 2, 3 e 4). Da mesma forma, o coeficiente de regressão para x2 é a média de gravação para o nível 2 menos a média de gravação para os níveis 3 e 4. Finalmente, o coeficiente de regressão para x3 é a média de gravação para o nível 3 menos a média de gravação para o nível 4. 5.5 Codificação Reversa de Helmert A codificação reversa de Helmert (também conhecida como codificação de diferenças) é exatamente o oposto da codificação de Helmert: em vez de comparar cada nível de variável categórica à média do (s) nível (is) subseqüente, cada um é comparado à média do anterior nível (s). Em nosso exemplo, o primeiro contraste codifica a comparação da média da variável dependente para o nível 2 de corrida com a média da variável dependente para o nível 1 de raça. A segunda comparação compara a média da variável dependente nível 3 de raça com os níveis 1 e 2 de raça. e a terceira comparação compara a média da variável dependente para o nível 4 de raça com os níveis 1, 2 e 3. Claramente, este sistema de codificação não faz muito sentido com nosso exemplo de raça porque é uma variável nominal. No entanto, esse sistema é útil quando os níveis da variável categórica são ordenados de maneira significativa. Por exemplo, se tivéssemos uma variável categórica na qual o estresse relacionado ao trabalho fosse codificado como baixo, médio ou alto, então, comparar as médias dos níveis anteriores da variável faria mais sentido. Para codificação reversa Helmert, vemos que a primeira comparação comparando os níveis 1 e 2 são codificados -1 e 1 para comparar esses níveis, e 0 caso contrário. A segunda comparação que compara os níveis 1, 2 com o nível 3 é codificada -1/2, -1/2, 1 e 0, e a última comparação que compara os níveis 1, 2 e 3 com o nível 4 é codificada -1/3, -1 / 3, -1/3 e 1. Método 1: Codificação de contraste PROC GLM REVERSE HELMERT Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo ilustramos como formar essas comparações usando proc glm com estimativa afirmações. Note que na terceira declaração de estimativa nós indicamos -.33333 e não apenas -.33. Precisamos usar esta quantidade de decimais para que a soma de todos os coeficientes de contraste (ou seja, -333333 - .333333 - .333333 1) seja suficientemente próxima de zero, caso contrário o SAS dirá que o termo não pode ser estimado. Uma maneira alternativa, que resolve o problema das casas decimais, é mostrada abaixo. Apenas uma saída é mostrada porque as duas saídas são idênticas. A estimativa de contraste para a primeira comparação mostrada nesta saída foi calculada subtraindo a média da variável dependente para o nível 2 da variável categórica da média da variável dependente para o nível 1: 58 - 46.4583 11.542. Este resultado é estatisticamente significativo. A estimativa de contraste para a segunda comparação (entre nível 3 e níveis anteriores) foi calculada subtraindo-se a média da variável dependente para os níveis 1 e 2 daquela do nível 3: 48,2 - (46,4583-58) / 2 -4,029. Este resultado não é estatisticamente significativo, o que significa que não há uma diferença fiável entre a média de escrita para o nível 3 de corrida em comparação com a média de escrita para os níveis 1 e 2 (hispânicos e asiáticos). Como observado acima, esse tipo de sistema de codificação não faz muito sentido para uma variável nominal, como a corrida. Para a comparação do nível 4 e dos níveis anteriores, você pega a média da variável dependente para esses níveis e subtrai da média da variável dependente para o nível 4: 54.0552 - (46.4583 58 48.2) / 3 3.169. Este resultado é estatisticamente significativo. Método 2: Regressão A codificação de regressão para codificação Helmert reversa é mostrada abaixo. Para a primeira comparação, onde o primeiro e o segundo nível são comparados, x1 é codificado -1/2 e 1/2 e 0, caso contrário. Para a segunda comparação, os valores de x2 são codificados -1/3 -1/3 2/3 e 0. Finalmente, para a terceira comparação, os valores de x3 são codificados -1/4 -1/4 - / 14 e 3/4 Codificação de regressão de REVERSE HELMERT Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo ilustramos como criar x1. x2 e x3 e insira essas novas variáveis no modelo de regressão usando proc reg. Nos exemplos acima, tanto o coeficiente de regressão para x1 quanto a estimativa de contraste para c1 seria a média de gravação para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Da mesma forma, o coeficiente de regressão para x2 e a estimativa de contraste para c2 seria a média de escrita para os níveis 1 e 2 combinados menos a média de gravação para o nível 3. Finalmente, o coeficiente de regressão para x3 e a estimativa de contraste para c3 seriam média de gravação para os níveis 1, 2 e 3 combinados menos a média de gravação para o nível 4. 5.6 Codificação de desvio Este sistema de codificação compara a média da variável dependente para um determinado nível com a média geral da variável dependente. No nosso exemplo abaixo, a primeira comparação compara o nível 1 (hispânicos) a todos os níveis de raça. a segunda comparação compara o nível 2 (asiáticos) a todos os níveis de raça. e a terceira comparação compara o nível 3 (afro-americanos) a todos os níveis de raça. Como você pode ver, a lógica da codificação de contraste é bastante direta. A primeira comparação compara o nível 1 aos níveis 2, 3 e 4. Um valor de 3/4 é atribuído ao nível 1 e um valor de -1/4 é atribuído aos níveis 2, 3 e 4. Da mesma forma, a segunda comparação compara o nível 2 para os níveis 1, 3 e 4. Um valor de 3/4 é atribuído ao nível 2 e um valor de -1/4 é atribuído aos níveis 1, 3 e 4. Um padrão semelhante é seguido para atribuir valores para a terceira comparação . Observe que você pode substituir 3 por 3/4 e 1 por 1/4 e obter o mesmo teste de significância, mas o coeficiente de contraste seria diferente. Método 1: Codificação de contraste PROC GLM DEVIATION Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo ilustramos como formar essas comparações usando proc glm. A estimativa de contraste é a média para o nível 1 menos a grande média. No entanto, essa grande média não é a média da variável dependente listada na saída do comando de médias acima. Pelo contrário, é a média das médias da variável dependente em cada nível da variável categórica: (46,4583 58 48,2 54,0552) / 4 51,678375. Essa estimativa de contraste é então 46,4583 - 51,678375 -5,220. A diferença entre este valor e zero (a hipótese nula de que o coeficiente de contraste é zero) é estatisticamente significativa (p .0016), e o valor de t para este teste de -3.20. Os resultados para os próximos dois contrastes foram calculados de maneira semelhante. Método 2: Regressão Como você vê no exemplo abaixo, a codificação de regressão é realizada atribuindo 1 ao nível 1 para a primeira comparação (porque o nível 1 é o nível a ser comparado a todos os outros), um 1 ao nível 2 para o segundo comparação (porque o nível 2 deve ser comparado a todos os outros), e 1 ao nível 3 para a terceira comparação (porque o nível 3 deve ser comparado a todos os outros). Note que um -1 é atribuído ao nível 4 para todas as três comparações (porque é o nível que nunca é comparado com os outros níveis) e todos os outros valores são atribuídos a 0. Esse esquema de codificação de regressão produz as comparações descritas acima. DEVIAÇÃO regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) 3 (afro-americana) Abaixo, ilustramos como criar x1. x2 e x3 e insira essas novas variáveis no modelo de regressão usando proc reg. Neste exemplo, o coeficiente de regressão para x1 é a média de gravação para o nível 1 (hispânico) menos a grande média de gravação. Da mesma forma, o coeficiente de regressão para x2 é a média escrita para o nível 2 (asiático) menos a grande média de gravação. e assim por diante. Como vimos nas análises anteriores, todos os três contrastes são estatisticamente significativos. 5.7 Codificação Polinomial Ortogonal A codificação polinomial ortogonal é uma forma de análise de tendência na medida em que procura as tendências linear, quadrática e cúbica na variável categórica. Este tipo de sistema de codificação deve ser usado apenas com uma variável ordinal na qual os níveis são igualmente espaçados. Exemplos de tal variável podem ser renda ou educação. A tabela abaixo mostra os coeficientes de contraste para as tendências linear, quadrática e cúbica dos quatro níveis. Estes podem ser obtidos a partir da maioria dos livros de estatísticas sobre modelos lineares. 3 (Afro-americano) Método 1: PROC GLM Para calcular as estimativas de contraste para essas comparações, é necessário multiplicar o código usado na nova variável pela média da variável dependente para cada nível da variável categórica e, em seguida, somar os valores . Por exemplo, o código usado em x1 para o nível 1 da corrida é -671 e a média de gravação para o nível 1 é 46,4583. Portanto, você multiplicaria -.671 e 46.4583 e adicionaria isso ao produto do código para o nível 2 de x1 e sua média, e assim por diante. Para obter a estimativa de contraste para o contraste linear, você faria o seguinte: -.67146.4583 -.22458 .22448.2 .67154.0552 2.905 (com erro de arredondamento). Esse resultado não é estatisticamente significativo no nível alfa de 0,05, mas está próximo. O componente quadrático também não é estatisticamente significativo, mas o cúbico é. Isso sugere que, se a média da variável dependente fosse traçada contra a raça. a linha tenderia a ter duas curvas. Como observado anteriormente, esse tipo de sistema de codificação não faz muito sentido com uma variável nominal como a corrida. Método 2: Regressão A codificação de regressão para codificação polinomial ortogonal é a mesma que a codificação de contraste. Abaixo você pode ver o código SAS para criar x1. x2 e x3 que correspondem às tendências linear, quadrática e cúbica da raça. Os coeficientes de regressão obtidos a partir desta análise são os mesmos que os coeficientes de contraste obtidos usando proc glm. 5.8 Codificação Definida pelo Usuário Você pode usar o SAS para qualquer tipo geral de esquema de codificação. Para o nosso exemplo, gostaríamos de fazer as seguintes três comparações: 1) nível 1 ao nível 3 2) nível 2 aos níveis 1 e 4 3) níveis 1 e 2 aos níveis 3 e 4. Para comparar o nível 1 ao nível 3, usamos os coeficientes de contraste 1 0 -1 0. Para comparar o nível 2 com os níveis 1 e 4, usamos os coeficientes de contraste -1/2 1 0 -1/2. Finalmente, para comparar os níveis 1 e 2 com os níveis 3 e 4, usamos os coeficientes 1/2 1/2 -1/2 -1/2. Antes de prosseguir para o código SAS necessário para conduzir essas análises, vamos levar um momento para explicar mais completamente a lógica por trás da seleção desses coeficientes de contraste. Para o primeiro contraste, estamos comparando o nível 1 ao nível 3, e os coeficientes de contraste são de 1 0 -1. Isso significa que os níveis associados aos coeficientes de contraste com sinais opostos estão sendo comparados. De fato, a média da variável dependente é multiplicada pelo coeficiente de contraste. Assim, os níveis 2 e 4 não estão envolvidos na comparação: eles são multiplicados por zero e "citados". Você também notará que os coeficientes de contraste somam zero. Isso é necessário. Se os coeficientes de contraste não somam zero, o contraste não é estimável e o SAS emitirá uma mensagem de erro. Qual nível da variável categórica é atribuído um valor positivo ou negativo não é terrivelmente importante: 1 0 -1 0 é o mesmo que -1 0 1 0 em que ambas as codificações comparam o primeiro e o terceiro níveis da variável. No entanto, o sinal do coeficiente de regressão mudaria. Agora vamos dar uma olhada nos coeficientes de contraste para a segunda e terceira comparações. Você notará que em ambos os casos usamos frações que somam um (ou menos um). Eles não precisam somar um (ou menos um). Você pode se perguntar por que usaríamos frações como -1/2 1 0 -1/2 em vez de números inteiros como -1 2 0 -1. Enquanto -1/2 1 0 -1/2 e -1 2 0 -1 ambos comparam o nível 2 com os níveis 1 e 4 e ambos fornecem o mesmo valor t e p-valor para o coeficiente de regressão, o contraste estima / os coeficientes de regressão seriam diferentes, assim como sua interpretação. O coeficiente para o contraste -1/2 1 0 -1/2 é a média do nível 2 menos a média das médias para os níveis 1 e 4: 58 - (46,4583 54,0552) / 2 7,74325. (Como alternativa, você pode multiplicar os contrastes pela média da variável dependente para cada nível da variável categórica: -1 / 246.4583 158.00 048.20 -1 / 254.0552 7.74325. Claramente, essas são formas equivalentes de pensar sobre como o coeficiente de contraste é calculado. ) Por comparação, o coeficiente para o contraste -1 2 0 -1 é duas vezes a média do nível 2 menos as médias da variável dependente para os níveis 1 e 4: 258 - (46,4583 54,0552) 15,4865, que é o mesmo que - 146,4583 258 048,20 - 154,0552 15,4865. Observe que o coeficiente de regressão usando os coeficientes de contraste -1 2 0 -1 é o dobro do coeficiente de regressão obtido quando -1/2 1 0 -1/2 é usado. Método 1: PROC GLM Para comparar o nível 1 ao nível 3, usamos os coeficientes de contraste 1 0 -1 0. Para comparar o nível 2 com os níveis 1 e 4 usamos os coeficientes de contraste -1/2 1 0 -1/2 . Finalmente, para comparar os níveis 1 e 2 com os níveis 3 e 4, usamos os coeficientes 1/2 1/2 -1/2 -1/2. Esses coeficientes são usados nas declarações de estimativa abaixo. The contrast estimate for the first comparison is the mean of level 1 minus the mean for level 3, and the significance of this is .525, i. e. not significant. The second contrast estimate is 7.743, which is the mean of level 2 minus the mean of level 1 and level 4, and this difference is significant, p 0.008. The final contrast estimate is 1.1 which is the mean of levels 1 and 2 minus the mean of levels 3 and 4, and this contrast is not statistically significant, p .576. Method 2: Regression As in the prior example, we will make the following three comparisons: 1) level 1 to level 3, 2) level 2 to levels 1 and 4 and 3) levels 1 and 2 to levels 3 and 4. For methods 1 and 2 it was quite easy to translate the comparisons we wanted to make into contrast codings, but it is not as easy to translate the comparisons we want into a regression coding scheme. If we know the contrast coding system, then we can convert that into a regression coding system using the SAS program shown below. As you can see, we place the three contrast codings we want into the matrix c and then perform a set of matrix operations on c, yielding the matrix x . We then display x using the print command. Below we see the output from this program showing the regression coding scheme we would use. This converted the contrast coding into the regression coding that we need for running this analysis with proc reg . Below, we use if-then statements to create x1 . x2 and x3 according to the coding shown above and then enter them into the regression analysis. The first comparison of the mean of the dependent variable for level 1 to level 3 of the categorical variable was not statistically significant, while the comparison of the mean of the dependent variable for level 2 to that of levels 1 and 4 was. The comparison of the mean of the dependent variable for levels 1 and 2 to that of levels 3 and 4 also was not statistically significant. This page has described a number of different coding systems that you could use for categorical data, and two different strategies you could use for performing the analyses. You can choose a coding system that yields comparisons that make the most sense for testing your hypotheses. In general we would recommend using the easiest method that accomplishes your goals. 5.10 Additional Information Here are some additional resources. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software em particular pela Universidade da Califórnia.
Комментариев нет:
Отправить комментарий