ESTUDO DE SIMULAÇÃO PARA UM MODELO DE … · 2004-12-20 · a serem estimados e εi e ui são...

16
ESTUDO DE SIMULAÇÃO PARA UM MODELO DE FRONTEIRA DE PRODUÇÃO ESTOCÁSTICA COM ERRO NAS VARIÁVEIS EXPLICATIVAS: ENFOQUE BAYESIANO Sílvia dos Reis Alcântara Duarte COPPE, UFRJ e FACULDADES IBMEC-RJ [email protected], [email protected] Hélio S. Migon IM e COPPE, UFRJ Caixa Postal 68.507, CEP 21945-970. [email protected] Saul Fuks COPPE, UFRJ, Caixa Postal 68.507, CEP 21945-970. [email protected] Resumo Este trabalho apresenta um modelo de fronteira de produção estocástica com erro nas variáveis explicativas e dados em corte transversal. O modelo é implementado sob o ponto de vista Bayesiano com uso do algoritmo de Gibbs:o mais difundido dentre os métodos MCMC. Ilustramos a metodologia através de um conjunto de dados simulados. A implementação Bayesiana do modelo será realizada com auxílio do pacote computacional WinBugs. Palavras-chave: fronteira de produção estocástica, inferência bayesiana, erro nas variáveis explicativas. Abstract This paper presents the stochastic frontier model with error-in-variables with crosss-section data. The model is implemented from a Bayesian point of view using the Gibbs sampling algorithm: the most common Markov chain Monte Carlo (MCMC) method. We illustrate the methodology using simulated data sets. The Bayesian implementation of the model will be made using the WinBugs software. key words: stochastic frontier, error-in-variables, Gibbs sampling, MCMC. 1. Introdução A definição teórica de que uma função de produção expressa a máxima quantidade de produto que se pode obter a partir de dado conjunto de insumos, com tecnologia fixa, tem sido aceita por muitas décadas (ver Aigner, Lovell, and Schimidt (1977)), mas os caminhos trilhados para se estimar uma fronteira de produção são diversos e envolvem suposições específicas com o intuito de se obter um modelo mais próximo da realidade mas, ao mesmo tempo, tratável matematicamente, além de estimativas cada vez mais eficientes. O primeiro trabalho reconhecidamente importante relacionado a fronteiras de produção foi atribuído ao desenvolvido por Farrell (1957) que contribuiu decisivamente para o surgimento de dois difundidos caminhos para estimação dos parâmetros da fronteira de produção: Fronteiras de Produção Estocásticas e Análise de Envoltória de Dados 1 , que são dois métodos alternativos para se estimar fronteiras de produção e o termo de eficiência. O DEA envolve o uso de programação linear, enquanto fronteiras estocásticas envolvem o uso de métodos econométricos. Nosso interesse se concentra no segundo método. Nosso principal objetivo, neste trabalho, é apresentar um modelo de fronteira de produção estocástica com erro nas variáveis explicativas e obter estimativas dos parâmetros desta fronteira sob o ponto de vista bayesiano. 1 conhecidos pelas siglas no inglês:SF, Stochastic Frontier e DEA, Data Envelopment Analysis. 760

Transcript of ESTUDO DE SIMULAÇÃO PARA UM MODELO DE … · 2004-12-20 · a serem estimados e εi e ui são...

ESTUDO DE SIMULAÇÃO PARA UM MODELO DE FRONTEIRA DE PRODUÇÃO ESTOCÁSTICA COM ERRO NAS VARIÁVEIS

EXPLICATIVAS: ENFOQUE BAYESIANO

Sílvia dos Reis Alcântara Duarte COPPE, UFRJ e FACULDADES IBMEC-RJ [email protected], [email protected]

Hélio S. Migon

IM e COPPE, UFRJ Caixa Postal 68.507, CEP 21945-970. [email protected]

Saul Fuks

COPPE, UFRJ, Caixa Postal 68.507, CEP 21945-970. [email protected]

Resumo Este trabalho apresenta um modelo de fronteira de produção estocástica com erro nas variáveis explicativas e dados em corte transversal. O modelo é implementado sob o ponto de vista Bayesiano com uso do algoritmo de Gibbs:o mais difundido dentre os métodos MCMC. Ilustramos a metodologia através de um conjunto de dados simulados. A implementação Bayesiana do modelo será realizada com auxílio do pacote computacional WinBugs. Palavras-chave: fronteira de produção estocástica, inferência bayesiana, erro nas variáveis explicativas.

Abstract This paper presents the stochastic frontier model with error-in-variables with crosss-section data. The model is implemented from a Bayesian point of view using the Gibbs sampling algorithm: the most common Markov chain Monte Carlo (MCMC) method. We illustrate the methodology using simulated data sets. The Bayesian implementation of the model will be made using the WinBugs software. key words: stochastic frontier, error-in-variables, Gibbs sampling, MCMC. 1. Introdução A definição teórica de que uma função de produção expressa a máxima quantidade de produto que se pode obter a partir de dado conjunto de insumos, com tecnologia fixa, tem sido aceita por muitas décadas (ver Aigner, Lovell, and Schimidt (1977)), mas os caminhos trilhados para se estimar uma fronteira de produção são diversos e envolvem suposições específicas com o intuito de se obter um modelo mais próximo da realidade mas, ao mesmo tempo, tratável matematicamente, além de estimativas cada vez mais eficientes. O primeiro trabalho reconhecidamente importante relacionado a fronteiras de produção foi atribuído ao desenvolvido por Farrell (1957) que contribuiu decisivamente para o surgimento de dois difundidos caminhos para estimação dos parâmetros da fronteira de produção: Fronteiras de Produção Estocásticas e Análise de Envoltória de Dados1, que são dois métodos alternativos para se estimar fronteiras de produção e o termo de eficiência. O DEA envolve o uso de programação linear, enquanto fronteiras estocásticas envolvem o uso de métodos econométricos. Nosso interesse se concentra no segundo método. Nosso principal objetivo, neste trabalho, é apresentar um modelo de fronteira de produção estocástica com erro nas variáveis explicativas e obter estimativas dos parâmetros desta fronteira sob o ponto de vista bayesiano.

1conhecidos pelas siglas no inglês:SF, Stochastic Frontier e DEA, Data Envelopment Analysis.

760

O tratamento clássico de modelos de fronteira de produção inclue, por exemplo, os trabalhos pioneiros de Aigner et al. (1977) e Meeusen and van den Broeck (1977), os quais foram desenvolvidos simultaneamente utilizando um modelo semelhante ao proposto por Farrell (1957) no qual se assume uma fronteira de produção composta por um termo representativo da relação entre insumos e produto, ou seja, uma função determinística, acrescido de um termo de erro. O modelo sugerido nos dois trabalhos acima citados se distingue do modelo de Farrell pelo fato de apresentarem uma estrutura de erro composto com duas componentes: uma representando um termo simétrico de perturbação (erro aleatório normalmente distribuído) referente à fatores aleatórios da produção e outro assimétrico refletindo a ineficiência técnica da produção (ler Aigner et al. (1977)). Dentre outros trabalhos a serem citados estão, por exemplo, o de Pitt and Lee (1981) que estenderam a técnica de MLE2 para dados em painel e o de Fuller (1987) que acrescenta o conceito de erro nas variáveis ao modelo clássico de regressão linear. Implementações Bayesianas dos modelos de FPE incluem, por exemplo, Steel(1994) para dados em corte transversal e Fernandez, Osiewalski, and Steel (1997) para dados em painel Também no contexto Bayesiano temos Medrano e Migon (2003) que utilizaram um modelo de fronteiras de produção estocástica com múltiplos outputs e compararam especificações de tecnologia alternativas à função de Cobb-Douglas, assumindo distribuição Gamma e Log-normal para o erro assimetrico. Tsionas (2002) e Huang (2004) consideraram modelos de fronteira de produção estocástica com coeficientes aleatórios.

A principal contribuição do presente trabalho é o tratamento Bayesiano do modelo de fronteiras de produção estocástica com erro nas variavéis usando técnicas de simulação estocástica via cadeias de Markov, particularmente o amostrador de Gibbs3. Este problema é abordado por Dhawan and Jochumzen (1999) usando o método de máxima verossimilhanç a com informação limitada.

A metodologia será exemplificada com dados artificiais. O trabalho está estruturado da seguinte forma: na seção 2, apresentamos uma descrição da classe de modelos de nosso interesse. Na seção 3, colocamos o tratamento clássico para o problema. Na seção 4, colocamos o tratamento bayesiano para o problema com o desenvolvimento das distribuições condicionais completas para a implementação e descrevemos todo o estudo de simulação feito. Finalmente, na seção 5, apresentamos análises e conclusões. Anexo colocamos os resultados obtidos. 2. Modelo de Fronteira de Produção Estocástica

2.1. Fronteiras de Produção Estocástica Os modelos de fronteira de produção estocástica são aqueles que permitem estimar a ineficiência técnica da firma e ainda reconhecem o fato de que choques aleatórios fora do controle da firma podem afetar a produção. Estes dois fatos são incorporados no problema através da parcela de erro que neste caso está dividido em duas componentes, uma delas reflete o impacto sobre a produção de choques resultantes da variação de fatores como trabalho, performance das máquinas, modificações inesperadas de várias naturezas e outros fatores aleatórios e a outra componente reflete a contribuição da variação na eficiência técnica que é específica de cada firma. Como os modelos de Fronteira Estocástica possuem esta característica de conter duas componentes de erro, fazem parte de uma classe de modelos conhecida como modelos de erros compostos. O modelo clássico de Fronteira Estocástica de Produção é aquele proposto inicialmente por Aigner et al. (1977) e Meeusen and van den Broeck (1977)4 :

iiii xfy ξεγα −+= );;( (1)

onde para cada firma i, yi (observável) é um escalar correspondente à máxima quantidade de produto que se pode obter a partir do vetor de insumos (observáveis e não estocásticos) ix . α e γ são

parâmetros tecnológicos desconhecidos a serem estimados. );;( γαixf é a parcela referente a uma

2do inglês, Maximum Likelihood Estimation (Estimação de Máxima Verossimilhança). 3para uma revisão detalhada destas técnicas sugiro Gamerman (1996) e Gilks (1995). 4para descrever este modelo, utilizaremos a notação usada no artigo de Aigner et al (1977).

761

função determinística comum a todas as firmas. O erro, composto de duas parcelas, uma ( iε )

representa o distúrbio simétrico suposto independente e identicamente distribuído, ),0( 2vN σ . A outra

componente ( iξ ), captura os efeitos da ineficiência específica de cada firma e se supõe ser independentemente distribuída em relação à primeira além de satisfazer as condições de ser positiva ( 0≥iξ )5. Sob o ponto de vista determinístico, se atribui ao erro somente a ineficiência técnica não se considerando que a produção possa ser afetada por outros fatores fora do controle da firma, como ocorre sob o ponto de vista estocástico.

Sob o ponto de vista clássico, parâmetros de uma função de produção estocástica, como a colocada anteriormente, podem ser estimados usando-se Máxima Verossimilhança (ML) ou uma variante do COLS6 Richmond (1974). Segundo T. Coelli and Battese (1998), o estimador ML é assintoticamente mais eficiente que o estimador COLS, mas as propriedades dos dois estimadores em amostras finitas não podem ser analiticamente determinadas. As propriedades de amostras finitas do modelo de fronteira half-normal foram investigadas em um experimento de Monte-Carlo em Coelli (1995a), no qual o estimador ML foi significativamente melhor que o estimador COLS quando a contribuição do efeito de ineficiência técnica em relação ao termo de variância total é grande. Portanto, o ML deve ser preferido ao estimador COLS sempre que possível, sejam as amostras grandes ou pequenas. Asssumindo-se que o erro aleatório e a ineficiência técnica são distribuídos independentemente de ix , estimar os parâmetros por OLS7 produz estimativas consistentes dos parâmetros de elasticidade γ mas não de α , além de não permitir estimativas da ineficiência técnica.

2.2. Modelo com Erro-nas-Variáveis Estes modelos são constituídos da equação clássica de regressão e equações adicionais que considerem a relação entre as verdadeiras variáveis não observáveis e as respectivas variáveis que as representam. Conforme Fuller (1987), um modelo com erro nas variáveis pode ser descrito da seguinte forma:

iii xy εγα ++=

iii uxZ += (2)

onde x i é um vetor linha k-dimensional 8, α, escalar, e γ , vetor coluna k-dimensional, são parâmetros a serem estimados e iε e iu são variáveis aleatórias normais e independentes. Assume-se que o vetor

de covariâncias entre iε e ui , uεΣ , e a matriz de covariâncias de iu , uuΣ , sejam conhecidas. Podemos pensar em utilizar um modelo com erro nas variáveis explicativas quando estivermos diante de variáveis explicativas cujos respectivos valores verdadeiros não são observáveis ou não estão disponíveis, mas que podem ser estimadas por outras variáveis observáveis. Um exemplo esclarecedor pode ser o citado por Fuller (1987): suponha a relação entre nível de nitrogênio disponível no solo e produção de milho. Podemos modelar esta relação assumindo que a produção de milho ( iy ) em determinada região seja função do nível de nitrogênio ( ix ) no solo desta região. O teor de Nitrogênio no solo é normalmente medido, de forma indireta, pelo teor de carbono orgânico, que pode ser aferido através de análise laboratorial do solo. Multiplicando-se o teor de Carbono por 1,72 tem-se o teor de matéria orgânica (MO). O teor de Nitrogênio representa percentual de 6,25 do teor de MO9. Como resultado deste processo, não observamos ix , mas sim uma estimativa de ix , iii uxz += , onde iu é

5em Aigner et al (1977) assumiu-se distribuição normal truncada negativa e exponencial para a componente ui . 6Corrected Ordinary Least Squares, Winsten (1957). 7Ordinary Least Squares ou Mínimos Quadrados Ordinários. 8 x i é um vetor de dados verdadeiros não observáveis enquanto iz é um vetor de dados observáveis que

representa ix . 9informação fornecida pela EMBRAPA.

762

o erro de medida introduzido pela amostra e pela análise em laboratório. A estimação de modelos deste tipo, que contém variáveis não observáveis, contudo estimáveis10, é comum em várias áreas da econometria aplicada (ver Murphy (1985)). Esta forma de modelar o problema (admitindo-se erro nas variáveis explicativas) causa o inconveniente de tornar a variável explicativa correlacionada com o erro e, portanto, neste caso, utilizar o estimador de mínimos quadrados não é uma boa alternativa, pois neste caso ele é inconsistente (Hill, Griths, and Judge (2001)). Uma forma, do ponto de vista clássico, de se construir estimadores dos parâmetros de modelos com erro nas variáveis é através do sugerido por Fuller (1987) que admite o conhecimento das variâncias dos erros envolvidos e utiliza o conceito de reliability ratio, razão entre as variâncias da variável não observável e da variável observável. Quando optamos por trabalhar com este conceito, temos que admitir conhecida esta razão, ou, pelo menos, conhecermos a variância do erro associado à variável observável medida com erro, caso contrário, não temos como estimar os parâmetros. Uma outra forma de se obter os estimadores pode ser através de informações auxiliares fornecidas por variáveis instrumentais. Vamos adotar, inicialmente, o modelo sugerido por Dhawan and Jochumzen (1999) que utiliza abordagem clássica para a estimação dos parâmetros com os conceitos abordados por Fuller (1987). Posteriormente, faremos uma modificação no que diz respeito à suposição de conhecimento da razão entre a variância da variável não observável e a variância da variável observável11.

2.3. Fronteira de Produção Estocástica com Erro nas Variáveis Nesta subseção apresenta-se o modelo de fronteira de produção estocástica com erro nas variáveis, limitando-se ao estudo de modelos com dados do tipo corte transversal (cross-section) e função de produção do tipo Cobb-Douglas:

iiii ξεxαy −++= γ

jijiji uxz += , j = 1,…,k (3)

onde, yi é o logaritmo da produção da i-é sima firma; ( )kiiii xxxx ,...,, 21= , com o elemento x ji igual ao logaritmo do verdadeiro j-ésimo insumo (não

observável) referente à firma i. ),( 2

izxjji jNx πσµ∼ ;

α é um parâmetro a ser estimado; γ é o vetor de k parâmetros a serem estimados;

zji é o logaritmo do valor observado que representa o j-ésimo insumo verdadeiro relativo à i-ésima firma; uji é o erro aleatório associado ao j-ésimo insumo relativo à i-ésima firma ))1(,0( 2

jziji Nu σπ−∼ ;

i é o termo de perturbação referente à i-ésima firma. Possui distribuição ),0( 2εσN ;

i é o erro assimétrico que reflete a ineficiência da firma i. Possui distribuicão ),0( 2ξσ

+N .

2.4. Eficiência Técnica das Firmas Por eficiência produtiva entendemos que seja uma medida do grau de sucesso obtido por uma empresa que produz determinado bem ou serviço ao tentar atingir um certo objetivo. Portanto, para medir eficiência produtiva é necessário especificar o objetivo da empresa e quantificar o seu grau de sucesso na busca deste objetivo. Num nível elementar, este objetivo pode ser tão simples quanto buscar obter a máxima quantidade de produtos para dados insumos. Neste caso, a noção de eficiência produtiva corresponde ao que chamamos de Eficiência Técnica (Kumbhakar and Lovell (2000)). A definição 10ou seja, modelos com regressores com erro nas variáveis. 11admitiremos um modelo no qual as variâncias xx

2 e uu 2 sejam estocásticas e as estimaremos.

763

formal de eficiência técnica foi apresentada, primeiramente, por Koopmans (1951) e revela que um vetor produção-insumos é tecnicamente eficiente se não for possível mais nenhuma diminuição de insumo ou aumento de produção. Como colocamos anteriormente, a parcela de erro i no modelo de FPE está relacionada diretamente com as atividades de cada firma e, portanto, pode ser utilizada como uma boa medida da eficiência (ou, ineficiência) técnica das firmas. Desta forma, a medida de eficiência técnica (ET) adotada para cada firma i pode ser descrita como:

)exp( iET ξ−= (4) 3. Enfoque Clássico para o Modelo de Fronteira de Produção

Estocástica com Erro nas Variáveis Explicativas Segundo o enfoque clássico, obter a estimação dos parâmetros ( γα , e 2

εσ ) na equação de fronteira estocástica é simples se não estivermos diante de um modelo com erro-nas-variáveis. O método de Mínimos Quadrados Ordinários12 nos permitirá uma consistente, mas ineficiente, estimativa de k elementos do vetor de parâmetros γ , além de uma estimativa inconsistente de α e não nos permitirá estimar a variância da eficiência técnica ( 2

ξσ ). Uma alternativa seria utilizar o COLS (Koopmans, 1951) que nos proporciona estimativas consistentes mas ineficientes dos parâmetros. Diante deste quadro, uma alternativa seria utilizar o Método de Máxima Verossimilhança. Assumindo-se um modelo com erro composto e erro nas variáveis explicativas, como o que estamos adotando no presente trabalho, fica claro que o modelo é não identificável pois só observamos Y e Z , enquanto X , ε , ξ e u são não observáveis. Isto implica que as variâncias de u e de x não podem ser

identificadas separadamente, o que significa que se necessita de informação adicional (neste caso, poderíamos pensar em utilizar variáveis instrumentais). Obter instrumentos apropriados para nossas variáveis é um trabalho árduo, mas Klepper (1984) pensou em uma alternativa, mas que não se aplica ao nosso trabalho, pois não conseguiríamos uma estimativa de 2

ξσ necessária para obtermos estimativas da eficiência técnica das firmas. Dhawan and Jochumzen (1999) utilizaram o método da máxima verossimilhança com informação limitada13 e a metodologia proposta por Fuller (1987) chamada de Reliability ratio, que embora computacionalmente mais cara, permite utilizar o método de Máxima Verossimilhança tanto para estimar consistentemente todos os parâmetros do modelo quanto para obter as eficiências técnicas. As reliabilities ratios são definidas da seguinte forma:

)var()var(

i

ii z

x=π

),cov(),cov(),cov(

),cov(),cov(

jiji

ji

ji

jiij

uuxxxx

zzxx

+=

(5)

Onde, 0 iπ 1 e 0 ijπ 1. iπ é igual a 1 se não houver erro de medida na variável xi. ijπ é a razão entre a covariância de duas variáveis verdadeiras (não observadas) e a covariância das duas variáveis observadas que as representam. Note que se assumirmos que os erros de medida das diferentes variáveis não são correlacionados, então todos os ijπ serão iguais a 1, mas se as variáveis

ix e jx não forem correlacionadas, ijπ será igual a zero independente do fato dos erros de medida

serem correlacionados ou não. Como iu e ix são independentes, )var()1()( iii zuVar π−= (6)

12também conhecido pelas siglas em inglês OLS (Ordinary Least Squares). 13também conhecido através das siglas LIML, Limited Information Maximum Likelihood.

764

. ,..1j ,..1 ),,cov()1(),cov( kikkizzuu jiijji ≠==−= π (7)

Como iZ é observado, é possível estimar a matriz de variância de Z . Para identificar o modelo, devemos conhecer a matriz variância de x ou a matriz variância de u . Dhawan and Jochumzen (1999) propõem estimar os parâmetros do modelo supondo-se diferentes valores conhecidos da matriz de reliability ratios através do LIML. 4. Enfoque Bayesiano para o Modelo de Fronteira de Produção

Estocástica com Erro nas Variáveis Explicativas Sob o ponto de vista Bayesiano, a inferência sobre os parâmetros de um modelo envolve a combinação de informação inerente aos dados, expressa pela função de verossimilhança e informação histórica trazida pelos dados, expressa pela função de densidade à priori (ou, simplesmente, Priori). A relação entre estas duas funções e a função preditiva, através do Teorema de Bayes14, resulta na função a posteriori (ou, simplesmente, Posteriori). Em vários problemas de inferência Bayesiana verifica-se uma complexidade grande, senão impossibilidade, na obtenção analítica da posteriori. Portanto, para suprir esta deficiência, alguns métodos aproximados de inferência foram desenvolvidos, como por exemplo aproximação pela Normal, aproximação de Laplace e aproximação via Quadratura Gaussiana, que constituem métodos determinísticos, além de métodos de Simulação estocástica, que é o foco do nosso interesse. Veremos, a seguir, um exemplo de quão complexo pode ser o cálculo analítico da posteriori utilizando o nosso modelo e apresentaremos uma alternativa para cobrir esta deficiência.

4.1. Distribuição a Posteriori A distribuição a posteriori obtida a partir da estrutura hierárquica do modelo (3), considerando-se

2jzσ fixo, será:

PpXpXZpXYpYZXp ixix ×∝ )|(),|(),|(),,,,|(),|,,,,,,( 2222 ξεξε

σξµππξσγαµξσσγα onde: PrioriP = . A especificação da priori conjunta é colocada na seção 4.2.

),,,,|( 2 XYp ξσγα ε ),,,,|( 2

1εσξγα iii

N

i

XYp∏=

),( 2

11εσξγα ijij

k

j

N

i

xN −+∝ ∑∏==

]]][[2

1exp[)1[( 2

122

1

21

ijij

k

ji

N

i

xY ξγασσ εε

−+−−

∝ ∑∏==

(7)

),|( πXZp ),|(11

πjiji

N

i

K

j

xZp∏∏==

))1(,( 2

11

πσε −∝ ∏∏==

ji

N

i

K

j

xN

])()]1([2

1exp[ 22

11jiji

N

i

K

j

xZ −−

−∝ ∏∏

== πσε

(8)

14a função de verossimilhança, Priori, Posteriori e distribuição Preditiva, assim como o Teorema de Bayes, podem ser encontrados em qualquer literatura sobre inferência Bayesiana.

765

)|( πXp )|(11

πji

N

i

K

j

xp∏∏==

),0( 2

11

πσεNN

i

K

j∏∏==

])(2

1exp[ 22

11ji

N

i

K

j

xπσε

−∝ ∏∏

==

(9)

))|( 2ξσξ ip )|( 2

1ξσξ i

N

i

p∏=

),0( 2

1ξσN

N

i∏=

)])(,0(])(2

1exp[)1[( 222

1

21

i

N

i

I ξξσσ ξξ

∞−−

∝∏=

15 (10)

Observamos que a conta para obtenção da posteriori de interesse é extremamente complicada e possivelmente custosa computacionalmente, podendo talvez ser obtida por integração numérica ou, até não possuir solução analiticamente fechada. Por estes motivos, para estimarmos os parâmetros que nos interessam, resolvemos optar pela utilização de um método iterativo, o algoritmo de Gibbs. O amostrador de Gibbs é essencialmente um esquema iterativo de amostragem de uma cadeia de Markov cujo núcleo de transição é formado pelas distribuições condicionais completas16(Gamerman (1996)). Consequentemente, para implementar o método devemos especificar as distribuições a priori17 e obter as distribuições condicionais completas18para cada quantidade de interesse.

4.2. Distribuições a Priori Com base na priori conjunta referente ao nosso modelo,

),,,,( 22xp µσσγα ξε ,

e Supondo que as prioris definidas para os parâmetros sejam independentes, podemos escrever a priori conjunta da forma

)()()()()( 22xppppp µσσγα ξε (11)

onde, p = p1p2. . . pk e )( xp µ = )()( 21 xx pp µµ … )( xkp µ . Distribuição a priori para cada parâmetro:

)(~ 2xppxp xN σµ (12)

),(~ 20 ασαα N (13)

),(~ 2

0 ppp N γσγγ (14)

),(~12 εεεσ

baGa (15)

15 I(0,∞) é uma função indicadora no intervalo 0→∞, ou seja, ( )( ) 1,0 =∞Ι iξ se ( )∞∈ ,0iξ e

( )( ) 0,0 =∞Ι iξ , caso contrário.16detalhes do algoritmo de Gibbs, ver Geman and Geman (1984) e Gelfand and Smith (1990).17as prioris são colocadas para especificar o conhecimento inicial que temos acerca dos parâ metros. 18caso as distribuições não tenham forma conhecida, o que não é nosso caso neste trabalho, deve-se recorrer ao algoritmo de Metropolis-Hasting

766

),(~12 ξξξσ

baGa (16)

4.3. Desenvolvimento das Condicionais Completas 4.3.1 Condicional Completa de α :

)|( outrosp α ])()(2

1exp[])(2

1exp[ 202

2

12

1

αασ

ξγασ αε

−−

×+−−−

∝ ∑∏==

ijij

k

ji

N

i

xY

])]()(2

1exp[])(2

1exp[ 202

2

112 αα

σξγα

σ αε

−−

×+−−−

∝ ∑∑==

ijij

k

ji

N

i

xY

])]()(2

1exp[]))((2

1exp[ 202

2

112 αα

σαξγ

σ αε

−−×−+−−

∝ ∑∑==

ijij

k

ji

N

i

xY

quando fazemos a soma dos quadrados de dois termos, verificamos algumas parcelas não estão em função de , então as descartamos pois são consideradas constantes. Rearrumando e separando em 2 partes, chegamos a:

)|( outrosp α 21 PP ×∝

)](2(2

1exp[11

221 ijij

k

ji

N

i

xYNP ξγαασε

+−−−

= ∑∑==

]22

1exp[ 02

22 ααασα

−−

=P

que resulta em:

)|( outrosp α )]])(

(2)1[(21exp[ 2

02112

22αεαε σ

ασ

ξγαα

σσ+

+∑−∑−+

−∝ == ijij

kji

Ni xYN

fazendo,

22

1

αεα σσ

+=NA

20

211 )(

αεα σ

ασ

ξγ+

+∑−∑= == ijij

kji

Ni xY

B

]]2[2

exp[)|( 2 αααα

αα

ABA

outrosp −−

∝ (17)

Então a condicional completa de α será:

)1,(~)|(αα

ααAA

BNoutrosp (18)

4.3.2 Condicional Completa de pγ :

)|( outrosp pγ 43 PP ×∝

3P ])(2

1exp[ 2

12

1ijij

k

ji

N

i

xY ξγασ ε

+−−−

∝ ∑∏==

])(2

1exp[ 2

12 pipijij

pji

N

i

xxY γξγασε

−+−−−

∝ ∑∑≠=

767

ppiijijpj

i

N

ipi

N

ip xxYx γξγαγ

σε

))((2[2

1exp[1

2

1

22 +−−−

−∝ ∑∑∑

≠==

4P ])(2

1exp[ 202 pp

p

γγσ γ

−−

)]2(2

1exp[0

22 ppp

p

γγγσγ

−−

)|( outrosp pγ ]]2[2

exp[ 2pp

p

pp

A

BAγγ

γ

γγ−

−∝ (19)

onde,

Ap i1

N x pi2

2 1

p2

Bp i1

N Yi jp jx ji ix pi

2

p 0

p2

Então a condicional completa de p será:

)1,(~)|(pp

p

AA

BNoutrosp p

γγ

γγ (20)

4.3.3 Condicional Completa de 2

εσ :

)|( 2 outrosp εσ )(])(2

1exp[)1( 22

122

1

21

εεε

σξγασσ

pxY ijij

k

ji

N

i

×+−−−

∝ ∑∏==

]2

exp[)1()( 212 2

2

ε

σ

εε σσ

σ εεσ B

pA −

∝ +

Então,

]2

exp[)1]()(2

1exp[)1()|( 212

1122

2 222

ε

σ

εεεε σσ

ξγασσ

σ εεσ B

xYoutrospAN

ijij

k

ji

N

i

−+−−

−∝ +

==∑∑

])([2

1exp[)1( 222 2

112

12 ε

εσ

σεε

ξγασσ

BxY ijij

k

ji

N

i

AN

++−−−

∝ ∑∑==

++ (21)

Portanto, a condicional completa de 2 será:

)|( 2 outrosp εσ )2

,2

(~ baIG (22)

onde,

22

11

)(

222

ε

ε

σ

σ

ξγα BxYb

ANa

ijij

k

ji

N

i

++−−=

+=

∑∑==

4.3.4 Condicional Completa de 2

ξσ :

)|( 2 outrosp ξσ )()|( 22ξξ σσξ pp∝

768

]2

1exp[)1( 222

1

21

ξσσ ξξ

−∝∏

=

N

i

]2

exp[)1](2

1exp[)1( 21

22

122

22

2

2

ξ

σ

ξξξ σσξ

σσξ

ξσ BAN

i

N

i

−−∝ +

=∑

](2

1exp[)122

)1( 2

2 2

12

(2 ξ

ξ

σξ

σ

ξ

ξσσ

BAN

i

N

i

+−

++∝ ∑=

(23)

Portanto, a condicional completa de 2

será:

)|( 2 outrosp ξσ )2

,2

(~22

21

ξξ σσξ BAN

IGi

Ni +∑+ =

(24)

4.3..5 Condicional Completa de ξ :

),,,|( YZXoutrosp ξ ]2

exp[]))((2

1exp[ 2

22

12

ξε σξξγα

σi

ijij

k

ji xY −

+−−−

∝ ∑=

Desenvolvendo o quadrado da soma de dois termos, 21 ))(( ijij

kji xY ξγα +∑−− = , e desprezando os

termos constantes, chegamos a:

)]2(2

exp[),,,|( 2

ξ

ξξ ξξABA

YZXoutrosp −−

∝ (25)

onde,

2

1

22

/)(

11

εξ

ξεξ

σγα

σσ

jij

k

ji xYB

A

∑=

−−=

+=

Portanto, a condicional completa de iξ será:

)1,(~ξξ

ξξAA

BNi

−+ (26)

4.3.6 Condicional Completa de px :

)|( outrosxp pi ),...,,|()()|( 21 outrosxxxypxpxZp kiiiipipipi∝

]2

)(exp[]

)1(2)(

exp[])(2

1exp[22

222

2j

j

j Z

Zji

Z

jijipipijij

pji

xxZxxY

πσ

µ

σπγεγα

σε

−−

−−−−−−

−∝ ∑

Fazendo

ijijpj

i xYQ εγα −−−= ∑≠

Desenvolvendo o quadrado da soma de dois termos (separando, antes, os termos que contém pix dos outros) e desprezando os termos constantes, temos:

)|( outrosxp ji 22 2

2

)1(22

)2(2

1exp[22

222

p

p

p Z

Zpipi

Z

pipipipippip

xxxxZxxQ

πσ

µ

σπγγ

σε

−−

+−−+−

−∝

]])1)1(

1())1(

(2[21exp[ 2

2

2

2 2222 piZZ

ppi

Z

Z

Z

pip xxZQ

ppp

p

pπσσπσ

γπσ

µ

σπσγ

εε

+−

+++−

+−−

769

Sendo

22)1(2p

p

p Z

Z

Z

pipx

ZQA

πσ

µ

σπσ

γ

ε

+−

+=

22

1)1(

12

2

pp ZZ

pxB

πσσπσγ

ε

+−

+=

)]22(2

exp[)|( pipix

xxpi xx

BABoutrosxp +

−−∝ (27)

a condicional completa de jix será:

)1,(~xx

xji BB

ANx + (28)

4.3.7 Condicional Completa de jµ :

)()|(),,,|(1

jjji

N

ij pxpYZXoutrosp µµµ ∏

=

Assumindo-se ππ =j para todo j,

),,,|( YZXoutrosp jµ ])(2

1exp[])(2

1exp[ 22

122 jjjji

Z

N

i jj

x µµσ

µπσ µ

−−

−−

∝∏=

])(2

1exp[])(2

1exp[ 22

122 jjjji

N

iZ jj

x µµσ

µπσ µ

−−

−−

∝ ∑=

)]2(2

1exp[)]2(2

1exp[2222

122 jjjjjjjiji

N

iZ jj

xx µµµµσ

µµπσ µ

+−−

+−−

∝ ∑=

]])(2)1[(21exp[

2222

12j

j

Z

jiNi

jZ jjjj

xN µσµ

πσµ

σπσ µµ

+∑

−+−

∝ =

Sendo,

22

22

1

1

jj

j

jj

j

j

Z

jiNi

Z

xB

NA

µµ

µµ

σµ

πσ

σπσ

+∑

=

+=

=

temos

)]2(2

exp[),,,|( 2

j

jj

A

BAYZXoutrosp jj

µ

µµµµ −

−∝ (29)

a condicional completa de jµ será:

)1,(~jj

j

AA

BNj

µµ

µµ (30)

4.4. Aplicação - Dados Simulados Vamos admitir o seguinte modelo de Fronteira de Produção Estocástica (FPE) para dados em corte transversal (cross-section) com erro nas variáveis explicativas:

770

iij eeIeY ji

k

ji

ξεβα ∏=

=1

jijiji uII = , )...1( kj = (31) onde ijI é o j-ésimo insumo observável (com erro) que representa o j-ésimo insumo verdadeiro não

observável, ijI , relativos à firma i, com 0≥ijI . Escrevendo as duas equações acima descritas em escala linear, temos para cada firma i:

iijij

k

ji IY ξεβα −++= ∑

=

)ln(ln1

)ln()ln()ln( jijiji uII += , )..1( kj = (32) Vamos assumir neste trabalho um modelo com k=2 insumos, capital ( iI1 ) e trabalho ( iI2 ). Podemos reescrever as equações colocadas acima na forma per-capta, como sugerem Dhawan and Jochumzen (1999), obtendo:

iiiiiii IIIIY ξεβββα −+−+++= )ln()1()/ln()/ln( 2212112 )ln()/ln()/ln( 12121 iiiii uIIII +=

)ln()ln()ln( 222 iuII ii += (33) que pode ser escrito da seguinte forma:

iii

iiiii

uxzxxy

111

2211

+=−+++= ξεγγα

iii uxz 222 += (34) Onde: iy indica o logaritmo neperiano da razão produção/trabalho, ou seja, produção por unidade de trabalho, )/ln( 2ii IY ; ix1 indica o logaritmo neperiano da razão verdadeira (não observada) entre capital e trabalho, )/ln( 21 ii II ; ix2 indica o logaritmo neperiano da quantidade verdadeira (não

observada) do insumo trabalho, )ln( 2iI ; iu1 e iu2 são os erros aleatórios associados, respectivamente, às variáveis capital e trabalho; iz1 indica o logaritmo neperiano da razão entre os valores observados que representam, respectivamente, a quantidade de capital e o insumo trabalho; iz2 indica o logaritmo neperiano do valor observado que representa a verdadeira quantidade do insumo trabalho. 1γ é o parâmetro do modelo em escala linear igual a 1β , elasticidade de capital, do modelo em escala logarítmica; 2γ é o parâmetro do modelo em escala linear igual a ( 121 −+ ββ ), ou seja, função da

elasticidade de capital e de trabalho; i é o erro aleatório associado à produção; i exprime o erro associado às firmas, relacionado com a eficiência técnica das mesmas. Para estimar os parâmetros da Fronteira de Produção Cobb-Douglas, assim como o termo de ineficiência técnica, utilizamos o método de Gibbs Sampling. Um conjunto de 500 observações (de iy e de jiz ) foi gerado artificialmente e replicado 100 vezes para cada valor de π = {0.70, 0.75, 0.80,

0.85, 0.90 e 0.95} com auxílio do pacote computacional estatístico Ox19. x ji foram simulados de uma distribuição normal com média xjµ e variância πσ 2

jz (ou seja, ),( 2 πσµjzxjji Nx ∼ para j=1,2), onde

π expressa o grau de erro da variável e é comum para j=1,2. jiu foi gerado de uma normal com

média igual a zero e variância )1(2 πσ −jz . Uma vez gerados jix e jiu , simulou-se iε de uma

distribuição Normal com média igual a zero e variância 2εσ e iξ foi obtido de uma normal truncada,

19Ox, versão 1.62, J.A. Doornik

771

),0( 2ξσξ +∼ Ni , com 2

ξσ escolhido de forma que a razão entre este valor (variância do erro associado

à eficiência técnica) e o erro total ( 2εσ + 2

ξσ ) seja em torno de 0.90. Admitiu-se para a simulação:

1xµ =0.2 2xµ =0.1, 2

1zσ = 2

2zσ =2, 2εσ =0.02, 2

ξσ =0.4, α =1.7, 1

γ =0.6 e 2γ =0.1. Os resultados da inferência foram obtidos de cadeias com 10.000 iterações cada, onde as 5.000 primeiras foram descartadas. 5. Conclusões Os resultados estão apresentados em gráficos e tabelas. Na figura 1, temos uma tabela que reporta os resultados médios das inferências obtidas com 100 replicações. Na primeira linha, temos os valores verdadeiros e nas seis seguintes temos os resultados respectivos a cada π. Podemos observar que os resultados foram bastante satisfatórios. As figuras 2, 3 e 4 ilustram os resultados obtidos para 0.70. Cada uma das figuras citadas anteriormente apresenta 3 gráficos contendo, respectivamente, a saída do MCMC, um histograma com a distribuição a posteriori e a função de autocorrelação relativos a cada parâmetro de interesse. Podemos observar, através dos histogramas das distribuições a posteriori, boa estimativa de todos os parâmetros. Com o objetivo de facilitar a análise, para cada caso traçamos no histograma uma linha contínua indicando o valor verdadeiro do parâmetro com que os dados foram gerados e uma linha tracejada com o valor estimado pelo modelo. Quanto à convergência, podemos observar pelo gráfico de autocorrelação que rapidamente convergiu, demorando um pouco mais no caso do parâmetro alfa (o que foi observado para outros valores de ).

Nosso trabalho difere daqueles existentes na literatura sobre fronteiras estocásticas (que assumem a perspectiva da econometria clássica para este problema), pois trata o problema de fronteiras estocásticas com uma metodologia simples, através do enfoque Bayesiano, assumindo erro nas variáveis explicativas. Nossa intenção para trabalho futuro é contribuir com a sugestão de uma ferramenta Bayesiana para estimar eficiência técnica de empresas no mercado de seguros brasileiro. A aplicação deste modelo com o objetivo de apoiar decisões no mercado segurador brasileiro nos parece bastante adequada já que este é um mercado que apresenta números expressivos, evidenciando a relevância deste setor produtivo para o país20. A metodologia utilizada no trabalho para estimação é relativamente simples de se implementar e o modelo envolve a consideração de que as verdadeiras quantidades deste mercado raramente estão publicamente disponíveis.

Figura 1: Resultado da média das estimativas de 100 replicações

π α 1γ 2γ 2εσ 2

ξσ 1.7 0.6 0.1 0.02 0.4

0.95 1.69541 0.60197 0.09995 0.02197 0.39941 0.90 1.69380 0.59987 0.10048 0.02210 0.39361 0.85 1.69389 0.59964 0.09910 0.02239 0.39614 0.80 1.69256 0.60204 0.09921 0.02236 0.38527 0.75 1.68796 0.59873 0.10140 0.02235 0.38805 0.70 1.68612 0.59945 0.09967 0.02273 0.38640

Figura 2: Resultados Gráficos de .

20mais informações sobre os números deste mercado, ver Balanço Social - Seguros, Previdência e Capitalização, publicação: Fenaseg.

772

Figura 3: Resultados Gráficos de gama1.

Figura 4: Resultados Gráficos de gama2.

773

Referências Aigner, D. J., Lovell, C. A. K., e Schimidt, P. (1977). Formulation and estimation of stochastic frontier production function models. Journal of Econometrics, 6:1 july, 21-37.

Cummins, J. D., e Weiss, M. A. (1993). Measuring cost efficiency in the property-liability insurance industry. Journal of Banking and Finance, 17, 463-481.

Dhawan, R., e Jochumzen, P. (1999). Stochastic frontier production function with errors-in-variables. Lund University, Departament of Ecometrics and Statistics.

Farrell, M. J. (1957). The measurement of productive efficiency. Journal of The Royal Statistical Society, 120, series A, General, 253-281.

Fernandez, C., Osiewalski, J., e Steel, M. F. J. (1997). On the use of panel data in stochastic frontier models with improper priors. Journal of Econometrics, 79, 169-193.

Fuller, W. A. (1987). Measurement error models (1st ed.). N.Y.: John Willey and Sons.

Gamerman, D. (1996). Simulação estocástica via cadeias de markov (1st ed.). São Paulo, Brasil: Associação Brasileira de Estatística.

Gelfand, A., e Smith, A. (1990). Sampling-based approaches to calculating marginal densities. Journal of the American Statistical Association, 85, 398-409.

Geman, S., e Geman, D. (1984). Stochastic relaxation, gibbs distributions and the bayesian restoration of images. IEEE, 6, 721-741.

Gilks, W. R., e Roberts, G. (1995). Strategies for improving mcmc. em markov chain monte carlo in practice. New York: Chapman and Hall.

Greene, W. H. (1997). Frontier production functions in handbook of applied econometrics, volume ii:Microeconomics. Oxford: Blackwell Publishers, Ltd.

Hill, R. C., Griffiths, W. E., e Judge, G. G. (2001). Undergraduate econometrics (2nd ed.). N.Y.: John Willey and Sons.

Huang, H.-C. (2004). Estimation of technical inef.ciencies with heterogeneous technologies. Journal of Productivity Analysis, 21, 277-296.

Koop, G., Osiewalski, J., e Steel, M. F. J. (1997). Bayesian efficiency analysis through individual effects: Hospital cost frontiers. Journal of Econometrics, 76, 77-105.

Koopmans, T. (1951). An analysis of production as an efficient combination of activities [Monografia].

Kumbhakar, S. C., e Lovell, C. A. K. (2000). Stochastic frontier analysis (1st ed.). Cambrigde:Cambridge University Press.

Medrano, L. A. T. (2003). Análise bayesiana de modelos de fronteiras de produção estocásticas. Dissertação de mestrado, IM - UFRJ, RJ, Brasil.

Meeusen, W., e van den Broeck, J. (1977). Efficiency estimation from cobb-douglas production functions with composed error. International Economic Review, june, 435-444.

Pitt, M., e Lee, L. F. (1981). The measurement and sources of technical inefficiency in the Indonesian weaving industry. Journal of Development Economics, 9, 43-64.

Richmond, J. (1974). Estimating the efficiency of production. International Economic Review, June,515-21.

774

T. Coelli, D. S. P. R., e Battese, E. G. (1998). An introduction to efficiency and productivity analisys (1st ed.). N.Y.: Klumer Academic Publishers.

Tsionas, E. G. (2002). Stochastic frontier models with random coefficients. Journal of Applied Econometrics, 17, 127-147.

van den Broeck, J., Koop, G., Osiewalski, J., e Steel, M. (1994). Stochastic frontier models: A bayesian perspective. Journal of Econometrics, 61, 273-303.

Winsten, C. B. (1957). Discussion on mr. farrell`s paper. Journal of the Royal Statistical Society, 120, series A, General, Part3, 282-84.

775