Resumo - Sumarização de dados PDF

Title Resumo - Sumarização de dados
Course Bancos De Dados
Institution Pontifícia Universidade Católica de Minas Gerais
Pages 2
File Size 73.4 KB
File Type PDF
Total Downloads 6
Total Views 165

Summary

Resumo de topicos cobrados em provas...


Description

SUMMARIZING MEASURED DATA A sumarização é o processo pelo qual condensamos os resultados obtidos em experimentos num formato que melhor os represente, de forma que fiquem entendíveis a quem possa interessar. Existem três formas populares de sumarizar um determinado conjunto de dados em um único número: a média – somatório de todos os valores da amostra, dividida pela quantidade de elementos da amostra. A mediana – obtida ordenando-se os elementos da amostra em ordem crescente e selecionando-se o o elemento do meio da série obtida (se a quantidade de elementos na amostra for um número par, a média os dois elementos centrais da série obtida após a ordenação é considerada a mediana). A moda refere-se ao valor de maior frequência na amostra. Estas são chamadas de índices de tendência central. Um erro comum ao analisarmos resultados é definirmos este índice de forma errada – sem levar em consideração a natureza da amostra. Se os seus dados são qualitativos, a moda é o melhor índice para descrever a amostra. Se o total das observações for interessante (tempo total de CPU para se realizar 5 consultas SQL por exemplo), a média é uma boa alternativa. Se sua distribuição tem um comportamento de cauda, a mediana é mais representativa do que a média. Maus usos comuns da média: Média de valores significativamente diferentes, uso da média não levando em conta o comportamento de cauda da distribuição, multiplicar médias para obter a média do produto. A média geométrica é utilizada se o produto de todas as observações for interessante (percentual de melhora de performance entre sucessivas versões de um sistema). Para o cálculo de grandezas inversamente proporcionais, a média harmônica é a mais recomendada. Raramente sumarizar por um número apenas é o suficiente. É importante verificar o quanto variam os números da sua amostra. 2 sistemas podem ter tempo médio de resposta semelhante, porém os tempos do primeiro estão sempre próximos à media e os tempos do segundo ou são muito abaixo ou muito acima da média – no geral, o melhor sistema será o que apresenta a menor variação, por isso a importância de se medir a variação. Variabilidade é expressada através de medidas que são chamadas índices de dispersão. Se os seus dados variam sempre entre 2 limites conhecidos e aceitáveis, o range – diferença entre o mínimo e o máximo – pode ser utilizado. Caso contrário, verifique se a distribuição é unimodal e simétrica. Se sim, utilize a variância, desvio padrão ou coeficiente de variação. Se sua distribuição apresenta um comportamento de cauda, os percentis são os melhores índices. A determinação de uma distribuição é feita plotando-se um histograma – definindo-se um mínimo e máximo e dividindo o intervalo entre os dois em intervalos menores (células). O histograma representa a fração de observações que cai em cada célula. Assim determina-se se a distribuição é normal ou não. COMPARING SYSTEMS USING SAMPLE DATA Se conduzirmos n experimentos entre dois sistemas, de forma que exista uma correspondência um-para-um entre um i-ésimo experimento no sistema A e i-ésimo

experimento no sistema B, chamamos a observação de observação pareada. Neste caso as duas amostras são tratadas como uma única amostra de pares. Constrói-se o intervalo de confiança através da média das diferenças entre cada par, a variância e desvio padrão. Se o intervalo de confiança contém zero, os sistemas não são significativamente diferentes para o determinado intervalo de confiança. Se não existir correspondência entre as observações dos sistemas A e B, dizemos que a observação é não pareada. Neste caso é realizado o teste-t. (a) Os intervalos de confiança não se sobrepõe, implica que a solução A é significativamente melhor que B. (b) Os intervalos de confiança se sobrepõe, de forma que a média de B se encontra no intervalo de A (e vice-versa). Neste caso não é possível afirmar que uma solução é melhor que a outra para este intervalo de confiança. (c) Os intervalos de confiança se sobrepõe mas as médias não estão dentro do mesmo intervalo. Nestes casos não é possível afirmar apenas pelo gráfico, é preciso realizar o teste-t. O tamanho da amostra também pode ser determinado com base em um intervalo de confiança e erro desejados – ou uma proporção desejada, dependendo o do parâmetro a ser avaliado....


Similar Free PDFs