Want to create interactive content? It’s easy in Genially!
Estadística descriptiva
202414038 ROGELIO CONTRERAS CAMPILLO
Created on March 20, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Corporate Christmas Presentation
View
Snow Presentation
View
Nature Presentation
View
Halloween Presentation
View
Tarot Presentation
View
Winter Presentation
View
Vaporwave presentation
Transcript
Estadística descriptiva.
rogelio contreras
START
CONCEPTOS BASICOS
DESCRIPCION DE DATOS
DATOS AGRUPADOS Y NO AGRUPADOS
FRECUENCIA RELATIVA
LIMITES
PUNTO MEDIO
FRECUENCIA DE CLASE
Media aritmética
Media geométrica
Media ponderada
Mediana
Medidas de tendencia central
Moda
Medidas de dispersión
Varianza
Desviación estándar
Desviación media
Desviación mediana
Rango
Parámetros para datos agrupados
Determinar la amplitud de clase para agrupar (C)
Determinar el rango o recorrido de los datos
Formar clases y agrupar datos.
Establecer el número de clases (k) en que se van a agrupar los datos tomando como base para esto la siguiente tabla.
Distribución de frecuencias
Distribución de frecuencia para datos no Agrupados:
Componentes de una distribución de frecuencia de clase
1 Rango o Amplitud total
2.- Clase o Intervalo de clase
3.-Amplitud de Clase, Longitud o Ancho de una Clase
4.-Punto medio o Marca de clase
Distribución de frecuencia de clase o de datos Agrupados:
6.- Frecuencia Relativa
5.-Frecuencia de clase
8.- Frecuencia acumulada relativa
7.-Frecuencias acumuladas
Técnicas de agrupación de datos
Es aquella distribución en la distribución tabular de los datos estadísticos se encuentran ordenados en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clases.
Técnicas de muestreo
Muestreo por estadios múltiples
Muestreo sistemático
Muestreo probabilístico
Muestreo estratificado
Homogeneidad de las poblaciones o sus subgrupos
Muestreo por cuotas
Muestreo no probabilístico
Muestreo por conglomerado
Muestreo subjetivo por decisión razonada
Muestreo de bola de nieve
Histogramas
Construcción de un histograma
tipos de histogramas
paso 1
paso 2
paso 3
paso 4
paso 5
La teoría de decisiones se ocupa de analizar cómo elige una persona aquella acción que, de entre un conjunto de acciones posibles, le conduce al mejor resultado dadas sus preferencias: por ejemplo, sí debe invertir o no en bienes o equipo, qué carrera estudiar, qué coche comprar o, incluso, con quién debería casarse, son problemas muy comunes que nos afectan en nuestra vida cotidiana y a los que —en términos formales— se enfrenta la teoría de decisiones. Para tomar una decisión se tiene que realizar un proceso mental. Este proceso mental se lleva a cabo en función de la información que se tiene al alcance, y es en sí, resultado de la formación académica y familiar, de los valores y actitudes con los que se conduce en la vida una persona.
Para proceder al análisis de la decisión es preciso identificar previamente un conjunto de opciones posibles desde la perspectiva de quien toma la decisión (su conjunto factible) y un conjunto de consecuencias de cada una de las opciones, consecuencias que se puedan anticipar y ordenar según las preferencias del individuo. Se supone que, dado su conjunto factible, el individuo elegirá aquella opción que tenga —o crea que tenga— las mejores consecuencias, es decir, la que prefiera más. La decisión puede ser paramétrica —si el contexto se considera en un parámetro— o estratégica, si las decisiones de los actores son interdependientes, de forma que nuestra decisión dependa de lo que hagan los demás.
Entendemos genéricamente por población el conjunto sobre el cual recaen las observaciones o los datos que analizamos (puede ser una población de personas, de monos, de libros, de radiadores… ). Si tomamos un subconjunto de elementos de la población decimos que hemos tomado una muestra. Cada uno de los elementos de la población reciben el nombre de unidades estadísticas o individuos. La estadística descriptiva como su nombre indica, se ocupa de la descripción de una población, lo cual se realiza a través de la descripción de las diferentes variables que interesa conocer o medir en la misma. La descripción de una variable se puede realizar a través de tres conceptos generales: su valor medio. su variabilidad. su forma.
El muestreo aleatorio es un método de muestreo fundamental que se utiliza en el análisis estadístico y el diseño de investigaciones para seleccionar un grupo de muestra de una población más amplia de forma que cada individuo tenga la misma probabilidad de ser incluido. A diferencia de otros métodos de muestreo, como el muestreo de conveniencia o el muestreo de bola de nieve, este método es fundamental para garantizar la representatividad de la muestra, lo que permite a los investigadores inferir y generalizar sus conclusiones a toda la población con un mayor grado de precisión. La esencia del muestreo aleatorio reside en su enfoque imparcial de la selección. A diferencia de los métodos de muestreo no aleatorio, en los que el investigador puede introducir inadvertidamente un sesgo de selección al elegir a los participantes por conveniencia u otros criterios no aleatorios, el muestreo aleatorio elimina este riesgo. Al dar a cada miembro de la población las mismas posibilidades de selección, se garantiza que la muestra refleje las diversas características y la variabilidad inherentes a la población. Esta técnica es especialmente importante en encuestas y experimentos cuyo objetivo es extraer conclusiones sobre parámetros de la población, como medias o proporciones, a partir de los datos de la muestra. Al utilizar el muestreo aleatorio, los investigadores pueden estimar el margen de error y el nivel de confianza de sus conclusiones, que son métricas cruciales para comprender la precisión y fiabilidad de los resultados
Se llama variable aleatoria aquella que toma diversos valores o conjuntos de valores con distintas probabilidades. Existen 2 características importantes de una variable aleatoria, sus valores y las probabilidades asociadas a esos valores. Una tabla, gráfico o expresión matemática que dé las probabilidades con que una variable aleatoria toma diferente valores, se llama distribución de la variable aleatoria. Como vimos anteriormente, la inferencia estadística se relaciona con las conclusiones que se pueden sacar acerca de una población de observaciones basándose en una muestra de observaciones. Entonces intervienen las probabilidades en el proceso de la selección de la muestra; en este caso se desea saber algo sobre una distribución con base en una muestra aleatoria de esa distribución. De tal manera vemos que trabajamos con muestras aleatorias de una población que es más grande que la muestra obtenida; tal muestra aleatoria aislada no es más que una de muchas muestras diferentes que se habrían podido obtener mediante el proceso de selección. Este concepto es realmente importante en estadística.
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados. Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada. Antes de pasar a definir cuál es la manera de determinar las características de interés (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos como se agrupan los datos.
Marca de clase (punto medio): punto que divide a la clase en dos partes iguales. Es el promedio entre los límites superior e inferior de la clase. Intervalo de clase: para una distribución de frecuencias que tiene clases del mismo tamaño, el intervalo de clase se obtiene restando el límite inferior de una clase del límite inferior de la siguiente.
Es la relación o cociente entre la frecuencia absoluta y el número total de observaciones. Es la proporción entre la frecuencia de un intervalo y el número total de datos.
Punto medio es el punto que divide a un segmento en dos partes iguales. El punto medio de un segmento, es único y equidista de los extremos del segmento. Cumpliendo esta última condición, pertenece a la mediatriz del segmento. La fórmula para determinar el punto medio de un segmento en el plano, con coordenadas: (x1,y1) y (x2,y2) es: [(x1 + x2) / 2] + [(y1 + y2) / 2]
Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a estar los valores de los datos agrupados en ese intervalo de clase.
Es la forma mas común de sintetizar un conjunto de datos con una medida representativa ya que es el conjunto de cifrar sumadas y dividida entre numero de datos contemplados. Esta medida es totalmente numérica o sea sólo puede calcularse en datos de características cuantitativas.
Donde: X =es la media de la muestra; se lee: X barra. n= es el número de valores de la muestra. X= representa cualquier valor particular. Ʃ= es la letra mayúscula griega sigma e indica la operación de suma. ƩX= es la suma de X valores de la muestra.
La media geométrica resulta útil para determinar el cambio promedio de porcentajes, razones, índices o tasas de crecimiento. Posee amplias aplicaciones en la administración y la economía, ya que con frecuencia hay interés en determinar los cambios porcentuales de ventas, salarios o cifras económicas, como el producto interno bruto, los cuales se combinan o se basan unos en otros. La media geométrica de un conjunto de n números positivos se define como la raíz enésima de un producto de x variables.
La media ponderada es similar a la media aritmética, pero se le asigna un peso a cada valor antes de calcular el promedio. Esta media se utiliza cuando algunos valores tienen más importancia que otros dentro del conjunto de datos. Por ejemplo, en un examen, las preguntas de mayor dificultad pueden tener un mayor peso en el cálculo de la nota final. La media ponderada se calcula multiplicando cada valor por su peso correspondiente, sumando los resultados y dividiendo entre la suma de los pesos.
Es definido como el Punto medio de los valores una vez que se han ordenado de menor a mayor o de mayor a menor. a) Si el número de observaciones es impar, la mediana es el valor de en medio b) Si el número de observaciones es par, la mediana es el promedio de las dos observaciones de en medio. La tendencia a todo esto es que es recomendable para no inflar demasiado la demanda de un ingresos anuales o valores de propiedades muy altos ya que no contempla cantidades de extremos solo partes centrales y proporcionales de la misma
Es lo que mas se usa o prefiere como ropa, teléfonos, los actores de grupos musicales. Por tal motivo en estadística es considerado como el valor mas frecuente. La moda es una medida de fácil obtención, aun que no siempre hay un dato cuya frecuencia este claramente por encima de las frecuencias de otros datos. Hay conjunto de datos que tienen dos modas (bimodales) o incluso mas (multimodales). Por esta razón, la moda se utiliza Solo para hacerse una idea provisional de la tendencia central de un conjunto de datos
Las medidas de dispersión muestran la variabilidad de una distribución, indicándolo por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Medidas de tendencia central y dispersión para datos agrupados y no agrupados. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea Las medidas de dispersión son números reales no negativos, su valor es igual a cero cuando los datos son iguales y este se incrementa a medida que los datos se vuelven más diversos.
Es otro parámetro utilizado para medir la dispersión de los valores de una variable respecto a la media. Corresponde a la media aritmética de los cuadrados de las desviaciones respecto a la media.
La desviación estándar mide el grado de dispersión de los datos con respecto a la media, se denota como S para una muestra O como σ para la población. Se define como la raíz cuadrada de la varianza según la expresión.
Es la media aritmética de los valores absolutos de las diferencias de cada dato respecto a la media.
Es una medida de variabilidad que se utiliza para evaluar cuánto se desvían los datos individuales de la mediana de un conjunto de datos. A diferencia de la Desviación Media, que utiliza la media aritmética como punto de referencia, la desviacion mediana se basa en la mediana como punto de referencia central.
Indica la dispersión entre los valores extremos de una variable. se calcula como la diferencia entre el mayor y el menor valor de la variable. Se denota como R. Para datos ordenados se calcula como: R = x(n) - x(1)
Los siguientes datos se refieren al diámetro en pulgadas de un engrane.
a) Agrupe datos, considere k = 6. b) Obtenga: Histograma, polígono de frecuencias, ojiva y distribución de probabilidad. c) Obtenga: media, mediana, moda y desviación estándar. Solución: a) Agrupando datos; 1. R= VM - Vm = 7.25 – 6.00 = 1.25 2. k = 6 3. C=R/k=1.25/6=0.2083=.21 4. Formando clases.
Rango = Valor mayor – Valor menor
El uso de esta tabla es uno de los criterios que se puede tomar en cuenta para establecer el número de clases en las que se van a agrupar los datos, existen otros para hacerlo.
Para formar la primera clase, se pone como límite inferior de la primera clase un valor un poco menor que el dato menor encontrado en la muestra y posteriormente se suma a este valor C, obteniendo de esta manera el límite superior de la primera clase, luego se procede a obtener los límites de la clase siguiente y así sucesivamente.
Es aquella distribución que indica las frecuencias con que aparecen los datos estadísticos, desde el menor de ellos hasta el mayor de ese conjunto sin que se haya hecho ninguna modificación al tamaño de las unidades originales. En estas distribuciones cada dato mantiene su propia identidad después que la distribución de frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han sido solamente reagrupados, siguiendo un orden lógico con sus respectivas frecuencias.
Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentran ordenados en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva. La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad.
Es el límite dentro del cual están comprendidos todos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio o investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango es el tamaño del intervalo en el cual se ubican todos los valores que pueden tomar los diferentes datos de la serie de valores, desde el menor de ellos hasta el valor mayor estando incluidos ambos extremos. El rango de una distribución de frecuencia se designa con la letra R.
Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos limites. Para organizar los valores de la serie de datos hay que determinar un número de clases que sea conveniente. En otras palabras, que ese número de intervalos no origine un número pequeño de clases ni muy grande. Un número de clases pequeño puede ocultar la naturaleza natural de los valores y un número muy alto puede provocar demasiados detalles como para observar alguna información de gran utilidad en la investigación. Tamaño de los Intervalos de Clase Los intervalos de clase pueden ser de tres tipos, según el tamaño que estos presenten en una distribución de frecuencia: a) Clases de igual tamaño, b) clases desiguales de tamaño y c) clases abiertas.
La amplitud o longitud de una clase es el número de valores o variables que concurren a una clase determinada. La amplitud de clase se designa con las letras Ic. Existen diversos criterios para determinar la amplitud de clases, ante esa diversidad de criterios, se ha considerado que lo más importante es dar un ancho o longitud de clase a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la practica.
El centro de la clase, es el volar de los datos que se ubica en la posición central de la clase y representa todos los demás valores de esa clase. Este valor se utiliza para el calculo de la media aritmética.
La frecuencia de clase se le denomina frecuencia absoluta y se le designa con las letras fi. Es el número total de valores de las variables que se encuentran presente en una clase determinada, de una distribución de frecuencia de clase.
La frecuencia relativa es aquella que resulta de dividir cada uno de los fi de las clases de una distribución de frecuencia de clase entre el número total de datos(N) de la serie de valores. Estas frecuencias se designan con las letras fr; si cada fr se multiplica por 100 se obtiene la frecuencia relativa porcentual (fr %).
Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de las fi que integran cada una de las clases de una distribución de frecuencia de clase, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera clase hasta alcanzar la ultima. Las frecuencias acumuladas se designan con las letras fa. Las frecuencias acumuladas pueden ser menor que (fa< que) y frecuencias acumuladas mayor que (fa>que).
La frecuencia acumulada relativa es aquella que resulta de dividir cada una de las fa de las diferentes clases que integran una distribución de frecuencia de clase entre el número total de datos (N) de la serie de valores, estas frecuencias se designan con las letras far. Si las far se multiplican por 100 se obtienen las frecuencias acumuladas relativas porcentuales y las mismas se designan así: far %.
No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie es mayor de 20, entonces, se utilizara la distribución de frecuencia para datos agrupados, también se utilizara este tipo de distribución cuando se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva. Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada. Antes de pasar a definir cuál es la manera de determinar las características de interés (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos como se agrupan los datos.
Forman parte de este tipo de muestreo todos aquellos métodos para los que puede calcular la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él. En este caso se habla de muestras probabilísticas, pues no es en rigor correcto hablar de muestras representativas dado que, al no conocer las características de la población, no es posible tener certeza de que tal característica se haya conseguido. Sin reposición de los elementos: Cada elemento extraído se descarta para la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada. Con reposición de los elementos: Las observaciones se realizan con reemplazamiento de los individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición aunque, realmente, no lo sea. Con reposición múltiple: En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición. Cada elemento extraído se descarta para la subsiguiente extracción. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la extracción de números aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.
Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos con respecto a alguna característica de las que se van a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de las técnicas de selección más usadas en la práctica. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado: § Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población. § Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población. Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres. Para una descripción general del muestreo estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por mi y si2, respectivamente.
Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno. Esto quiere decir que si tenemos un determinado número de personas que es la población (N) y queremos escoger de esa población un número más pequeño el cual es la muestra (n), dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden.
Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios múltiples se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel. Por ejemplo, si tenemos que construir una muestra de profesores de primaria en un país determinado, éstos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.
Técnica similar al muestreo por estadios múltiples, se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio. Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de información muestral. Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico. Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.
Homogéneo siginifica, en el contexto de la estratificación, que no hay mucha variabilidad. Los estratos funcionan mejor cuanto más homogéneos son cada uno de ellos respecto a la característica a medir. Por ejemplo, si se estudia la estatura de una población, es bueno distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos, haya menos variabilidad, es decir, sean menos heterogéneos. Dicho de otro modo, no hay tantas diferencias entre unas estaturas y otras dentro del estrato que en la población total. Por el contrario, la heterogeneidad hace inútil la división en estratos. Si se dan las mismas diferencias dentro del estrato que en toda la población, no hay por qué usar este método de muestreo. En los casos en los que existan grupos que contengan toda la variabilidad de la población, lo que se construyen son conglomerados, que ahorran algo del trabajo que supondría analizar toda la población. En resumen, los estratos y los conglomerados funcionan bajo principios opuestos: los primeros son mejores cuanto más homogéneo es el grupo respecto a la característica a estudiar y los conglomerados, si representan fielmente a la población, esto es, contienen toda su variabilidad, o sea, son heterogéneos.
Aquél para el que no puede calcularse la probabilidad de extracción de una determinada muestra. Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas es vital para la toma de decisiones.
Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar es necesario dividir la población de referencia en varios estratos definidos por algunas variables de distribución conocida (como el género o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de población que representan. Finalmente se multiplica cada peso por el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.
Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con características análogas.
En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población.
Existen dos métodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio y el muestreo aleatorio (que incorpora el azar como recurso en el proceso de selección). Cuando este último cumple con la condición de que todos los elementos de la población tienen alguna oportunidad de ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la población es conocida de antemano, recibe el nombre de muestreo probabilístico. Una muestra seleccionada por muestreo de juicio puede basarse en la experiencia de alguien con la población. Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir cómo tomar una muestra aleatoria más adelante.
es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos. Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han agrupado en clases. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores. Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.
Diagramas de barras compuesta Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.
Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.
Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.
El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las técnicas de modificación del histograma de una imagen son útiles para aumentar el contraste de imágenes con histogramas muy concentrados. Sea u una imagen de tamaño NxN, la función de distribución del histograma es: Fu(l)=(Numero de pixels (i,j) tales que u(i,j)<=l)/N^2 Ejemplos de otros tipos de representaciones gráficas: Hay histogramas donde se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase). Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical). A veces es más útil representar las frecuencias acumuladas. O representar simultáneamente los histogramas de una variable en dos situaciones distintas. Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas. En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.