miércoles, 18 de febrero de 2015

Ejercicios Propuestos de Distribución T de Student

    1.- Un fabricante de focos afirma que su producto durará un promedio de 500 horas de trabajo. Para conservar este promedio esta persona verifica 25 focos cada mes. Si el valor y calculado cae entre –t 0.05 y t 0.05, él se encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá él sacar de una muestra de 25 focos cuya duración fue:

    R.-Se puede concluir que la media poblacional no es 500, porque la muestra poblacional está por encima de esta, y por lo tanto debería estar por encima de 500. 

    2.- El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4, 9.8, 10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del 95% para la media de todos los contenedores si se supone una distribución aproximadamente normal.

      Solución:La media muestral y la desviación estándar para los datos dados son:

      10 y s= 0.283

      En la tabla se encuentra que t0.025=2.447 con 6 grados de libertad, de aquí, el intervalo de confianza de 95% para  es:

      Con un nivel de confianza del 95% se sabe que el promedio del contenido de los contenedores está entre 9.47 y 10.26 litros.

    3.- Un artículo publicado en el Journal of Testing and Evaluation presenta las siguientes 20 mediciones del tiempo de combustión residual en segundos de especímenes tratados de ropa de dormir para niños:

    9.85 9.93 9.75 9.77 9.67
    9.87 9.67 9.94 9.85 9.75
    9.83 9.92 9.74 9.99 9.88
    9.95 9.95 9.93 9.92 9.89

    Se desea encontrar un nivel de confianza del 95% para el tiempo de combustión residual promedio. Supóngase que el tiempo de combustión residual sigue una distribución normal.

    Solución:
    La media muestral y la desviación estándar para los datos dados son:

    9.8525 y s= 0.0965

    En la tabla se encuentra que t0.025=2.093 con 19 grados de libertad, de aquí, el intervalo de confianza de 95% para  es:

    Por lo tanto, se tiene una confianza del 95% de que el tiempo de combustión residual promedio se encuentra entre 9.8073 y 9.8977 segundos.

    Explicación de Ejercicio de Distribución T de Student


    martes, 17 de febrero de 2015

    Explicación de Ejercicio de Distribución T de Student


    Importancia de la Distribución T de Student

    La T de Student está relacionada con el estudio de poblaciones muy grandes a partir de una muestra comparativamente muy pequeña. La función surge al querer estimar la media de una determinada variable en cierta población, que se supone normalmente distribuida, pero de la cual se desconoce la varianza, es decir, la tendencia de las muestras a desviarse del valor promedio.
    Pues bien, este es precisamente el caso de las encuestas realizadas sobre la población de un territorio. Por ejemplo, el objetivo de una encuesta electoral es estimar el promedio de intención de voto de cada partido, contando con muy pocas muestras aleatorias de la población total. Para evaluar la ‘calidad’ de la estimación, es necesario recurrir a la función T de Student, de la cual obtenemos un intervalo de confianza.
    Es habitual en las encuestas publicar los resultados con un intervalo de confianza del 95 %. Si en la ficha técnica de una encuesta electoral, por ejemplo, se dice que el margen de error es del 2 % y el intervalo de confianza es el 95 %, lo que quiere decir es que según la función T de Student asociada, la posibilidad de que la intención de voto real de la población estudiada esté fuera de los márgenes de error es del 5 %.
    Matemáticamente, la función de distribución T es de la forma Z / √(v/V), donde Z es una distribución normal, y V es una distribución de tipo χ², con v grados de libertad. Es similar a la distribución normal (la famosa ‘campana de Gauss’, en azul) aunque los flancos son algo más ‘pesados’, es decir, la posibilidad de obtener valores muy desviados de la media es mayor.


               Propiedades de las distribuciones T de Student:

    1. Cada curva t tiene forma de campana con centro en 0.
    2. Cada curva t, está más dispersa que la curva normal estándar z.
    3. A medida que V aumenta, la dispersión de la curva t correspondiente disminuye.
    4. A medida que V tiende a infinito, la secuencia de curvas t se aproxima a la curva normal estándar, por lo que la curva z recibe a veces el nombre de curva t con gl = infinito.

    Distribución T de Student

    Las distribuciones T de Student fueron descubiertas por William S. Gosset (1876-1937) en 1908 cuando trabajaba para la compañía de cervezas Guinness en Dublín (Irlanda). No pudo publicar sus descubrimientos usando su propio nombre porque Guinness había prohibido a sus empleados que publicaran información confidencial. Gosset firmó sus publicaciones usando el nombre de "Student". Gosset tenía buena relación con Karl Pearson que había sido su maestro. Necesitaba una distribución que pudiera usar cuando el tamaño de la muestra fuera pequeño y la varianza desconocida y tenía que ser estimada a partir de los datos. Las distribuciones T se usan para tener en cuenta la incertidumbre añadida que resulta por esta estimación. Fisher comprendió la importancia de los trabajos de Gosset para muestras pequeñas.

    Si el tamaño de la muestra es n entonces decimos que la distribución T tiene n-1 grados de libertad. Hay una distribución T diferente para cada tamaño de la muestra. Estas distribuciones son una familia de distribuciones de probabilidad continuas. Las curvas de densidad son simétricas y con forma de campana como la distribución normal estándar. Sus medias son 0 y sus varianzas son mayores que 1 (tienen colas más pesadas). Las colas de las distribuciones t disminuyen más lentamente que las colas de la distribución normal. Si los grados de libertad son mayores más próxima a 1 es la varianza y la función de densidad es más parecida a la densidad normal.

    Esta distribución es recomendada cuando se requiere estimar la media poblacional y no se conoce la desviación estándar y por lo tanto, hay que estimarla, eso si, siempre y cuando la distribución original sea aproximadamente normal.

    Otro término utilizado en ésta distribución continúa, es el de grados de libertad (g.l), el cual de manera intuitiva se expone así:

    Y= x1 ± x2 ± x3 ± x4 , para satisfacer la ecuación, tres variables se pueden cambiar a libertad, pero un de ellos no, por eso, cuando se tiene una sola muestra, se hable de n-1 g.l. A medida que se aumenten los g.l. la distribución t, se aproxima a la distribución Z de la normal. Otra lectura que se puede dar es que los g.l es una medida del número de observaciones independientes en la muestra, que se usan para estimar la desviación estándar.

    En general, cuando el tamaño de muestra no sea muy pequeño y la simetría no sea alta, se puede usar para estimar la media poblacional cuando no se conoce la desviación.

    Ejercicios Resueltos de Distribución Normal

      1.- Si X es una variable aleatoria de una distribución N(µ, σ), hallar: p(µ−3σ ≤ X ≤ µ+3σ).
      solución
      solución
      solución
      solución
      Es decir, que aproximadamente el 99.74% de los valores de X están a menos de tres desviaciones típicas de la media.

    1. 2.- En una distribución normal de media 4 y desviación típica 2, calcular el valor de a para que: P(4−a ≤ x ≤ 4+a) = 0.5934.


    2. solución
      solución
      solución
      solución
      solución
      1. 3.- En una ciudad se estima que la temperatura máxima en el mes de junio sigue una distribución normal, con media 23° y desviación típica 5°. Calcular el número de días del mes en los que se espera alcanzar máximas entre 21° y 27°

        solución
        solución
        solución

        4.- Se supone que los resultados de un examen siguen una distribución normal con media 78 y desviación típica 36. Se pide:¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una calificación superior a 72?. Calcular la proporción de estudiantes que tienen puntuaciones que exceden por lo menos en cinco puntos de la puntuación que marca la frontera entre el Apto y el No-Apto (son declarados No-Aptos el 25% de los estudiantes que obtuvieron las puntuaciones más bajas). Calcular si se sabe que la calificación de un estudiante es mayor que 72 ¿Cuál es la posibilidad de que su calificación sea, de hecho, superior a 84?


        gráfica
        solución
        solución
        solución
        solución
        solución
        Baja cultura hasta 49 puntos.
        Cultura aceptable entre 50 y 83.
        Excelente cultura a partir de 84 puntos.
          5.- En una ciudad una de cada tres familias posee teléfono. Si se eligen al azar 90 familias, calcular la probabilidad de que entre ellas haya por lo menos 30 tengan teléfono.

          solución
          solución
          solución
          solución
            6.- En un examen tipo test de 200 preguntas de elección múltiple, cada pregunta tiene una respuesta correcta y una incorrecta. Se aprueba si se contesta a más de 110 respuestas correctas. Suponiendo que se contesta al azar, calcular la probabilidad de aprobar el examen.

            solución
            solución
            solución
            solución
            solución

            Explicación de Ejercicio de Distribución Normal


            Explicación de Ejercicio de Distribución Normal


            Importancia de la Distribución Normal

            La distribución normal es de suma importancia en estadística por tres razones principales:
            1. Numerosas variables continuas de fenómenos aleatorios tienden a comportarse probabilisticamente mediante ésta.
            2. Es el límite al que convergen tanto variables aleatorias continuas como discretas.
            3. Proporciona la base de la inferencia estadística clásica debido a su relación con el teorema del límite central.
            Propiedades de la distribución normal
            1. Su grafica tiene forma acampanada.
            2. El valor esperado, la mediana y la moda tienen el mismo valor cuando la variable aleatoria se distribuye normalmente.
            3. Su dispersión media es igual a 1.33 desviaciónes estándar. Es decir, el alcance intercuartil está contenido dentro de un intervalo de dos tercios de una desviación estándar por debajo de la media a dos tercios de una desviación estándar por encima de la media.
            En la práctica, algunas de las variables que observamos sólo pueden aproximar estas propiedades. Así que si el fenómeno puede mediarse aproximadamente mediante la distribución normal se tendrá:
            1. Que el polígono puede verse en forma de campana y simétrico.
            2. Sus mediciones de tendencia central tienen bastante parecido.
            3. El valor intercuartil puede diferir ligeramente de 1.33 desviaciones estándar.
            4. El dominio de la variable aleatoria normalmente distribuida generalmente caerá dentro de 3 desviaciones estándar por encima y por debajo de la media.

            Distribución Normal

            La distribución normal fue estudiada por Gauss. Se trata de una variable aleatoria continua (la variable puede tomar cualquier valor real). La función de densidad tiene forma de campana.
            Dos parámetros determinan una distribución normal: la media y la desviación típica. Cuanto mayor sea la desviación típica mayor es la dispersión de la variable.

            La distribución normal es simétrica respecto de la media.
            La media está representada por un triángulo y se puede interpretar como un punto de equilibrio. Al arrastrarlo se modifica también la media. El mismo efecto tiene el mover el punto correspondiente en la cúspide de la curva.

            Arrastrando el otro punto sobre la curva (que es uno de los dos puntos de inflexión de la curva) se modifica la desviación típica.


            Variables Discretas y Continuas

            La manera lógica de organizar datos es crear categorías y luego asignar las observaciones a una categoría. Pero nuestra capacidad de categorizar está limitada por la naturaleza de las variables que usamos. Además, no todas las variables se pueden categorizar con la misma facilidad. En términos estadísticos, las variables que interesa medir pueden ser (a) discretas o (b) continuas.

            Las variables discretas son aquellas cuyas observaciones se agrupan ‘inherentemente’ o ‘naturalmente’ en categorías, porque dichas variable por su naturaleza sólo pueden tomar ciertos valores muy específicos. El “género” de un sujeto es un buen ejemplo de una variable discreta: los seres humanos pueden ser mujeres u hombres, se ajustan a una u otra categoría y no hay continuidad ni puntos intermedios entre ellas. Los países o regiones del mundo también son buenos ejemplos de variables discretas. Otro ejemplo son las calificaciones o educación de los maestros. Podemos crear las siguientes categorías para describir esta última variable: (a) educación primaria completa, (b) educación secundaria completa, (c) educación superior incompleta, (d) educación superior completa y (e) educación de postgrado.

            Sin embargo, existe otra clase de variables, conocidas como variables “continuas”, que no son tan fáciles de categorizar como las variables discretas. A diferencia de las variables discretas, las variables continuas, como su nombre lo indica, sólo se pueden agrupar en forma arbitraria en categorías, porque por su naturaleza pueden tomar cualquier valor a lo largo de un continuo (o de una escala numérica continua). La estatura de los habitantes de un país es un ejemplo de variable continua, así como el ingreso de las familias en dicho país. Un buen ejemplo en el área de la educación son las “calificaciones de pruebas”, que sólo se pueden agrupar arbitrariamente creando ‘intervalos’ artificiales, como por ejemplo 1-20, 21-40, etc. Note que los intervalos también podrían ser 1-10, 11-20, 21-30, etc, o cualquier otro intervalo que se prefiera, ya que la variable no se ajusta naturalmente a categorías predeterminadas como en el caso de las variables discretas.

            La distinción entre variables discretas y continuas es de gran aplicabilidad en la estadística. Pero su importancia sólo queda clara después de comprender el concepto estadístico fundamental de ‘distribución’ o ‘distribución de frecuencias’. (Los estadísticos por lo general usan la primera versión, la más corta, para referirse a la distribución de frecuencias.)

            ¿Qué es la estadística?

            La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales.

            La Estadística se divide en dos ramas:


            • La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clusters, etc.



            • La inferencia estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión).