Subido por Roberto Noa Capote

Aprendizaje no supervisado.

Anuncio
¿Qué es el Aprendizaje no Supervisado?
Los algoritmos de Aprendizaje no Supervisados infieren patrones de un conjunto
de datos sin referencia a resultados conocidos o etiquetados. A diferencia del
Aprendizaje Supervisado, los métodos de Aprendizaje no Supervisado no se
pueden aplicar directamente a un problema de regresión o clasificación porque
no tiene idea de cuáles pueden ser los valores de los datos de salida, lo que
hace imposible que entrene el algoritmo de la forma en que lo haría
normalmente. En cambio, el aprendizaje sin supervisión puede utilizarse para
descubrir la estructura subyacente de los datos.
Los algoritmos de Aprendizaje no Supervisados te permiten realizar tareas de
procesamiento más complejas en comparación con el Aprendizaje Supervisado.
Sin embargo, el aprendizaje sin supervisión puede ser más impredecible en
comparación con otros métodos de aprendizaje naturales.
Los algoritmos de Aprendizaje no Supervisados se utilizan para agrupar los datos
no estructurados según sus similitudes y patrones distintos en el conjunto de
datos. El término “no supervisado” se refiere al hecho de que el algoritmo no está
guiado como el algoritmo de Aprendizaje Supervisado.
La manera más fácil de entender esto es con un ejemplo, tenemos un bebe y su
perro. Ella conoce e identifica a su perro. Unas semanas más tarde, un amigo de
la familia trae un perro y trata de jugar con la bebé. La bebé no ha visto a este
perro antes, pero reconoce muchos rasgos de él, 2 orejas, 2 ojos, caminar sobre
4 patas, son como su mascota. Ella identifica al nuevo animal con un perro. Este
ejemplo se trata de un aprendizaje sin supervisión, en el que no se le enseña,
sino que se aprende a partir de los datos, en este caso, los datos sobre un perro.
¿Por qué es importante el Aprendizaje no Supervisado?
El Aprendizaje no Supervisado pretende descubrir patrones previamente
desconocidos en los datos, pero la mayoría de las veces estos patrones son
aproximaciones deficientes de lo que el Aprendizaje Supervisado puede lograr.
Además, dado que no sabe cuáles deberían ser los resultados, no hay forma de
determinar cuán precisos son, lo que hace que el Aprendizaje Supervisado sea
más aplicable a los problemas del mundo real.
El mejor momento para utilizar el Aprendizaje no Supervisado es cuando no se
dispone de datos sobre los resultados deseados, como la determinación de un
mercado objetivo para un producto completamente nuevo que tu empresa nunca
ha vendido antes. Sin embargo, si estás tratando de obtener una mejor
comprensión de tu base de consumidores existente, el Aprendizaje Supervisado
es la técnica óptima.
Estas son algunas de las razones principales para usar Aprendizaje no
Supervisado:



El Aprendizaje no Supervisado encuentra todo tipo de patrones desconocidos
en los datos.
Los métodos no supervisados te ayudan a encontrar características que
pueden ser útiles para la categorización.
Es más fácil obtener datos no etiquetados que los datos etiquetados
¿Cómo funciona el Aprendizaje no Supervisado?
Los algoritmos de Aprendizaje no Supervisado manejan datos sin entrenamiento
previo, es una función que hace su trabajo con los datos a su disposición. En
cierto modo, se deja a su suerte para que resuelva las cosas a su antojo.
Los algoritmos no supervisados funcionan con datos no etiquetados. Su
propósito es la exploración. Si el Aprendizaje Supervisado funciona bajo reglas
claramente definidas, el Aprendizaje no Supervisado funciona bajo condiciones
en las que los resultados son desconocidos y, por lo tanto, es necesario definirlos
en el proceso.
Los algoritmos de Aprendizaje no Supervisado están acostumbrados a:



Explorar la estructura de la información y detectar patrones distintos,
Extraer ideas valiosas,
Aplicarlas en su funcionamiento con el fin de aumentar la eficacia del proceso
de toma de decisiones.
En otras palabras, describe la información, pasa por el grueso de la misma e
identifica lo que realmente es.
Tipos de Aprendizaje no Supervisado
Los problemas de Aprendizaje no Supervisados se agrupan en problemas de
agrupación y asociación.
Agrupamiento
El agrupamiento es un concepto importante cuando se trata de Aprendizaje no
Supervisado. Se trata principalmente de encontrar una estructura o patrón en
una colección de datos no categorizados. Los algoritmos de agrupamiento o
clústeres, como se le conoce en inglés, procesarán los datos y encontrarán
grupos o clústeres naturales si existen en los datos. También se puede modificar
cuántos grupos deben identificar sus algoritmos. Permite ajustar la granularidad
de estos grupos.
Existen diferentes tipos de agrupamiento que se pueden utilizar:




Exclusivo (partición): en este método de agrupación, los datos se
agrupan de tal manera que un dato solo puede pertenecer a un clúster o
grupo. Ejemplo: K Means.
Aglomerativo: en esta técnica de agrupación de agrupamiento, cada
dato es un clúster. Las uniones iterativas entre los dos clústeres más
cercanos reducen el número de clústeres. Ejemplo: agrupación jerárquica.
Solapamiento: en esta técnica, se utilizan conjuntos difusos para agrupar
datos. Cada punto puede pertenecer a dos o más grupos con distintos
grados de afiliación. Aquí los datos se asociarán con un valor de
membresía apropiado. Ejemplo: Fuzzy C-Means.
Probabilístico: esta técnica utiliza la distribución de probabilidad para
crear los clústeres.
Asociación.
Las reglas de asociación te permiten establecer asociaciones entre objetos de
datos dentro de grandes bases de datos. Esta técnica no supervisada trata de
descubrir relaciones interesantes entre variables en grandes bases de datos. Por
ejemplo, las personas que compran una casa nueva tienen más probabilidades
de comprar muebles nuevos.
Desafíos en la implementación del Aprendizaje no Supervisado
Además de los problemas habituales de encontrar los algoritmos y el hardware
adecuados, el Aprendizaje no Supervisado presenta un desafío único: es difícil
saber si se está haciendo el trabajo o no.
En el Aprendizaje Supervisado, definimos métricas que impulsan la toma de
decisiones en torno al ajuste de modelos. Medidas como la precisión y exactitud
dan una idea de lo preciso que es el modelo, y los parámetros de ese modelo se
ajustan para aumentar las puntuaciones de precisión. Las bajas puntuaciones de
precisión significan que necesitar mejorar, y así sucesivamente.
Dado que no hay etiquetas en el Aprendizaje no Supervisado, es casi imposible
obtener una medida razonablemente objetiva de la precisión de su algoritmo. En
la agrupación, por ejemplo, ¿cómo puedes saber si el algoritmo encontró los
grupos correctos? ¿estás usando el número correcto de clústeres en primer
lugar? En el Aprendizaje Supervisado podemos buscar una puntuación de
precisión, aquí necesitas ser un poco más creativo.
Una gran parte de la pregunta, funcionará al Aprendizaje no Supervisado para el
proyecto, depende totalmente del contexto del mismo. Una de las mejores, pero
más arriesgadas, maneras de probar el modelo de Aprendizaje no Supervisado
es implementarlo en el mundo real y ver lo que sucede. Diseñar una prueba A/B,
con y sin los clústeres que el algoritmo ha emitido, puede ser una forma efectiva
de ver si es información útil o totalmente incorrecta.
Aprendizaje Supervisado vs. No Supervisado.
Proceso:
En un modelo de Aprendizaje Supervisado, se darán las variables de entrada y
salida.
En el modelo de Aprendizaje no Supervisado, solo se proporcionarán los datos
de entrada.
Datos de entrada:
Los algoritmos de entrada se entrenan usando datos etiquetados.
Los algoritmos se usan contra datos que no están etiquetados.
Algoritmos usados:
Los algoritmos supervisados se dividen en clasificación y regresión.
Los algoritmos no supervisados se pueden dividir en diferentes categorías: como
los algoritmos de agrupamiento o clústeres y los de asosiación.
Complejidad computacional:
El Aprendizaje Supervisado es un método más sencillo.
El Aprendizaje no Supervisado es computacionalmente complejo.
Uso de datos:
El modelo de Aprendizaje Supervisado utiliza datos de formación para aprender
un vínculo entre la entrada y la salida.
El Aprendizaje no Supervisado no utiliza datos de salida.
Precisión de los resultados:
Método muy preciso y fiable.
Método menos preciso y fiable.
Aprendizaje en tiempo real:
El método de aprendizaje en tiempo real tiene lugar fuera de línea.
El método de aprendizaje tiene lugar en tiempo real.
Número de clases:
Se conoce el número de clases.
Se desconoce el número de clases.
Inconveniente principal:
La clasificación de grandes datos puede ser un verdadero desafío en el
Aprendizaje Supervisado.
No se puede obtener información precisa con respecto a la clasificación de datos
y la salida como datos utilizados en el Aprendizaje no Supervisado está
etiquetada y es desconocida.
Aplicaciones del Aprendizaje no Supervisado.
Algunas aplicaciones de las Técnicas de Aprendizaje no Supervisado son:





La agrupación en clústeres divide automáticamente el conjunto de datos en
grupos en función de sus similitudes.
La detección de anomalías puede descubrir puntos de datos inusuales en su
conjunto de datos. Es útil para encontrar transacciones fraudulentas.
La minería de asociaciones identifica conjuntos de elementos que a menudo
aparecen juntos en su conjunto de datos.
Los modelos de variables latentes se utilizan ampliamente para el
preprocesamiento de datos. Como reducir el número de características en un
conjunto de datos o descomponer el conjunto de datos en múltiples
componentes.
Desventajas del Aprendizaje no Supervisado
Muchas de las desventajas del Aprendizaje no Supervisado las hemos
mencionado con anterioridad, acá las listamos:





No se puede obtener información precisa con respecto a la clasificación de
datos, y la salida como datos utilizados en el Aprendizaje no Supervisado
está etiquetada y no se conoce.
La menor precisión de los resultados se debe a que los datos de entrada no
son conocidos y no están etiquetados por la gente de antemano. Esto
significa que la máquina requiere hacer esto por sí misma.
Las clases espectrales no siempre corresponden a las clases informativas.
El usuario necesita dedicar tiempo a interpretar y etiquetar las clases que
siguen esa clasificación.
Las propiedades espectrales de las clases también pueden cambiar con el
tiempo, por lo que no puede tener la misma información de clase mientras se
mueve de una imagen a otra.
El secreto para obtener una ventaja competitiva en el mercado específico está
en el uso eficaz de los datos. Los algoritmos de Aprendizaje no Supervisados te
ayudan a segmentar los datos para estudiar las preferencias de tu público
objetivo o ver cómo reacciona un virus específico a un antibiótico específico.
Descargar