REGULARIZACION Miguel Cárdenas-Montes El sobreajuste es uno de los principales riesgos en minería de datos. La técnica denominada regularización permite reducir el sobreajuste. Objetivos: Conocer las principales características de la regularización para corregir el sobbreajuste. Ser capaz de aplicar la regularización en los algoritmos de minería de datos. 1 Este documento puede contener imprecisiones o errores. Por favor no lo utilice para citarlo como una fuente fiable. Regularización La técnica de regularización puede ser empleada para corregir el sobreajuste. Esta técnica puede emplearse en un conjunto amplio de técnicas de minería de datos como regresión linear, regresión logística, SVM, etc. La regularización consiste en reducir la importancia de los parámetros θ j que aparecen en la función de coste. Este efecto se consigue mediante la inclusión de los parámetros θ j en la función de coste J (θ ). Así, en el caso de regresión lineal la función de coste se ve modificada por la adición de un sumatorio de todos los parámetros θ j con un factor llamado parámetro de regularización, λ. De esta forma la función de coste resultante es: J (θ ) = 1 2m m m i =0 j =1 ∑ (hθ (xi ) − yi )2 + λ ∑ θ2j El parámetro θ0 no suele incluirse en la regularización. (1) Si se utiliza gradiente descendiente para obtener los valores óptimos de los parámetros θ j , entonces se modifica su ecuación (ecuación 2). θ j : = θ j (1 − α 1 λ )−α m m m ∑ (hθ (xi ) − yi )xij (2) Ejemplos de normas: i =0 En regresión logística, como en regresión lineal, se debe añadir a su λ 2 función de coste, J (θ ), el término 2m ∑m j =1 θ j . El valor del parámetro λ tiene que ser elegido cuidadosamente, ya que tanto valores elevados como reducidos dan lugar a distorsiones en la función de coste. Esta distorsiones pueden ocasionar que se produzca un mal ajuste con los datos manejados. En el ejemplo de la ecuación 1 se ha elegido la norma denominada 1/2 L2 − norm → |~x |2 = ∑iN=1 | xi |2 para el vector de parametros ~θ. Sin embargo otras normas como L1 − norm o L∞ − Norm podrían ser aceptadas con la misma finalidad. N L1 − norm → |~x |1 = ∑ | xi | i =1 L2 − norm → |~x |2 = N ∑ | xi |2 i =1 p N L − norm → |~x | p = ∑ | xi | i =1 p !1/2 !1/p L∞ − norm → |~x |∞ = máx | xi | i