Merge branch 'main' of https://git.cs.uni-paderborn.de/dsia-group-14/dsia-group-14-code

bcedfa3c · Jakob Mathias Greuel · f63178b2 · 962a32fa · f63178b2
Commit bcedfa3c authored Jan 29, 2022 by Jakob Mathias Greuel
--- a/approaches/boosting.ipynb
+++ b/approaches/boosting.ipynb
-{
- "cells": [
-  {
-   "cell_type": "code",
-   "execution_count": 5,
-   "id": "7722a591",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>sensor_1</th>\n",
-       "      <th>sensor_2</th>\n",
-       "      <th>timestamp</th>\n",
-       "      <th>product_id</th>\n",
-       "      <th>machine_id</th>\n",
-       "      <th>quality</th>\n",
-       "      <th>label</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>-0.168</td>\n",
-       "      <td>-0.164</td>\n",
-       "      <td>2021-05-17 08:12:48</td>\n",
-       "      <td>P3.2.500</td>\n",
-       "      <td>Printer F0815</td>\n",
-       "      <td>OK</td>\n",
-       "      <td>1</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>-0.171</td>\n",
-       "      <td>-0.227</td>\n",
-       "      <td>2021-05-17 08:12:48</td>\n",
-       "      <td>P3.2.500</td>\n",
-       "      <td>Printer F0815</td>\n",
-       "      <td>OK</td>\n",
-       "      <td>1</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>-0.242</td>\n",
-       "      <td>-0.154</td>\n",
-       "      <td>2021-05-17 08:12:48</td>\n",
-       "      <td>P3.2.500</td>\n",
-       "      <td>Printer F0815</td>\n",
-       "      <td>OK</td>\n",
-       "      <td>1</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>-0.139</td>\n",
-       "      <td>-0.176</td>\n",
-       "      <td>2021-05-17 08:12:48</td>\n",
-       "      <td>P3.2.500</td>\n",
-       "      <td>Printer F0815</td>\n",
-       "      <td>OK</td>\n",
-       "      <td>1</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>-0.081</td>\n",
-       "      <td>-0.110</td>\n",
-       "      <td>2021-05-17 08:12:48</td>\n",
-       "      <td>P3.2.500</td>\n",
-       "      <td>Printer F0815</td>\n",
-       "      <td>OK</td>\n",
-       "      <td>1</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "   sensor_1  sensor_2           timestamp product_id     machine_id quality  \\\n",
-       "0    -0.168    -0.164 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK   \n",
-       "1    -0.171    -0.227 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK   \n",
-       "2    -0.242    -0.154 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK   \n",
-       "3    -0.139    -0.176 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK   \n",
-       "4    -0.081    -0.110 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK   \n",
-       "\n",
-       "   label  \n",
-       "0      1  \n",
-       "1      1  \n",
-       "2      1  \n",
-       "3      1  \n",
-       "4      1  "
-      ]
-     },
-     "execution_count": 5,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "import pandas as pd\n",
-    "import matplotlib.pyplot as plt\n",
-    "import numpy as np\n",
-    "import random\n",
-    "\n",
-    "df_dataset = pd.read_csv(\"data/dataset.csv.zip\", parse_dates=[\"timestamp\"])\n",
-    "\n",
-    "df_dataset.head(5)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 9,
-   "id": "cce9267e",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "          sensor_1  sensor_2\n",
-      "0           -0.168    -0.164\n",
-      "1           -0.171    -0.227\n",
-      "2           -0.242    -0.154\n",
-      "3           -0.139    -0.176\n",
-      "4           -0.081    -0.110\n",
-      "...            ...       ...\n",
-      "33914875    -0.085    -0.227\n",
-      "33914876     0.005    -0.115\n",
-      "33914877    -0.120    -0.017\n",
-      "33914878    -0.117     0.083\n",
-      "33914879    -0.200     0.000\n",
-      "\n",
-      "[33914880 rows x 2 columns]\n",
-      "[[1]\n",
-      " [1]\n",
-      " [1]\n",
-      " ...\n",
-      " [0]\n",
-      " [0]\n",
-      " [0]]\n"
-     ]
-    }
-   ],
-   "source": [
-    "X = df_dataset[['sensor_1', 'sensor_2']]\n",
-    "print(X)\n",
-    "\n",
-    "Y = df_dataset[['label']]\n",
-    "print(Y)\n"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 14,
-   "id": "86f14508",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from sklearn.ensemble import AdaBoostClassifier\n",
-    "from sklearn.model_selection import train_test_split\n",
-    "from sklearn.preprocessing import LabelEncoder\n",
-    "from sklearn.preprocessing import StandardScaler\n",
-    "\n",
-    "X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 100)\n"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 15,
-   "id": "aba023fe",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Training set:\n",
-      " label\n",
-      "1        22421730\n",
-      "0         1318686\n",
-      "dtype: int64\n",
-      "Test set:\n",
-      " label\n",
-      "1        9608990\n",
-      "0         565474\n",
-      "dtype: int64\n"
-     ]
-    }
-   ],
-   "source": [
-    "print('Training set:\\n', Y_train.value_counts())\n",
-    "print('Test set:\\n', Y_test.value_counts())"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 62,
-   "id": "3166c922",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "label\n",
-      "1        32030720\n",
-      "0         1884160\n",
-      "dtype: int64\n"
-     ]
-    }
-   ],
-   "source": [
-    "scaler = StandardScaler()\n",
-    "\n",
-    "X_train = scaler.fit_transform(X_train)\n",
-    "X_test = scaler.transform(X_test)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 77,
-   "id": "3a2ebfe8",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "0:  1318686 1:  22421730\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "array([0.52940643, 9.00154244, 0.52940643, ..., 0.52940643, 0.52940643,\n",
-       "       0.52940643])"
-      ]
-     },
-     "execution_count": 77,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "print('0: ', (Y_train.values.ravel() == 0).sum(), '1: ', (Y_train.values.ravel() == 1).sum())"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 68,
-   "id": "93ecc889",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "AdaBoostClassifier(learning_rate=1)"
-      ]
-     },
-     "execution_count": 68,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "ada = AdaBoostClassifier(n_estimators = 50, learning_rate = 1)\n",
-    "ada"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 69,
-   "id": "c7b12639",
-   "metadata": {
-    "scrolled": true
-   },
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "AdaBoostClassifier(learning_rate=1)"
-      ]
-     },
-     "execution_count": 69,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "adaboost_fit = AdaBoostClassifier(n_estimators = 50, learning_rate = 1).fit(X_train, Y_train.values.ravel())\n",
-    "adaboost_fit"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 72,
-   "id": "491ce85e",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "0.9443985452206622"
-      ]
-     },
-     "execution_count": 72,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "score = adaboost_fit.score(X_test, Y_test)\n",
-    "score"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 49,
-   "id": "f5d2bc89",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "<sklearn.metrics._plot.confusion_matrix.ConfusionMatrixDisplay at 0x243102db850>"
-      ]
-     },
-     "execution_count": 49,
-     "metadata": {},
-     "output_type": "execute_result"
-    },
-    {
-     "data": {
-      "image/png": "iVBORw0KGgoAAAANSUhEUgAAATUAAAEKCAYAAABzM8J8AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMSwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/YYfK9AAAACXBIWXMAAAsTAAALEwEAmpwYAAAVMklEQVR4nO3de7BdZXnH8e/vnCREIAHhgMYkYKwxGkEB04TLlAZBCXaGVGu5aqulxgtRBy8zODJg0xFrLbVjG9SIiDeIgLc4RpJRZLgM4AmIGRKMpuGSCxhyISIRcnLO0z/2OmFzmrP3WmTvrLXf8/vMrGHd9rueJMMz72W971JEYGaWiq6yAzAzayUnNTNLipOamSXFSc3MkuKkZmZJcVIzs6Q4qZlZaSRdK2mzpAeHuS5JX5K0VtJKSSc0K9NJzczKdB0wp8H1s4Cp2TYP+HKzAp3UzKw0EXE7sK3BLXOBb0XNPcChkiY0KnNUKwPcV2N0QIzloLLDsAJe84adZYdgBTyyvo8t2/q1L2WcedpBsXVbf65771v53Crg2bpTiyJiUYHHTQTW1x1vyM49PtwPKpXUxnIQs3R62WFYAcuWPVB2CFbAzDPXN7+piS3b+rl32aRc946e8L/PRsSMfX5oAZVKambWCYL+GNhfD9sITK47npSdG5b71MyskAAGiFxbCywB/iEbBT0R2BERwzY9wTU1M3sRBmhNTU3SDcBsoEfSBuAKYDRARHwFWAq8DVgL7ATe26xMJzUzKyQI+lrU/IyI85tcD+DiImU6qZlZIQH0t6Zp2RZOamZWWIv6y9rCSc3MCgmgv8IrZjupmVlh++2FjhfBSc3MCgnCfWpmlo4I6KtuTnNSM7OiRD/7NH20rZzUzKyQAAZcUzOzlLimZmbJqL1866RmZokIoC+quxaGk5qZFRKI/gov8OOkZmaFDYSbn2aWCPepmVliRL/71MwsFbWVb53UzCwREWJXdJcdxrCc1MyssAH3qZlZKmoDBW5+mlkyPFBgZgnxQIGZJaffL9+aWSoC0RfVTR3VjczMKskDBWaWlEBufppZWjxQYGbJiMCvdJhZOmoDBZ4mZWYJ8UCBmSUjkBeJNLO0uKZmZsmofffTSc3MkuEvtJtZQmqfyPPop5klIkKVbn5WNzIzq6z+6Mq1NSNpjqQ1ktZKunQv14+S9EtJv5a0UtLbmpXppGZmhdTWU1OurRFJ3cBC4CxgOnC+pOlDbrsMuDEijgfOA65uFp+bn2ZWUMtWvp0JrI2IdQCSFgNzgdV19wQwPts/BNjUrFAnNTMrpPZKR+7Rzx5JK+qOF0XEomx/IrC+7toGYNaQ338GWC7pw8BBwBnNHuikZmaFFJz7uSUiZuzD484HrouIqySdBHxb0jERMTDcD5zUzKywFi09tBGYXHc8KTtX7yJgDkBE3C1pLNADbB6uUA8UmFkhtaWHlGtroheYKmmKpDHUBgKWDLnnMeB0AEmvA8YCTzYq1DU1MyusFRPaI2K3pPnAMqAbuDYiVklaAKyIiCXAx4GvSbqEWnfeeyIiGpXrpGZmhdRW6WhNIy8ilgJLh5y7vG5/NXBKkTKd1MyskNo0qer2XFU3sgTMmP1Hrrnjt3zjroc4Z/4fyg7Hcrjqksmcc+zrmXfatLJDqbBaTS3PVoa2PrXZFIiUdXUFF1+5kcsunML7Zk/jtLlPcdTUZ8sOy5p467nb+Ox315UdRuW1YkZBu7QtqeWcApGsacfvZNMjY3jisQPY3dfFbT8+lJPO3FF2WNbEsSc+w7iX9pcdRqW1cPSzLdpZU9szBSIidgGDUyBGhMNf3seTm8bsOd7y+Gh6JvSVGJFZ61S5+dnOgYI8UyCQNA+YBzCWA9sYjpm1gr9R0EQ2D2wRwHgd1vD9k06y9YnRHPGKXXuOeyb0seXx0SVGZNYaAeweoaOfeaZAJGvNAwcyccouXjb5OUaNHmD23Ke4Z/khZYdl1hIjtfm5ZwoEtWR2HnBBG59XKQP9YuGnJ3Ll9evo6obliw/j0d+NLTssa+JzHzyalXcfzI5to7jwTdN598efYM4F28oOq1pihDY/h5sC0a7nVVHvrePpvXV88xutMj715UfLDqHyBheJrKq29qntbQqEmXW+EVlTM7M0FVwkcr9zUjOzQgKxe6C6o59OamZW2IjtUzOzBIWbn2aWEPepmVlynNTMLBmB6PdAgZmlxAMFZpaM8ECBmaUmnNTMLB0jdEK7maXLNTUzS0YE9A84qZlZQjz6aWbJCNz8NLOkeKDAzBITFf5EkpOamRXm5qeZJaM2+um5n2aWEDc/zSwpbn6aWTICOamZWVoq3Pqkur19ZlZNATGgXFszkuZIWiNpraRLh7nnHEmrJa2SdH2zMl1TM7PCWtH8lNQNLATeAmwAeiUtiYjVdfdMBT4FnBIR2yUd2axc19TMrLCIfFsTM4G1EbEuInYBi4G5Q+55H7AwIrbXnhubmxU6bE1N0n/ToOkcER9pGrKZJafg3M8eSSvqjhdFxKJsfyKwvu7aBmDWkN+/BkDSXUA38JmIuKXRAxs1P1c0uGZmI1UA+ZPaloiYsQ9PGwVMBWYDk4DbJR0bEU81+sFeRcQ3648lHRgRO/chODNLRItevt0ITK47npSdq7cBuDci+oCHJf2OWpLrHa7Qpn1qkk6StBr4bXb8RklXFwzezJKRb+Qzx+hnLzBV0hRJY4DzgCVD7vkRtVoaknqoNUfXNSo0z0DBfwFnAlsBIuI3wKk5fmdmqYqcW6MiInYD84FlwEPAjRGxStICSWdnty0DtmYVq18Cn4yIrY3KzfVKR0Ssl16Qdfvz/M7MEhStmyYVEUuBpUPOXV63H8DHsi2XPEltvaSTgZA0GvgotaxqZiNVhacU5Gl+fgC4mNrw6ybguOzYzEYs5dz2v6Y1tYjYAly4H2Ixs04xUHYAw8sz+vkqST+R9KSkzZJ+LOlV+yM4M6ugwffU8mwlyNP8vB64EZgAvAK4CbihnUGZWbW1aJpUW+RJagdGxLcjYne2fQcY2+7AzKzCWvBKR7s0mvt5WLb7s2xJkMXUwjyXIUOwZjbCdOgikfdRS2KD0b+/7lpQWw7EzEYgVfiVjkZzP6fsz0DMrEOEIMcCkGXJNaNA0jHAdOr60iLiW+0KyswqrhNraoMkXUFtQul0an1pZwF3Ak5qZiNVhZNantHPdwKnA09ExHuBNwKHtDUqM6u2Thz9rPPniBiQtFvSeGAzL1wDycxGkmKLRO53eZLaCkmHAl+jNiL6J+DudgZlZtXWkaOfgyLiQ9nuVyTdAoyPiJXtDcvMKq0Tk5qkExpdi4j72xOSmVVdp9bUrmpwLYA3tzgWM+sUndinFhGn7c9AzKxDlDiymYe/0G5mxTmpmVlKVOFFIp3UzKy4CtfU8qx8K0nvknR5dnyUpJntD83MqkiRfytDnmlSVwMnAednx08DC9sWkZlVX4WX887T/JwVESdI+jVARGzPvqZsZiNVhZufeZJan6Rusj+GpCOo9LdkzKzdOvXl20FfAn4IHCnps9RW7bisrVGZWXVFh49+RsR3Jd1HbfkhAX8bEf5Cu9lI1sk1NUlHATuBn9Sfi4jH2hmYmVVYJyc14Kc8/wGWscAUYA3w+jbGZWYV1tF9ahFxbP1xtnrHh4a53cysVIVnFETE/ZJmtSMYM+sQnVxTk/SxusMu4ARgU9siMrNq6/TRT2Bc3f5uan1s329POGbWETq1ppa9dDsuIj6xn+Ixs4oTHTpQIGlUROyWdMr+DMjMOkCFk1qjCe2/yv77gKQlkt4t6R2D2/4IzswqqIWrdEiaI2mNpLWSLm1w399JCkkzmpWZp09tLLCV2jcJBt9XC+AHOX5rZilqwUBB1r21EHgLsAHolbQkIlYPuW8c8FHg3jzlNkpqR2Yjnw/yfDIbVOHKp5m1W4v61GYCayNiHYCkxcBcYPWQ+/4V+DzwyTyFNmp+dgMHZ9u4uv3BzcxGqsi5QY+kFXXbvLpSJgLr6443ZOf2yF72nxwRP80bWqOa2uMRsSBvQWY2QhT7mtSWiGjaD7Y3krqA/wTeU+R3jZJadT/sZ2alalHzcyMwue54UnZu0DjgGOA2SQAvB5ZIOjsiVgxXaKOkdvqLj9XMktaapNYLTJU0hVoyOw+4YM8jInYAPYPHkm4DPtEooUGDPrWI2LaPAZtZojSQb2skInYD84FlwEPAjRGxStICSWe/2Nj8iTwzK6aFX2iPiKXA0iHnLh/m3tl5ynRSM7NCRLU73J3UzKy4Cr+p6qRmZoV15IR2M7NhOamZWTISWCTSzOyFXFMzs5S4T83M0uKkZmYpcU3NzNIRtGSRyHZxUjOzQjr2wytmZsNyUjOzlCiqm9Wc1MysmBau0tEOTmpmVpj71MwsKZ4mZWZpcU3NzJKR8+vrZXFSM7PinNTMLBV++dbMkqOB6mY1JzUzK6bi76kN+91P23czZv+Ra+74Ld+46yHOmf+HssOxHK66ZDLnHPt65p02rexQKq0V3/1sl7YlNUnXStos6cF2PaPKurqCi6/cyGUXTuF9s6dx2tynOGrqs2WHZU289dxtfPa768oOo/oi51aCdtbUrgPmtLH8Spt2/E42PTKGJx47gN19Xdz240M56cwdZYdlTRx74jOMe2l/2WFUniLfVoa2JbWIuB3Y1q7yq+7wl/fx5KYxe463PD6angl9JUZk1iIBROTbSlD6QIGkecA8gLEcWHI0ZpaHp0k1EBGLgEUA43VYhcdUitn6xGiOeMWuPcc9E/rY8vjoEiMya42qv6fm0c82WfPAgUycsouXTX6OUaMHmD33Ke5ZfkjZYZntu7xNz5Ha/EzVQL9Y+OmJXHn9Orq6Yfniw3j0d2PLDsua+NwHj2bl3QezY9soLnzTdN798SeYc8GI7RoeVpVram1LapJuAGYDPZI2AFdExNfb9bwq6r11PL23ji87DCvgU19+tOwQOsNITGoRcX67yjazco3ImpqZJSqA/upmNSc1MyusyjU1j36aWXEtGv2UNEfSGklrJV26l+sfk7Ra0kpJv5B0dLMyndTMrLBWTJOS1A0sBM4CpgPnS5o+5LZfAzMi4g3AzcC/N4vNSc3Misk7mb15RW0msDYi1kXELmAxMPcFj4r4ZUTszA7vASY1K9R9amZWiADlHyjokbSi7nhRNosIYCKwvu7aBmBWg7IuAn7W7IFOamZWWIEvtG+JiBn7/DzpXcAM4K+b3eukZmbFtG6ttI3A5LrjSdm5F5B0BvBp4K8j4rlmhbpPzcwKatncz15gqqQpksYA5wFL6m+QdDzwVeDsiNicJzrX1MyssFa8pxYRuyXNB5YB3cC1EbFK0gJgRUQsAb4AHAzcJAngsYg4u1G5TmpmVlyLVuCIiKXA0iHnLq/bP6NomU5qZlZMFBr93O+c1MysuOrmNCc1MyuuwCsd+52TmpkV56RmZskIwB9eMbNUiHDz08wSM1DdqpqTmpkV4+anmaXGzU8zS4uTmpmlo7wPFefhpGZmxfhrUmaWGvepmVlanNTMLBkBDDipmVkyPFBgZqlxUjOzZATQX90pBU5qZlZQQDipmVlK3Pw0s2R49NPMkuOampklxUnNzJIRAf39ZUcxLCc1MyvONTUzS4qTmpmlIzz6aWYJCQi/fGtmSfE0KTNLRoQ/kWdmifFAgZmlJFxTM7N0eJFIM0uJJ7SbWUoCiApPk+oqOwAz6zCRLRKZZ2tC0hxJayStlXTpXq4fIOl72fV7Jb2yWZlOamZWWAxErq0RSd3AQuAsYDpwvqTpQ267CNgeEa8Gvgh8vllsTmpmVlxramozgbURsS4idgGLgblD7pkLfDPbvxk4XZIaFVqpPrWn2b7l53Hzo2XH0QY9wJayg2iH7gllR9A2qf6bHb2vBTzN9mU/j5t7ct4+VtKKuuNFEbEo258IrK+7tgGYNeT3e+6JiN2SdgCH0+DfplJJLSKOKDuGdpC0IiJmlB2H5ed/s+FFxJyyY2jEzU8zK8tGYHLd8aTs3F7vkTQKOATY2qhQJzUzK0svMFXSFEljgPOAJUPuWQL8Y7b/TuDWiMZv/laq+ZmwRc1vsYrxv1mbZX1k84FlQDdwbUSskrQAWBERS4CvA9+WtBbYRi3xNaQmSc/MrKO4+WlmSXFSM7OkOKm1UbMpIFY9kq6VtFnSg2XHYi+Ok1qb5JwCYtVzHVDp97CsMSe19skzBcQqJiJupzbKZh3KSa199jYFZGJJsZiNGE5qZpYUJ7X2yTMFxMxazEmtffJMATGzFnNSa5OI2A0MTgF5CLgxIlaVG5U1I+kG4G5gmqQNki4qOyYrxtOkzCwprqmZWVKc1MwsKU5qZpYUJzUzS4qTmpklxUmtg0jql/SApAcl3STpwH0o6zpJ78z2r2k02V7SbEknv4hnPCLp/311aLjzQ+75U8FnfUbSJ4rGaOlxUussf46I4yLiGGAX8IH6i9mHKQqLiH+OiNUNbpkNFE5qZmVwUutcdwCvzmpRd0haAqyW1C3pC5J6Ja2U9H4A1fxPtr7bz4EjBwuSdJukGdn+HEn3S/qNpF9IeiW15HlJVkv8K0lHSPp+9oxeSadkvz1c0nJJqyRdAzT86Gz2mx9Jui/7zbwh176Ynf+FpCOyc38h6ZbsN3dIem1L/jYtGf7wSgfKamRnAbdkp04AjomIh7PEsCMi/lLSAcBdkpYDxwPTqK3t9jJgNXDtkHKPAL4GnJqVdVhEbJP0FeBPEfEf2X3XA1+MiDslHUVt1sTrgCuAOyNigaS/AfK8jf9P2TNeAvRK+n5EbAUOovbxjUskXZ6VPZ/aB1E+EBG/lzQLuBp484v4a7REOal1lpdIeiDbv4Pal3ZOBn4VEQ9n598KvGGwv4zadxKnAqcCN0REP7BJ0q17Kf9E4PbBsiJiuHXFzgCmS3sqYuMlHZw94x3Zb38qaXuOP9NHJL0925+cxboVGAC+l53/DvCD7BknAzfVPfuAHM+wEcRJrbP8OSKOqz+R/c/9TP0p4MMRsWzIfW9rYRxdwIkR8exeYslN0mxqCfKkiNgp6TZg7DC3R/bcp4b+HZjVc59aepYBH5Q0GkDSayQdBNwOnJv1uU0ATtvLb+8BTpU0JfvtYdn5p4FxdfctBz48eCDpuGz3duCC7NxZwEubxHoIsD1LaK+lVlMc1EXt47VkZd4ZEX8EHpb099kzJOmNTZ5hI4yTWnquodZfdn/28ZCvUquR/xD4fXbtW9RWoniBiHgSmEetqfcbnm/+/QR4++BAAfARYEY2ELGa50dh/4VaUlxFrRn6WJNYbwFGSXoI+DdqSXXQM8DM7M/wZmBBdv5C4KIsvlV4iXQbwqt0mFlSXFMzs6Q4qZlZUpzUzCwpTmpmlhQnNTNLipOamSXFSc3MkvJ/hHpS+x0CJrgAAAAASUVORK5CYII=\n",
-      "text/plain": [
-       "<Figure size 432x288 with 2 Axes>"
-      ]
-     },
-     "metadata": {
-      "needs_background": "light"
-     },
-     "output_type": "display_data"
-    }
-   ],
-   "source": [
-    "from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay\n",
-    "\n",
-    "cm = confusion_matrix(Y_test, Y_test_Pred,normalize='true')\n",
-    "ConfusionMatrixDisplay(cm).plot()"
-   ]
-  }
- ],
- "metadata": {
-  "kernelspec": {
-   "display_name": "Python 3 (ipykernel)",
-   "language": "python",
-   "name": "python3"
-  },
-  "language_info": {
-   "codemirror_mode": {
-    "name": "ipython",
-    "version": 3
-   },
-   "file_extension": ".py",
-   "mimetype": "text/x-python",
-   "name": "python",
-   "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython3",
-   "version": "3.10.2"
-  }
- },
- "nbformat": 4,
- "nbformat_minor": 5
-}
-%% Cell type:code id:7722a591 tags:
-
-``` python
-import pandas as pd
-import matplotlib.pyplot as plt
-import numpy as np
-import random
-
-df_dataset = pd.read_csv("data/dataset.csv.zip", parse_dates=["timestamp"])
-
-df_dataset.head(5)
-```
-
-%% Output
-
-       sensor_1  sensor_2           timestamp product_id     machine_id quality  \
-    0    -0.168    -0.164 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK
-    1    -0.171    -0.227 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK
-    2    -0.242    -0.154 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK
-    3    -0.139    -0.176 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK
-    4    -0.081    -0.110 2021-05-17 08:12:48   P3.2.500  Printer F0815      OK
-    
-       label
-    0      1
-    1      1
-    2      1
-    3      1
-    4      1
-
-%% Cell type:code id:cce9267e tags:
-
-``` python
-X = df_dataset[['sensor_1', 'sensor_2']]
-print(X)
-
-Y = df_dataset[['label']]
-print(Y)
-```
-
-%% Output
-
-              sensor_1  sensor_2
-    0           -0.168    -0.164
-    1           -0.171    -0.227
-    2           -0.242    -0.154
-    3           -0.139    -0.176
-    4           -0.081    -0.110
-    ...            ...       ...
-    33914875    -0.085    -0.227
-    33914876     0.005    -0.115
-    33914877    -0.120    -0.017
-    33914878    -0.117     0.083
-    33914879    -0.200     0.000
-    
-    [33914880 rows x 2 columns]
-    [[1]
-     [1]
-     [1]
-     ...
-     [0]
-     [0]
-     [0]]
-
-%% Cell type:code id:86f14508 tags:
-
-``` python
-from sklearn.ensemble import AdaBoostClassifier
-from sklearn.model_selection import train_test_split
-from sklearn.preprocessing import LabelEncoder
-from sklearn.preprocessing import StandardScaler
-
-X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 100)
-```
-
-%% Cell type:code id:aba023fe tags:
-
-``` python
-print('Training set:\n', Y_train.value_counts())
-print('Test set:\n', Y_test.value_counts())
-```
-
-%% Output
-
-    Training set:
-     label
-    1        22421730
-    0         1318686
-    dtype: int64
-    Test set:
-     label
-    1        9608990
-    0         565474
-    dtype: int64
-
-%% Cell type:code id:3166c922 tags:
-
-``` python
-scaler = StandardScaler()
-
-X_train = scaler.fit_transform(X_train)
-X_test = scaler.transform(X_test)
-```
-
-%% Output
-
-    label
-    1        32030720
-    0         1884160
-    dtype: int64
-
-%% Cell type:code id:3a2ebfe8 tags:
-
-``` python
-print('0: ', (Y_train.values.ravel() == 0).sum(), '1: ', (Y_train.values.ravel() == 1).sum())
-```
-
-%% Output
-
-    0:  1318686 1:  22421730
-
-    array([0.52940643, 9.00154244, 0.52940643, ..., 0.52940643, 0.52940643,
-           0.52940643])
-
-%% Cell type:code id:93ecc889 tags:
-
-``` python
-ada = AdaBoostClassifier(n_estimators = 50, learning_rate = 1)
-ada
-```
-
-%% Output
-
-    AdaBoostClassifier(learning_rate=1)
-
-%% Cell type:code id:c7b12639 tags:
-
-``` python
-adaboost_fit = AdaBoostClassifier(n_estimators = 50, learning_rate = 1).fit(X_train, Y_train.values.ravel())
-adaboost_fit
-```
-
-%% Output
-
-    AdaBoostClassifier(learning_rate=1)
-
-%% Cell type:code id:491ce85e tags:
-
-``` python
-score = adaboost_fit.score(X_test, Y_test)
-score
-```
-
-%% Output
-
-    0.9443985452206622
-
-%% Cell type:code id:f5d2bc89 tags:
-
-``` python
-from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
-
-cm = confusion_matrix(Y_test, Y_test_Pred,normalize='true')
-ConfusionMatrixDisplay(cm).plot()
-```
-
-%% Output
-
-    <sklearn.metrics._plot.confusion_matrix.ConfusionMatrixDisplay at 0x243102db850>
-
-