Commit for merge

c5d7a0a9 · Konstantin Julius Lotzgeselle · 9e70f019 · c5d7a0a9 · c5d7a0a9 · c5d7a0a9
Commit c5d7a0a9 authored Jan 8, 2024 by Konstantin Julius Lotzgeselle
--- a/example.ipynb
+++ b/example.ipynb
--- a/exploration.ipynb
+++ b/exploration.ipynb
--- a/mt_training.ipynb
+++ b/mt_training.ipynb
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "import torch\n",
+    "import torch.optim as optim\n",
+    "\n",
+    "\n",
+    "def train(rank, args, model, device, dataset, dataloader_kwargs):\n",
+    "    torch.manual_seed(args.seed + rank)\n",
+    "\n",
+    "    train_loader = torch.utils.data.DataLoader(dataset, **dataloader_kwargs)\n",
+    "\n",
+    "    optimizer = optim.SGD(model.parameters(), lr=args.lr, momentum=args.momentum)\n",
+    "    for epoch in range(1, args.epochs + 1):\n",
+    "        train_epoch(epoch, args, model, device, train_loader, optimizer)\n",
+    "\n",
+    "\n",
+    "def test(args, model, device, dataset, dataloader_kwargs):\n",
+    "    torch.manual_seed(args.seed)\n",
+    "\n",
+    "    test_loader = torch.utils.data.DataLoader(dataset, **dataloader_kwargs)\n",
+    "\n",
+    "    test_epoch(model, device, test_loader)\n",
+    "\n",
+    "\n",
+    "def train_epoch(epoch, args, model, device, data_loader, optimizer):\n",
+    "    model.train()\n",
+    "    pid = os.getpid()\n",
+    "    for batch_idx, (data, target) in enumerate(data_loader):\n",
+    "        optimizer.zero_grad()\n",
+    "        output = model(data.to(device))\n",
+    "        loss = F.nll_loss(output, target.to(device))\n",
+    "        loss.backward()\n",
+    "        optimizer.step()\n",
+    "        if batch_idx % args.log_interval == 0:\n",
+    "            print('{}\\tTrain Epoch: {} [{}/{} ({:.0f}%)]\\tLoss: {:.6f}'.format(\n",
+    "                pid, epoch, batch_idx * len(data), len(data_loader.dataset),\n",
+    "                100. * batch_idx / len(data_loader), loss.item()))\n",
+    "            if args.dry_run:\n",
+    "                break\n",
+    "\n",
+    "\n",
+    "def test_epoch(model, device, data_loader):\n",
+    "    model.eval()\n",
+    "    test_loss = 0\n",
+    "    correct = 0\n",
+    "    with torch.no_grad():\n",
+    "        for data, target in data_loader:\n",
+    "            output = model(data.to(device))\n",
+    "            test_loss += F.nll_loss(output, target.to(device), reduction='sum').item() # sum up batch loss\n",
+    "            pred = output.max(1)[1] # get the index of the max log-probability\n",
+    "            correct += pred.eq(target.to(device)).sum().item()\n",
+    "\n",
+    "    test_loss /= len(data_loader.dataset)\n",
+    "    print('\\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\\n'.format(\n",
+    "        test_loss, correct, len(data_loader.dataset),\n",
+    "        100. * correct / len(data_loader.dataset)))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "ename": "ModuleNotFoundError",
+     "evalue": "No module named 'torchvision'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m\n",
+      "\u001b[1;31mModuleNotFoundError\u001b[0m                       Traceback (most recent call last)\n",
+      "Cell \u001b[1;32mIn[11], line 8\u001b[0m\n",
+      "\u001b[0;32m      6\u001b[0m \u001b[38;5;28;01mimport\u001b[39;00m \u001b[38;5;21;01mtorch\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmultiprocessing\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m \u001b[38;5;21;01mmp\u001b[39;00m\n",
+      "\u001b[0;32m      7\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mtorch\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mutils\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdata\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01msampler\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Sampler\n",
+      "\u001b[1;32m----> 8\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mtorchvision\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m datasets, transforms\n",
+      "\u001b[0;32m     10\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mtrain\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m train, test\n",
+      "\u001b[0;32m     12\u001b[0m \u001b[38;5;66;03m# Training settings\u001b[39;00m\n",
+      "\n",
+      "\u001b[1;31mModuleNotFoundError\u001b[0m: No module named 'torchvision'"
+     ]
+    }
+   ],
+   "source": [
+    "from __future__ import print_function\n",
+    "import argparse\n",
+    "import torch\n",
+    "import torch.nn as nn\n",
+    "import torch.nn.functional as F\n",
+    "import torch.multiprocessing as mp\n",
+    "from torch.utils.data.sampler import Sampler\n",
+    "\n",
+    "# Training settings\n",
+    "parser = argparse.ArgumentParser(description='Yes, I can copy-paste')\n",
+    "parser.add_argument('--batch-size', type=int, default=64, metavar='N',\n",
+    "                    help='input batch size for training (default: 64)')\n",
+    "parser.add_argument('--test-batch-size', type=int, default=1000, metavar='N',\n",
+    "                    help='input batch size for testing (default: 1000)')\n",
+    "parser.add_argument('--epochs', type=int, default=10, metavar='N',\n",
+    "                    help='number of epochs to train (default: 10)')\n",
+    "parser.add_argument('--lr', type=float, default=0.01, metavar='LR',\n",
+    "                    help='learning rate (default: 0.01)')\n",
+    "parser.add_argument('--momentum', type=float, default=0.5, metavar='M',\n",
+    "                    help='SGD momentum (default: 0.5)')\n",
+    "parser.add_argument('--seed', type=int, default=1, metavar='S',\n",
+    "                    help='random seed (default: 1)')\n",
+    "parser.add_argument('--log-interval', type=int, default=10, metavar='N',\n",
+    "                    help='how many batches to wait before logging training status')\n",
+    "parser.add_argument('--num-processes', type=int, default=2, metavar='N',\n",
+    "                    help='how many training processes to use (default: 2)')\n",
+    "parser.add_argument('--cuda', action='store_true', default=False,\n",
+    "                    help='enables CUDA training')\n",
+    "parser.add_argument('--mps', action='store_true', default=False,\n",
+    "                    help='enables macOS GPU training')\n",
+    "parser.add_argument('--save_model', action='store_true', default=False,\n",
+    "                    help='save the trained model to state_dict')\n",
+    "parser.add_argument('--dry-run', action='store_true', default=False,\n",
+    "                    help='quickly check a single pass')\n",
+    "\n",
+    "class Net(nn.Module):\n",
+    "    def __init__(self):\n",
+    "        super(Net, self).__init__()\n",
+    "        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)\n",
+    "        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)\n",
+    "        self.conv2_drop = nn.Dropout2d()\n",
+    "        self.fc1 = nn.Linear(320, 50)\n",
+    "        self.fc2 = nn.Linear(50, 10)\n",
+    "\n",
+    "    def forward(self, x):\n",
+    "        x = F.relu(F.max_pool2d(self.conv1(x), 2))\n",
+    "        x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))\n",
+    "        x = x.view(-1, 320)\n",
+    "        x = F.relu(self.fc1(x))\n",
+    "        x = F.dropout(x, training=self.training)\n",
+    "        x = self.fc2(x)\n",
+    "        return F.log_softmax(x, dim=1)\n",
+    "\n",
+    "\n",
+    "if __name__ == '__main__':\n",
+    "    args = parser.parse_args()\n",
+    "\n",
+    "    use_cuda = args.cuda and torch.cuda.is_available()\n",
+    "    use_mps = args.mps and torch.backends.mps.is_available()\n",
+    "    if use_cuda:\n",
+    "        device = torch.device(\"cuda\")\n",
+    "    elif use_mps:\n",
+    "        device = torch.device(\"mps\")\n",
+    "    else:\n",
+    "        device = torch.device(\"cpu\")\n",
+    "\n",
+    "    kwargs = {'batch_size': args.batch_size,\n",
+    "              'shuffle': True}\n",
+    "    if use_cuda:\n",
+    "        kwargs.update({'num_workers': 1,\n",
+    "                       'pin_memory': True,\n",
+    "                      })\n",
+    "\n",
+    "    torch.manual_seed(args.seed)\n",
+    "    mp.set_start_method('spawn', force=True)\n",
+    "\n",
+    "    model = Net().to(device)\n",
+    "    model.share_memory() # gradients are allocated lazily, so they are not shared here\n",
+    "\n",
+    "    processes = []\n",
+    "    for rank in range(args.num_processes):\n",
+    "        p = mp.Process(target=train, args=(rank, args, model, device,\n",
+    "                                           dataset1, kwargs))\n",
+    "        # We first train the model across `num_processes` processes\n",
+    "        p.start()\n",
+    "        processes.append(p)\n",
+    "    for p in processes:\n",
+    "        p.join()\n",
+    "\n",
+    "    if args.save_model:\n",
+    "        torch.save(model.state_dict(), \"MNIST_hogwild.pt\")\n",
+    "\n",
+    "    # Once training is complete, we can test the model\n",
+    "    test(args, model, device, dataset2, kwargs)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "nlp-machine-learning-project",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "name": "python",
+   "version": "3.11.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
+%% Cell type:code id: tags:
+
+``` python
+```
+
+%% Cell type:code id: tags:
+
+``` python
+import os
+import torch
+import torch.optim as optim
+
+
+def train(rank, args, model, device, dataset, dataloader_kwargs):
+    torch.manual_seed(args.seed + rank)
+
+    train_loader = torch.utils.data.DataLoader(dataset, **dataloader_kwargs)
+
+    optimizer = optim.SGD(model.parameters(), lr=args.lr, momentum=args.momentum)
+    for epoch in range(1, args.epochs + 1):
+        train_epoch(epoch, args, model, device, train_loader, optimizer)
+
+
+def test(args, model, device, dataset, dataloader_kwargs):
+    torch.manual_seed(args.seed)
+
+    test_loader = torch.utils.data.DataLoader(dataset, **dataloader_kwargs)
+
+    test_epoch(model, device, test_loader)
+
+
+def train_epoch(epoch, args, model, device, data_loader, optimizer):
+    model.train()
+    pid = os.getpid()
+    for batch_idx, (data, target) in enumerate(data_loader):
+        optimizer.zero_grad()
+        output = model(data.to(device))
+        loss = F.nll_loss(output, target.to(device))
+        loss.backward()
+        optimizer.step()
+        if batch_idx % args.log_interval == 0:
+            print('{}\tTrain Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
+                pid, epoch, batch_idx * len(data), len(data_loader.dataset),
+                100. * batch_idx / len(data_loader), loss.item()))
+            if args.dry_run:
+                break
+
+
+def test_epoch(model, device, data_loader):
+    model.eval()
+    test_loss = 0
+    correct = 0
+    with torch.no_grad():
+        for data, target in data_loader:
+            output = model(data.to(device))
+            test_loss += F.nll_loss(output, target.to(device), reduction='sum').item() # sum up batch loss
+            pred = output.max(1)[1] # get the index of the max log-probability
+            correct += pred.eq(target.to(device)).sum().item()
+
+    test_loss /= len(data_loader.dataset)
+    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
+        test_loss, correct, len(data_loader.dataset),
+        100. * correct / len(data_loader.dataset)))
+```
+
+%% Cell type:code id: tags:
+
+``` python
+from __future__ import print_function
+import argparse
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.multiprocessing as mp
+from torch.utils.data.sampler import Sampler
+
+# Training settings
+parser = argparse.ArgumentParser(description='Yes, I can copy-paste')
+parser.add_argument('--batch-size', type=int, default=64, metavar='N',
+                    help='input batch size for training (default: 64)')
+parser.add_argument('--test-batch-size', type=int, default=1000, metavar='N',
+                    help='input batch size for testing (default: 1000)')
+parser.add_argument('--epochs', type=int, default=10, metavar='N',
+                    help='number of epochs to train (default: 10)')
+parser.add_argument('--lr', type=float, default=0.01, metavar='LR',
+                    help='learning rate (default: 0.01)')
+parser.add_argument('--momentum', type=float, default=0.5, metavar='M',
+                    help='SGD momentum (default: 0.5)')
+parser.add_argument('--seed', type=int, default=1, metavar='S',
+                    help='random seed (default: 1)')
+parser.add_argument('--log-interval', type=int, default=10, metavar='N',
+                    help='how many batches to wait before logging training status')
+parser.add_argument('--num-processes', type=int, default=2, metavar='N',
+                    help='how many training processes to use (default: 2)')
+parser.add_argument('--cuda', action='store_true', default=False,
+                    help='enables CUDA training')
+parser.add_argument('--mps', action='store_true', default=False,
+                    help='enables macOS GPU training')
+parser.add_argument('--save_model', action='store_true', default=False,
+                    help='save the trained model to state_dict')
+parser.add_argument('--dry-run', action='store_true', default=False,
+                    help='quickly check a single pass')
+
+class Net(nn.Module):
+    def __init__(self):
+        super(Net, self).__init__()
+        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
+        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
+        self.conv2_drop = nn.Dropout2d()
+        self.fc1 = nn.Linear(320, 50)
+        self.fc2 = nn.Linear(50, 10)
+
+    def forward(self, x):
+        x = F.relu(F.max_pool2d(self.conv1(x), 2))
+        x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))
+        x = x.view(-1, 320)
+        x = F.relu(self.fc1(x))
+        x = F.dropout(x, training=self.training)
+        x = self.fc2(x)
+        return F.log_softmax(x, dim=1)
+
+
+if __name__ == '__main__':
+    args = parser.parse_args()
+
+    use_cuda = args.cuda and torch.cuda.is_available()
+    use_mps = args.mps and torch.backends.mps.is_available()
+    if use_cuda:
+        device = torch.device("cuda")
+    elif use_mps:
+        device = torch.device("mps")
+    else:
+        device = torch.device("cpu")
+
+    kwargs = {'batch_size': args.batch_size,
+              'shuffle': True}
+    if use_cuda:
+        kwargs.update({'num_workers': 1,
+                       'pin_memory': True,
+                      })
+
+    torch.manual_seed(args.seed)
+    mp.set_start_method('spawn', force=True)
+
+    model = Net().to(device)
+    model.share_memory() # gradients are allocated lazily, so they are not shared here
+
+    processes = []
+    for rank in range(args.num_processes):
+        p = mp.Process(target=train, args=(rank, args, model, device,
+                                           dataset1, kwargs))
+        # We first train the model across `num_processes` processes
+        p.start()
+        processes.append(p)
+    for p in processes:
+        p.join()
+
+    if args.save_model:
+        torch.save(model.state_dict(), "MNIST_hogwild.pt")
+
+    # Once training is complete, we can test the model
+    test(args, model, device, dataset2, kwargs)
+```
+
+%% Output
+
+    ---------------------------------------------------------------------------
+    ModuleNotFoundError                       Traceback (most recent call last)
+Cell     In[11], line 8
+          6 import torch.multiprocessing as mp
+          7 from torch.utils.data.sampler import Sampler
+    ----> 8 from torchvision import datasets, transforms
+         10 from train import train, test
+         12 # Training settings
+    ModuleNotFoundError: No module named 'torchvision'