From 7d02b635c34d01b6a546be0b4ff2998c5e2c5117 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Wed, 14 Dec 2016 18:12:32 -0500
Subject: [PATCH 001/309] Add missing pause fields to config-validate

Change-Id: If1148acf1572ac7d03b7b1c3e349e8648a096ce7
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/cmd/config_validator.py                  | 2 ++
 nodepool/tests/fixtures/config_validate/good.yaml | 2 ++
 2 files changed, 4 insertions(+)

diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 4fd7b7e62..639296b47 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -31,6 +31,7 @@ class ConfigValidator:
 
         images = {
             'name': str,
+            'pause': bool,
             'min-ram': int,
             'name-filter': str,
             'diskimage': str,
@@ -104,6 +105,7 @@ class ConfigValidator:
 
         diskimages = {
             'name': str,
+            'pause': bool,
             'elements': [str],
             'release': v.Any(str, int),
             'rebuild-age': int,
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 0b8a1ce76..a69d4c0a4 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -70,6 +70,7 @@ providers:
     rate: 0.001
     images:
       - name: trusty
+        pause: False
         min-ram: 8192
         username: jenkins
         private-key: /home/nodepool/.ssh/id_rsa
@@ -79,6 +80,7 @@ targets:
 
 diskimages:
   - name: trusty
+    pause: False
     elements:
       - ubuntu
       - vm

From 9f28b4305281affd3e7af23d9bcf12f48f40723b Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Wed, 14 Dec 2016 15:24:47 -0800
Subject: [PATCH 002/309] Validate configs when used by tests

We have somewhat frequently failed to update our voluptuous schema when
adding new content to our config because the tests for it are in a
corner. Address this by testing that every test's config validates
properly when a test applies a config. This means that whenever we add
tests for a new feature it needs to have working config validation too.

Change-Id: Ie4452747baaf3d89d51da8f252366a6919f4d10a
---
 nodepool/tests/__init__.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 3a3ed5769..d6f8f0ab2 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -37,6 +37,7 @@ import testtools
 
 from nodepool import allocation, builder, fakeprovider, nodepool, nodedb, webapp
 from nodepool import zk
+from nodepool.cmd.config_validator import ConfigValidator
 
 TRUE_VALUES = ('true', '1', 'yes')
 
@@ -427,6 +428,8 @@ class DBTestCase(BaseTestCase):
                                        zookeeper_chroot=self.zookeeper_chroot))
         os.close(fd)
         self._config_images_dir = images_dir
+        validator = ConfigValidator(path)
+        validator.validate()
         return path
 
     def replace_config(self, configfile, filename):

From ed6050c74cf80f4a1f78a65ea5ec33e4d39dd729 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 16 Dec 2016 07:59:40 -0800
Subject: [PATCH 003/309] Fix image delete exception logging

This line had an extra format item which may have caused it to
malfunction.

Change-Id: I55282f51aeb3e3512321a1ef9a60aff066159b56
---
 nodepool/builder.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 29614b393..6ccb05065 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -311,7 +311,7 @@ class CleanupWorker(BaseWorker):
                     manager.deleteImage(upload.external_name)
             except Exception:
                 self.log.exception(
-                    "Unable to delete image %s from %s: %s",
+                    "Unable to delete image %s from %s:",
                     upload.external_name, upload.provider_name)
             else:
                 self._zk.deleteUpload(upload.image_name, upload.build_id,

From 70d1b8fd37311e1371b4a80bc5b8d83323caa8d4 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 3 Jan 2017 14:40:31 -0500
Subject: [PATCH 004/309] Register launcher name with ZooKeeper

Change-Id: I679590823dd37b09a8962ff934c497d40a9182e0
---
 nodepool/nodepool.py      |  6 ++++++
 nodepool/tests/test_zk.py | 15 +++++++++++++++
 nodepool/zk.py            | 34 ++++++++++++++++++++++++++++++++++
 3 files changed, 55 insertions(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 875068a00..5fb5bb2ae 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -21,10 +21,12 @@ import apscheduler.triggers.cron
 import gear
 import json
 import logging
+import os
 import os.path
 import paramiko
 import pprint
 import random
+import socket
 import threading
 import time
 import zmq
@@ -883,6 +885,9 @@ class NodePool(threading.Thread):
         self._instance_delete_threads = {}
         self._instance_delete_threads_lock = threading.Lock()
         self._wake_condition = threading.Condition()
+        self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
+                                         os.getpid(),
+                                         self.ident)
 
     def stop(self):
         self._stopped = True
@@ -1253,6 +1258,7 @@ class NodePool(threading.Thread):
 
     def startup(self):
         self.updateConfig()
+        self.zk.registerLauncher(self.launcher_id)
 
         # Currently nodepool can not resume building a node or image
         # after a restart.  To clean up, mark all building node and
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 6edc63771..f2b317134 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -476,6 +476,21 @@ class TestZooKeeper(tests.DBTestCase):
         self.zk.deleteUpload("trusty", "000", "rax", "000001")
         self.assertIsNone(self.zk.client.exists(path))
 
+    def test_registerLauncher(self):
+        name = "launcher-000-001"
+        self.zk.registerLauncher(name)
+        launchers = self.zk.getRegisteredLaunchers()
+        self.assertEqual(1, len(launchers))
+        self.assertEqual(name, launchers[0])
+
+    def test_registerLauncher_safe_repeat(self):
+        name = "launcher-000-001"
+        self.zk.registerLauncher(name)
+        self.zk.registerLauncher(name)
+        launchers = self.zk.getRegisteredLaunchers()
+        self.assertEqual(1, len(launchers))
+        self.assertEqual(name, launchers[0])
+
 
 class TestZKModel(tests.BaseTestCase):
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 930367862..65e7cc034 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -299,6 +299,7 @@ class ZooKeeper(object):
     log = logging.getLogger("nodepool.zk.ZooKeeper")
 
     IMAGE_ROOT = "/nodepool/images"
+    LAUNCHER_ROOT = "/nodepool/launchers"
 
     def __init__(self, client=None):
         '''
@@ -353,6 +354,9 @@ class ZooKeeper(object):
         return "%s/lock" % self._imageUploadPath(image, build_number,
                                                  provider)
 
+    def _launcherPath(self, launcher):
+        return "%s/%s" % (self.LAUNCHER_ROOT, launcher)
+
     def _dictToStr(self, data):
         return json.dumps(data)
 
@@ -1030,3 +1034,33 @@ class ZooKeeper(object):
             self.client.delete(path)
         except kze.NoNodeError:
             pass
+
+    def registerLauncher(self, launcher):
+        '''
+        Register an active node launcher.
+
+        The launcher is automatically de-registered once it terminates or
+        otherwise disconnects from ZooKeeper. It will need to re-register
+        after a lost connection. This method is safe to call multiple times.
+
+        :param str launcher: Unique name for the launcher.
+        '''
+        path = self._launcherPath(launcher)
+
+        try:
+            self.client.create(path, makepath=True, ephemeral=True)
+        except kze.NodeExistsError:
+            pass
+
+    def getRegisteredLaunchers(self):
+        '''
+        Get a list of all launchers that have registered with ZooKeeper.
+
+        :returns: A list of launcher names, or empty list if none are found.
+        '''
+        try:
+            launchers = self.client.get_children(self.LAUNCHER_ROOT)
+        except kze.NoNodeError:
+            return []
+
+        return launchers

From 08b720364f30ee4e8ad37822b5eccd3a9b429d74 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 4 Jan 2017 12:14:31 -0500
Subject: [PATCH 005/309] Add ZK API methods for node requests

Adds ZooKeeper API methods to get the current list of outstanding node
requests, and to get the data for an individual node request. A new
NodeRequest object is introduced to the data model. The model will be
expanded on in future reviews.

Change-Id: I4af96e4e307cc5ce5d3208462e7335c24eece952
---
 nodepool/tests/test_zk.py | 63 +++++++++++++++++++++++++++++---
 nodepool/zk.py            | 77 +++++++++++++++++++++++++++++++++++++--
 2 files changed, 130 insertions(+), 10 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 30a0ada63..426ebe81b 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -437,27 +437,58 @@ class TestZooKeeper(tests.DBTestCase):
         self.assertEqual(1, len(launchers))
         self.assertEqual(name, launchers[0])
 
+    def test_getNodeRequests_empty(self):
+        self.assertEqual([], self.zk.getNodeRequests())
+
+    def test_getNodeRequests(self):
+        r1 = self.zk._requestPath("500-123")
+        r2 = self.zk._requestPath("100-456")
+        r3 = self.zk._requestPath("100-123")
+        r4 = self.zk._requestPath("400-123")
+        self.zk.client.create(r1, makepath=True, ephemeral=True)
+        self.zk.client.create(r2, makepath=True, ephemeral=True)
+        self.zk.client.create(r3, makepath=True, ephemeral=True)
+        self.zk.client.create(r4, makepath=True, ephemeral=True)
+
+        self.assertEqual(
+            ["100-123", "100-456", "400-123", "500-123"],
+            self.zk.getNodeRequests()
+        )
+
+    def test_getNodeRequest(self):
+        r = zk.NodeRequest("500-123")
+        r.state = zk.READY
+        path = self.zk._requestPath(r.id)
+        self.zk.client.create(path, value=self.zk._dictToStr(r.toDict()),
+                              makepath=True, ephemeral=True)
+        o = self.zk.getNodeRequest(r.id)
+        self.assertIsInstance(o, zk.NodeRequest)
+        self.assertEqual(r.id, o.id)
+
+    def test_getNodeRequest_not_found(self):
+        self.assertIsNone(self.zk.getNodeRequest("invalid"))
+
 
 class TestZKModel(tests.BaseTestCase):
 
     def setUp(self):
         super(TestZKModel, self).setUp()
 
-    def test_BaseBuilderModel_bad_id(self):
+    def test_BaseModel_bad_id(self):
         with testtools.ExpectedException(
             TypeError, "'id' attribute must be a string type"
         ):
-            zk.BaseBuilderModel(123)
+            zk.BaseModel(123)
 
-    def test_BaseBuilderModel_bad_state(self):
+    def test_BaseModel_bad_state(self):
         with testtools.ExpectedException(
             TypeError, "'blah' is not a valid state"
         ):
-            o = zk.BaseBuilderModel('0001')
+            o = zk.BaseModel('0001')
             o.state = 'blah'
 
-    def test_BaseBuilderModel_toDict(self):
-        o = zk.BaseBuilderModel('0001')
+    def test_BaseModel_toDict(self):
+        o = zk.BaseModel('0001')
         o.state = zk.BUILDING
         d = o.toDict()
         self.assertNotIn('id', d)
@@ -524,3 +555,23 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.state_time, d['state_time'])
         self.assertEqual(o.external_id, d['external_id'])
         self.assertEqual(o.external_name, d['external_name'])
+
+    def test_NodeRequest_toDict(self):
+        o = zk.NodeRequest("500-123")
+        d = o.toDict()
+        self.assertNotIn('id', d)
+        self.assertIn('state', d)
+        self.assertIn('state_time', d)
+
+    def test_NodeRequest_fromDict(self):
+        now = int(time.time())
+        req_id = "500-123"
+        d = {
+            'state': zk.READY,
+            'state_time': now
+        }
+
+        o = zk.NodeRequest.fromDict(d, req_id)
+        self.assertEqual(o.id, req_id)
+        self.assertEqual(o.state, d['state'])
+        self.assertEqual(o.state_time, d['state_time'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index e6c0e2430..749cdd3aa 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -106,7 +106,7 @@ class ZooKeeperWatchEvent(object):
         self.image = image
 
 
-class BaseBuilderModel(object):
+class BaseModel(object):
     def __init__(self, o_id):
         if o_id:
             self.id = o_id
@@ -137,7 +137,7 @@ class BaseBuilderModel(object):
 
     def toDict(self):
         '''
-        Convert a BaseBuilderModel object's attributes to a dictionary.
+        Convert a BaseModel object's attributes to a dictionary.
         '''
         d = {}
         d['state'] = self.state
@@ -157,7 +157,7 @@ class BaseBuilderModel(object):
             self.state_time = d['state_time']
 
 
-class ImageBuild(BaseBuilderModel):
+class ImageBuild(BaseModel):
     '''
     Class representing a DIB image build within the ZooKeeper cluster.
     '''
@@ -216,7 +216,7 @@ class ImageBuild(BaseBuilderModel):
         return o
 
 
-class ImageUpload(BaseBuilderModel):
+class ImageUpload(BaseModel):
     '''
     Class representing a provider image upload within the ZooKeeper cluster.
     '''
@@ -277,6 +277,42 @@ class ImageUpload(BaseBuilderModel):
         return o
 
 
+class NodeRequest(BaseModel):
+    '''
+    Class representing a node request.
+    '''
+
+    def __init__(self, id=None):
+        super(NodeRequest, self).__init__(id)
+
+    def __repr__(self):
+        d = self.toDict()
+        d['id'] = self.id
+        d['stat'] = self.stat
+        return '<NodeRequest %s>' % d
+
+    def toDict(self):
+        '''
+        Convert a NodeRequest object's attributes to a dictionary.
+        '''
+        d = super(NodeRequest, self).toDict()
+        return d
+
+    @staticmethod
+    def fromDict(d, o_id=None):
+        '''
+        Create a NodeRequest object from a dictionary.
+
+        :param dict d: The dictionary.
+        :param str o_id: The object ID.
+
+        :returns: An initialized ImageBuild object.
+        '''
+        o = NodeRequest(o_id)
+        super(NodeRequest, o).fromDict(d)
+        return o
+
+
 class ZooKeeper(object):
     '''
     Class implementing the ZooKeeper interface.
@@ -297,6 +333,7 @@ class ZooKeeper(object):
 
     IMAGE_ROOT = "/nodepool/images"
     LAUNCHER_ROOT = "/nodepool/launchers"
+    REQUEST_ROOT = "/nodepool/requests"
 
     def __init__(self):
         '''
@@ -341,6 +378,9 @@ class ZooKeeper(object):
     def _launcherPath(self, launcher):
         return "%s/%s" % (self.LAUNCHER_ROOT, launcher)
 
+    def _requestPath(self, request):
+        return "%s/%s" % (self.REQUEST_ROOT, request)
+
     def _dictToStr(self, data):
         return json.dumps(data)
 
@@ -1024,3 +1064,32 @@ class ZooKeeper(object):
             return []
 
         return launchers
+
+    def getNodeRequests(self):
+        '''
+        Get the current list of all node requests in priority sorted order.
+
+        :returns: A list of request nodes.
+        '''
+        try:
+            requests = self.client.get_children(self.REQUEST_ROOT)
+        except kze.NoNodeError:
+            return []
+
+        return sorted(requests)
+
+    def getNodeRequest(self, request):
+        '''
+        Get the data for a specific node request.
+
+        :returns: The request data, or None if the request was not found.
+        '''
+        path = self._requestPath(request)
+        try:
+            data, stat = self.client.get(path)
+        except kze.NoNodeError:
+            return None
+
+        d = NodeRequest.fromDict(self._strToDict(data), request)
+        d.stat = stat
+        return d

From eac6ca73f33d9cbcc22ba4eb269743e15d3980ba Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 5 Jan 2017 12:16:02 -0500
Subject: [PATCH 006/309] Disable tests for nodepoold changes

Disables all tests that depend on a working nodepoold and removes
obsolete tests since the database and gearman are going away.

Change-Id: Ic973c8a657fbfa38523e73231bdb5fce53a81f3a
---
 nodepool/tests/test_builder.py  |  4 +++
 nodepool/tests/test_commands.py |  4 +++
 nodepool/tests/test_nodepool.py | 60 +++++++++++----------------------
 nodepool/tests/test_webapp.py   |  2 ++
 tools/check_devstack_plugin.sh  |  2 ++
 5 files changed, 31 insertions(+), 41 deletions(-)

diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 6da05dc8f..7f7f2ff4b 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -85,6 +85,10 @@ class TestNodepoolBuilderDibImage(tests.BaseTestCase):
         self.assertRaises(exceptions.BuilderError, image.to_path, '/imagedir/')
 
 class TestNodePoolBuilder(tests.DBTestCase):
+    def setUp(self):
+        super(tests.DBTestCase, self).setUp()
+        self.skipTest("Disabled for early v3 development")
+
     def test_start_stop(self):
         config = self.setup_config('node.yaml')
         nb = builder.NodePoolBuilder(config)
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 387a66a9e..2100d71ae 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -27,6 +27,10 @@ from nodepool import zk
 
 
 class TestNodepoolCMD(tests.DBTestCase):
+    def setUp(self):
+        super(tests.DBTestCase, self).setUp()
+        self.skipTest("Disabled for early v3 development")
+
     def patch_argv(self, *args):
         argv = ["nodepool", "-s", self.secure_conf]
         argv.extend(args)
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 55bdb60de..40558709e 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -15,13 +15,11 @@
 
 import json
 import logging
-import threading
 import time
 from unittest import skip
 
 import fixtures
 
-from nodepool import jobs
 from nodepool import tests
 from nodepool import nodedb
 import nodepool.fakeprovider
@@ -31,11 +29,7 @@ import nodepool.nodepool
 class TestNodepool(tests.DBTestCase):
     log = logging.getLogger("nodepool.TestNodepool")
 
-    def test_db(self):
-        db = nodedb.NodeDatabase(self.dburi)
-        with db.getSession() as session:
-            session.getNodes()
-
+    @skip("Disabled for early v3 development")
     def test_node(self):
         """Test that an image and node are created"""
         configfile = self.setup_config('node.yaml')
@@ -52,6 +46,7 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
             self.assertEqual(len(nodes), 1)
 
+    @skip("Disabled for early v3 development")
     def test_disabled_label(self):
         """Test that an image and node are not created"""
         configfile = self.setup_config('node_disabled_label.yaml')
@@ -68,6 +63,7 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
             self.assertEqual(len(nodes), 0)
 
+    @skip("Disabled for early v3 development")
     def test_node_net_name(self):
         """Test that a node is created with a net name"""
         configfile = self.setup_config('node_net_name.yaml')
@@ -84,6 +80,7 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
             self.assertEqual(len(nodes), 1)
 
+    @skip("Disabled for early v3 development")
     def test_node_vhd_image(self):
         """Test that a image and node are created vhd image"""
         configfile = self.setup_config('node_vhd.yaml')
@@ -100,6 +97,7 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
         self.assertEqual(len(nodes), 1)
 
+    @skip("Disabled for early v3 development")
     def test_node_vhd_and_qcow2(self):
         """Test label provided by vhd and qcow2 images builds"""
         configfile = self.setup_config('node_vhd_and_qcow2.yaml')
@@ -122,6 +120,7 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
             self.assertEqual(len(nodes), 1)
 
+    @skip("Disabled for early v3 development")
     def test_dib_upload_fail(self):
         """Test that an image upload failure is contained."""
         configfile = self.setup_config('node_upload_fail.yaml')
@@ -143,6 +142,7 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
             self.assertEqual(len(nodes), 2)
 
+    @skip("Disabled for early v3 development")
     def test_subnodes(self):
         """Test that an image and node are created"""
         configfile = self.setup_config('subnodes.yaml')
@@ -168,6 +168,7 @@ class TestNodepool(tests.DBTestCase):
                 for subnode in node.subnodes:
                     self.assertEqual(subnode.state, nodedb.READY)
 
+    @skip("Disabled for early v3 development")
     def test_subnode_deletion_success(self):
         """Test that subnodes are deleted with parent node"""
         configfile = self.setup_config('subnodes.yaml')
@@ -204,6 +205,7 @@ class TestNodepool(tests.DBTestCase):
                 s = session.getSubNode(subnode_id)
                 self.assertIsNone(s)
 
+    @skip("Disabled for early v3 development")
     def test_node_az(self):
         """Test that an image and node are created with az specified"""
         configfile = self.setup_config('node_az.yaml')
@@ -221,6 +223,7 @@ class TestNodepool(tests.DBTestCase):
             self.assertEqual(len(nodes), 1)
             self.assertEqual(nodes[0].az, 'az1')
 
+    @skip("Disabled for early v3 development")
     def test_node_ipv6(self):
         """Test that a node is created w/ or w/o ipv6 preferred flag"""
         configfile = self.setup_config('node_ipv6.yaml')
@@ -255,6 +258,7 @@ class TestNodepool(tests.DBTestCase):
             self.assertEqual(len(nodes), 1)
             self.assertEqual(nodes[0].ip, 'fake')
 
+    @skip("Disabled for early v3 development")
     def test_node_delete_success(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -291,6 +295,7 @@ class TestNodepool(tests.DBTestCase):
             # Make sure our old node was deleted
             self.assertEqual(len(deleted_nodes), 0)
 
+    @skip("Disabled for early v3 development")
     def test_node_delete_failure(self):
         def fail_delete(self, name):
             raise RuntimeError('Fake Error')
@@ -334,6 +339,7 @@ class TestNodepool(tests.DBTestCase):
             self.assertEqual(len(deleted_nodes), 1)
             self.assertEqual(node_id, deleted_nodes[0].id)
 
+    @skip("Disabled for early v3 development")
     def test_leaked_node(self):
         """Test that a leaked node is deleted"""
         configfile = self.setup_config('leaked_node.yaml')
@@ -483,6 +489,7 @@ class TestNodepool(tests.DBTestCase):
             # should be second image built.
             self.assertEqual(images[0].id, 2)
 
+    @skip("Disabled for early v3 development")
     def test_job_start_event(self):
         """Test that job start marks node used"""
         configfile = self.setup_config('node.yaml')
@@ -507,6 +514,7 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.USED)
             self.assertEqual(len(nodes), 1)
 
+    @skip("Disabled for early v3 development")
     def test_job_end_event(self):
         """Test that job end marks node delete"""
         configfile = self.setup_config('node.yaml')
@@ -533,6 +541,7 @@ class TestNodepool(tests.DBTestCase):
             node = session.getNode(1)
             self.assertEqual(node, None)
 
+    @skip("Disabled for early v3 development")
     def _test_job_auto_hold(self, result):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -559,6 +568,7 @@ class TestNodepool(tests.DBTestCase):
         self.wait_for_threads()
         return pool
 
+    @skip("Disabled for early v3 development")
     def test_job_auto_hold_success(self):
         """Test that a successful job does not hold a node"""
         pool = self._test_job_auto_hold('SUCCESS')
@@ -566,6 +576,7 @@ class TestNodepool(tests.DBTestCase):
             node = session.getNode(1)
             self.assertIsNone(node)
 
+    @skip("Disabled for early v3 development")
     def test_job_auto_hold_failure(self):
         """Test that a failed job automatically holds a node"""
         pool = self._test_job_auto_hold('FAILURE')
@@ -573,6 +584,7 @@ class TestNodepool(tests.DBTestCase):
             node = session.getNode(1)
             self.assertEqual(node.state, nodedb.HOLD)
 
+    @skip("Disabled for early v3 development")
     def test_job_auto_hold_failure_max(self):
         """Test that a failed job automatically holds only one node"""
         pool = self._test_job_auto_hold('FAILURE')
@@ -600,37 +612,3 @@ class TestNodepool(tests.DBTestCase):
         with pool.getDB().getSession() as session:
             node = session.getNode(2)
             self.assertEqual(node, None)
-
-
-class TestGearClient(tests.DBTestCase):
-    def test_wait_for_completion(self):
-        wj = jobs.WatchableJob('test', 'test', 'test')
-
-        def call_on_completed():
-            time.sleep(.2)
-            wj.onCompleted()
-
-        t = threading.Thread(target=call_on_completed)
-        t.start()
-        wj.waitForCompletion()
-
-    def test_handle_disconnect(self):
-        class MyJob(jobs.WatchableJob):
-            def __init__(self, *args, **kwargs):
-                super(MyJob, self).__init__(*args, **kwargs)
-                self.disconnect_called = False
-
-            def onDisconnect(self):
-                self.disconnect_called = True
-                super(MyJob, self).onDisconnect()
-
-        client = nodepool.nodepool.GearmanClient()
-        client.addServer('localhost', self.gearman_server.port)
-        client.waitForServer()
-
-        job = MyJob('test-job', '', '')
-        client.submitJob(job)
-
-        self.gearman_server.shutdown()
-        job.waitForCompletion()
-        self.assertEqual(job.disconnect_called, True)
diff --git a/nodepool/tests/test_webapp.py b/nodepool/tests/test_webapp.py
index 9a2671385..586232c66 100644
--- a/nodepool/tests/test_webapp.py
+++ b/nodepool/tests/test_webapp.py
@@ -16,12 +16,14 @@
 import logging
 import urllib2
 
+from unittest import skip
 from nodepool import tests
 
 
 class TestWebApp(tests.DBTestCase):
     log = logging.getLogger("nodepool.TestWebApp")
 
+    @skip("Disabled for early v3 development")
     def test_image_list(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
diff --git a/tools/check_devstack_plugin.sh b/tools/check_devstack_plugin.sh
index 5c8ab135c..ba603daec 100755
--- a/tools/check_devstack_plugin.sh
+++ b/tools/check_devstack_plugin.sh
@@ -40,6 +40,8 @@ function waitfornode {
     done
 }
 
+exit 0
+
 if [ $NODEPOOL_PAUSE_CENTOS_7_DIB = 'false' ]; then
     # check that image built
     waitforimage centos-7

From 8ce719b626fce8ec2d03563a860c8caacd29bda7 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 5 Jan 2017 13:12:04 -0500
Subject: [PATCH 007/309] Remove Gearman and ZMQ

Sets up a shim for the new nodepool.NodePool.run() method that does
not require any service except ZooKeeper and removes all references
to Gearman/ZMQ.

Change-Id: I452c24d631592f47eb3f4cbffb56f3252f36c298
---
 devstack/plugin.sh                            |   8 -
 doc/source/configuration.rst                  |  23 --
 doc/source/installation.rst                   |  48 +--
 nodepool/cmd/config_validator.py              |   6 -
 nodepool/config.py                            |  27 --
 nodepool/jobs.py                              |  78 ----
 nodepool/nodepool.py                          | 334 +++---------------
 nodepool/tests/__init__.py                    | 122 -------
 .../tests/fixtures/config_validate/good.yaml  |  12 -
 .../fixtures/config_validate/yaml_error.yaml  |  12 -
 nodepool/tests/fixtures/integration.yaml      |   7 -
 nodepool/tests/fixtures/integration_osc.yaml  |   7 -
 nodepool/tests/fixtures/leaked_node.yaml      |   7 -
 nodepool/tests/fixtures/node.yaml             |   7 -
 nodepool/tests/fixtures/node_az.yaml          |   7 -
 nodepool/tests/fixtures/node_cmd.yaml         |   7 -
 .../tests/fixtures/node_disabled_label.yaml   |   7 -
 .../tests/fixtures/node_diskimage_fail.yaml   |   7 -
 .../tests/fixtures/node_diskimage_pause.yaml  |   7 -
 .../fixtures/node_image_upload_pause.yaml     |   7 -
 nodepool/tests/fixtures/node_ipv6.yaml        |   7 -
 nodepool/tests/fixtures/node_net_name.yaml    |   7 -
 nodepool/tests/fixtures/node_two_image.yaml   |   7 -
 .../tests/fixtures/node_two_image_remove.yaml |   7 -
 .../tests/fixtures/node_two_provider.yaml     |   7 -
 .../fixtures/node_two_provider_remove.yaml    |   7 -
 nodepool/tests/fixtures/node_upload_fail.yaml |   7 -
 nodepool/tests/fixtures/node_vhd.yaml         |   7 -
 .../tests/fixtures/node_vhd_and_qcow2.yaml    |   7 -
 nodepool/tests/fixtures/subnodes.yaml         |   7 -
 nodepool/zk.py                                |   9 +-
 requirements.txt                              |   2 -
 tools/fake-dib.yaml                           |   6 -
 tools/fake-servers.py                         |  93 -----
 tools/fake.yaml                               |   7 -
 tools/zmq-stream.py                           |  36 --
 36 files changed, 54 insertions(+), 909 deletions(-)
 delete mode 100644 nodepool/jobs.py
 delete mode 100644 tools/fake-servers.py
 delete mode 100644 tools/zmq-stream.py

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index d8456bfad..64c591b6a 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -184,15 +184,10 @@ zookeeper-servers:
   - host: localhost
     port: 2181
 
-gearman-servers:
-  - host: localhost
-    port: 8991
-zmq-publishers: []
 # Need to have at least one target for node allocations, but
 # this does not need to be a jenkins target.
 targets:
   - name: dummy
-    assign-via-gearman: True
 
 cron:
   cleanup: '*/1 * * * *'
@@ -419,9 +414,6 @@ function start_nodepool {
 
     export PATH=$NODEPOOL_INSTALL/bin:$PATH
 
-    # start gearman server
-    run_process geard "$NODEPOOL_INSTALL/bin/geard -p 8991 -d"
-
     # run a fake statsd so we test stats sending paths
     export STATSD_HOST=localhost
     export STATSD_PORT=8125
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 98c7b39b7..2fc12d07a 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -112,29 +112,6 @@ and also indicates their default values::
     cleanup: '27 */6 * * *'
     check: '*/15 * * * *'
 
-zmq-publishers
---------------
-Lists the ZeroMQ endpoints for the Jenkins masters.  Nodepool uses
-this to receive real-time notification that jobs are running on nodes
-or are complete and nodes may be deleted.  Example::
-
-  zmq-publishers:
-    - tcp://jenkins1.example.com:8888
-    - tcp://jenkins2.example.com:8888
-
-gearman-servers
----------------
-Lists the Zuul Gearman servers that should be consulted for real-time
-demand.  Nodepool will use information from these servers to determine
-if additional nodes should be created to satisfy current demand.
-Example::
-
-  gearman-servers:
-    - host: zuul.example.com
-      port: 4730
-
-The ``port`` key is optional (default: 4730).
-
 zookeeper-servers
 -----------------
 Lists the ZooKeeper servers uses for coordinating information between
diff --git a/doc/source/installation.rst b/doc/source/installation.rst
index 7557b7c34..fc9f25cfc 100644
--- a/doc/source/installation.rst
+++ b/doc/source/installation.rst
@@ -3,51 +3,12 @@
 Installation
 ============
 
-Nodepool consists of a set of long-running daemons which use an SQL
-database, a ZooKeeper cluster, and communicates with Jenkins using
-ZeroMQ.
+Nodepool consists of a long-running daemon which uses ZooKeeper
+for coordination with Zuul.
 
 External Requirements
 ---------------------
 
-Jenkins
-~~~~~~~
-
-You should have a Jenkins server running with the `ZMQ Event Publisher
-<http://git.openstack.org/cgit/openstack-infra/zmq-event-publisher/tree/README>`_
-plugin installed (it is available in the Jenkins Update Center).  Be
-sure that the machine where you plan to run Nodepool can connect to
-the ZMQ port specified by the plugin on your Jenkins master(s).
-
-Zuul
-~~~~
-
-If you plan to use Nodepool with Zuul (it is optional), you should
-ensure that Nodepool can connect to the gearman port on your Zuul
-server (TCP 4730 by default).  This will allow Nodepool to respond to
-current Zuul demand.  If you elect not to connect Nodepool to Zuul, it
-will still operate in a node-replacement mode.
-
-Database
-~~~~~~~~
-
-Nodepool requires an SQL server.  MySQL with the InnoDB storage engine
-is tested and recommended.  PostgreSQL should work fine.  Due to the
-high number of concurrent connections from Nodepool, SQLite is not
-recommended.  When adding or deleting nodes, Nodepool will hold open a
-database connection for each node.  Be sure to configure the database
-server to support at least a number of connections equal to twice the
-number of nodes you expect to be in use at once.
-
-All that is necessary is that the database is created. Nodepool will
-handle the schema by itself when it is run.
-
-MySQL Example::
-
-  CREATE USER 'nodepool'@'localhost' IDENTIFIED BY '<password>';
-  CREATE DATABASE nodepooldb;
-  GRANT ALL ON nodepooldb.* TO 'nodepool'@'localhost';
-
 ZooKeeper
 ~~~~~~~~~
 
@@ -88,11 +49,6 @@ Or install directly from a git checkout with::
 
   pip install .
 
-Note that some distributions provide a libzmq1 which does not support
-RCVTIMEO.  Removing this libzmq1 from the system libraries will ensure
-pip compiles a libzmq1 with appropriate options for the version of
-pyzmq used by nodepool.
-
 Configuration
 -------------
 
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 52a591426..1b8b32f9f 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -94,7 +94,6 @@ class ConfigValidator:
             'name': str,
             'hostname': str,
             'subnode-hostname': str,
-            'assign-via-gearman': bool,
             'jenkins': {
                 'url': str,
                 'user': str,
@@ -117,11 +116,6 @@ class ConfigValidator:
             'elements-dir': str,
             'images-dir': str,
             'dburi': str,
-            'zmq-publishers': [str],
-            'gearman-servers': [{
-                'host': str,
-                'port': int,
-            }],
             'zookeeper-servers': [{
                 'host': str,
                 'port': int,
diff --git a/nodepool/config.py b/nodepool/config.py
index 9c2a5de4a..bb482225d 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -101,16 +101,6 @@ class Cron(ConfigValue):
         return "<Cron %s>" % self.name
 
 
-class ZMQPublisher(ConfigValue):
-    def __repr__(self):
-        return "<ZMQPublisher %s>" % self.name
-
-
-class GearmanServer(ConfigValue):
-    def __repr__(self):
-        return "<GearmanServer %s>" % self.name
-
-
 class DiskImage(ConfigValue):
     def __repr__(self):
         return "<DiskImage %s>" % self.name
@@ -154,8 +144,6 @@ def loadConfig(config_path):
     newconfig.dburi = None
     newconfig.provider_managers = {}
     newconfig.jenkins_managers = {}
-    newconfig.zmq_publishers = {}
-    newconfig.gearman_servers = {}
     newconfig.zookeeper_servers = {}
     newconfig.diskimages = {}
     newconfig.crons = {}
@@ -170,19 +158,6 @@ def loadConfig(config_path):
         c.job = None
         c.timespec = config.get('cron', {}).get(name, default)
 
-    for addr in config.get('zmq-publishers', []):
-        z = ZMQPublisher()
-        z.name = addr
-        z.listener = None
-        newconfig.zmq_publishers[z.name] = z
-
-    for server in config.get('gearman-servers', []):
-        g = GearmanServer()
-        g.host = server['host']
-        g.port = server.get('port', 4730)
-        g.name = g.host + '_' + str(g.port)
-        newconfig.gearman_servers[g.name] = g
-
     for server in config.get('zookeeper-servers', []):
         z = zk.ZooKeeperConnectionConfig(server['host'],
                                          server.get('port', 2181),
@@ -312,8 +287,6 @@ def loadConfig(config_path):
         t.jenkins_apikey = None
         t.jenkins_credentials_id = None
 
-        t.assign_via_gearman = target.get('assign-via-gearman', False)
-
         t.hostname = target.get(
             'hostname',
             '{label.name}-{provider.name}-{node_id}'
diff --git a/nodepool/jobs.py b/nodepool/jobs.py
deleted file mode 100644
index c1d6f1ab9..000000000
--- a/nodepool/jobs.py
+++ /dev/null
@@ -1,78 +0,0 @@
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import json
-import logging
-import uuid
-import threading
-
-import gear
-
-
-class WatchableJob(gear.Job):
-    def __init__(self, *args, **kwargs):
-        super(WatchableJob, self).__init__(*args, **kwargs)
-        self._completion_handlers = []
-        self._event = threading.Event()
-
-    def _handleCompletion(self, mode=None):
-        self._event.set()
-        for handler in self._completion_handlers:
-            handler(self)
-
-    def addCompletionHandler(self, handler):
-        self._completion_handlers.append(handler)
-
-    def onCompleted(self):
-        self._handleCompletion()
-
-    def onFailed(self):
-        self._handleCompletion()
-
-    def onDisconnect(self):
-        self._handleCompletion()
-
-    def onWorkStatus(self):
-        pass
-
-    def waitForCompletion(self, timeout=None):
-        return self._event.wait(timeout)
-
-
-class NodepoolJob(WatchableJob):
-    def __init__(self, job_name, job_data_obj, nodepool):
-        job_uuid = str(uuid.uuid4().hex)
-        job_data = json.dumps(job_data_obj)
-        super(NodepoolJob, self).__init__(job_name, job_data, job_uuid)
-        self.nodepool = nodepool
-
-    def getDbSession(self):
-        return self.nodepool.getDB().getSession()
-
-
-class NodeAssignmentJob(NodepoolJob):
-    log = logging.getLogger("jobs.NodeAssignmentJob")
-
-    def __init__(self, node_id, target_name, data, nodepool):
-        self.node_id = node_id
-        job_name = 'node_assign:%s' % target_name
-        super(NodeAssignmentJob, self).__init__(job_name, data, nodepool)
-
-
-class NodeRevokeJob(NodepoolJob):
-    log = logging.getLogger("jobs.NodeRevokeJob")
-
-    def __init__(self, node_id, manager_name, data, nodepool):
-        self.node_id = node_id
-        job_name = 'node_revoke:%s' % manager_name
-        super(NodeRevokeJob, self).__init__(job_name, data, nodepool)
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 1157a9b23..f6d4c6129 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -18,7 +18,6 @@
 
 import apscheduler.schedulers.background
 import apscheduler.triggers.cron
-import gear
 import json
 import logging
 import os
@@ -29,7 +28,6 @@ import random
 import socket
 import threading
 import time
-import zmq
 
 import allocation
 import jenkins_manager
@@ -40,7 +38,6 @@ import provider_manager
 import stats
 import config as nodepool_config
 
-import jobs
 import zk
 
 MINS = 60
@@ -57,6 +54,8 @@ IMAGE_CLEANUP = 8 * HOURS    # When to start deleting an image that is not
                              # READY or is not the current or previous image
 DELETE_DELAY = 1 * MINS      # Delay before deleting a node that has completed
                              # its job.
+SUSPEND_WAIT_TIME = 30       # How long to wait between checks for ZooKeeper
+                             # connectivity if it disappears.
 
 
 class LaunchNodepoolException(Exception):
@@ -172,174 +171,6 @@ class NodeCompleteThread(threading.Thread):
         self.nodepool.deleteNode(node.id)
 
 
-class NodeUpdateListener(threading.Thread):
-    log = logging.getLogger("nodepool.NodeUpdateListener")
-
-    def __init__(self, nodepool, addr):
-        threading.Thread.__init__(self, name='NodeUpdateListener')
-        self.nodepool = nodepool
-        self.socket = self.nodepool.zmq_context.socket(zmq.SUB)
-        self.socket.RCVTIMEO = 1000
-        event_filter = b""
-        self.socket.setsockopt(zmq.SUBSCRIBE, event_filter)
-        self.socket.connect(addr)
-        self._stopped = False
-
-    def run(self):
-        while not self._stopped:
-            try:
-                m = self.socket.recv().decode('utf-8')
-            except zmq.error.Again:
-                continue
-            try:
-                topic, data = m.split(None, 1)
-                self.handleEvent(topic, data)
-            except Exception:
-                self.log.exception("Exception handling job:")
-
-    def stop(self):
-        self._stopped = True
-
-    def handleEvent(self, topic, data):
-        self.log.debug("Received: %s %s" % (topic, data))
-        args = json.loads(data)
-        build = args['build']
-        if 'node_name' not in build:
-            return
-        jobname = args['name']
-        nodename = args['build']['node_name']
-        if topic == 'onStarted':
-            self.handleStartPhase(nodename, jobname)
-        elif topic == 'onCompleted':
-            pass
-        elif topic == 'onFinalized':
-            result = args['build'].get('status')
-            params = args['build'].get('parameters')
-            if params:
-                branch = params.get('ZUUL_BRANCH', 'unknown_branch')
-            else:
-                branch = 'unknown_branch'
-            self.handleCompletePhase(nodename, jobname, result, branch)
-        else:
-            raise Exception("Received job for unhandled phase: %s" %
-                            topic)
-
-    def handleStartPhase(self, nodename, jobname):
-        with self.nodepool.getDB().getSession() as session:
-            node = session.getNodeByNodename(nodename)
-            if not node:
-                self.log.debug("Unable to find node with nodename: %s" %
-                               nodename)
-                return
-
-            target = self.nodepool.config.targets[node.target_name]
-            if jobname == target.jenkins_test_job:
-                self.log.debug("Test job for node id: %s started" % node.id)
-                return
-
-            # Preserve the HOLD state even if a job starts on the node.
-            if node.state != nodedb.HOLD:
-                self.log.info("Setting node id: %s to USED" % node.id)
-                node.state = nodedb.USED
-            self.nodepool.updateStats(session, node.provider_name)
-
-    def handleCompletePhase(self, nodename, jobname, result, branch):
-        t = NodeCompleteThread(self.nodepool, nodename, jobname, result,
-                               branch)
-        t.start()
-
-
-class GearmanClient(gear.Client):
-    def __init__(self):
-        super(GearmanClient, self).__init__(client_id='nodepool')
-        self.__log = logging.getLogger("nodepool.GearmanClient")
-
-    def getNeededWorkers(self):
-        needed_workers = {}
-        job_worker_map = {}
-        unspecified_jobs = {}
-        for connection in self.active_connections:
-            try:
-                req = gear.StatusAdminRequest()
-                connection.sendAdminRequest(req, timeout=300)
-            except Exception:
-                self.__log.exception("Exception while listing functions")
-                self._lostConnection(connection)
-                continue
-            for line in req.response.split('\n'):
-                parts = [x.strip() for x in line.split('\t')]
-                # parts[0] - function name
-                # parts[1] - total jobs queued (including building)
-                # parts[2] - jobs building
-                # parts[3] - workers registered
-                if not parts or parts[0] == '.':
-                    continue
-                if not parts[0].startswith('build:'):
-                    continue
-                function = parts[0][len('build:'):]
-                # total jobs in queue (including building jobs)
-                # NOTE(jhesketh): Jobs that are being built are accounted for
-                # in the demand algorithm by subtracting the running nodes.
-                # If there are foreign (to nodepool) workers accepting jobs
-                # the demand will be higher than actually required. However
-                # better to have too many than too few and if you have a
-                # foreign worker this may be desired.
-                try:
-                    queued = int(parts[1])
-                except ValueError as e:
-                    self.__log.warn(
-                        'Server returned non-integer value in status. (%s)' %
-                        str(e))
-                    queued = 0
-                if queued > 0:
-                    self.__log.debug("Function: %s queued: %s" % (function,
-                                                                  queued))
-                if ':' in function:
-                    fparts = function.split(':')
-                    # fparts[0] - function name
-                    # fparts[1] - target node [type]
-                    job = fparts[-2]
-                    worker = fparts[-1]
-                    workers = job_worker_map.get(job, [])
-                    workers.append(worker)
-                    job_worker_map[job] = workers
-                    if queued > 0:
-                        needed_workers[worker] = (
-                            needed_workers.get(worker, 0) + queued)
-                elif queued > 0:
-                    job = function
-                    unspecified_jobs[job] = (unspecified_jobs.get(job, 0) +
-                                             queued)
-        for job, queued in unspecified_jobs.items():
-            workers = job_worker_map.get(job)
-            if not workers:
-                continue
-            worker = workers[0]
-            needed_workers[worker] = (needed_workers.get(worker, 0) +
-                                      queued)
-        return needed_workers
-
-    def handleWorkComplete(self, packet):
-        job = super(GearmanClient, self).handleWorkComplete(packet)
-        job.onCompleted()
-
-    def handleWorkFail(self, packet):
-        job = super(GearmanClient, self).handleWorkFail(packet)
-        job.onFailed()
-
-    def handleWorkException(self, packet):
-        job = super(GearmanClient, self).handleWorkException(packet)
-        job.onFailed()
-
-    def handleDisconnect(self, job):
-        super(GearmanClient, self).handleDisconnect(job)
-        job.onDisconnect()
-
-    def handleWorkStatus(self, packet):
-        job = super(GearmanClient, self).handleWorkStatus(packet)
-        job.onWorkStatus()
-
-
 class InstanceDeleter(threading.Thread):
     log = logging.getLogger("nodepool.InstanceDeleter")
 
@@ -569,10 +400,6 @@ class NodeLauncher(threading.Thread):
             self.createJenkinsNode()
             self.log.info("Node id: %s added to jenkins" % self.node.id)
 
-        if self.target.assign_via_gearman:
-            self.log.info("Node id: %s assigning via gearman" % self.node.id)
-            self.assignViaGearman()
-
         return dt
 
     def createJenkinsNode(self):
@@ -597,24 +424,6 @@ class NodeLauncher(threading.Thread):
             params = dict(NODE=self.node.nodename)
             jenkins.startBuild(self.target.jenkins_test_job, params)
 
-    def assignViaGearman(self):
-        args = dict(name=self.node.nodename,
-                    host=self.node.ip,
-                    description='Dynamic single use %s node' % self.label.name,
-                    labels=self.label.name,
-                    root=self.image.user_home)
-        job = jobs.NodeAssignmentJob(self.node.id, self.node.target_name,
-                                     args, self.nodepool)
-        self.nodepool.gearman_client.submitJob(job, timeout=300)
-        job.waitForCompletion()
-        self.log.info("Node id: %s received %s from assignment" % (
-            self.node.id, job.data))
-        if job.failure:
-            raise Exception("Node id: %s received job failure on assignment" %
-                            self.node.id)
-        data = json.loads(job.data[-1])
-        self.node.manager_name = data['manager']
-
     def writeNodepoolInfo(self, nodelist):
         key = paramiko.RSAKey.generate(2048)
         public_key = key.get_name() + ' ' + key.get_base64()
@@ -862,6 +671,20 @@ class SubNodeLauncher(threading.Thread):
         return dt
 
 
+class RequestWorker(threading.Thread):
+    log = logging.getLogger("nodepool.RequestWorker")
+
+    def __init__(self, request, zk):
+        threading.Thread.__init__(
+            self, name='RequestWorker for %s' % request.id
+        )
+        self.request = request
+        self.zk = zk
+
+    def run(self):
+        self.log.info("Handling node request %s" % self.request.id)
+
+
 class NodePool(threading.Thread):
     log = logging.getLogger("nodepool.NodePool")
 
@@ -875,8 +698,6 @@ class NodePool(threading.Thread):
         self.watermark_sleep = watermark_sleep
         self._stopped = False
         self.config = None
-        self.zmq_context = None
-        self.gearman_client = None
         self.apsched = None
         self.zk = None
         self.statsd = stats.get_client()
@@ -895,16 +716,9 @@ class NodePool(threading.Thread):
         self._wake_condition.notify()
         self._wake_condition.release()
         if self.config:
-            for z in self.config.zmq_publishers.values():
-                z.listener.stop()
-                z.listener.join()
             provider_manager.ProviderManager.stopProviders(self.config)
-        if self.zmq_context:
-            self.zmq_context.destroy()
         if self.apsched and self.apsched.running:
             self.apsched.shutdown()
-        if self.gearman_client:
-            self.gearman_client.shutdown()
         self.log.debug("finished stopping")
 
     def loadConfig(self):
@@ -913,12 +727,6 @@ class NodePool(threading.Thread):
         nodepool_config.loadSecureConfig(config, self.securefile)
         return config
 
-    def reconfigureDatabase(self, config):
-        if (not self.config) or config.dburi != self.config.dburi:
-            config.db = nodedb.NodeDatabase(config.dburi)
-        else:
-            config.db = self.config.db
-
     def reconfigureManagers(self, config, check_targets=True):
         provider_manager.ProviderManager.reconfigure(self.config, config)
 
@@ -989,54 +797,6 @@ class NodePool(threading.Thread):
             else:
                 c.job = self.config.crons[c.name].job
 
-    def reconfigureUpdateListeners(self, config):
-        if self.no_deletes:
-            return
-        if self.config:
-            running = set(self.config.zmq_publishers.keys())
-        else:
-            running = set()
-
-        configured = set(config.zmq_publishers.keys())
-        if running == configured:
-            self.log.debug("ZMQ Listeners do not need to be updated")
-            if self.config:
-                config.zmq_publishers = self.config.zmq_publishers
-            return
-
-        if self.zmq_context:
-            self.log.debug("Stopping listeners")
-            self.zmq_context.destroy()
-        self.zmq_context = zmq.Context()
-        for z in config.zmq_publishers.values():
-            self.log.debug("Starting listener for %s" % z.name)
-            z.listener = NodeUpdateListener(self, z.name)
-            z.listener.start()
-
-    def reconfigureGearmanClient(self, config):
-        if self.config:
-            running = set(self.config.gearman_servers.keys())
-        else:
-            running = set()
-
-        configured = set(config.gearman_servers.keys())
-        if running == configured:
-            self.log.debug("Gearman client does not need to be updated")
-            if self.config:
-                config.gearman_servers = self.config.gearman_servers
-            return
-
-        if self.gearman_client:
-            self.log.debug("Stopping gearman client")
-            self.gearman_client.shutdown()
-            self.gearman_client = None
-        if configured:
-            self.gearman_client = GearmanClient()
-            for g in config.gearman_servers.values():
-                self.log.debug("Adding gearman server %s" % g.name)
-                self.gearman_client.addServer(g.host, g.port)
-            self.gearman_client.waitForServer()
-
     def reconfigureZooKeeper(self, config):
         if self.config:
             running = self.config.zookeeper_servers.values()
@@ -1078,10 +838,7 @@ class NodePool(threading.Thread):
     def getNeededNodes(self, session, allocation_history):
         self.log.debug("Beginning node launch calculation")
         # Get the current demand for nodes.
-        if self.gearman_client:
-            label_demand = self.gearman_client.getNeededWorkers()
-        else:
-            label_demand = {}
+        label_demand = {}
 
         for name, demand in label_demand.items():
             self.log.debug("  Demand from gearman: %s: %s" % (name, demand))
@@ -1245,45 +1002,49 @@ class NodePool(threading.Thread):
 
     def updateConfig(self):
         config = self.loadConfig()
-        self.reconfigureDatabase(config)
         self.reconfigureZooKeeper(config)
         self.reconfigureManagers(config)
-        self.reconfigureUpdateListeners(config)
-        self.reconfigureGearmanClient(config)
         self.reconfigureCrons(config)
         self.setConfig(config)
 
-    def startup(self):
-        self.updateConfig()
-        self.zk.registerLauncher(self.launcher_id)
-
-        # Currently nodepool can not resume building a node or image
-        # after a restart.  To clean up, mark all building node and
-        # images for deletion when the daemon starts.
-        with self.getDB().getSession() as session:
-            for node in session.getNodes(state=nodedb.BUILDING):
-                self.log.info("Setting building node id: %s to delete "
-                              "on startup" % node.id)
-                node.state = nodedb.DELETE
-
     def run(self):
-        try:
-            self.startup()
-        except Exception:
-            self.log.exception("Exception in startup:")
+        '''
+        Start point for the NodePool thread.
+        '''
         allocation_history = allocation.AllocationHistory()
+
         while not self._stopped:
             try:
                 self.updateConfig()
-                with self.getDB().getSession() as session:
-                    self._run(session, allocation_history)
+
+                # Don't do work if we've lost communication with the ZK cluster
+                while self.zk and (self.zk.suspended or self.zk.lost):
+                    self.log.info("ZooKeeper suspended. Waiting")
+                    time.sleep(SUSPEND_WAIT_TIME)
+
+                # Make sure we're always registered with ZK
+                self.zk.registerLauncher(self.launcher_id)
+                self._run(allocation_history)
             except Exception:
                 self.log.exception("Exception in main loop:")
+
             self._wake_condition.acquire()
             self._wake_condition.wait(self.watermark_sleep)
             self._wake_condition.release()
 
-    def _run(self, session, allocation_history):
+    def _run(self, allocation_history):
+        if self.no_launches:
+            return
+
+        for req_id in self.zk.getNodeRequests():
+            request = self.zk.getNodeRequest(req_id)
+            if request.state != zk.REQUESTED:
+                continue
+
+            worker = RequestWorker(request, self.zk)
+            worker.start()
+
+    def _run_OLD(self, session, allocation_history):
         if self.no_launches:
             return
         # Make up the subnode deficit first to make sure that an
@@ -1380,13 +1141,6 @@ class NodePool(threading.Thread):
         finally:
             self._delete_threads_lock.release()
 
-    def revokeAssignedNode(self, node):
-        args = dict(name=node.nodename)
-        job = jobs.NodeRevokeJob(node.id, node.manager_name,
-                                 args, self)
-        self.gearman_client.submitJob(job, timeout=300)
-        # Do not wait for completion in case the manager is offline
-
     def _deleteNode(self, session, node):
         self.log.debug("Deleting node id: %s which has been in %s "
                        "state for %s hours" %
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 122eb8fd9..f93cd5d98 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -15,13 +15,11 @@
 
 """Common utilities used in testing"""
 
-import errno
 import glob
 import logging
 import os
 import pymysql
 import random
-import re
 import string
 import subprocess
 import threading
@@ -30,7 +28,6 @@ import time
 import uuid
 
 import fixtures
-import gear
 import lockfile
 import kazoo.client
 import testtools
@@ -46,74 +43,6 @@ class LoggingPopen(subprocess.Popen):
     pass
 
 
-class FakeGearmanServer(gear.Server):
-    def __init__(self, port=0):
-        self.hold_jobs_in_queue = False
-        super(FakeGearmanServer, self).__init__(port)
-
-    def getJobForConnection(self, connection, peek=False):
-        for queue in [self.high_queue, self.normal_queue, self.low_queue]:
-            for job in queue:
-                if not hasattr(job, 'waiting'):
-                    if job.name.startswith('build:'):
-                        job.waiting = self.hold_jobs_in_queue
-                    else:
-                        job.waiting = False
-                if job.waiting:
-                    continue
-                if job.name in connection.functions:
-                    if not peek:
-                        queue.remove(job)
-                        connection.related_jobs[job.handle] = job
-                        job.worker_connection = connection
-                    job.running = True
-                    return job
-        return None
-
-    def release(self, regex=None):
-        released = False
-        qlen = (len(self.high_queue) + len(self.normal_queue) +
-                len(self.low_queue))
-        self.log.debug("releasing queued job %s (%s)" % (regex, qlen))
-        for job in self.getQueue():
-            cmd, name = job.name.split(':')
-            if cmd != 'build':
-                continue
-            if not regex or re.match(regex, name):
-                self.log.debug("releasing queued job %s" %
-                               job.unique)
-                job.waiting = False
-                released = True
-            else:
-                self.log.debug("not releasing queued job %s" %
-                               job.unique)
-        if released:
-            self.wakeConnections()
-        qlen = (len(self.high_queue) + len(self.normal_queue) +
-                len(self.low_queue))
-        self.log.debug("done releasing queued jobs %s (%s)" % (regex, qlen))
-
-
-class GearmanServerFixture(fixtures.Fixture):
-    def __init__(self, port=0):
-        self._port = port
-
-    def setUp(self):
-        super(GearmanServerFixture, self).setUp()
-        self.gearman_server = FakeGearmanServer(self._port)
-        self.addCleanup(self.shutdownGearman)
-
-    def shutdownGearman(self):
-        #TODO:greghaynes remove try once gear client protects against this
-        try:
-            self.gearman_server.shutdown()
-        except OSError as e:
-            if e.errno == errno.EBADF:
-                pass
-            else:
-                raise
-
-
 class ZookeeperServerFixture(fixtures.Fixture):
     def _setUp(self):
         zk_host = os.environ.get('NODEPOOL_ZK_HOST', 'localhost')
@@ -171,37 +100,6 @@ class ChrootedKazooFixture(fixtures.Fixture):
         _tmp_client.close()
 
 
-class GearmanClient(gear.Client):
-    def __init__(self):
-        super(GearmanClient, self).__init__(client_id='test_client')
-        self.__log = logging.getLogger("tests.GearmanClient")
-
-    def get_queued_image_jobs(self):
-        'Count the number of image-build and upload jobs queued.'
-        queued = 0
-        for connection in self.active_connections:
-            try:
-                req = gear.StatusAdminRequest()
-                connection.sendAdminRequest(req)
-            except Exception:
-                self.__log.exception("Exception while listing functions")
-                self._lostConnection(connection)
-                continue
-            for line in req.response.split('\n'):
-                parts = [x.strip() for x in line.split('\t')]
-                # parts[0] - function name
-                # parts[1] - total jobs queued (including building)
-                # parts[2] - jobs building
-                # parts[3] - workers registered
-                if not parts or parts[0] == '.':
-                    continue
-                if (not parts[0].startswith('image-build:') and
-                    not parts[0].startswith('image-upload:')):
-                    continue
-                queued += int(parts[1])
-        return queued
-
-
 class BaseTestCase(testtools.TestCase):
     def setUp(self):
         super(BaseTestCase, self).setUp()
@@ -265,8 +163,6 @@ class BaseTestCase(testtools.TestCase):
                      'NodePool',
                      'NodePool Builder',
                      'NodeUpdateListener',
-                     'Gearman client connect',
-                     'Gearman client poll',
                      'fake-provider',
                      'fake-provider1',
                      'fake-provider2',
@@ -397,11 +293,6 @@ class DBTestCase(BaseTestCase):
         self.useFixture(f)
         self.dburi = f.dburi
         self.secure_conf = self._setup_secure()
-
-        gearman_fixture = GearmanServerFixture()
-        self.useFixture(gearman_fixture)
-        self.gearman_server = gearman_fixture.gearman_server
-
         self.setupZK()
 
     def setup_config(self, filename, images_dir=None):
@@ -414,7 +305,6 @@ class DBTestCase(BaseTestCase):
         with open(configfile) as conf_fd:
             config = conf_fd.read()
             os.write(fd, config.format(images_dir=images_dir.path,
-                                       gearman_port=self.gearman_server.port,
                                        zookeeper_host=self.zookeeper_host,
                                        zookeeper_port=self.zookeeper_port,
                                        zookeeper_chroot=self.zookeeper_chroot))
@@ -540,18 +430,6 @@ class DBTestCase(BaseTestCase):
             time.sleep(1)
         self.wait_for_threads()
 
-    def waitForJobs(self):
-        # XXX:greghaynes - There is a very narrow race here where nodepool
-        # is who actually updates the database so this may return before the
-        # image rows are updated.
-        client = GearmanClient()
-        client.addServer('localhost', self.gearman_server.port)
-        client.waitForServer()
-
-        while client.get_queued_image_jobs() > 0:
-            time.sleep(.2)
-        client.shutdown()
-
     def useNodepool(self, *args, **kwargs):
         args = (self.secure_conf,) + args
         pool = nodepool.NodePool(*args, **kwargs)
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index b7b12e7d0..623a2f5ca 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -5,18 +5,6 @@ cron:
   cleanup: '*/1 * * * *'
   check: '*/15 * * * *'
 
-zmq-publishers:
-  - tcp://jenkins01.openstack.org:8888
-  - tcp://jenkins02.openstack.org:8888
-  - tcp://jenkins03.openstack.org:8888
-  - tcp://jenkins04.openstack.org:8888
-  - tcp://jenkins05.openstack.org:8888
-  - tcp://jenkins06.openstack.org:8888
-  - tcp://jenkins07.openstack.org:8888
-
-gearman-servers:
-  - host: zuul.openstack.org
-
 zookeeper-servers:
   - host: zk1.openstack.org
     port: 2181
diff --git a/nodepool/tests/fixtures/config_validate/yaml_error.yaml b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
index 2b8a0bf70..08dd9626c 100644
--- a/nodepool/tests/fixtures/config_validate/yaml_error.yaml
+++ b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
@@ -5,18 +5,6 @@ cron:
   cleanup: '*/1 * * * *'
   check: '*/15 * * * *'
 
-zmq-publishers:
-  - tcp://jenkins01.openstack.org:8888
-  - tcp://jenkins02.openstack.org:8888
-  - tcp://jenkins03.openstack.org:8888
-  - tcp://jenkins04.openstack.org:8888
-  - tcp://jenkins05.openstack.org:8888
-  - tcp://jenkins06.openstack.org:8888
-  - tcp://jenkins07.openstack.org:8888
-
-gearman-servers:
-  - host: zuul.openstack.org
-
 zookeeper-servers:
   - host: zk1.openstack.org
     port: 2181
diff --git a/nodepool/tests/fixtures/integration.yaml b/nodepool/tests/fixtures/integration.yaml
index 0a6e4c926..400695a8e 100644
--- a/nodepool/tests/fixtures/integration.yaml
+++ b/nodepool/tests/fixtures/integration.yaml
@@ -4,13 +4,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: localhost
 
diff --git a/nodepool/tests/fixtures/integration_osc.yaml b/nodepool/tests/fixtures/integration_osc.yaml
index 3222a960d..ac0c955f6 100644
--- a/nodepool/tests/fixtures/integration_osc.yaml
+++ b/nodepool/tests/fixtures/integration_osc.yaml
@@ -4,13 +4,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: localhost
 
diff --git a/nodepool/tests/fixtures/leaked_node.yaml b/nodepool/tests/fixtures/leaked_node.yaml
index e84cf2d99..d54ae71d0 100644
--- a/nodepool/tests/fixtures/leaked_node.yaml
+++ b/nodepool/tests/fixtures/leaked_node.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '* * * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 6636d3a2d..7e62d53c7 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index b78e67d08..cf1dd2cb4 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index 3c18b82bc..bffba1c39 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -4,13 +4,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 6bdc3040a..646ed14b9 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index 0787d62c8..08c956198 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index a8a8e1861..87dbd5735 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_image_upload_pause.yaml b/nodepool/tests/fixtures/node_image_upload_pause.yaml
index 0232e852d..e22481ff5 100644
--- a/nodepool/tests/fixtures/node_image_upload_pause.yaml
+++ b/nodepool/tests/fixtures/node_image_upload_pause.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index 2cd1c6e8c..dc4ecd6ef 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index 8af31f150..61008c4d5 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_image.yaml b/nodepool/tests/fixtures/node_two_image.yaml
index f55d8ffc4..82c6872d9 100644
--- a/nodepool/tests/fixtures/node_two_image.yaml
+++ b/nodepool/tests/fixtures/node_two_image.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_image_remove.yaml b/nodepool/tests/fixtures/node_two_image_remove.yaml
index 6636d3a2d..7e62d53c7 100644
--- a/nodepool/tests/fixtures/node_two_image_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_image_remove.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_provider.yaml b/nodepool/tests/fixtures/node_two_provider.yaml
index 849c360a5..8a7fbb135 100644
--- a/nodepool/tests/fixtures/node_two_provider.yaml
+++ b/nodepool/tests/fixtures/node_two_provider.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_provider_remove.yaml b/nodepool/tests/fixtures/node_two_provider_remove.yaml
index 85310516e..d48d8d550 100644
--- a/nodepool/tests/fixtures/node_two_provider_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_provider_remove.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index 799f84d0b..ba3d961e3 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index 12bfd34b8..3676f3516 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index b2b28e15f..a1e9a569f 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/subnodes.yaml b/nodepool/tests/fixtures/subnodes.yaml
index d076178c8..53c9ff8b3 100644
--- a/nodepool/tests/fixtures/subnodes.yaml
+++ b/nodepool/tests/fixtures/subnodes.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 749cdd3aa..d59d2129a 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -35,8 +35,15 @@ READY = 'ready'
 DELETING = 'deleting'
 # The build failed.
 FAILED = 'failed'
+# Node request is submitted/unhandled.
+REQUESTED = 'requested'
+# Node request has been processed successfully.
+FULFILLED = 'fulfilled'
+# Node request is being worked.
+PENDING = 'pending'
 
-STATES = set([BUILDING, UPLOADING, READY, DELETING, FAILED])
+STATES = set([BUILDING, UPLOADING, READY, DELETING, FAILED,
+              REQUESTED, FULFILLED, PENDING])
 
 class ZooKeeperConnectionConfig(object):
     '''
diff --git a/requirements.txt b/requirements.txt
index d5658afcd..324e4e45f 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,6 +1,5 @@
 pbr>=1.3
 
-gear
 PyYAML
 python-jenkins
 paramiko>1.11.6,<2.0.0
@@ -9,7 +8,6 @@ extras
 statsd>=3.0
 apscheduler>=3.0
 sqlalchemy>=0.8.2,<1.1.0
-pyzmq>=13.1.0
 PyMySQL
 PrettyTable>=0.6,<0.8
 # shade has a looser requirement on six than nodepool, so install six first
diff --git a/tools/fake-dib.yaml b/tools/fake-dib.yaml
index 120994f9e..bb02b7108 100644
--- a/tools/fake-dib.yaml
+++ b/tools/fake-dib.yaml
@@ -5,12 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-
 diskimages:
   - name: fake-dib-image
     elements:
diff --git a/tools/fake-servers.py b/tools/fake-servers.py
deleted file mode 100644
index 2b93e85b8..000000000
--- a/tools/fake-servers.py
+++ /dev/null
@@ -1,93 +0,0 @@
-#!/usr/bin/env python
-
-# Copyright 2013 Hewlett-Packard Development Company, L.P.
-# Copyright 2011-2013 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-#
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# A test script to stand in for a zeromq enabled jenkins.  It sends zmq
-# events that simulate the jenkins node lifecycle.
-#
-# Usage:
-#   zmq-server.py start HOSTNAME
-#   zmq-server.py complete HOSTNAME
-
-import gear
-import json
-import logging
-import select
-import socket
-import threading
-import zmq
-
-class MyGearmanServer(gear.Server):
-    def handleStatus(self, request):
-        request.connection.conn.send(("build:fake_job\t%s\t0\t0\n" %
-                                      self._count).encode('utf8'))
-        request.connection.conn.send(("build:fake_job:devstack-precise\t%s\t0\t0\n" %
-                                      0).encode('utf8'))
-        request.connection.conn.send(b'.\n')
-
-class FakeStatsd(object):
-    def __init__(self):
-        self.thread = threading.Thread(target=self.run)
-        self.thread.daemon = True
-        self.sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
-        self.sock.bind(('', 8125))
-        self.stats = []
-        self.thread.start()
-
-    def run(self):
-        while True:
-            poll = select.poll()
-            poll.register(self.sock, select.POLLIN)
-            ret = poll.poll()
-            for (fd, event) in ret:
-                if fd == self.sock.fileno():
-                    data = self.sock.recvfrom(1024)
-                    if not data:
-                        return
-                    print data[0]
-                    self.stats.append(data[0])
-
-def main():
-    logging.basicConfig(level=logging.DEBUG)
-    context = zmq.Context()
-    zsocket = context.socket(zmq.PUB)
-    zsocket.bind("tcp://*:8881")
-
-    geard = MyGearmanServer(statsd_host='localhost', statsd_port=8125,
-                            statsd_prefix='zuul.geard')
-    geard._count = 0
-
-    statsd = FakeStatsd()
-
-    print('ready')
-    while True:
-        line = raw_input()
-        command, arg = line.split()
-        if command == 'queue':
-            geard._count = int(arg)
-        elif command == 'start':
-            topic = 'onStarted'
-            data = {"name":"test","url":"job/test/","build":{"full_url":"http://localhost:8080/job/test/1/","number":1,"phase":"STARTED","url":"job/test/1/","node_name":arg}}
-            zsocket.send("%s %s" % (topic, json.dumps(data)))
-        elif command == 'complete':
-            topic = 'onFinalized'
-            data = {"name":"test","url":"job/test/","build":{"full_url":"http://localhost:8080/job/test/1/","number":1,"phase":"FINISHED","status":"SUCCESS","url":"job/test/1/","node_name":arg, "parameters":{"BASE_LOG_PATH":"05/60105/3/gate","LOG_PATH":"05/60105/3/gate/gate-tempest-dsvm-postgres-full/bf0f215","OFFLINE_NODE_WHEN_COMPLETE":"1","ZUUL_BRANCH":"master","ZUUL_CHANGE":"60105","ZUUL_CHANGE_IDS":"60105,3","ZUUL_CHANGES":"openstack/cinder:master:refs/changes/05/60105/3","ZUUL_COMMIT":"ccd02fce4148d5ac2b3e1e68532b55eb5c1c356d","ZUUL_PATCHSET":"3","ZUUL_PIPELINE":"gate","ZUUL_PROJECT":"openstack/cinder","ZUUL_REF":"refs/zuul/master/Z6726d84e57a04ec79585b895ace08f7e","ZUUL_URL":"http://zuul.openstack.org/p","ZUUL_UUID":"bf0f21577026492a985ca98a9ea14cc1"}}}
-            zsocket.send("%s %s" % (topic, json.dumps(data)))
-
-if __name__ == '__main__':
-    main()
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 0df2ddae1..faf6e87c5 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -4,12 +4,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-
 zookeeper-servers:
   - host: localhost
 
@@ -56,4 +50,3 @@ providers:
 
 targets:
   - name: zuul
-    assign-via-gearman: True
diff --git a/tools/zmq-stream.py b/tools/zmq-stream.py
deleted file mode 100644
index aa0227547..000000000
--- a/tools/zmq-stream.py
+++ /dev/null
@@ -1,36 +0,0 @@
-#!/usr/bin/env python
-
-# Copyright 2012 Hewlett-Packard Development Company, L.P.
-# Copyright 2013 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-#
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# A test script to watch a zmq stream
-#
-# Usage:
-#   zmq-stream.py
-
-import zmq
-
-context = zmq.Context()
-socket = context.socket(zmq.SUB)
-event_filter = b""
-socket.setsockopt(zmq.SUBSCRIBE, event_filter)
-socket.connect("tcp://localhost:8888")
-
-print('ready')
-while True:
-    m = socket.recv().decode('utf-8')
-    print(m)

From 7f279b4b6972f0fe4b708eec0617b7321c98f3e2 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 5 Jan 2017 16:35:20 -0500
Subject: [PATCH 008/309] Minor code cleanup

Just cleaning up some things that keep annoying me: not properly closing
kazoo client connections in the test, and not using a state variable in
one place.

Change-Id: I0a99e9d81b73af40f91950e9d31e2ef64c5bb3cb
---
 nodepool/zk.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/zk.py b/nodepool/zk.py
index d59d2129a..6f9ffeeb9 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -881,7 +881,7 @@ class ZooKeeper(object):
         return uploads[:count]
 
     def getMostRecentImageUpload(self, image, provider,
-                                 state="ready"):
+                                 state=READY):
         '''
         Retrieve the most recent image upload data with the given state.
 

From 867480bb4824633f00fe770bd29c17ed4ef33567 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 6 Jan 2017 13:48:42 -0500
Subject: [PATCH 009/309] Set valid states per data model class

Some states are not valid within a certain context. For example,
an ImageBuild cannot be in the UPLOADING state, nor can an ImageUpload
be in the BUILDING state. Set the list of valid states in each data
model class.

Change-Id: I5efc3809042d6dc850fe07f0ae0362d1b9870d4c
---
 nodepool/tests/test_zk.py | 13 ++++++++-----
 nodepool/zk.py            |  9 ++++++---
 2 files changed, 14 insertions(+), 8 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 426ebe81b..5cc27fbce 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -457,7 +457,7 @@ class TestZooKeeper(tests.DBTestCase):
 
     def test_getNodeRequest(self):
         r = zk.NodeRequest("500-123")
-        r.state = zk.READY
+        r.state = zk.REQUESTED
         path = self.zk._requestPath(r.id)
         self.zk.client.create(path, value=self.zk._dictToStr(r.toDict()),
                               makepath=True, ephemeral=True)
@@ -489,19 +489,19 @@ class TestZKModel(tests.BaseTestCase):
 
     def test_BaseModel_toDict(self):
         o = zk.BaseModel('0001')
-        o.state = zk.BUILDING
         d = o.toDict()
         self.assertNotIn('id', d)
-        self.assertEqual(o.state, d['state'])
-        self.assertIsNotNone(d['state_time'])
 
     def test_ImageBuild_toDict(self):
         o = zk.ImageBuild('0001')
+        o.state = zk.BUILDING
         o.builder = 'localhost'
         o.formats = ['qemu', 'raw']
 
         d = o.toDict()
         self.assertNotIn('id', d)
+        self.assertEqual(o.state, d['state'])
+        self.assertIsNotNone(d['state_time'])
         self.assertEqual(','.join(o.formats), d['formats'])
         self.assertEqual(o.builder, d['builder'])
 
@@ -524,6 +524,7 @@ class TestZKModel(tests.BaseTestCase):
 
     def test_ImageUpload_toDict(self):
         o = zk.ImageUpload('0001', '0003')
+        o.state = zk.UPLOADING
         o.external_id = 'DEADBEEF'
         o.external_name = 'trusty'
 
@@ -532,6 +533,8 @@ class TestZKModel(tests.BaseTestCase):
         self.assertNotIn('build_id', d)
         self.assertNotIn('provider_name', d)
         self.assertNotIn('image_name', d)
+        self.assertEqual(o.state, d['state'])
+        self.assertEqual(o.state_time, d['state_time'])
         self.assertEqual(o.external_id, d['external_id'])
         self.assertEqual(o.external_name, d['external_name'])
 
@@ -567,7 +570,7 @@ class TestZKModel(tests.BaseTestCase):
         now = int(time.time())
         req_id = "500-123"
         d = {
-            'state': zk.READY,
+            'state': zk.REQUESTED,
             'state_time': now
         }
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 6f9ffeeb9..ca34fdef8 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -42,8 +42,6 @@ FULFILLED = 'fulfilled'
 # Node request is being worked.
 PENDING = 'pending'
 
-STATES = set([BUILDING, UPLOADING, READY, DELETING, FAILED,
-              REQUESTED, FULFILLED, PENDING])
 
 class ZooKeeperConnectionConfig(object):
     '''
@@ -114,6 +112,8 @@ class ZooKeeperWatchEvent(object):
 
 
 class BaseModel(object):
+    VALID_STATES = set([])
+
     def __init__(self, o_id):
         if o_id:
             self.id = o_id
@@ -137,7 +137,7 @@ class BaseModel(object):
 
     @state.setter
     def state(self, value):
-        if value not in STATES:
+        if value not in self.VALID_STATES:
             raise TypeError("'%s' is not a valid state" % value)
         self._state = value
         self.state_time = time.time()
@@ -168,6 +168,7 @@ class ImageBuild(BaseModel):
     '''
     Class representing a DIB image build within the ZooKeeper cluster.
     '''
+    VALID_STATES = set([BUILDING, READY, DELETING, FAILED])
 
     def __init__(self, build_id=None):
         super(ImageBuild, self).__init__(build_id)
@@ -227,6 +228,7 @@ class ImageUpload(BaseModel):
     '''
     Class representing a provider image upload within the ZooKeeper cluster.
     '''
+    VALID_STATES = set([UPLOADING, READY, DELETING, FAILED])
 
     def __init__(self, build_id=None, provider_name=None, image_name=None,
                  upload_id=None):
@@ -288,6 +290,7 @@ class NodeRequest(BaseModel):
     '''
     Class representing a node request.
     '''
+    VALID_STATES = set([REQUESTED, PENDING, FULFILLED, FAILED])
 
     def __init__(self, id=None):
         super(NodeRequest, self).__init__(id)

From 4a7ab0e028b66342324dd5dd5a4f4cb1e8b949b4 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 9 Jan 2017 12:48:54 -0500
Subject: [PATCH 010/309] Create per-provider ZK work threads

Each provider receives its own thread for polling the ZK node request
queue. Whenever a new provider is added to the config, a new thread
will be created for it.

Change-Id: I7fceec3b649011544fd2fbec961015bac35c9f21
---
 nodepool/nodepool.py | 57 ++++++++++++++++++++++++++++----------------
 1 file changed, 36 insertions(+), 21 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index f6d4c6129..6d1d41bd1 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -671,18 +671,26 @@ class SubNodeLauncher(threading.Thread):
         return dt
 
 
-class RequestWorker(threading.Thread):
-    log = logging.getLogger("nodepool.RequestWorker")
-
-    def __init__(self, request, zk):
+class ProviderWorker(threading.Thread):
+    def __init__(self, zk, provider):
         threading.Thread.__init__(
-            self, name='RequestWorker for %s' % request.id
+            self, name='ProviderWorker.%s' % provider.name
         )
-        self.request = request
+        self.log = logging.getLogger("nodepool.%s" % self.name)
+        self.provider = provider
         self.zk = zk
+        self.running = False
 
     def run(self):
-        self.log.info("Handling node request %s" % self.request.id)
+        self.running = True
+
+        while self.running:
+            self.log.debug("Getting job from ZK queue")
+            time.sleep(10)
+
+    def stop(self):
+        self.log.info("%s received stop" % self.name)
+        self.running = False
 
 
 class NodePool(threading.Thread):
@@ -1011,7 +1019,12 @@ class NodePool(threading.Thread):
         '''
         Start point for the NodePool thread.
         '''
-        allocation_history = allocation.AllocationHistory()
+
+        if self.no_launches:
+            return
+
+        # Provider threads keyed by provider name
+        provider_threads = {}
 
         while not self._stopped:
             try:
@@ -1024,7 +1037,14 @@ class NodePool(threading.Thread):
 
                 # Make sure we're always registered with ZK
                 self.zk.registerLauncher(self.launcher_id)
-                self._run(allocation_history)
+
+                # Start provider threads for each provider in the config
+                for p in self.config.providers.values():
+                    if p.name not in provider_threads.keys():
+                        t = ProviderWorker(self.zk, p)
+                        self.log.info( "Starting %s" % t.name)
+                        t.start()
+                        provider_threads[p.name] = t
             except Exception:
                 self.log.exception("Exception in main loop:")
 
@@ -1032,19 +1052,14 @@ class NodePool(threading.Thread):
             self._wake_condition.wait(self.watermark_sleep)
             self._wake_condition.release()
 
-    def _run(self, allocation_history):
-        if self.no_launches:
-            return
+        # Stop provider threads
+        for thd in provider_threads.values():
+            if thd.isAlive():
+                thd.stop()
+            self.log.info("Waiting for %s" % thd.name)
+            thd.join()
 
-        for req_id in self.zk.getNodeRequests():
-            request = self.zk.getNodeRequest(req_id)
-            if request.state != zk.REQUESTED:
-                continue
-
-            worker = RequestWorker(request, self.zk)
-            worker.start()
-
-    def _run_OLD(self, session, allocation_history):
+    def _run(self, session, allocation_history):
         if self.no_launches:
             return
         # Make up the subnode deficit first to make sure that an

From 096ed90d45438a534b952bd771b79272a32bee8f Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 9 Jan 2017 13:09:10 -0500
Subject: [PATCH 011/309] Remove --no-launches nodepoold option

This isn't needed in v3.

Change-Id: I4ebe2383674d149958cf7c55791ebb0da9e22849
---
 nodepool/cmd/nodepoold.py | 4 +---
 nodepool/nodepool.py      | 9 +--------
 2 files changed, 2 insertions(+), 11 deletions(-)

diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/nodepoold.py
index 625e57584..5f6b9a6fc 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/nodepoold.py
@@ -86,7 +86,6 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
                             default=4, help='number of upload workers',
                             type=int)
         parser.add_argument('--no-deletes', action='store_true')
-        parser.add_argument('--no-launches', action='store_true')
         parser.add_argument('--no-webapp', action='store_true')
         parser.add_argument('--version', dest='version', action='store_true',
                             help='show version')
@@ -105,8 +104,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
         self.setup_logging()
         self.pool = nodepool.nodepool.NodePool(self.args.secure,
                                                self.args.config,
-                                               self.args.no_deletes,
-                                               self.args.no_launches)
+                                               self.args.no_deletes)
         if self.args.builder:
             log.warning(
                 "Note: nodepool no longer automatically builds images, "
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 6d1d41bd1..7a714157c 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -697,12 +697,11 @@ class NodePool(threading.Thread):
     log = logging.getLogger("nodepool.NodePool")
 
     def __init__(self, securefile, configfile, no_deletes=False,
-                 no_launches=False, watermark_sleep=WATERMARK_SLEEP):
+                 watermark_sleep=WATERMARK_SLEEP):
         threading.Thread.__init__(self, name='NodePool')
         self.securefile = securefile
         self.configfile = configfile
         self.no_deletes = no_deletes
-        self.no_launches = no_launches
         self.watermark_sleep = watermark_sleep
         self._stopped = False
         self.config = None
@@ -1019,10 +1018,6 @@ class NodePool(threading.Thread):
         '''
         Start point for the NodePool thread.
         '''
-
-        if self.no_launches:
-            return
-
         # Provider threads keyed by provider name
         provider_threads = {}
 
@@ -1060,8 +1055,6 @@ class NodePool(threading.Thread):
             thd.join()
 
     def _run(self, session, allocation_history):
-        if self.no_launches:
-            return
         # Make up the subnode deficit first to make sure that an
         # already allocated node has priority in filling its subnodes
         # ahead of new nodes.

From 6d082ddd50c9ba143e1ac3fbcdee9f3808810157 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 9 Jan 2017 13:26:42 -0500
Subject: [PATCH 012/309] Remove --no-builder nodepoold option

This isn't needed in v3.

See similar change: I0dee331e41ec39ac809fc863dd833077c7d0edeb

Change-Id: Ia10edac698a69fb33103845339968d473bec4dc0
---
 nodepool/cmd/nodepoold.py | 21 ---------------------
 1 file changed, 21 deletions(-)

diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/nodepoold.py
index 5f6b9a6fc..8e1337319 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/nodepoold.py
@@ -74,17 +74,6 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
         parser.add_argument('-p', dest='pidfile',
                             help='path to pid file',
                             default='/var/run/nodepool/nodepool.pid')
-        # TODO(pabelanger): Deprecated flag, remove in the future.
-        parser.add_argument('--no-builder', dest='builder',
-                            action='store_false')
-        # TODO(pabelanger): Deprecated flag, remove in the future.
-        parser.add_argument('--build-workers', dest='build_workers',
-                            default=1, help='number of build workers',
-                            type=int)
-        # TODO(pabelanger): Deprecated flag, remove in the future.
-        parser.add_argument('--upload-workers', dest='upload_workers',
-                            default=4, help='number of upload workers',
-                            type=int)
         parser.add_argument('--no-deletes', action='store_true')
         parser.add_argument('--no-webapp', action='store_true')
         parser.add_argument('--version', dest='version', action='store_true',
@@ -105,16 +94,6 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
         self.pool = nodepool.nodepool.NodePool(self.args.secure,
                                                self.args.config,
                                                self.args.no_deletes)
-        if self.args.builder:
-            log.warning(
-                "Note: nodepool no longer automatically builds images, "
-                "please ensure the separate nodepool-builder process is "
-                "running if you haven't already")
-        else:
-            log.warning(
-                "--no-builder is deprecated and will be removed in the near "
-                "future. Update your service scripts to avoid a breakage.")
-
         if not self.args.no_webapp:
             self.webapp = nodepool.webapp.WebApp(self.pool)
 

From d3a590417e080cb454a789d19b5b954b249fe962 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 9 Jan 2017 15:56:38 -0500
Subject: [PATCH 013/309] Handle provider removal from config

If a provider is removed from the config file, then that provider should
stop handling node requests. The provider thread will shut itself down
in that case.

Also, if a previously present provider is removed and then re-added back
to the config at some point, we should recognize that and restart the
thread for it.

Change-Id: I8eff48f35633d92a993c5979017bd06e7480c35a
---
 nodepool/nodepool.py | 45 +++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 42 insertions(+), 3 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 7a714157c..491afc5be 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -672,7 +672,7 @@ class SubNodeLauncher(threading.Thread):
 
 
 class ProviderWorker(threading.Thread):
-    def __init__(self, zk, provider):
+    def __init__(self, configfile, zk, provider):
         threading.Thread.__init__(
             self, name='ProviderWorker.%s' % provider.name
         )
@@ -680,13 +680,44 @@ class ProviderWorker(threading.Thread):
         self.provider = provider
         self.zk = zk
         self.running = False
+        self.configfile = configfile
+
+    #----------------------------------------------------------------
+    # Private methods
+    #----------------------------------------------------------------
+
+    def _updateProvider(self):
+        '''
+        Update the provider definition from the config file.
+
+        If this provider has been removed from the config, we need to
+        stop processing the request queue. This will effectively cause
+        this thread to terminate.
+        '''
+        config = nodepool_config.loadConfig(self.configfile)
+
+        if self.provider.name not in config.providers.keys():
+            self.log.info("Provider %s removed from config"
+                          % self.provider.name)
+            self.stop()
+
+            # TODO(Shrews): Should we remove any existing nodes from the
+            # provider here?
+        else:
+            self.provider = config.providers[self.provider.name]
+
+    #----------------------------------------------------------------
+    # Public methods
+    #----------------------------------------------------------------
 
     def run(self):
         self.running = True
 
         while self.running:
             self.log.debug("Getting job from ZK queue")
+            # TODO(Shrews): Actually do queue work here
             time.sleep(10)
+            self._updateProvider()
 
     def stop(self):
         self.log.info("%s received stop" % self.name)
@@ -1033,13 +1064,21 @@ class NodePool(threading.Thread):
                 # Make sure we're always registered with ZK
                 self.zk.registerLauncher(self.launcher_id)
 
-                # Start provider threads for each provider in the config
+                # Start (or restart) provider threads for each provider in
+                # the config. Removing a provider from the config and then
+                # adding it back would cause a restart.
                 for p in self.config.providers.values():
                     if p.name not in provider_threads.keys():
-                        t = ProviderWorker(self.zk, p)
+                        t = ProviderWorker(self.configfile, self.zk, p)
                         self.log.info( "Starting %s" % t.name)
                         t.start()
                         provider_threads[p.name] = t
+                    elif not provider_threads[p.name].isAlive():
+                        provider_threads[p.name].join()
+                        t = ProviderWorker(self.configfile, self.zk, p)
+                        self.log.info( "Restarting %s" % t.name)
+                        t.start()
+                        provider_threads[p.name] = t
             except Exception:
                 self.log.exception("Exception in main loop:")
 

From 22c35e0756631104a9d44a9e808db92e4f4eba85 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 10 Jan 2017 16:42:32 -0500
Subject: [PATCH 014/309] Add framework for handling node requests

Each ProviderWorker will handle node requests and assign those to
threads, represented by the new NodeRequestWorker class.

A node request is locked before being passed off to a NodeRequestWorker
which will mark it as PENDING, process it, and mark it as FULFILLED
before releasing the lock.

Change-Id: I529a9c6d94bbec1c14b95d12316b8d576e4c2183
---
 nodepool/nodepool.py | 75 ++++++++++++++++++++++++++++++++++++++++++--
 nodepool/zk.py       | 72 ++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 145 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 491afc5be..2c080c849 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -671,7 +671,54 @@ class SubNodeLauncher(threading.Thread):
         return dt
 
 
+class NodeRequestWorker(threading.Thread):
+    '''
+    Class to process a single node request.
+
+    The ProviderWorker thread will instantiate a class of this type for each
+    node request that it pulls from ZooKeeper. That request will be assigned
+    to this thread for it to process.
+    '''
+
+    def __init__(self, zk, request):
+        threading.Thread.__init__(
+            self, name='NodeRequestWorker.%s' % request.id
+        )
+        self.log = logging.getLogger("nodepool.%s" % self.name)
+        self.zk = zk
+        self.request = request
+
+    def run(self):
+        self.log.debug("Handling request %s" % self.request)
+        try:
+            self._run()
+        except Exception:
+            self.log.exception("Exception in NodeRequestWorker:")
+            self.request.state = zk.FAILED
+            self.zk.updateNodeRequest(self.request)
+            self.zk.unlockNodeRequest(self.request)
+
+    def _run(self):
+        self.request.state = zk.PENDING
+        self.zk.updateNodeRequest(self.request)
+
+        # TODO(Shrews): Make magic happen here
+
+        self.request.state = zk.FULFILLED
+        self.zk.updateNodeRequest(self.request)
+        self.zk.unlockNodeRequest(self.request)
+
+
 class ProviderWorker(threading.Thread):
+    '''
+    Class that manages node requests for a single provider.
+
+    The NodePool thread will instantiate a class of this type for each
+    provider found in the nodepool configuration file. If the provider to
+    which this thread is assigned is removed from the configuration file, then
+    that will be recognized and this thread will shut itself down.
+    '''
+
     def __init__(self, configfile, zk, provider):
         threading.Thread.__init__(
             self, name='ProviderWorker.%s' % provider.name
@@ -714,8 +761,32 @@ class ProviderWorker(threading.Thread):
         self.running = True
 
         while self.running:
-            self.log.debug("Getting job from ZK queue")
-            # TODO(Shrews): Actually do queue work here
+            self.log.debug("Getting node request from ZK queue")
+
+            for req_id in self.zk.getNodeRequests():
+                req = self.zk.getNodeRequest(req_id)
+                if not req:
+                    continue
+
+                # Only interested in unhandled requests
+                if req.state != zk.REQUESTED:
+                    continue
+
+                try:
+                    self.zk.lockNodeRequest(req, blocking=False)
+                except exceptions.ZKLockException:
+                    continue
+
+                # Make sure the state didn't change on us
+                if req.state != zk.REQUESTED:
+                    self.zk.unlockNodeRequest(req)
+                    continue
+
+                # Got a lock, so assign it
+                self.log.info("Assigning node request %s" % req.id)
+                t = NodeRequestWorker(self.zk, req)
+                t.start()
+
             time.sleep(10)
             self._updateProvider()
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index ca34fdef8..6ded8be27 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -294,6 +294,7 @@ class NodeRequest(BaseModel):
 
     def __init__(self, id=None):
         super(NodeRequest, self).__init__(id)
+        self.lock = None
 
     def __repr__(self):
         d = self.toDict()
@@ -344,6 +345,7 @@ class ZooKeeper(object):
     IMAGE_ROOT = "/nodepool/images"
     LAUNCHER_ROOT = "/nodepool/launchers"
     REQUEST_ROOT = "/nodepool/requests"
+    REQUEST_LOCK_ROOT = "/nodepool/requests-lock"
 
     def __init__(self):
         '''
@@ -391,6 +393,9 @@ class ZooKeeper(object):
     def _requestPath(self, request):
         return "%s/%s" % (self.REQUEST_ROOT, request)
 
+    def _requestLockPath(self, request):
+        return "%s/%s" % (self.REQUEST_LOCK_ROOT, request)
+
     def _dictToStr(self, data):
         return json.dumps(data)
 
@@ -1103,3 +1108,70 @@ class ZooKeeper(object):
         d = NodeRequest.fromDict(self._strToDict(data), request)
         d.stat = stat
         return d
+
+    def updateNodeRequest(self, request):
+        '''
+        Update a node request.
+
+        The request must already be locked before updating.
+
+        :param NodeRequest request: The node request to update.
+        '''
+        if request.lock is None:
+            raise Exception("%s must be locked before updating." % request)
+
+        # Validate it still exists before updating
+        if not self.getNodeRequest(request.id):
+            raise Exception(
+                "Attempt to update non-existing request %s" % request)
+
+        path = self._requestPath(request.id)
+        data = request.toDict()
+        self.client.set(path, self._dictToStr(data))
+
+    def lockNodeRequest(self, request, blocking=True, timeout=None):
+        '''
+        Lock a node request.
+
+        This will set the `lock` attribute of the request object when the
+        lock is successfully acquired.
+
+        :param NodeRequest request: The request to lock.
+        :param bool blocking: Whether or not to block on trying to
+            acquire the lock
+        :param int timeout: When blocking, how long to wait for the lock
+            to get acquired. None, the default, waits forever.
+
+        :raises: TimeoutException if we failed to acquire the lock when
+            blocking with a timeout. ZKLockException if we are not blocking
+            and could not get the lock, or a lock is already held.
+        '''
+        path = self._requestLockPath(request.id)
+        try:
+            lock = Lock(self.client, path)
+            have_lock = lock.acquire(blocking, timeout)
+        except kze.LockTimeout:
+            raise npe.TimeoutException(
+                "Timeout trying to acquire lock %s" % path)
+
+        # If we aren't blocking, it's possible we didn't get the lock
+        # because someone else has it.
+        if not have_lock:
+            raise npe.ZKLockException("Did not get lock on %s" % path)
+
+        request.lock = lock
+
+    def unlockNodeRequest(self, request):
+        '''
+        Unlock a node request.
+
+        The request must already have been locked.
+
+        :param NodeRequest request: The request to unlock.
+
+        :raises: ZKLockException if the request is not currently locked.
+        '''
+        if request.lock is None:
+            raise npe.ZKLockException("Request %s does not hold a lock" % request)
+        request.lock.release()
+        request.lock = None

From 8fd774493515a609bb6c7d057ccc6831456236eb Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 12 Jan 2017 14:50:20 -0500
Subject: [PATCH 015/309] Add support for max_concurrency for providers

Add the capability to limit the number of node requests being handled
simultaneously for a provider. The default does not force any limit.

Change-Id: I49a2638c8003614ab4dc287d157abe873da81421
---
 doc/source/configuration.rst                  |  6 ++
 nodepool/cmd/config_validator.py              |  1 +
 nodepool/config.py                            |  2 +
 nodepool/nodepool.py                          | 77 +++++++++++++------
 .../tests/fixtures/config_validate/good.yaml  |  1 +
 5 files changed, 63 insertions(+), 24 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 2fc12d07a..9fb6bbf78 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -438,6 +438,12 @@ provider, the Nodepool image types are also defined (see
     OpenStack project and will attempt to clean unattached floating ips that
     may have leaked around restarts.
 
+  ``max-concurrency``
+    Maximum number of node requests that this provider is allowed to handle
+    concurrently. The default, if not specified, is to have no maximum. Since
+    each node request is handled by a separate thread, this can be useful for
+    limiting the number of threads used by the nodepoold daemon.
+
 .. _images:
 
 images
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 1b8b32f9f..dd3102f01 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -66,6 +66,7 @@ class ConfigValidator:
             'project-id': str,
             'project-name': str,
             'max-servers': int,
+            'max-concurrency': int,
             'pool': str,
             'image-type': str,
             'networks': [v.Any(old_network, network)],
diff --git a/nodepool/config.py b/nodepool/config.py
index bb482225d..3db182275 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -50,6 +50,7 @@ class Provider(ConfigValue):
             other.networks != self.networks or
             other.ipv6_preferred != self.ipv6_preferred or
             other.clean_floating_ips != self.clean_floating_ips or
+            other.max_concurrency != self.max_concurrency or
             other.azs != self.azs):
             return False
         new_images = other.images
@@ -174,6 +175,7 @@ def loadConfig(config_path):
         p.cloud_config = _get_one_cloud(cloud_config, cloud_kwargs)
         p.region_name = provider.get('region-name')
         p.max_servers = provider['max-servers']
+        p.max_concurrency = provider.get('max-concurrency', -1)
         p.keypair = provider.get('keypair', None)
         p.pool = provider.get('pool', None)
         p.rate = provider.get('rate', 1.0)
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 2c080c849..5a56b1ddd 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -728,6 +728,7 @@ class ProviderWorker(threading.Thread):
         self.zk = zk
         self.running = False
         self.configfile = configfile
+        self.workers = []
 
     #----------------------------------------------------------------
     # Private methods
@@ -753,6 +754,54 @@ class ProviderWorker(threading.Thread):
         else:
             self.provider = config.providers[self.provider.name]
 
+    def _processRequests(self):
+        self.log.debug("Getting node request from ZK queue")
+
+        for req_id in self.zk.getNodeRequests():
+            # Short-circuit for limited request handling
+            if (self.provider.max_concurrency > 0
+                and self._activeWorkers() >= self.provider.max_concurrency
+            ):
+                return
+
+            req = self.zk.getNodeRequest(req_id)
+            if not req:
+                continue
+
+            # Only interested in unhandled requests
+            if req.state != zk.REQUESTED:
+                continue
+
+            try:
+                self.zk.lockNodeRequest(req, blocking=False)
+            except exceptions.ZKLockException:
+                continue
+
+            # Make sure the state didn't change on us
+            if req.state != zk.REQUESTED:
+                self.zk.unlockNodeRequest(req)
+                continue
+
+            # Got a lock, so assign it
+            self.log.info("Assigning node request %s" % req.id)
+            t = NodeRequestWorker(self.zk, req)
+            t.start()
+            self.workers.append(t)
+
+    def _activeWorkers(self):
+        '''
+        Return a count of the number of requests actively being handled.
+
+        This serves the dual-purpose of also removing completed requests from
+        our list of tracked threads.
+        '''
+        active = []
+        for w in self.workers:
+            if w.isAlive():
+                active.append(w)
+        self.workers = active
+        return len(self.workers)
+
     #----------------------------------------------------------------
     # Public methods
     #----------------------------------------------------------------
@@ -761,31 +810,11 @@ class ProviderWorker(threading.Thread):
         self.running = True
 
         while self.running:
-            self.log.debug("Getting node request from ZK queue")
+            if self.provider.max_concurrency == -1 and self.workers:
+                self.workers = []
 
-            for req_id in self.zk.getNodeRequests():
-                req = self.zk.getNodeRequest(req_id)
-                if not req:
-                    continue
-
-                # Only interested in unhandled requests
-                if req.state != zk.REQUESTED:
-                    continue
-
-                try:
-                    self.zk.lockNodeRequest(req, blocking=False)
-                except exceptions.ZKLockException:
-                    continue
-
-                # Make sure the state didn't change on us
-                if req.state != zk.REQUESTED:
-                    self.zk.unlockNodeRequest(req)
-                    continue
-
-                # Got a lock, so assign it
-                self.log.info("Assigning node request %s" % req.id)
-                t = NodeRequestWorker(self.zk, req)
-                t.start()
+            if self.provider.max_concurrency != 0:
+                self._processRequests()
 
             time.sleep(10)
             self._updateProvider()
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 623a2f5ca..1ef7a67f8 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -38,6 +38,7 @@ providers:
     auth-url: 'https://identity.example.com/v2.0/'
     boot-timeout: 120
     max-servers: 184
+    max-concurrency: 10
     rate: 0.001
     images:
       - name: trusty

From 4f12a9116e5e312f3d0973c3ea86d95117420f55 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 17 Jan 2017 15:16:40 -0500
Subject: [PATCH 016/309] Begin implementing node request handling.

This partially implements the suggested algorithm from the ZuulV3
spec (algorithm temporarily included in the docstring for the
NodeRequestWorker). Specifically, this does:

   - Moves launcher registration from NodePool thread to the
     ProviderWorker threads so each can properly decline requests.
   - Skips node requests already declined by the ProviderWorker.
   - Declines node requests if the requested images are not available
     for the provider, or if provider quota would be exceeded.
   - Marks node request as failed if all launchers had declined it.
   - Adds a new Nodes model class, and a getNodes() and getNode()
     methods to the ZK API.

This does not yet calculate node availability or launch nodes.

Change-Id: I103b7d44e9cd1b4544aabd01c31966a3aaa45076
---
 nodepool/nodepool.py      | 107 +++++++++++++++++++++++++++++++++++---
 nodepool/tests/test_zk.py |  53 ++++++++++++++++++-
 nodepool/zk.py            |  96 ++++++++++++++++++++++++++++++++--
 3 files changed, 243 insertions(+), 13 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 5a56b1ddd..619a9df4f 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -680,14 +680,60 @@ class NodeRequestWorker(threading.Thread):
     to this thread for it to process.
     '''
 
-    def __init__(self, zk, request):
+    def __init__(self, zk, launcher_id, provider, request):
+        '''
+        :param ZooKeeper zk: Connected ZooKeeper object.
+        :param str launcher_id: ID of the launcher handling the request.
+        :param Provider provider: Provider object from the config file.
+        :param NodeRequest request: The request to handle.
+        '''
         threading.Thread.__init__(
             self, name='NodeRequestWorker.%s' % request.id
         )
         self.log = logging.getLogger("nodepool.%s" % self.name)
         self.zk = zk
+        self.launcher_id = launcher_id
+        self.provider = provider
         self.request = request
 
+    def _imagesAvailable(self):
+        '''
+        Determines if the requested images are available for this provider.
+
+        :returns: True if it is available, False otherwise.
+        '''
+        provider_images = self.provider.images.keys()
+        for node_type in self.request.node_types:
+            if node_type not in provider_images:
+                return False
+        return True
+
+    def _countNodes(self):
+        '''
+        Query ZooKeeper to determine the number of provider nodes launched.
+
+        :returns: An integer for the number launched for this provider.
+        '''
+        count = 0
+        for node_id in self.zk.getNodes():
+            node = self.zk.getNode(node_id)
+            if node.provider == self.provider.name:
+                count += 1
+        return count
+
+    def _wouldExceedQuota(self):
+        '''
+        Determines if request would exceed provider quota.
+
+        :returns: True if quota would be exceeded, False otherwise.
+        '''
+        provider_max = self.provider.max_servers
+        num_requested = len(self.request.node_types)
+        num_in_use = self._countNodes()
+        if num_requested + num_in_use > provider_max:
+            return True
+        return False
+
     def run(self):
         self.log.debug("Handling request %s" % self.request)
         try:
@@ -699,6 +745,41 @@ class NodeRequestWorker(threading.Thread):
             self.zk.unlockNodeRequest(self.request)
 
     def _run(self):
+        '''
+        Main body for the NodeRequestWorker.
+
+        note:: This code is a bit racey in its calculation of the number of
+            nodes in use for quota purposes. It is possible for multiple
+            launchers to be doing this calculation at the same time. Since we
+            currently have no locking mechanism around the "in use"
+            calculation, if we are at the edge of the quota, one of the
+            launchers could attempt to launch a new node after the other
+            launcher has already started doing so. This would cause an
+            expected failure from the underlying library, which is ok for now.
+
+        Algorithm from spec::
+
+           # If image not available, decline
+           # If request > quota, decline
+           # If request < quota and request > available nodes (due to current
+             usage), begin satisfying the request and do not process further
+             requests until satisfied
+           # If request < quota and request < available nodes, satisfy the
+             request and continue processing further requests
+        '''
+        if not self._imagesAvailable() or self._wouldExceedQuota():
+            self.request.declined_by.append(self.launcher_id)
+            launchers = set(self.zk.getRegisteredLaunchers())
+            if launchers.issubset(set(self.request.declined_by)):
+                # All launchers have declined it
+                self.request.state = zk.FAILED
+            self.zk.updateNodeRequest(self.request)
+            self.zk.unlockNodeRequest(self.request)
+            return
+
+        # TODO(Shrews): Determine node availability and if we need to launch
+        # new nodes, or reuse existing nodes.
+
         self.request.state = zk.PENDING
         self.zk.updateNodeRequest(self.request)
 
@@ -729,6 +810,9 @@ class ProviderWorker(threading.Thread):
         self.running = False
         self.configfile = configfile
         self.workers = []
+        self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
+                                         os.getpid(),
+                                         self.ident)
 
     #----------------------------------------------------------------
     # Private methods
@@ -772,6 +856,10 @@ class ProviderWorker(threading.Thread):
             if req.state != zk.REQUESTED:
                 continue
 
+            # Skip it if we've already declined
+            if self.launcher_id in req.declined_by:
+                continue
+
             try:
                 self.zk.lockNodeRequest(req, blocking=False)
             except exceptions.ZKLockException:
@@ -784,7 +872,8 @@ class ProviderWorker(threading.Thread):
 
             # Got a lock, so assign it
             self.log.info("Assigning node request %s" % req.id)
-            t = NodeRequestWorker(self.zk, req)
+            t = NodeRequestWorker(self.zk, self.launcher_id,
+                                  self.provider, req)
             t.start()
             self.workers.append(t)
 
@@ -810,6 +899,14 @@ class ProviderWorker(threading.Thread):
         self.running = True
 
         while self.running:
+            # Don't do work if we've lost communication with the ZK cluster
+            while self.zk and (self.zk.suspended or self.zk.lost):
+                self.log.info("ZooKeeper suspended. Waiting")
+                time.sleep(SUSPEND_WAIT_TIME)
+
+            # Make sure we're always registered with ZK
+            self.zk.registerLauncher(self.launcher_id)
+
             if self.provider.max_concurrency == -1 and self.workers:
                 self.workers = []
 
@@ -844,9 +941,6 @@ class NodePool(threading.Thread):
         self._instance_delete_threads = {}
         self._instance_delete_threads_lock = threading.Lock()
         self._wake_condition = threading.Condition()
-        self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
-                                         os.getpid(),
-                                         self.ident)
 
     def stop(self):
         self._stopped = True
@@ -1161,9 +1255,6 @@ class NodePool(threading.Thread):
                     self.log.info("ZooKeeper suspended. Waiting")
                     time.sleep(SUSPEND_WAIT_TIME)
 
-                # Make sure we're always registered with ZK
-                self.zk.registerLauncher(self.launcher_id)
-
                 # Start (or restart) provider threads for each provider in
                 # the config. Removing a provider from the config and then
                 # adding it back would cause a restart.
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 5cc27fbce..3e8a40d3d 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -468,6 +468,26 @@ class TestZooKeeper(tests.DBTestCase):
     def test_getNodeRequest_not_found(self):
         self.assertIsNone(self.zk.getNodeRequest("invalid"))
 
+    def test_getNodes(self):
+        self.zk.client.create(self.zk._nodePath('100'), makepath=True)
+        self.zk.client.create(self.zk._nodePath('200'), makepath=True)
+        nodes = self.zk.getNodes()
+        self.assertIn('100', nodes)
+        self.assertIn('200', nodes)
+
+    def test_getNode(self):
+        n = zk.Node('100')
+        n.state = zk.BUILDING
+        path = self.zk._nodePath(n.id)
+        self.zk.client.create(path, value=self.zk._dictToStr(n.toDict()),
+                              makepath=True)
+        o = self.zk.getNode(n.id)
+        self.assertIsInstance(o, zk.Node)
+        self.assertEqual(n.id, o.id)
+
+    def test_getNode_not_found(self):
+        self.assertIsNone(self.zk.getNode("invalid"))
+
 
 class TestZKModel(tests.BaseTestCase):
 
@@ -561,20 +581,51 @@ class TestZKModel(tests.BaseTestCase):
 
     def test_NodeRequest_toDict(self):
         o = zk.NodeRequest("500-123")
+        o.declined_by.append("abc")
+        o.node_types.append('trusty')
         d = o.toDict()
         self.assertNotIn('id', d)
         self.assertIn('state', d)
         self.assertIn('state_time', d)
+        self.assertEqual(d['declined_by'], ['abc'])
+        self.assertEqual(d['node_types'], ['trusty'])
 
     def test_NodeRequest_fromDict(self):
         now = int(time.time())
         req_id = "500-123"
         d = {
             'state': zk.REQUESTED,
-            'state_time': now
+            'state_time': now,
+            'declined_by': ['abc'],
+            'node_types': ['trusty'],
         }
 
         o = zk.NodeRequest.fromDict(d, req_id)
         self.assertEqual(o.id, req_id)
         self.assertEqual(o.state, d['state'])
         self.assertEqual(o.state_time, d['state_time'])
+        self.assertEqual(o.declined_by, d['declined_by'])
+
+    def test_Node_toDict(self):
+        o = zk.Node('123')
+        o.provider = 'rax'
+        d = o.toDict()
+        self.assertNotIn('id', d)
+        self.assertIn('state', d)
+        self.assertIn('state_time', d)
+        self.assertEqual(d['provider'], 'rax')
+
+    def test_Node_fromDict(self):
+        now = int(time.time())
+        node_id = '123'
+        d = {
+            'state': zk.READY,
+            'state_time': now,
+            'provider': 'rax',
+        }
+
+        o = zk.Node.fromDict(d, node_id)
+        self.assertEqual(o.id, node_id)
+        self.assertEqual(o.state, d['state'])
+        self.assertEqual(o.state_time, d['state_time'])
+        self.assertEqual(o.provider, 'rax')
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 6ded8be27..0924e065e 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -25,13 +25,13 @@ from kazoo.recipe.lock import Lock
 from nodepool import exceptions as npe
 
 # States:
-# We are building this image but it is not ready for use.
+# We are building this image (or node) but it is not ready for use.
 BUILDING = 'building'
 # The image is being uploaded.
 UPLOADING = 'uploading'
-# The image/upload is ready for use.
+# The image/upload/node is ready for use.
 READY = 'ready'
-# The image/upload should be deleted.
+# The image/upload/node should be deleted.
 DELETING = 'deleting'
 # The build failed.
 FAILED = 'failed'
@@ -41,6 +41,14 @@ REQUESTED = 'requested'
 FULFILLED = 'fulfilled'
 # Node request is being worked.
 PENDING = 'pending'
+# Node is being tested
+TESTING = 'testing'
+# Node is being used
+IN_USE = 'in-use'
+# Node has been used
+USED = 'used'
+# Node is being held
+HOLD = 'hold'
 
 
 class ZooKeeperConnectionConfig(object):
@@ -295,6 +303,8 @@ class NodeRequest(BaseModel):
     def __init__(self, id=None):
         super(NodeRequest, self).__init__(id)
         self.lock = None
+        self.declined_by = []
+        self.node_types = []
 
     def __repr__(self):
         d = self.toDict()
@@ -307,6 +317,8 @@ class NodeRequest(BaseModel):
         Convert a NodeRequest object's attributes to a dictionary.
         '''
         d = super(NodeRequest, self).toDict()
+        d['declined_by'] = self.declined_by
+        d['node_types'] = self.node_types
         return d
 
     @staticmethod
@@ -317,10 +329,53 @@ class NodeRequest(BaseModel):
         :param dict d: The dictionary.
         :param str o_id: The object ID.
 
-        :returns: An initialized ImageBuild object.
+        :returns: An initialized NodeRequest object.
         '''
         o = NodeRequest(o_id)
         super(NodeRequest, o).fromDict(d)
+        o.declined_by = d.get('declined_by', [])
+        o.node_types = d.get('node_types', [])
+        return o
+
+
+class Node(BaseModel):
+    '''
+    Class representing a launched node.
+    '''
+    VALID_STATES = set([BUILDING, TESTING, READY, IN_USE, USED,
+                        HOLD, DELETING])
+
+    def __init__(self, id=None):
+        super(Node, self).__init__(id)
+        self.provider = None
+
+    def __repr__(self):
+        d = self.toDict()
+        d['id'] = self.id
+        d['stat'] = self.stat
+        return '<Node %s>' % d
+
+    def toDict(self):
+        '''
+        Convert a Node object's attributes to a dictionary.
+        '''
+        d = super(Node, self).toDict()
+        d['provider'] = self.provider
+        return d
+
+    @staticmethod
+    def fromDict(d, o_id=None):
+        '''
+        Create a Node object from a dictionary.
+
+        :param dict d: The dictionary.
+        :param str o_id: The object ID.
+
+        :returns: An initialized Node object.
+        '''
+        o = Node(o_id)
+        super(Node, o).fromDict(d)
+        o.provider = d.get('provider')
         return o
 
 
@@ -344,6 +399,7 @@ class ZooKeeper(object):
 
     IMAGE_ROOT = "/nodepool/images"
     LAUNCHER_ROOT = "/nodepool/launchers"
+    NODE_ROOT = "/nodepool/nodes"
     REQUEST_ROOT = "/nodepool/requests"
     REQUEST_LOCK_ROOT = "/nodepool/requests-lock"
 
@@ -390,6 +446,9 @@ class ZooKeeper(object):
     def _launcherPath(self, launcher):
         return "%s/%s" % (self.LAUNCHER_ROOT, launcher)
 
+    def _nodePath(self, node):
+        return "%s/%s" % (self.NODE_ROOT, node)
+
     def _requestPath(self, request):
         return "%s/%s" % (self.REQUEST_ROOT, request)
 
@@ -1175,3 +1234,32 @@ class ZooKeeper(object):
             raise npe.ZKLockException("Request %s does not hold a lock" % request)
         request.lock.release()
         request.lock = None
+
+    def getNodes(self):
+        '''
+        Get the current list of all nodes.
+
+        :returns: A list of nodes.
+        '''
+        try:
+            return self.client.get_children(self.NODE_ROOT)
+        except kze.NoNodeError:
+            return []
+
+    def getNode(self, node):
+        '''
+        Get the data for a specific node.
+
+        :param str node: The node ID.
+
+        :returns: The node data, or None if the node was not found.
+        '''
+        path = self._nodePath(node)
+        try:
+            data, stat = self.client.get(path)
+        except kze.NoNodeError:
+            return None
+
+        d = Node.fromDict(self._strToDict(data), node)
+        d.stat = stat
+        return d

From 8b44689550c3135b7e5e61afbae4f4a08a89bb7e Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 18 Jan 2017 14:15:36 -0800
Subject: [PATCH 017/309] Add --fake command line option to builder

This allows the builder to be run in an otherwise production-like
setting but with the actual image build stubbed out.

Change-Id: If41428605c13f263da78ebe382ac83b4c1858c42
---
 nodepool/builder.py     | 10 ++++++++--
 nodepool/cmd/builder.py |  5 ++++-
 2 files changed, 12 insertions(+), 3 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 3c047bb2c..c20370904 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -1034,13 +1034,15 @@ class NodePoolBuilder(object):
     '''
     log = logging.getLogger("nodepool.builder.NodePoolBuilder")
 
-    def __init__(self, config_path, num_builders=1, num_uploaders=4):
+    def __init__(self, config_path, num_builders=1, num_uploaders=4,
+                 fake=False):
         '''
         Initialize the NodePoolBuilder object.
 
         :param str config_path: Path to configuration file.
         :param int num_builders: Number of build workers to start.
         :param int num_uploaders: Number of upload workers to start.
+        :param bool fake: Whether to fake the image builds.
         '''
         self._config_path = config_path
         self._config = None
@@ -1053,7 +1055,11 @@ class NodePoolBuilder(object):
         self.cleanup_interval = 60
         self.build_interval = 10
         self.upload_interval = 10
-        self.dib_cmd = 'disk-image-create'
+        if fake:
+            self.dib_cmd = os.path.join(os.path.dirname(__file__), '..',
+                                        'nodepool/tests/fake-image-create')
+        else:
+            self.dib_cmd = 'disk-image-create'
         self.zk = None
 
         # This lock is needed because the run() method is started in a
diff --git a/nodepool/cmd/builder.py b/nodepool/cmd/builder.py
index 56d96188f..55d3a4370 100644
--- a/nodepool/cmd/builder.py
+++ b/nodepool/cmd/builder.py
@@ -52,13 +52,16 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
         parser.add_argument('--upload-workers', dest='upload_workers',
                             default=4, help='number of upload workers',
                             type=int)
+        parser.add_argument('--fake', action='store_true',
+                            help='Do not actually run diskimage-builder '
+                            '(used for testing)')
         self.args = parser.parse_args()
 
     def main(self):
         self.setup_logging()
         self.nb = builder.NodePoolBuilder(
             self.args.config, self.args.build_workers,
-            self.args.upload_workers)
+            self.args.upload_workers, self.args.fake)
 
         signal.signal(signal.SIGINT, self.sigint_handler)
         signal.signal(signal.SIGUSR2, nodepool.cmd.stack_dump_handler)

From de4068ecc87af7dbe78d090bbf32d24c485fb177 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 19 Jan 2017 13:36:40 -0500
Subject: [PATCH 018/309] Fix for launched node counting

It's possible a node could be gone between getting the list and
pulling the data for the node. Add a check for that.

Also, minor code cleanup/improvement for _imagesAvailable() and
_wouldExceedQuota().

Change-Id: I95da69baf5078919f559ad20e99d2e2fc05826fd
---
 nodepool/nodepool.py | 14 +++++---------
 1 file changed, 5 insertions(+), 9 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 619a9df4f..d993e3fab 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -702,11 +702,9 @@ class NodeRequestWorker(threading.Thread):
 
         :returns: True if it is available, False otherwise.
         '''
-        provider_images = self.provider.images.keys()
-        for node_type in self.request.node_types:
-            if node_type not in provider_images:
-                return False
-        return True
+        provider_images = set(self.provider.images.keys())
+        requested_images = set(self.request.node_types)
+        return requested_images.issubset(provider_images)
 
     def _countNodes(self):
         '''
@@ -717,7 +715,7 @@ class NodeRequestWorker(threading.Thread):
         count = 0
         for node_id in self.zk.getNodes():
             node = self.zk.getNode(node_id)
-            if node.provider == self.provider.name:
+            if node and node.provider == self.provider.name:
                 count += 1
         return count
 
@@ -730,9 +728,7 @@ class NodeRequestWorker(threading.Thread):
         provider_max = self.provider.max_servers
         num_requested = len(self.request.node_types)
         num_in_use = self._countNodes()
-        if num_requested + num_in_use > provider_max:
-            return True
-        return False
+        return num_requested + num_in_use > provider_max
 
     def run(self):
         self.log.debug("Handling request %s" % self.request)

From 3e944292444dcfc74172b4309cbc0a8183c76184 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 19 Jan 2017 15:30:38 -0500
Subject: [PATCH 019/309] Query ZooKeeper to determine image availability

The config is not the true source of wisdom. Only believe that
which you can see.

Change-Id: Iac826f17c83e4e5de9d6745ae8c613f4776d75be
---
 nodepool/nodepool.py | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index d993e3fab..e441c8b6a 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -700,11 +700,15 @@ class NodeRequestWorker(threading.Thread):
         '''
         Determines if the requested images are available for this provider.
 
+        ZooKeeper is queried for an image uploaded to the provider that is
+        in the READY state.
+
         :returns: True if it is available, False otherwise.
         '''
-        provider_images = set(self.provider.images.keys())
-        requested_images = set(self.request.node_types)
-        return requested_images.issubset(provider_images)
+        for img in self.request.node_types:
+            if not self.zk.getMostRecentImageUpload(img, self.provider.name):
+                return False
+        return True
 
     def _countNodes(self):
         '''

From 37bf79011af93ee4a60221021acbacc8102c6acb Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 20 Jan 2017 13:21:18 -0500
Subject: [PATCH 020/309] Add a serialize() method to ZK model definitions

Avoid the awkward _dictToStr(thing.toDict()) pattern by just having
a serialize() method to handle converting objects to save to ZK.

Change-Id: I2831595f9f1ced5b93120a7388a1b1a966ab15c8
---
 nodepool/tests/test_zk.py | 117 +++++++++++++++++---------------------
 nodepool/zk.py            |  22 ++++---
 2 files changed, 65 insertions(+), 74 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 3e8a40d3d..5146775cf 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -307,44 +307,38 @@ class TestZooKeeper(tests.DBTestCase):
     def test_getBuilds_any(self):
         image = "ubuntu-trusty"
         path = self.zk._imageBuildsPath(image)
-        v1 = {'state': zk.READY}
-        v2 = {'state': zk.BUILDING}
-        v3 = {'state': zk.FAILED}
-        v4 = {'state': zk.DELETING}
-        v5 = {}
-        self.zk.client.create(path + "/1", value=self.zk._dictToStr(v1),
-                              makepath=True)
-        self.zk.client.create(path + "/2", value=self.zk._dictToStr(v2),
-                              makepath=True)
-        self.zk.client.create(path + "/3", value=self.zk._dictToStr(v3),
-                              makepath=True)
-        self.zk.client.create(path + "/4", value=self.zk._dictToStr(v4),
-                              makepath=True)
-        self.zk.client.create(path + "/5", value=self.zk._dictToStr(v5),
-                              makepath=True)
+        v1 = zk.ImageBuild()
+        v1.state = zk.READY
+        v2 = zk.ImageBuild()
+        v2.state = zk.BUILDING
+        v3 = zk.ImageBuild()
+        v3.state = zk.FAILED
+        v4 = zk.ImageBuild()
+        v4.state = zk.DELETING
+        self.zk.client.create(path + "/1", value=v1.serialize(), makepath=True)
+        self.zk.client.create(path + "/2", value=v2.serialize(), makepath=True)
+        self.zk.client.create(path + "/3", value=v3.serialize(), makepath=True)
+        self.zk.client.create(path + "/4", value=v4.serialize(), makepath=True)
         self.zk.client.create(path + "/lock", makepath=True)
 
         matches = self.zk.getBuilds(image, None)
-        self.assertEqual(5, len(matches))
+        self.assertEqual(4, len(matches))
 
     def test_getBuilds(self):
         image = "ubuntu-trusty"
         path = self.zk._imageBuildsPath(image)
-        v1 = {'state': zk.BUILDING}
-        v2 = {'state': zk.READY}
-        v3 = {'state': zk.FAILED}
-        v4 = {'state': zk.DELETING}
-        v5 = {}
-        self.zk.client.create(path + "/1", value=self.zk._dictToStr(v1),
-                              makepath=True)
-        self.zk.client.create(path + "/2", value=self.zk._dictToStr(v2),
-                              makepath=True)
-        self.zk.client.create(path + "/3", value=self.zk._dictToStr(v3),
-                              makepath=True)
-        self.zk.client.create(path + "/4", value=self.zk._dictToStr(v4),
-                              makepath=True)
-        self.zk.client.create(path + "/5", value=self.zk._dictToStr(v5),
-                              makepath=True)
+        v1 = zk.ImageBuild()
+        v1.state = zk.READY
+        v2 = zk.ImageBuild()
+        v2.state = zk.BUILDING
+        v3 = zk.ImageBuild()
+        v3.state = zk.FAILED
+        v4 = zk.ImageBuild()
+        v4.state = zk.DELETING
+        self.zk.client.create(path + "/1", value=v1.serialize(), makepath=True)
+        self.zk.client.create(path + "/2", value=v2.serialize(), makepath=True)
+        self.zk.client.create(path + "/3", value=v3.serialize(), makepath=True)
+        self.zk.client.create(path + "/4", value=v4.serialize(), makepath=True)
         self.zk.client.create(path + "/lock", makepath=True)
 
         matches = self.zk.getBuilds(image, [zk.DELETING, zk.FAILED])
@@ -352,21 +346,18 @@ class TestZooKeeper(tests.DBTestCase):
 
     def test_getUploads(self):
         path = self.zk._imageUploadPath("trusty", "000", "rax")
-        v1 = {'state': zk.READY}
-        v2 = {'state': zk.UPLOADING}
-        v3 = {'state': zk.FAILED}
-        v4 = {'state': zk.DELETING}
-        v5 = {}
-        self.zk.client.create(path + "/1", value=self.zk._dictToStr(v1),
-                              makepath=True)
-        self.zk.client.create(path + "/2", value=self.zk._dictToStr(v2),
-                              makepath=True)
-        self.zk.client.create(path + "/3", value=self.zk._dictToStr(v3),
-                              makepath=True)
-        self.zk.client.create(path + "/4", value=self.zk._dictToStr(v4),
-                              makepath=True)
-        self.zk.client.create(path + "/5", value=self.zk._dictToStr(v5),
-                              makepath=True)
+        v1 = zk.ImageUpload()
+        v1.state = zk.READY
+        v2 = zk.ImageUpload()
+        v2.state = zk.UPLOADING
+        v3 = zk.ImageUpload()
+        v3.state = zk.FAILED
+        v4 = zk.ImageUpload()
+        v4.state = zk.DELETING
+        self.zk.client.create(path + "/1", value=v1.serialize(), makepath=True)
+        self.zk.client.create(path + "/2", value=v2.serialize(), makepath=True)
+        self.zk.client.create(path + "/3", value=v3.serialize(), makepath=True)
+        self.zk.client.create(path + "/4", value=v4.serialize(), makepath=True)
         self.zk.client.create(path + "/lock", makepath=True)
 
         matches = self.zk.getUploads("trusty", "000", "rax",
@@ -375,25 +366,22 @@ class TestZooKeeper(tests.DBTestCase):
 
     def test_getUploads_any(self):
         path = self.zk._imageUploadPath("trusty", "000", "rax")
-        v1 = {'state': zk.READY}
-        v2 = {'state': zk.UPLOADING}
-        v3 = {'state': zk.FAILED}
-        v4 = {'state': zk.DELETING}
-        v5 = {}
-        self.zk.client.create(path + "/1", value=self.zk._dictToStr(v1),
-                              makepath=True)
-        self.zk.client.create(path + "/2", value=self.zk._dictToStr(v2),
-                              makepath=True)
-        self.zk.client.create(path + "/3", value=self.zk._dictToStr(v3),
-                              makepath=True)
-        self.zk.client.create(path + "/4", value=self.zk._dictToStr(v4),
-                              makepath=True)
-        self.zk.client.create(path + "/5", value=self.zk._dictToStr(v5),
-                              makepath=True)
+        v1 = zk.ImageUpload()
+        v1.state = zk.READY
+        v2 = zk.ImageUpload()
+        v2.state = zk.UPLOADING
+        v3 = zk.ImageUpload()
+        v3.state = zk.FAILED
+        v4 = zk.ImageUpload()
+        v4.state = zk.DELETING
+        self.zk.client.create(path + "/1", value=v1.serialize(), makepath=True)
+        self.zk.client.create(path + "/2", value=v2.serialize(), makepath=True)
+        self.zk.client.create(path + "/3", value=v3.serialize(), makepath=True)
+        self.zk.client.create(path + "/4", value=v4.serialize(), makepath=True)
         self.zk.client.create(path + "/lock", makepath=True)
 
         matches = self.zk.getUploads("trusty", "000", "rax", None)
-        self.assertEqual(5, len(matches))
+        self.assertEqual(4, len(matches))
 
     def test_deleteBuild(self):
         image = 'trusty'
@@ -459,7 +447,7 @@ class TestZooKeeper(tests.DBTestCase):
         r = zk.NodeRequest("500-123")
         r.state = zk.REQUESTED
         path = self.zk._requestPath(r.id)
-        self.zk.client.create(path, value=self.zk._dictToStr(r.toDict()),
+        self.zk.client.create(path, value=r.serialize(),
                               makepath=True, ephemeral=True)
         o = self.zk.getNodeRequest(r.id)
         self.assertIsInstance(o, zk.NodeRequest)
@@ -479,8 +467,7 @@ class TestZooKeeper(tests.DBTestCase):
         n = zk.Node('100')
         n.state = zk.BUILDING
         path = self.zk._nodePath(n.id)
-        self.zk.client.create(path, value=self.zk._dictToStr(n.toDict()),
-                              makepath=True)
+        self.zk.client.create(path, value=n.serialize(), makepath=True)
         o = self.zk.getNode(n.id)
         self.assertIsInstance(o, zk.Node)
         self.assertEqual(n.id, o.id)
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 0924e065e..e939805c5 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -171,6 +171,14 @@ class BaseModel(object):
         if 'state_time' in d:
             self.state_time = d['state_time']
 
+    def serialize(self):
+        '''
+        Return a representation of the object as a string.
+
+        Used for storing the object data in ZooKeeper.
+        '''
+        return json.dumps(self.toDict())
+
 
 class ImageBuild(BaseModel):
     '''
@@ -455,9 +463,6 @@ class ZooKeeper(object):
     def _requestLockPath(self, request):
         return "%s/%s" % (self.REQUEST_LOCK_ROOT, request)
 
-    def _dictToStr(self, data):
-        return json.dumps(data)
-
     def _strToDict(self, data):
         return json.loads(data)
 
@@ -850,13 +855,13 @@ class ZooKeeper(object):
         if build_number is None:
             path = self.client.create(
                 build_path,
-                value=self._dictToStr(build_data.toDict()),
+                value=build_data.serialize(),
                 sequence=True,
                 makepath=True)
             build_number = path.split("/")[-1]
         else:
             path = build_path + build_number
-            self.client.set(path, self._dictToStr(build_data.toDict()))
+            self.client.set(path, build_data.serialize())
 
         return build_number
 
@@ -1020,13 +1025,13 @@ class ZooKeeper(object):
         if upload_number is None:
             path = self.client.create(
                 upload_path,
-                value=self._dictToStr(image_data.toDict()),
+                value=image_data.serialize(),
                 sequence=True,
                 makepath=True)
             upload_number = path.split("/")[-1]
         else:
             path = upload_path + upload_number
-            self.client.set(path, self._dictToStr(image_data.toDict()))
+            self.client.set(path, image_data.serialize())
 
         return upload_number
 
@@ -1185,8 +1190,7 @@ class ZooKeeper(object):
                 "Attempt to update non-existing request %s" % request)
 
         path = self._requestPath(request.id)
-        data = request.toDict()
-        self.client.set(path, self._dictToStr(data))
+        self.client.set(path, request.serialize())
 
     def lockNodeRequest(self, request, blocking=True, timeout=None):
         '''

From 77cf53e429ecb0774d520fb158c68fb23a4b911d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 20 Jan 2017 14:28:24 -0500
Subject: [PATCH 021/309] Add API methods for locking/unlocking Nodes.

Change-Id: I4ec14b90b193b21b4649ceb8c9d0dff25de9e6b8
---
 nodepool/tests/test_zk.py | 23 ++++++++++++++++++
 nodepool/zk.py            | 51 +++++++++++++++++++++++++++++++++++++++
 2 files changed, 74 insertions(+)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 5146775cf..e1a24201b 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -475,6 +475,29 @@ class TestZooKeeper(tests.DBTestCase):
     def test_getNode_not_found(self):
         self.assertIsNone(self.zk.getNode("invalid"))
 
+    def test_lockNode_multi(self):
+        node = zk.Node('100')
+        self.zk.lockNode(node)
+        with testtools.ExpectedException(
+            npe.ZKLockException, "Did not get lock on .*"
+        ):
+            self.zk.lockNode(node, blocking=False)
+
+    def test_lockNode_unlockNode(self):
+        node = zk.Node('100')
+        self.zk.lockNode(node)
+        self.assertIsNotNone(node.lock)
+        self.assertIsNotNone(
+            self.zk.client.exists(self.zk._nodeLockPath(node.id))
+        )
+        self.zk.unlockNode(node)
+        self.assertIsNone(node.lock)
+
+    def test_unlockNode_not_locked(self):
+        node = zk.Node('100')
+        with testtools.ExpectedException(npe.ZKLockException):
+            self.zk.unlockNode(node)
+
 
 class TestZKModel(tests.BaseTestCase):
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index e939805c5..1237a7bf2 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -355,6 +355,7 @@ class Node(BaseModel):
 
     def __init__(self, id=None):
         super(Node, self).__init__(id)
+        self.lock = None
         self.provider = None
 
     def __repr__(self):
@@ -457,6 +458,9 @@ class ZooKeeper(object):
     def _nodePath(self, node):
         return "%s/%s" % (self.NODE_ROOT, node)
 
+    def _nodeLockPath(self, node):
+        return "%s/%s/lock" % (self.NODE_ROOT, node)
+
     def _requestPath(self, request):
         return "%s/%s" % (self.REQUEST_ROOT, request)
 
@@ -1239,6 +1243,53 @@ class ZooKeeper(object):
         request.lock.release()
         request.lock = None
 
+    def lockNode(self, node, blocking=True, timeout=None):
+        '''
+        Lock a node.
+
+        This will set the `lock` attribute of the Node object when the
+        lock is successfully acquired.
+
+        :param Node node: The node to lock.
+        :param bool blocking: Whether or not to block on trying to
+            acquire the lock
+        :param int timeout: When blocking, how long to wait for the lock
+            to get acquired. None, the default, waits forever.
+
+        :raises: TimeoutException if we failed to acquire the lock when
+            blocking with a timeout. ZKLockException if we are not blocking
+            and could not get the lock, or a lock is already held.
+        '''
+        path = self._nodeLockPath(node.id)
+        try:
+            lock = Lock(self.client, path)
+            have_lock = lock.acquire(blocking, timeout)
+        except kze.LockTimeout:
+            raise npe.TimeoutException(
+                "Timeout trying to acquire lock %s" % path)
+
+        # If we aren't blocking, it's possible we didn't get the lock
+        # because someone else has it.
+        if not have_lock:
+            raise npe.ZKLockException("Did not get lock on %s" % path)
+
+        node.lock = lock
+
+    def unlockNode(self, node):
+        '''
+        Unlock a node.
+
+        The node must already have been locked.
+
+        :param Node node: The node to unlock.
+
+        :raises: ZKLockException if the node is not currently locked.
+        '''
+        if node.lock is None:
+            raise npe.ZKLockException("Node %s does not hold a lock" % node)
+        node.lock.release()
+        node.lock = None
+
     def getNodes(self):
         '''
         Get the current list of all nodes.

From 5ee68af0014f5abfadcfefc8a6e8057acf365347 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 23 Jan 2017 14:28:47 -0500
Subject: [PATCH 022/309] Add nodepoold test for request decline and fail

Add a test that validates that the node request is declined
and then set to failed if it cannot be satisfied. We use an
invalid image name in the test to get to the proper code path.

Change-Id: I860d16740ac3cac06ae5aedafc7409159d50a566
---
 nodepool/nodepool.py            | 45 ++++++++++++++++++---------------
 nodepool/tests/__init__.py      | 22 ++++++++++++++++
 nodepool/tests/test_nodepool.py | 15 +++++++++++
 3 files changed, 62 insertions(+), 20 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index e441c8b6a..2994511ef 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -800,7 +800,8 @@ class ProviderWorker(threading.Thread):
     that will be recognized and this thread will shut itself down.
     '''
 
-    def __init__(self, configfile, zk, provider):
+    def __init__(self, configfile, zk, provider,
+                 watermark_sleep=WATERMARK_SLEEP):
         threading.Thread.__init__(
             self, name='ProviderWorker.%s' % provider.name
         )
@@ -810,6 +811,7 @@ class ProviderWorker(threading.Thread):
         self.running = False
         self.configfile = configfile
         self.workers = []
+        self.watermark_sleep = watermark_sleep
         self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
                                          os.getpid(),
                                          self.ident)
@@ -913,7 +915,7 @@ class ProviderWorker(threading.Thread):
             if self.provider.max_concurrency != 0:
                 self._processRequests()
 
-            time.sleep(10)
+            time.sleep(self.watermark_sleep)
             self._updateProvider()
 
     def stop(self):
@@ -936,6 +938,7 @@ class NodePool(threading.Thread):
         self.apsched = None
         self.zk = None
         self.statsd = stats.get_client()
+        self._provider_threads = {}
         self._delete_threads = {}
         self._delete_threads_lock = threading.Lock()
         self._instance_delete_threads = {}
@@ -951,7 +954,17 @@ class NodePool(threading.Thread):
             provider_manager.ProviderManager.stopProviders(self.config)
         if self.apsched and self.apsched.running:
             self.apsched.shutdown()
-        self.log.debug("finished stopping")
+
+        # Don't let stop() return until all provider threads have been
+        # terminated.
+        self.log.debug("Stopping provider threads")
+        for thd in self._provider_threads.values():
+            if thd.isAlive():
+                thd.stop()
+            self.log.debug("Waiting for %s" % thd.name)
+            thd.join()
+
+        self.log.debug("Finished stopping")
 
     def loadConfig(self):
         self.log.debug("Loading configuration")
@@ -1243,9 +1256,6 @@ class NodePool(threading.Thread):
         '''
         Start point for the NodePool thread.
         '''
-        # Provider threads keyed by provider name
-        provider_threads = {}
-
         while not self._stopped:
             try:
                 self.updateConfig()
@@ -1259,17 +1269,19 @@ class NodePool(threading.Thread):
                 # the config. Removing a provider from the config and then
                 # adding it back would cause a restart.
                 for p in self.config.providers.values():
-                    if p.name not in provider_threads.keys():
-                        t = ProviderWorker(self.configfile, self.zk, p)
+                    if p.name not in self._provider_threads.keys():
+                        t = ProviderWorker(self.configfile, self.zk, p,
+                                           self.watermark_sleep)
                         self.log.info( "Starting %s" % t.name)
                         t.start()
-                        provider_threads[p.name] = t
-                    elif not provider_threads[p.name].isAlive():
-                        provider_threads[p.name].join()
-                        t = ProviderWorker(self.configfile, self.zk, p)
+                        self._provider_threads[p.name] = t
+                    elif not self._provider_threads[p.name].isAlive():
+                        self._provider_threads[p.name].join()
+                        t = ProviderWorker(self.configfile, self.zk, p,
+                                           self.watermark_sleep)
                         self.log.info( "Restarting %s" % t.name)
                         t.start()
-                        provider_threads[p.name] = t
+                        self._provider_threads[p.name] = t
             except Exception:
                 self.log.exception("Exception in main loop:")
 
@@ -1277,13 +1289,6 @@ class NodePool(threading.Thread):
             self._wake_condition.wait(self.watermark_sleep)
             self._wake_condition.release()
 
-        # Stop provider threads
-        for thd in provider_threads.values():
-            if thd.isAlive():
-                thd.stop()
-            self.log.info("Waiting for %s" % thd.name)
-            thd.join()
-
     def _run(self, session, allocation_history):
         # Make up the subnode deficit first to make sure that an
         # already allocated node has priority in filling its subnodes
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index f93cd5d98..4ffe84a34 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -430,6 +430,28 @@ class DBTestCase(BaseTestCase):
             time.sleep(1)
         self.wait_for_threads()
 
+    def submitNodeRequest(self, req):
+        '''
+        Very simple submit of a node request to ZooKeeper.
+        '''
+        priority = 100
+        req.state = zk.REQUESTED
+        path = '%s/%s-' % (self.zk.REQUEST_ROOT, priority)
+        path = self.zk.client.create(path, req.serialize(), makepath=True,
+                                     sequence=True, ephemeral=True)
+        req.id = path.split("/")[-1]
+
+    def waitForNodeRequest(self, req):
+        '''
+        Wait for a node request to transition out of REQUESTED state.
+        '''
+        while True:
+            req = self.zk.getNodeRequest(req.id)
+            if req.state != zk.REQUESTED:
+                break
+            time.sleep(1)
+        return req
+
     def useNodepool(self, *args, **kwargs):
         args = (self.secure_conf,) + args
         pool = nodepool.NodePool(*args, **kwargs)
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 40558709e..c2ea2cdc4 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -22,6 +22,7 @@ import fixtures
 
 from nodepool import tests
 from nodepool import nodedb
+from nodepool import zk
 import nodepool.fakeprovider
 import nodepool.nodepool
 
@@ -29,6 +30,20 @@ import nodepool.nodepool
 class TestNodepool(tests.DBTestCase):
     log = logging.getLogger("nodepool.TestNodepool")
 
+    def test_decline_and_fail(self):
+        configfile = self.setup_config('node.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+
+        req = zk.NodeRequest()
+        req.node_types.append("zorky-zumba")
+        self.submitNodeRequest(req)
+        self.assertEqual(req.state, zk.REQUESTED)
+
+        req = self.waitForNodeRequest(req)
+        self.assertEqual(req.state, zk.FAILED)
+        self.assertNotEqual(req.declined_by, [])
+
     @skip("Disabled for early v3 development")
     def test_node(self):
         """Test that an image and node are created"""

From 7274778c113ae4037d03e2cece5fb94d529998bb Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 18 Jan 2017 14:16:58 -0800
Subject: [PATCH 023/309] Add files for zuul-nodepool integration test

This adds config files and a startup script.

Remove the nodepool.yaml .gitignore.

Change-Id: Icc58521f520f719f24f59132c424b3a71432285f
---
 .gitignore                                    |  1 -
 .../builder-logging.conf                      | 48 +++++++++++++++++++
 .../launcher-logging.conf                     | 48 +++++++++++++++++++
 tools/zuul-nodepool-integration/nodepool.yaml | 32 +++++++++++++
 tools/zuul-nodepool-integration/secure.conf   |  2 +
 tools/zuul-nodepool-integration/start.sh      |  9 ++++
 6 files changed, 139 insertions(+), 1 deletion(-)
 create mode 100644 tools/zuul-nodepool-integration/builder-logging.conf
 create mode 100644 tools/zuul-nodepool-integration/launcher-logging.conf
 create mode 100644 tools/zuul-nodepool-integration/nodepool.yaml
 create mode 100644 tools/zuul-nodepool-integration/secure.conf
 create mode 100755 tools/zuul-nodepool-integration/start.sh

diff --git a/.gitignore b/.gitignore
index 9cce615c2..26e93f51e 100644
--- a/.gitignore
+++ b/.gitignore
@@ -12,6 +12,5 @@ doc/build/*
 zuul/versioninfo
 dist/
 venv/
-nodepool.yaml
 *~
 .*.swp
diff --git a/tools/zuul-nodepool-integration/builder-logging.conf b/tools/zuul-nodepool-integration/builder-logging.conf
new file mode 100644
index 000000000..1ac791f19
--- /dev/null
+++ b/tools/zuul-nodepool-integration/builder-logging.conf
@@ -0,0 +1,48 @@
+[loggers]
+keys=root,nodepool,requests,shade
+
+[handlers]
+keys=console,normal
+
+[formatters]
+keys=simple
+
+[logger_root]
+level=WARNING
+handlers=console
+
+[logger_requests]
+level=WARNING
+handlers=normal
+qualname=requests
+
+[logger_shade]
+level=WARNING
+handlers=normal
+qualname=shade
+
+[logger_gear]
+level=DEBUG
+handlers=normal
+qualname=gear
+
+[logger_nodepool]
+level=DEBUG
+handlers=normal
+qualname=nodepool
+
+[handler_console]
+level=WARNING
+class=StreamHandler
+formatter=simple
+args=(sys.stdout,)
+
+[handler_normal]
+level=DEBUG
+class=FileHandler
+formatter=simple
+args=('/tmp/nodepool/log/nodepool-builder.log',)
+
+[formatter_simple]
+format=%(asctime)s %(levelname)s %(name)s: %(message)s
+datefmt=
diff --git a/tools/zuul-nodepool-integration/launcher-logging.conf b/tools/zuul-nodepool-integration/launcher-logging.conf
new file mode 100644
index 000000000..e206606de
--- /dev/null
+++ b/tools/zuul-nodepool-integration/launcher-logging.conf
@@ -0,0 +1,48 @@
+[loggers]
+keys=root,nodepool,requests,shade
+
+[handlers]
+keys=console,normal
+
+[formatters]
+keys=simple
+
+[logger_root]
+level=WARNING
+handlers=console
+
+[logger_requests]
+level=WARNING
+handlers=normal
+qualname=requests
+
+[logger_shade]
+level=WARNING
+handlers=normal
+qualname=shade
+
+[logger_gear]
+level=DEBUG
+handlers=normal
+qualname=gear
+
+[logger_nodepool]
+level=DEBUG
+handlers=normal
+qualname=nodepool
+
+[handler_console]
+level=WARNING
+class=StreamHandler
+formatter=simple
+args=(sys.stdout,)
+
+[handler_normal]
+level=DEBUG
+class=FileHandler
+formatter=simple
+args=('/tmp/nodepool/log/nodepool-launcher.log',)
+
+[formatter_simple]
+format=%(asctime)s %(levelname)s %(name)s: %(message)s
+datefmt=
diff --git a/tools/zuul-nodepool-integration/nodepool.yaml b/tools/zuul-nodepool-integration/nodepool.yaml
new file mode 100644
index 000000000..7e34f3b6b
--- /dev/null
+++ b/tools/zuul-nodepool-integration/nodepool.yaml
@@ -0,0 +1,32 @@
+images-dir: /tmp/nodepool/images
+
+zookeeper-servers:
+  - host: localhost
+
+diskimages:
+  - name: fake-nodepool
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
+
+labels:
+  - name: fake-label
+    image: fake-nodepool
+    min-ready: 2
+    providers:
+      - name: fake-provider
+
+providers:
+  - name: fake-provider
+    max-servers: 96
+    auth-url: 'fake'
+    images:
+      - name: fake-nodepool
+        min-ram: 8192
+        diskimage: fake-nodepool
diff --git a/tools/zuul-nodepool-integration/secure.conf b/tools/zuul-nodepool-integration/secure.conf
new file mode 100644
index 000000000..d29d9c094
--- /dev/null
+++ b/tools/zuul-nodepool-integration/secure.conf
@@ -0,0 +1,2 @@
+[database]
+dburi=mysql+pymysql://nodepool@localhost/nodepool
diff --git a/tools/zuul-nodepool-integration/start.sh b/tools/zuul-nodepool-integration/start.sh
new file mode 100755
index 000000000..c5db64e6c
--- /dev/null
+++ b/tools/zuul-nodepool-integration/start.sh
@@ -0,0 +1,9 @@
+#!/bin/bash -e
+
+cd "$(dirname "$0")"
+
+mkdir -p /tmp/nodepool/images
+mkdir -p /tmp/nodepool/log
+
+nodepool-builder -c `pwd`/nodepool.yaml -l `pwd`/builder-logging.conf -p /tmp/nodepool/builder.pid --fake
+nodepoold -c `pwd`/nodepool.yaml -s `pwd`/secure.conf -l `pwd`/launcher-logging.conf -p /tmp/nodepool/launcher.pid

From 578822276d9926fa689980d557cd9a4cedd34c0c Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 24 Jan 2017 14:21:17 -0500
Subject: [PATCH 024/309] Manage providers in ProviderWorker threads

We don't want every provider manager to be available in the config
file. Instead, let each thread responsible for the provider have a
single ProviderManager that it manages itself.

Since this manager is among several attributes that need to be shared
with the child NodeRequestWorker threads, let's just pass the parent
down to the children and let them grab the attributes needed.

Shade integration tests were changed to not require access to
nodepool internals and test the actual thing they care about, the
ProviderManager.

Change-Id: I1533d53ff2cdf7ca51b7e8cc96ba55a3ced1a96c
---
 nodepool/nodepool.py                     | 46 +++++++++++++++---------
 nodepool/tests/test_shade_integration.py | 27 +++++++++-----
 2 files changed, 47 insertions(+), 26 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 2994511ef..144d10a7b 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -680,20 +680,19 @@ class NodeRequestWorker(threading.Thread):
     to this thread for it to process.
     '''
 
-    def __init__(self, zk, launcher_id, provider, request):
+    def __init__(self, pw, request):
         '''
-        :param ZooKeeper zk: Connected ZooKeeper object.
-        :param str launcher_id: ID of the launcher handling the request.
-        :param Provider provider: Provider object from the config file.
+        :param ProviderWorker pw: The parent ProviderWorker object.
         :param NodeRequest request: The request to handle.
         '''
         threading.Thread.__init__(
             self, name='NodeRequestWorker.%s' % request.id
         )
         self.log = logging.getLogger("nodepool.%s" % self.name)
-        self.zk = zk
-        self.launcher_id = launcher_id
-        self.provider = provider
+        self.provider = pw.provider
+        self.zk = pw.zk
+        self.manager = pw.manager
+        self.launcher_id = pw.launcher_id
         self.request = request
 
     def _imagesAvailable(self):
@@ -806,12 +805,15 @@ class ProviderWorker(threading.Thread):
             self, name='ProviderWorker.%s' % provider.name
         )
         self.log = logging.getLogger("nodepool.%s" % self.name)
-        self.provider = provider
-        self.zk = zk
         self.running = False
         self.configfile = configfile
         self.workers = []
         self.watermark_sleep = watermark_sleep
+
+        # These attributes will be used by NodeRequestWorker children
+        self.zk = zk
+        self.manager = None
+        self.provider = provider
         self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
                                          os.getpid(),
                                          self.ident)
@@ -834,11 +836,17 @@ class ProviderWorker(threading.Thread):
             self.log.info("Provider %s removed from config"
                           % self.provider.name)
             self.stop()
-
-            # TODO(Shrews): Should we remove any existing nodes from the
-            # provider here?
-        else:
+        elif self.provider != config.providers[self.provider.name]:
             self.provider = config.providers[self.provider.name]
+            if self.manager:
+                self.manager.stop()
+                self.manager = None
+
+        if not self.manager:
+            self.log.debug("Creating new ProviderManager")
+            self.manager = provider_manager.ProviderManager(
+                self.provider, use_taskmanager=True)
+            self.manager.start()
 
     def _processRequests(self):
         self.log.debug("Getting node request from ZK queue")
@@ -874,8 +882,7 @@ class ProviderWorker(threading.Thread):
 
             # Got a lock, so assign it
             self.log.info("Assigning node request %s" % req.id)
-            t = NodeRequestWorker(self.zk, self.launcher_id,
-                                  self.provider, req)
+            t = NodeRequestWorker(self, req)
             t.start()
             self.workers.append(t)
 
@@ -909,6 +916,10 @@ class ProviderWorker(threading.Thread):
             # Make sure we're always registered with ZK
             self.zk.registerLauncher(self.launcher_id)
 
+            self._updateProvider()
+            if not self.running:
+                break
+
             if self.provider.max_concurrency == -1 and self.workers:
                 self.workers = []
 
@@ -916,11 +927,13 @@ class ProviderWorker(threading.Thread):
                 self._processRequests()
 
             time.sleep(self.watermark_sleep)
-            self._updateProvider()
 
     def stop(self):
         self.log.info("%s received stop" % self.name)
         self.running = False
+        if self.manager:
+            self.manager.stop()
+            self.manager.join()
 
 
 class NodePool(threading.Thread):
@@ -1248,7 +1261,6 @@ class NodePool(threading.Thread):
     def updateConfig(self):
         config = self.loadConfig()
         self.reconfigureZooKeeper(config)
-        self.reconfigureManagers(config)
         self.reconfigureCrons(config)
         self.setConfig(config)
 
diff --git a/nodepool/tests/test_shade_integration.py b/nodepool/tests/test_shade_integration.py
index b1430d20a..6da6a1b27 100644
--- a/nodepool/tests/test_shade_integration.py
+++ b/nodepool/tests/test_shade_integration.py
@@ -20,6 +20,10 @@ import shade
 import testtools
 import yaml
 
+from unittest import skip
+
+from nodepool import config as nodepool_config
+from nodepool import provider_manager
 from nodepool import tests
 from nodepool.provider_manager import shade_inner_exceptions
 
@@ -43,15 +47,17 @@ class TestShadeIntegration(tests.IntegrationTestCase):
 
     def test_nodepool_provider_config(self):
         configfile = self.setup_config('integration.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        pool.updateConfig()
-        provider_manager = pool.config.provider_managers['real-provider']
+        config = nodepool_config.loadConfig(configfile)
+        self.assertIn('real-provider', config.providers)
+        pm = provider_manager.ProviderManager(
+            config.providers['real-provider'], use_taskmanager=False)
+        pm.start()
         auth_data = {'username': 'real',
                      'project_id': 'real',
                      'password': 'real',
                      'auth_url': 'real'}
-        self.assertEqual(provider_manager._client.auth, auth_data)
-        self.assertEqual(provider_manager._client.region_name, 'real-region')
+        self.assertEqual(pm._client.auth, auth_data)
+        self.assertEqual(pm._client.region_name, 'real-region')
 
     def test_nodepool_osc_config(self):
         configfile = self.setup_config('integration_osc.yaml')
@@ -62,11 +68,14 @@ class TestShadeIntegration(tests.IntegrationTestCase):
         osc_config = {'clouds': {'real-cloud': {'auth': auth_data}}}
         self._use_cloud_config(osc_config)
 
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        pool.updateConfig()
-        provider_manager = pool.config.provider_managers['real-provider']
-        self.assertEqual(provider_manager._client.auth, auth_data)
+        config = nodepool_config.loadConfig(configfile)
+        self.assertIn('real-provider', config.providers)
+        pm = provider_manager.ProviderManager(
+            config.providers['real-provider'], use_taskmanager=False)
+        pm.start()
+        self.assertEqual(pm._client.auth, auth_data)
 
+    @skip("Disabled for early v3 development")
     def test_nodepool_osc_config_reload(self):
         configfile = self.setup_config('integration_osc.yaml')
         auth_data = {'username': 'os_real',

From 851b0336608513034765e77707f2ad1a1ff82fa4 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 31 Jan 2017 13:42:21 -0500
Subject: [PATCH 025/309] Add storeNode ZK API method

Besides the new method, also:

 - allow FAILED state for Node objects
 - add __eq__ method to Node class
 - add allocated_to attribute to Node class

Change-Id: I14642add3575a86fd18f1fea7e412da38674baf0
---
 nodepool/tests/test_zk.py | 23 ++++++++++++++++++++--
 nodepool/zk.py            | 40 ++++++++++++++++++++++++++++++++++++++-
 2 files changed, 60 insertions(+), 3 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index e1a24201b..7d3526ee6 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -498,6 +498,21 @@ class TestZooKeeper(tests.DBTestCase):
         with testtools.ExpectedException(npe.ZKLockException):
             self.zk.unlockNode(node)
 
+    def test_storeNode(self):
+        node = zk.Node()
+        node.state = zk.BUILDING
+        node.provider = 'rax'
+
+        self.assertIsNone(node.id)
+        self.zk.storeNode(node)
+        self.assertIsNotNone(node.id)
+        self.assertIsNotNone(
+            self.zk.client.exists(self.zk._nodePath(node.id))
+        )
+
+        node2 = self.zk.getNode(node.id)
+        self.assertEqual(node, node2)
+
 
 class TestZKModel(tests.BaseTestCase):
 
@@ -619,11 +634,13 @@ class TestZKModel(tests.BaseTestCase):
     def test_Node_toDict(self):
         o = zk.Node('123')
         o.provider = 'rax'
+        o.allocated_to = '456-789'
         d = o.toDict()
         self.assertNotIn('id', d)
         self.assertIn('state', d)
         self.assertIn('state_time', d)
-        self.assertEqual(d['provider'], 'rax')
+        self.assertEqual(d['provider'], o.provider)
+        self.assertEqual(d['allocated_to'], o.allocated_to)
 
     def test_Node_fromDict(self):
         now = int(time.time())
@@ -632,10 +649,12 @@ class TestZKModel(tests.BaseTestCase):
             'state': zk.READY,
             'state_time': now,
             'provider': 'rax',
+            'allocated_to': '456-789',
         }
 
         o = zk.Node.fromDict(d, node_id)
         self.assertEqual(o.id, node_id)
         self.assertEqual(o.state, d['state'])
         self.assertEqual(o.state_time, d['state_time'])
-        self.assertEqual(o.provider, 'rax')
+        self.assertEqual(o.provider, d['provider'])
+        self.assertEqual(o.allocated_to, d['allocated_to'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 1237a7bf2..22ef518e9 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -125,6 +125,8 @@ class BaseModel(object):
     def __init__(self, o_id):
         if o_id:
             self.id = o_id
+        else:
+            self._id = None
         self._state = None
         self.state_time = None
         self.stat = None
@@ -351,12 +353,13 @@ class Node(BaseModel):
     Class representing a launched node.
     '''
     VALID_STATES = set([BUILDING, TESTING, READY, IN_USE, USED,
-                        HOLD, DELETING])
+                        HOLD, DELETING, FAILED])
 
     def __init__(self, id=None):
         super(Node, self).__init__(id)
         self.lock = None
         self.provider = None
+        self.allocated_to = None
 
     def __repr__(self):
         d = self.toDict()
@@ -364,12 +367,23 @@ class Node(BaseModel):
         d['stat'] = self.stat
         return '<Node %s>' % d
 
+    def __eq__(self, other):
+        if isinstance(other, Node):
+            return (self.id == other.id and
+                    self.state == other.state and
+                    self.state_time == other.state_time and
+                    self.provider == other.provider and
+                    self.allocated_to == other.allocated_to)
+        else:
+            return False
+
     def toDict(self):
         '''
         Convert a Node object's attributes to a dictionary.
         '''
         d = super(Node, self).toDict()
         d['provider'] = self.provider
+        d['allocated_to'] = self.allocated_to
         return d
 
     @staticmethod
@@ -385,6 +399,7 @@ class Node(BaseModel):
         o = Node(o_id)
         super(Node, o).fromDict(d)
         o.provider = d.get('provider')
+        o.allocated_to = d.get('allocated_to')
         return o
 
 
@@ -1316,5 +1331,28 @@ class ZooKeeper(object):
             return None
 
         d = Node.fromDict(self._strToDict(data), node)
+        d.id = node
         d.stat = stat
         return d
+
+    def storeNode(self, node):
+        '''
+        Store an new or existing node.
+
+        If this is a new node, then node.id will be set with the newly created
+        node identifier. Otherwise, node.id is used to identify the node to
+        update.
+
+        :param Node node: The Node object to store.
+        '''
+        if not node.id:
+            node_path = "%s/" % self.NODE_ROOT
+            path = self.client.create(
+                node_path,
+                value=node.serialize(),
+                sequence=True,
+                makepath=True)
+            node.id = path.split("/")[-1]
+        else:
+            path = self._nodePath(node)
+            self.client.set(path, node.serialize())

From cc3cd6747c94211629e3c9ac5df7b8468e003b60 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 31 Jan 2017 15:22:06 -0500
Subject: [PATCH 026/309] Replace NodeRequestWorker with NodeRequestHandler

Eliminate the NodeRequestWorker thread and replace it with an object
that will be able to handle polling for doneness. This helps to
reduce thread contention since we will eventually be creating even
MORE threads (within NodeRequestHandler) to actually launch nodes.

Change-Id: I825ac3ec62d9ad797053140f167a0b04da58287f
---
 nodepool/nodepool.py | 71 ++++++++++++++++++++++++--------------------
 1 file changed, 39 insertions(+), 32 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 144d10a7b..1f6edc577 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -671,7 +671,7 @@ class SubNodeLauncher(threading.Thread):
         return dt
 
 
-class NodeRequestWorker(threading.Thread):
+class NodeRequestHandler(object):
     '''
     Class to process a single node request.
 
@@ -685,15 +685,13 @@ class NodeRequestWorker(threading.Thread):
         :param ProviderWorker pw: The parent ProviderWorker object.
         :param NodeRequest request: The request to handle.
         '''
-        threading.Thread.__init__(
-            self, name='NodeRequestWorker.%s' % request.id
-        )
-        self.log = logging.getLogger("nodepool.%s" % self.name)
+        self.log = logging.getLogger("nodepool.NodeRequestHandler")
         self.provider = pw.provider
         self.zk = pw.zk
         self.manager = pw.manager
         self.launcher_id = pw.launcher_id
         self.request = request
+        self.done = False
 
     def _imagesAvailable(self):
         '''
@@ -738,14 +736,14 @@ class NodeRequestWorker(threading.Thread):
         try:
             self._run()
         except Exception:
-            self.log.exception("Exception in NodeRequestWorker:")
+            self.log.exception("Exception in NodeRequestHandler:")
             self.request.state = zk.FAILED
             self.zk.updateNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
 
     def _run(self):
         '''
-        Main body for the NodeRequestWorker.
+        Main body for the NodeRequestHandler.
 
         note:: This code is a bit racey in its calculation of the number of
             nodes in use for quota purposes. It is possible for multiple
@@ -774,6 +772,7 @@ class NodeRequestWorker(threading.Thread):
                 self.request.state = zk.FAILED
             self.zk.updateNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
+            self.done = True
             return
 
         # TODO(Shrews): Determine node availability and if we need to launch
@@ -807,10 +806,10 @@ class ProviderWorker(threading.Thread):
         self.log = logging.getLogger("nodepool.%s" % self.name)
         self.running = False
         self.configfile = configfile
-        self.workers = []
+        self.request_handlers = []
         self.watermark_sleep = watermark_sleep
 
-        # These attributes will be used by NodeRequestWorker children
+        # These attributes will be used by NodeRequestHandler
         self.zk = zk
         self.manager = None
         self.provider = provider
@@ -848,13 +847,28 @@ class ProviderWorker(threading.Thread):
                 self.provider, use_taskmanager=True)
             self.manager.start()
 
-    def _processRequests(self):
-        self.log.debug("Getting node request from ZK queue")
+    def _activeThreads(self):
+        total = 0
+        # TODO(Shrews): return a count of active threads
+        #for r in self.request_handlers:
+        #    total += r.alive_thread_count
+        return total
+
+    def _assignHandlers(self):
+        '''
+        For each request we can grab, create a NodeRequestHandler for it.
+
+        The NodeRequestHandler object will kick off any threads needed to
+        satisfy the request, then return. We will need to periodically poll
+        the handler for completion.
+        '''
+        if self.provider.max_concurrency == 0:
+            return
 
         for req_id in self.zk.getNodeRequests():
             # Short-circuit for limited request handling
             if (self.provider.max_concurrency > 0
-                and self._activeWorkers() >= self.provider.max_concurrency
+                and self._activeThreads() >= self.provider.max_concurrency
             ):
                 return
 
@@ -882,23 +896,20 @@ class ProviderWorker(threading.Thread):
 
             # Got a lock, so assign it
             self.log.info("Assigning node request %s" % req.id)
-            t = NodeRequestWorker(self, req)
-            t.start()
-            self.workers.append(t)
+            rh = NodeRequestHandler(self, req)
+            rh.run()
+            self.request_handlers.append(rh)
 
-    def _activeWorkers(self):
+    def _removeCompletedHandlers(self):
         '''
-        Return a count of the number of requests actively being handled.
-
-        This serves the dual-purpose of also removing completed requests from
-        our list of tracked threads.
+        Poll handlers to see which have completed.
         '''
-        active = []
-        for w in self.workers:
-            if w.isAlive():
-                active.append(w)
-        self.workers = active
-        return len(self.workers)
+        active_handlers = []
+        # TODO(Shrews): implement handler polling
+        #for r in self.request_handlers:
+        #    if not r.poll():
+        #        active_handlers.append(r)
+        self.request_handlers = active_handlers
 
     #----------------------------------------------------------------
     # Public methods
@@ -920,12 +931,8 @@ class ProviderWorker(threading.Thread):
             if not self.running:
                 break
 
-            if self.provider.max_concurrency == -1 and self.workers:
-                self.workers = []
-
-            if self.provider.max_concurrency != 0:
-                self._processRequests()
-
+            self._assignHandlers()
+            self._removeCompletedHandlers()
             time.sleep(self.watermark_sleep)
 
     def stop(self):

From b10259651769172e85a0bde89b8cdb10932a231b Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 1 Feb 2017 14:49:50 -0500
Subject: [PATCH 027/309] Fix documentation nits from earlier reviews.

Clarify the behavior around setting the 'id' attribute in the
ZK model base class, and remove an invalid reference to 'thread'
by removing a redundant portion of a docstring sentence.

Change-Id: Iec175688898c39478af16ddba7a275e02c451650
---
 nodepool/nodepool.py | 3 +--
 nodepool/zk.py       | 2 ++
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 1f6edc577..dd1517c15 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -676,8 +676,7 @@ class NodeRequestHandler(object):
     Class to process a single node request.
 
     The ProviderWorker thread will instantiate a class of this type for each
-    node request that it pulls from ZooKeeper. That request will be assigned
-    to this thread for it to process.
+    node request that it pulls from ZooKeeper.
     '''
 
     def __init__(self, pw, request):
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 22ef518e9..5334d8215 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -124,8 +124,10 @@ class BaseModel(object):
 
     def __init__(self, o_id):
         if o_id:
+            # Call the setter for id so we can validate the incoming type.
             self.id = o_id
         else:
+            # Bypass the setter for id to set the default.
             self._id = None
         self._state = None
         self.state_time = None

From ed260effbabbcca88e05180b9a142a0fc3a373bd Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 2 Feb 2017 16:06:00 -0500
Subject: [PATCH 028/309] Fix storeNode() for updates

The node ID needed to be passed for computing path.

Change-Id: I27c740195bac439eb3626a51d47e0ff8cfe489ea
---
 nodepool/tests/test_zk.py | 12 +++++++++++-
 nodepool/zk.py            |  2 +-
 2 files changed, 12 insertions(+), 2 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 7d3526ee6..31c582e97 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -498,7 +498,7 @@ class TestZooKeeper(tests.DBTestCase):
         with testtools.ExpectedException(npe.ZKLockException):
             self.zk.unlockNode(node)
 
-    def test_storeNode(self):
+    def _create_node(self):
         node = zk.Node()
         node.state = zk.BUILDING
         node.provider = 'rax'
@@ -509,7 +509,17 @@ class TestZooKeeper(tests.DBTestCase):
         self.assertIsNotNone(
             self.zk.client.exists(self.zk._nodePath(node.id))
         )
+        return node
 
+    def test_storeNode(self):
+        node = self._create_node()
+        node2 = self.zk.getNode(node.id)
+        self.assertEqual(node, node2)
+
+    def test_storeNode_update(self):
+        node = self._create_node()
+        node.state = zk.READY
+        self.zk.storeNode(node)
         node2 = self.zk.getNode(node.id)
         self.assertEqual(node, node2)
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 5334d8215..6ba1c6ffb 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1356,5 +1356,5 @@ class ZooKeeper(object):
                 makepath=True)
             node.id = path.split("/")[-1]
         else:
-            path = self._nodePath(node)
+            path = self._nodePath(node.id)
             self.client.set(path, node.serialize())

From 42a19452869fad15fcbedd717cbaeb903bcb8af3 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 3 Feb 2017 09:02:39 -0500
Subject: [PATCH 029/309] Fix race in node request state changes

Tests are currently passing because we quickly change a request
state from PENDING to FULFILLED or FAILED. We need to also ignore
the PENDING state when waiting for the request to reach final state.
Do that by checking for final states in waitForNodeRequest().

Change-Id: Ia720fd8f15baf99e1a96d1aaac484948197559ba
---
 nodepool/tests/__init__.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 4ffe84a34..89047ed17 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -443,11 +443,11 @@ class DBTestCase(BaseTestCase):
 
     def waitForNodeRequest(self, req):
         '''
-        Wait for a node request to transition out of REQUESTED state.
+        Wait for a node request to transition to a final state.
         '''
         while True:
             req = self.zk.getNodeRequest(req.id)
-            if req.state != zk.REQUESTED:
+            if req.state in (zk.FULFILLED, zk.FAILED):
                 break
             time.sleep(1)
         return req

From a293b7c066cbeb7750ee8da0fde8d1563dc8d210 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 3 Feb 2017 08:48:29 -0500
Subject: [PATCH 030/309] Update Node and NodeRequest models

Adds 'nodes' to NodeRequest and 'type' to Node.

Change-Id: I0e2dee371d4caf21e619f7f5dca1ce140bd7c84b
---
 nodepool/tests/test_zk.py | 13 +++++++++++--
 nodepool/zk.py            |  7 +++++++
 2 files changed, 18 insertions(+), 2 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 31c582e97..bbdfc7eef 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -618,12 +618,14 @@ class TestZKModel(tests.BaseTestCase):
         o = zk.NodeRequest("500-123")
         o.declined_by.append("abc")
         o.node_types.append('trusty')
+        o.nodes.append('100')
         d = o.toDict()
         self.assertNotIn('id', d)
         self.assertIn('state', d)
         self.assertIn('state_time', d)
-        self.assertEqual(d['declined_by'], ['abc'])
-        self.assertEqual(d['node_types'], ['trusty'])
+        self.assertEqual(d['declined_by'], o.declined_by)
+        self.assertEqual(d['node_types'], o.node_types)
+        self.assertEqual(d['nodes'], o.nodes)
 
     def test_NodeRequest_fromDict(self):
         now = int(time.time())
@@ -633,6 +635,7 @@ class TestZKModel(tests.BaseTestCase):
             'state_time': now,
             'declined_by': ['abc'],
             'node_types': ['trusty'],
+            'nodes': ['100'],
         }
 
         o = zk.NodeRequest.fromDict(d, req_id)
@@ -640,16 +643,20 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.state, d['state'])
         self.assertEqual(o.state_time, d['state_time'])
         self.assertEqual(o.declined_by, d['declined_by'])
+        self.assertEqual(o.node_types, d['node_types'])
+        self.assertEqual(o.nodes, d['nodes'])
 
     def test_Node_toDict(self):
         o = zk.Node('123')
         o.provider = 'rax'
+        o.type = 'trusty'
         o.allocated_to = '456-789'
         d = o.toDict()
         self.assertNotIn('id', d)
         self.assertIn('state', d)
         self.assertIn('state_time', d)
         self.assertEqual(d['provider'], o.provider)
+        self.assertEqual(d['type'], o.type)
         self.assertEqual(d['allocated_to'], o.allocated_to)
 
     def test_Node_fromDict(self):
@@ -659,6 +666,7 @@ class TestZKModel(tests.BaseTestCase):
             'state': zk.READY,
             'state_time': now,
             'provider': 'rax',
+            'type': 'trusty',
             'allocated_to': '456-789',
         }
 
@@ -667,4 +675,5 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.state, d['state'])
         self.assertEqual(o.state_time, d['state_time'])
         self.assertEqual(o.provider, d['provider'])
+        self.assertEqual(o.type, d['type'])
         self.assertEqual(o.allocated_to, d['allocated_to'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 6ba1c6ffb..ba19527bc 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -317,6 +317,7 @@ class NodeRequest(BaseModel):
         self.lock = None
         self.declined_by = []
         self.node_types = []
+        self.nodes = []
 
     def __repr__(self):
         d = self.toDict()
@@ -331,6 +332,7 @@ class NodeRequest(BaseModel):
         d = super(NodeRequest, self).toDict()
         d['declined_by'] = self.declined_by
         d['node_types'] = self.node_types
+        d['nodes'] = self.nodes
         return d
 
     @staticmethod
@@ -347,6 +349,7 @@ class NodeRequest(BaseModel):
         super(NodeRequest, o).fromDict(d)
         o.declined_by = d.get('declined_by', [])
         o.node_types = d.get('node_types', [])
+        o.nodes = d.get('nodes', [])
         return o
 
 
@@ -361,6 +364,7 @@ class Node(BaseModel):
         super(Node, self).__init__(id)
         self.lock = None
         self.provider = None
+        self.type = None
         self.allocated_to = None
 
     def __repr__(self):
@@ -375,6 +379,7 @@ class Node(BaseModel):
                     self.state == other.state and
                     self.state_time == other.state_time and
                     self.provider == other.provider and
+                    self.type == other.type and
                     self.allocated_to == other.allocated_to)
         else:
             return False
@@ -385,6 +390,7 @@ class Node(BaseModel):
         '''
         d = super(Node, self).toDict()
         d['provider'] = self.provider
+        d['type'] = self.type
         d['allocated_to'] = self.allocated_to
         return d
 
@@ -401,6 +407,7 @@ class Node(BaseModel):
         o = Node(o_id)
         super(Node, o).fromDict(d)
         o.provider = d.get('provider')
+        o.type = d.get('type')
         o.allocated_to = d.get('allocated_to')
         return o
 

From e27d786b38007f6eff98482e3792833b37b9ee4d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 31 Jan 2017 13:12:21 -0500
Subject: [PATCH 031/309] Assign node set to node requests

This adds the concept of a NodeLaunchManager that will spawn threads
for all new nodes that need launched. It can be polled to see if the
launches have completed.

NOTE: No nodes are actually launched yet by the new, empty
NodeLauncher thread class.

Test changes:
  - add test that nodes are assigned correctly to a request
  - add test that node request is updated correctly when launching fails
  - rename test_decline_and_fail to test_invalid_image_fails

Change-Id: Ib7b2c9298d5c903610276bf6dfde9eb483d8dac3
---
 nodepool/nodepool.py                     | 275 ++++++++++++++++++++---
 nodepool/tests/test_nodelaunchmanager.py |  63 ++++++
 nodepool/tests/test_nodepool.py          |  59 ++++-
 nodepool/zk.py                           |   4 +-
 4 files changed, 367 insertions(+), 34 deletions(-)
 create mode 100644 nodepool/tests/test_nodelaunchmanager.py

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index dd1517c15..517bfe06b 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -208,7 +208,7 @@ class NodeDeleter(threading.Thread):
                                self.node_id)
 
 
-class NodeLauncher(threading.Thread):
+class OLDNodeLauncher(threading.Thread):
     log = logging.getLogger("nodepool.NodeLauncher")
 
     def __init__(self, nodepool, provider, label, target, node_id, timeout,
@@ -671,6 +671,103 @@ class SubNodeLauncher(threading.Thread):
         return dt
 
 
+class NodeLauncher(threading.Thread):
+    def __init__(self, zk, node, retries):
+        threading.Thread.__init__(self)
+        self._zk = zk
+        self._node = node
+        self._retries = retries
+
+    def _launchNode(self):
+        # TODO(Shrews): Use self._retries here
+        pass
+
+    def run(self):
+        try:
+            self._run()
+        except Exception:
+            self._node.state = zk.FAILED
+            self._zk.storeNode(self._node)
+
+    def _run(self):
+        self._launchNode()
+        self._node.state = zk.READY
+        self._zk.storeNode(self._node)
+
+
+class NodeLaunchManager(object):
+    '''
+    Handle launching multiple nodes in parallel.
+    '''
+    def __init__(self, zk, retries):
+        self._zk = zk
+        self._retries = retries
+        self._nodes = []
+        self._failed_nodes = []
+        self._ready_nodes = []
+        self._threads = []
+
+    @property
+    def alive_thread_count(self):
+        count = 0
+        for t in self._threads:
+            if t.isAlive():
+                count += 1
+        return count
+
+    @property
+    def failed_nodes(self):
+        return self._failed_nodes
+
+    @property
+    def ready_nodes(self):
+        return self._ready_nodes
+
+    def launch(self, node):
+        '''
+        Launch a new node as described by the supplied Node.
+
+        We expect each NodeLauncher thread to directly modify the node that
+        is passed to it. The poll() method will expect to see the node.state
+        attribute to change as the node is processed.
+
+        :param Node node: The node object.
+        '''
+        self._nodes.append(node)
+        t = NodeLauncher(self._zk, node, self._retries)
+        t.start()
+        self._threads.append(t)
+
+    def poll(self):
+        '''
+        Check if all launch requests have completed.
+
+        When all of the Node objects have reached a final state (READY or
+        FAILED), we'll know all threads have finished the launch process.
+        '''
+        if not self._threads:
+            return True
+
+        # Give the NodeLaunch threads time to finish.
+        if self.alive_thread_count:
+            return False
+
+        node_states = [node.state for node in self._nodes]
+
+        # NOTE: It very important that NodeLauncher always sets one of
+        # these states, no matter what.
+        if not all(s in (zk.READY, zk.FAILED) for s in node_states):
+            return False
+
+        for node in self._nodes:
+            if node.state == zk.READY:
+                self._ready_nodes.append(node)
+            else:
+                self._failed_nodes.append(node)
+
+        return True
+
+
 class NodeRequestHandler(object):
     '''
     Class to process a single node request.
@@ -690,6 +787,8 @@ class NodeRequestHandler(object):
         self.manager = pw.manager
         self.launcher_id = pw.launcher_id
         self.request = request
+        self.launch_manager = None
+        self.nodeset = []
         self.done = False
 
     def _imagesAvailable(self):
@@ -730,15 +829,37 @@ class NodeRequestHandler(object):
         num_in_use = self._countNodes()
         return num_requested + num_in_use > provider_max
 
-    def run(self):
-        self.log.debug("Handling request %s" % self.request)
-        try:
-            self._run()
-        except Exception:
-            self.log.exception("Exception in NodeRequestHandler:")
-            self.request.state = zk.FAILED
-            self.zk.updateNodeRequest(self.request)
-            self.zk.unlockNodeRequest(self.request)
+    def _unlockNodeSet(self):
+        '''
+        Attempt unlocking all Nodes in the object node set.
+        '''
+        for node in self.nodeset:
+            if not node.lock:
+                continue
+            try:
+                self.zk.unlockNode(node)
+            except Exception:
+                self.log.exception("Error unlocking node:")
+
+    def _getReadyNodesOfTypes(self, ntypes):
+        '''
+        Query ZooKeeper for unused/ready nodes.
+
+        :param str ntypes: The node types we want.
+
+        :returns: A dictionary, keyed by node type, with lists of Node objects
+            that are ready, or an empty dict if none are found.
+        '''
+        ret = {}
+        for node_id in self.zk.getNodes():
+            node = self.zk.getNode(node_id)
+            if (node and node.state == zk.READY and
+                not node.allocated_to and node.type in ntypes
+            ):
+                if node.type not in ret:
+                    ret[node.type] = []
+                ret[node.type].append(node)
+        return ret
 
     def _run(self):
         '''
@@ -752,16 +873,6 @@ class NodeRequestHandler(object):
             launchers could attempt to launch a new node after the other
             launcher has already started doing so. This would cause an
             expected failure from the underlying library, which is ok for now.
-
-        Algorithm from spec::
-
-           # If image not available, decline
-           # If request > quota, decline
-           # If request < quota and request > available nodes (due to current
-             usage), begin satisfying the request and do not process further
-             requests until satisfied
-           # If request < quota and request < available nodes, satisfy the
-             request and continue processing further requests
         '''
         if not self._imagesAvailable() or self._wouldExceedQuota():
             self.request.declined_by.append(self.launcher_id)
@@ -774,17 +885,104 @@ class NodeRequestHandler(object):
             self.done = True
             return
 
-        # TODO(Shrews): Determine node availability and if we need to launch
-        # new nodes, or reuse existing nodes.
-
         self.request.state = zk.PENDING
         self.zk.updateNodeRequest(self.request)
 
-        # TODO(Shrews): Make magic happen here
+        self.launch_manager = NodeLaunchManager(self.zk, retries=3)
+        ready_nodes = self._getReadyNodesOfTypes(self.request.node_types)
 
-        self.request.state = zk.FULFILLED
+        for ntype in self.request.node_types:
+            # First try to grab from the list of already available nodes.
+            got_a_node = False
+            if ntype in ready_nodes:
+                for node in ready_nodes[ntype]:
+                    try:
+                        self.zk.lockNode(node, blocking=False)
+                    except exceptions.ZKLockException:
+                        # It's already locked so skip it.
+                        continue
+                    else:
+                        got_a_node = True
+                        node.allocated_to = self.request.id
+                        self.zk.storeNode(node)
+                        self.nodeset.append(node)
+                        break
+
+            # Could not grab an existing node, so launch a new one.
+            if not got_a_node:
+                node = zk.Node()
+                node.state = zk.INIT
+                node.type = ntype
+                node.provider = self.provider.name
+                node.allocated_to = self.request.id
+
+                # Note: It should be safe (i.e., no race) to lock the node
+                # *after* it is stored since nodes in BUILDING state are not
+                # locked anywhere.
+                self.zk.storeNode(node)
+                self.zk.lockNode(node, blocking=False)
+
+                # Set state AFTER lock so sthat it isn't accidentally cleaned
+                # up (unlocked BUILDING nodes will be deleted).
+                node.state = zk.BUILDING
+                self.zk.storeNode(node)
+
+                # NOTE: We append the node to nodeset if it successfully
+                # launches.
+                self.launch_manager.launch(node)
+
+    @property
+    def alive_thread_count(self):
+        return self.launch_manager.alive_thread_count
+
+    def run(self):
+        try:
+            self._run()
+        except Exception:
+            self.log.exception("Exception in NodeRequestHandler:")
+            self.request.state = zk.FAILED
+            self.zk.updateNodeRequest(self.request)
+            self.zk.unlockNodeRequest(self.request)
+            self.done = True
+
+    def poll(self):
+        '''
+        Check if the request has been handled.
+
+        Once the request has been handled, the 'nodeset' attribute will be
+        filled with the list of nodes assigned to the request, or it will be
+        empty if the request could not be fulfilled.
+
+        :returns: True if we are done with the request, False otherwise.
+        '''
+        if self.done:
+            return True
+
+        if not self.launch_manager.poll():
+            return False
+
+        # TODO(Shrews): Verify the request still exists before updating it.
+
+        if self.launch_manager.failed_nodes:
+            self.nodeset = []
+            self.request.declined_by.append(self.launcher_id)
+            launchers = set(self.zk.getRegisteredLaunchers())
+            if launchers.issubset(set(self.request.declined_by)):
+                # All launchers have declined it
+                self.request.state = zk.FAILED
+            else:
+                self.request.state = zk.REQUESTED
+        else:
+            self.nodeset.extend(self.launch_manager.ready_nodes)
+            for node in self.nodeset:
+                # Record node ID in the request
+                self.request.nodes.append(node.id)
+            self.request.state = zk.FULFILLED
+
+        self._unlockNodeSet()
         self.zk.updateNodeRequest(self.request)
         self.zk.unlockNodeRequest(self.request)
+        return True
 
 
 class ProviderWorker(threading.Thread):
@@ -847,10 +1045,16 @@ class ProviderWorker(threading.Thread):
             self.manager.start()
 
     def _activeThreads(self):
+        '''
+        Return the number of alive threads in use by this provider.
+
+        This is an approximate, top-end number for alive threads, since some
+        threads obviously may have finished by the time we finish the
+        calculation.
+        '''
         total = 0
-        # TODO(Shrews): return a count of active threads
-        #for r in self.request_handlers:
-        #    total += r.alive_thread_count
+        for r in self.request_handlers:
+            total += r.alive_thread_count
         return total
 
     def _assignHandlers(self):
@@ -904,10 +1108,9 @@ class ProviderWorker(threading.Thread):
         Poll handlers to see which have completed.
         '''
         active_handlers = []
-        # TODO(Shrews): implement handler polling
-        #for r in self.request_handlers:
-        #    if not r.poll():
-        #        active_handlers.append(r)
+        for r in self.request_handlers:
+            if not r.poll():
+                active_handlers.append(r)
         self.request_handlers = active_handlers
 
     #----------------------------------------------------------------
@@ -935,8 +1138,16 @@ class ProviderWorker(threading.Thread):
             time.sleep(self.watermark_sleep)
 
     def stop(self):
+        '''
+        Shutdown the ProviderWorker thread.
+
+        Do not wait for the request handlers to finish. Any nodes
+        that are in the process of launching will be cleaned up on a
+        restart. They will be unlocked and BUILDING in ZooKeeper.
+        '''
         self.log.info("%s received stop" % self.name)
         self.running = False
+
         if self.manager:
             self.manager.stop()
             self.manager.join()
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
new file mode 100644
index 000000000..db87121cf
--- /dev/null
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -0,0 +1,63 @@
+# Copyright (C) 2017 Red Hat, Inc.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
+# implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import logging
+import mock
+import time
+
+from nodepool import tests
+from nodepool import zk
+from nodepool.nodepool import NodeLaunchManager
+
+
+class TestNodeLaunchManager(tests.DBTestCase):
+    log = logging.getLogger("nodepool.TestNodeLaunchManager")
+
+    def test_successful_launch(self):
+        n1 = zk.Node()
+        n1.state = zk.BUILDING
+        mgr = NodeLaunchManager(self.zk, 0)
+        mgr.launch(n1)
+        while not mgr.poll():
+            time.sleep(0)
+        self.assertEqual(len(mgr.ready_nodes), 1)
+        self.assertEqual(len(mgr.failed_nodes), 0)
+
+    @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
+    def test_failed_launch(self, mock_launch):
+        mock_launch.side_effect = Exception()
+        n1 = zk.Node()
+        n1.state = zk.BUILDING
+        mgr = NodeLaunchManager(self.zk, 0)
+        mgr.launch(n1)
+        while not mgr.poll():
+            time.sleep(0)
+        self.assertEqual(len(mgr.failed_nodes), 1)
+        self.assertEqual(len(mgr.ready_nodes), 0)
+
+    @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
+    def test_mixed_launch(self, mock_launch):
+        mock_launch.side_effect = [None, Exception()]
+        n1 = zk.Node()
+        n1.state = zk.BUILDING
+        n2 = zk.Node()
+        n2.state = zk.BUILDING
+        mgr = NodeLaunchManager(self.zk, 0)
+        mgr.launch(n1)
+        mgr.launch(n2)
+        while not mgr.poll():
+            time.sleep(0)
+        self.assertEqual(len(mgr.failed_nodes), 1)
+        self.assertEqual(len(mgr.ready_nodes), 1)
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index c2ea2cdc4..c614a9cbd 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -15,6 +15,7 @@
 
 import json
 import logging
+import mock
 import time
 from unittest import skip
 
@@ -30,7 +31,63 @@ import nodepool.nodepool
 class TestNodepool(tests.DBTestCase):
     log = logging.getLogger("nodepool.TestNodepool")
 
-    def test_decline_and_fail(self):
+    def test_node_assignment(self):
+        '''
+        Successful node launch should have unlocked nodes in READY state
+        and assigned to the request.
+        '''
+        configfile = self.setup_config('node.yaml')
+        self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
+
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+
+        req = zk.NodeRequest()
+        req.node_types.append('fake-image')
+        self.submitNodeRequest(req)
+        self.assertEqual(req.state, zk.REQUESTED)
+
+        req = self.waitForNodeRequest(req)
+        self.assertEqual(req.state, zk.FULFILLED)
+
+        self.assertNotEqual(req.nodes, [])
+        for node_id in req.nodes:
+            node = self.zk.getNode(node_id)
+            self.assertEqual(node.allocated_to, req.id)
+            self.assertEqual(node.state, zk.READY)
+            self.zk.lockNode(node, blocking=False)
+            self.zk.unlockNode(node)
+
+
+    @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
+    def test_fail_request_on_launch_failure(self, mock_launch):
+        '''
+        Test that provider launch error fails the request.
+        '''
+        mock_launch.side_effect = Exception()
+
+        configfile = self.setup_config('node.yaml')
+        self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
+
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+
+        req = zk.NodeRequest()
+        req.node_types.append('fake-image')
+        self.submitNodeRequest(req)
+        self.assertEqual(req.state, zk.REQUESTED)
+
+        req = self.waitForNodeRequest(req)
+        self.assertTrue(mock_launch.called)
+        self.assertEqual(req.state, zk.FAILED)
+        self.assertNotEqual(req.declined_by, [])
+
+    def test_invalid_image_fails(self):
+        '''
+        Test that an invalid image declines and fails the request.
+        '''
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
diff --git a/nodepool/zk.py b/nodepool/zk.py
index ba19527bc..1eb48c539 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -49,6 +49,8 @@ IN_USE = 'in-use'
 USED = 'used'
 # Node is being held
 HOLD = 'hold'
+# Initial node state
+INIT = 'init'
 
 
 class ZooKeeperConnectionConfig(object):
@@ -358,7 +360,7 @@ class Node(BaseModel):
     Class representing a launched node.
     '''
     VALID_STATES = set([BUILDING, TESTING, READY, IN_USE, USED,
-                        HOLD, DELETING, FAILED])
+                        HOLD, DELETING, FAILED, INIT])
 
     def __init__(self, id=None):
         super(Node, self).__init__(id)

From 315ee5256654c36bec36147fae052622884adc5e Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 6 Feb 2017 14:34:28 -0500
Subject: [PATCH 032/309] Add 'hostname-format' to provider config section

We will no longer get the hostname format from the 'target' section
of the config file, and instead just grab it from the 'provider'
section. Move 'hostname' to 'hostname-format' in the 'provider' section.

Also, rename 'template-hostname' to 'image-name-format' since it's
used for the external (provider) image names and not really hostnames.

Change-Id: I1ab2644d31eb371e1cf6b5e67ed2d2f850cf2464
---
 doc/source/configuration.rst     | 24 ++++++++++--------------
 nodepool/builder.py              |  8 ++------
 nodepool/cmd/config_validator.py |  5 ++---
 nodepool/config.py               | 19 +++++++------------
 4 files changed, 21 insertions(+), 35 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index c6aaede9f..ae64ba8b3 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -308,7 +308,8 @@ provider, the Nodepool image types are also defined (see
         - az1
       boot-timeout: 120
       launch-timeout: 900
-      template-hostname: 'template-{image.name}-{timestamp}'
+      image-name-format: 'template-{image_name}-{timestamp}'
+      hostname-format: '{label.name}-{provider.name}-{node.id}'
       ipv6-preferred: False
       networks:
         - name: 'some-network-name'
@@ -341,7 +342,8 @@ provider, the Nodepool image types are also defined (see
       region-name: 'region1'
       max-servers: 96
       rate: 1.0
-      template-hostname: '{image.name}-{timestamp}-nodepool-template'
+      image-name-format: 'template-{image_name}-{timestamp}'
+      hostname-format: '{label.name}-{provider.name}-{node.id}'
       images:
         - name: precise
           min-ram: 8192
@@ -448,9 +450,13 @@ provider, the Nodepool image types are also defined (see
 
   ``region-name``
 
-  ``template-hostname``
+  ``hostname-format``
     Hostname template to use for the spawned instance.
-    Default ``template-{image.name}-{timestamp}``
+    Default ``{label.name}-{provider.name}-{node.id}``
+
+  ``image-name-format``
+    Format for image names that are uploaded to providers.
+    Default ``template-{image_name}-{timestamp}``
 
   ``rate``
     In seconds. Default 1.0.
@@ -543,11 +549,7 @@ across all of the targets which are on-line::
 
   targets:
     - name: jenkins1
-      hostname: '{label.name}-{provider.name}-{node_id}'
-      subnode-hostname: '{label.name}-{provider.name}-{node_id}-{subnode_id}'
     - name: jenkins2
-      hostname: '{label.name}-{provider.name}-{node_id}'
-      subnode-hostname: '{label.name}-{provider.name}-{node_id}-{subnode_id}'
 
 **required**
 
@@ -556,12 +558,6 @@ across all of the targets which are on-line::
 
 **optional**
 
-  ``hostname``
-    Default ``{label.name}-{provider.name}-{node_id}``
-
-  ``subnode-hostname``
-    Default ``{label.name}-{provider.name}-{node_id}-{subnode_id}``
-
   ``rate``
     In seconds. Default 1.0
 
diff --git a/nodepool/builder.py b/nodepool/builder.py
index 785dde26b..a3457f135 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -841,12 +841,8 @@ class UploadWorker(BaseWorker):
 
         filename = image.to_path(self._config.imagesdir, with_extension=True)
 
-        dummy_image = type('obj', (object,),
-                           {'name': image_name, 'id': image.image_id})
-
-        ext_image_name = provider.template_hostname.format(
-            provider=provider, image=dummy_image,
-            timestamp=str(timestamp)
+        ext_image_name = provider.image_name_format.format(
+            image_name=image_name, timestamp=str(timestamp)
         )
 
         self.log.info("Uploading DIB image build %s from %s to %s" %
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 3c538dd73..3a8a69553 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -76,7 +76,8 @@ class ConfigValidator:
             'launch-timeout': int,
             'rate': float,
             'images': [images],
-            'template-hostname': str,
+            'hostname-format': str,
+            'image-name-format': str,
             'clean-floating-ips': bool,
         }
 
@@ -93,8 +94,6 @@ class ConfigValidator:
 
         targets = {
             'name': str,
-            'hostname': str,
-            'subnode-hostname': str,
             'jenkins': {
                 'url': str,
                 'user': str,
diff --git a/nodepool/config.py b/nodepool/config.py
index cf714bf8a..30f531d7d 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -198,9 +198,13 @@ def loadConfig(config_path):
         p.ipv6_preferred = provider.get('ipv6-preferred')
         p.clean_floating_ips = provider.get('clean-floating-ips')
         p.azs = provider.get('availability-zones')
-        p.template_hostname = provider.get(
-            'template-hostname',
-            'template-{image.name}-{timestamp}'
+        p.hostname_format = provider.get(
+            'hostname-format',
+            '{label.name}-{provider.name}-{node.id}'
+        )
+        p.image_name_format = provider.get(
+            'image-name-format',
+            'template-{image_name}-{timestamp}'
         )
         p.image_type = provider.get(
             'image-type', p.cloud_config.config['image_format'])
@@ -286,15 +290,6 @@ def loadConfig(config_path):
         t.jenkins_apikey = None
         t.jenkins_credentials_id = None
 
-        t.hostname = target.get(
-            'hostname',
-            '{label.name}-{provider.name}-{node_id}'
-        )
-        t.subnode_hostname = target.get(
-            'subnode-hostname',
-            '{label.name}-{provider.name}-{node_id}-{subnode_id}'
-        )
-
     return newconfig
 
 

From 0d3272fcaf78245da1786bcb3c59df9facd9e971 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 7 Feb 2017 16:56:54 -0500
Subject: [PATCH 033/309] Unallocate new nodes if request is pulled

If a node request is gone when we have finished launching nodes for
it, unallocate the nodes to allow another request to grab them.

Change-Id: I238cc63ce5a90ea003135c0a9252a4a30d838e00
---
 nodepool/nodepool.py | 10 +++++++++-
 nodepool/zk.py       |  2 ++
 2 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 517bfe06b..92c5ad038 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -961,7 +961,15 @@ class NodeRequestHandler(object):
         if not self.launch_manager.poll():
             return False
 
-        # TODO(Shrews): Verify the request still exists before updating it.
+        # If the request has been pulled, unallocate the node set so other
+        # requests can use them.
+        if not self.zk.getNodeRequest(self.request.id):
+            self.log.info("Node request %s disappeared", self.request.id)
+            for node in self.nodeset:
+                node.allocated_to = None
+                self.zk.storeNode(node)
+            self._unlockNodeSet()
+            return True
 
         if self.launch_manager.failed_nodes:
             self.nodeset = []
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 1eb48c539..868c7ad03 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1191,6 +1191,8 @@ class ZooKeeper(object):
         '''
         Get the data for a specific node request.
 
+        :param str request: The request ID.
+
         :returns: The request data, or None if the request was not found.
         '''
         path = self._requestPath(request)

From 91c2180baafd0e8a6dae49be3c0d998e4e6f2bec Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 8 Feb 2017 10:21:41 -0500
Subject: [PATCH 034/309] Add new Node ZK model attributes.

This should complete the Node model, based on the representation
in the ZuulV3 spec:

  https://specs.openstack.org/openstack-infra/infra-specs/specs/zuulv3.html

Change-Id: Ic2911023b3a7d03a896a2c44c2c401a0889bcc38
---
 nodepool/tests/test_zk.py | 31 ++++++++++++++++++++++++++++++-
 nodepool/zk.py            | 39 ++++++++++++++++++++++++++++++++++++++-
 2 files changed, 68 insertions(+), 2 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index bbdfc7eef..8bdf33ab6 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -648,16 +648,31 @@ class TestZKModel(tests.BaseTestCase):
 
     def test_Node_toDict(self):
         o = zk.Node('123')
+        o.state = zk.INIT
         o.provider = 'rax'
         o.type = 'trusty'
         o.allocated_to = '456-789'
+        o.az = 'RegionOne'
+        o.public_ipv4 = '<ipv4>'
+        o.private_ipv4 = '<pvt-ipv4>'
+        o.public_ipv6 = '<ipv6>'
+        o.image_id = 'image-id'
+        o.launcher = 'launcher-id'
+
         d = o.toDict()
         self.assertNotIn('id', d)
-        self.assertIn('state', d)
+        self.assertEqual(d['state'], o.state)
         self.assertIn('state_time', d)
+        self.assertIn('created_time', d)
         self.assertEqual(d['provider'], o.provider)
         self.assertEqual(d['type'], o.type)
         self.assertEqual(d['allocated_to'], o.allocated_to)
+        self.assertEqual(d['az'], o.az)
+        self.assertEqual(d['public_ipv4'], o.public_ipv4)
+        self.assertEqual(d['private_ipv4'], o.private_ipv4)
+        self.assertEqual(d['public_ipv6'], o.public_ipv6)
+        self.assertEqual(d['image_id'], o.image_id)
+        self.assertEqual(d['launcher'], o.launcher)
 
     def test_Node_fromDict(self):
         now = int(time.time())
@@ -665,15 +680,29 @@ class TestZKModel(tests.BaseTestCase):
         d = {
             'state': zk.READY,
             'state_time': now,
+            'created_time': now - 2,
             'provider': 'rax',
             'type': 'trusty',
             'allocated_to': '456-789',
+            'az': 'RegionOne',
+            'public_ipv4': '<ipv4>',
+            'private_ipv4': '<pvt-ipv4>',
+            'public_ipv6': '<ipv6>',
+            'image_id': 'image-id',
+            'launcher': 'launcher-id',
         }
 
         o = zk.Node.fromDict(d, node_id)
         self.assertEqual(o.id, node_id)
         self.assertEqual(o.state, d['state'])
         self.assertEqual(o.state_time, d['state_time'])
+        self.assertEqual(o.created_time, d['created_time'])
         self.assertEqual(o.provider, d['provider'])
         self.assertEqual(o.type, d['type'])
         self.assertEqual(o.allocated_to, d['allocated_to'])
+        self.assertEqual(o.az, d['az'])
+        self.assertEqual(o.public_ipv4, d['public_ipv4'])
+        self.assertEqual(o.private_ipv4, d['private_ipv4'])
+        self.assertEqual(o.public_ipv6, d['public_ipv6'])
+        self.assertEqual(o.image_id, d['image_id'])
+        self.assertEqual(o.launcher, d['launcher'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 868c7ad03..0a7e2e398 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -368,6 +368,13 @@ class Node(BaseModel):
         self.provider = None
         self.type = None
         self.allocated_to = None
+        self.az = None
+        self.public_ipv4 = None
+        self.private_ipv4 = None
+        self.public_ipv6 = None
+        self.image_id = None
+        self.launcher = None
+        self.created_time = None
 
     def __repr__(self):
         d = self.toDict()
@@ -382,7 +389,14 @@ class Node(BaseModel):
                     self.state_time == other.state_time and
                     self.provider == other.provider and
                     self.type == other.type and
-                    self.allocated_to == other.allocated_to)
+                    self.allocated_to == other.allocated_to and
+                    self.az == other.az and
+                    self.public_ipv4 == other.public_ipv4 and
+                    self.private_ipv4 == other.private_ipv4 and
+                    self.public_ipv6 == other.public_ipv6 and
+                    self.image_id == other.image_id and
+                    self.launcher == other.launcher and
+                    self.created_time == other.created_time)
         else:
             return False
 
@@ -394,6 +408,13 @@ class Node(BaseModel):
         d['provider'] = self.provider
         d['type'] = self.type
         d['allocated_to'] = self.allocated_to
+        d['az'] = self.az
+        d['public_ipv4'] = self.public_ipv4
+        d['private_ipv4'] = self.private_ipv4
+        d['public_ipv6'] = self.public_ipv6
+        d['image_id'] = self.image_id
+        d['launcher'] = self.launcher
+        d['created_time'] = self.created_time
         return d
 
     @staticmethod
@@ -411,6 +432,13 @@ class Node(BaseModel):
         o.provider = d.get('provider')
         o.type = d.get('type')
         o.allocated_to = d.get('allocated_to')
+        o.az = d.get('az')
+        o.public_ipv4 = d.get('public_ipv4')
+        o.private_ipv4 = d.get('private_ipv4')
+        o.public_ipv6 = d.get('public_ipv6')
+        o.image_id = d.get('image_id')
+        o.launcher = d.get('launcher')
+        o.created_time = d.get('created_time')
         return o
 
 
@@ -1360,6 +1388,15 @@ class ZooKeeper(object):
         '''
         if not node.id:
             node_path = "%s/" % self.NODE_ROOT
+
+            # We expect a new node to always have a state already set, so
+            # use that state_time for created_time for consistency. But have
+            # this check, just in case.
+            if node.state_time:
+                node.created_time = node.state_time
+            else:
+                node.created_time = time.time()
+
             path = self.client.create(
                 node_path,
                 value=node.serialize(),

From dd6de5b506f8fe03939055fad6ae1382ff9cd0a1 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Feb 2017 09:12:46 -0500
Subject: [PATCH 035/309] Remove 'template-' from image name format

Change-Id: I5d37fc28752125f42c9c7fa1a2869486187f3b22
---
 nodepool/config.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/config.py b/nodepool/config.py
index 30f531d7d..1d218ed58 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -204,7 +204,7 @@ def loadConfig(config_path):
         )
         p.image_name_format = provider.get(
             'image-name-format',
-            'template-{image_name}-{timestamp}'
+            '{image_name}-{timestamp}'
         )
         p.image_type = provider.get(
             'image-type', p.cloud_config.config['image_format'])

From b27b4798a4a87530d03396172989a1d6f1cd226e Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Fri, 10 Feb 2017 12:37:21 -0500
Subject: [PATCH 036/309] Remove subnodes from nodepool

As we move closer to zuulv3, the concept of sub-nodes no longer
applies.  As a result, we can start to remove the legacy code making
it easier to re-enable our unit tests in the future.

Change-Id: If964e082bb56b32c8fbc0f3539b83629976fe041
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 doc/source/configuration.rst                  |  12 -
 nodepool/allocation.py                        |  10 +-
 nodepool/cmd/config_validator.py              |   1 -
 nodepool/config.py                            |   1 -
 nodepool/nodedb.py                            |  76 +----
 nodepool/nodepool.py                          | 264 +-----------------
 .../tests/fixtures/config_validate/good.yaml  |   1 -
 .../fixtures/config_validate/yaml_error.yaml  |   1 -
 nodepool/tests/fixtures/subnodes.yaml         |  61 ----
 nodepool/tests/test_allocator.py              |  32 +--
 nodepool/tests/test_nodepool.py               |  63 -----
 tools/fake.yaml                               |   1 -
 12 files changed, 27 insertions(+), 496 deletions(-)
 delete mode 100644 nodepool/tests/fixtures/subnodes.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index ae64ba8b3..1f4eea811 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -147,7 +147,6 @@ providers or images are used to create them).  Example::
         - name: provider2
     - name: multi-precise
       image: precise
-      subnodes: 2
       min-ready: 2
       ready-script: setup_multinode.sh
       providers:
@@ -172,17 +171,6 @@ providers or images are used to create them).  Example::
     label considered disabled. ``min-ready`` is best-effort based on available
     capacity and is not a guaranteed allocation.
 
-  ``subnodes``
-    Used to configure multi-node support.  If a `subnodes` key is supplied to
-    an image, it indicates that the specified number of additional nodes of the
-    same image type should be created and associated with each node for that
-    image.
-
-    Only one node from each such group will be added to the target, the
-    subnodes are expected to communicate directly with each other.  In the
-    example above, for each Precise node added to the target system, two
-    additional nodes will be created and associated with it.
-
   ``ready-script``
     A script to be used to perform any last minute changes to a node after it
     has been launched but before it is put in the READY state to receive jobs.
diff --git a/nodepool/allocation.py b/nodepool/allocation.py
index cf34afb18..c834dffc0 100644
--- a/nodepool/allocation.py
+++ b/nodepool/allocation.py
@@ -236,11 +236,11 @@ class AllocationRequest(object):
         art = AllocationRequestTarget(self, target, current)
         self.request_targets[target] = art
 
-    def addProvider(self, provider, target, subnodes):
+    def addProvider(self, provider, target):
         # Handle being called multiple times with different targets.
         s = self.sub_requests.get(provider)
         if not s:
-            s = AllocationSubRequest(self, provider, subnodes)
+            s = AllocationSubRequest(self, provider)
         agt = s.addTarget(self.request_targets[target])
         self.sub_requests[provider] = s
         if s not in provider.sub_requests:
@@ -263,11 +263,10 @@ class AllocationRequest(object):
 
 class AllocationSubRequest(object):
     """A request for a number of images from a specific provider."""
-    def __init__(self, request, provider, subnodes):
+    def __init__(self, request, provider):
         self.request = request
         self.provider = provider
         self.amount = 0.0
-        self.subnodes = subnodes
         self.targets = []
 
     def __repr__(self):
@@ -313,8 +312,7 @@ class AllocationSubRequest(object):
         self.amount = amount
         # Adjust provider and request values accordingly.
         self.request.amount -= amount
-        subnode_factor = 1 + self.subnodes
-        self.provider.available -= (amount * subnode_factor)
+        self.provider.available -= (amount)
         # Adjust the requested values for related sub-requests.
         self.request.makeRequests()
         # Allocate these granted nodes to targets.
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 3a8a69553..65afd65cc 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -86,7 +86,6 @@ class ConfigValidator:
             'image': str,
             'min-ready': int,
             'ready-script': str,
-            'subnodes': int,
             'providers': [{
                 'name': str,
             }],
diff --git a/nodepool/config.py b/nodepool/config.py
index 1d218ed58..7a49152ba 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -269,7 +269,6 @@ def loadConfig(config_path):
         newconfig.labels[l.name] = l
         l.image = label['image']
         l.min_ready = label.get('min-ready', 2)
-        l.subnodes = label.get('subnodes', 0)
         l.ready_script = label.get('ready-script')
         l.providers = {}
         for provider in label['providers']:
diff --git a/nodepool/nodedb.py b/nodepool/nodedb.py
index 62abb29da..d7ae959b7 100644
--- a/nodepool/nodedb.py
+++ b/nodepool/nodedb.py
@@ -43,7 +43,7 @@ STATE_NAMES = {
 
 from sqlalchemy import Table, Column, Integer, String, \
     MetaData, create_engine
-from sqlalchemy.orm import scoped_session, mapper, relationship, foreign
+from sqlalchemy.orm import scoped_session, mapper
 from sqlalchemy.orm.session import Session, sessionmaker
 
 metadata = MetaData()
@@ -75,24 +75,6 @@ node_table = Table(
     Column('comment', String(255)),
     mysql_engine='InnoDB',
     )
-subnode_table = Table(
-    'subnode', metadata,
-    Column('id', Integer, primary_key=True),
-    Column('node_id', Integer, index=True, nullable=False),
-    # Machine name
-    Column('hostname', String(255), index=True),
-    # Provider assigned id for this machine
-    Column('external_id', String(255)),
-    # Primary IP address
-    Column('ip', String(255)),
-    # Internal/fixed IP address
-    Column('ip_private', String(255)),
-    # One of the above values
-    Column('state', Integer),
-    # Time of last state change
-    Column('state_time', Integer),
-    mysql_engine='InnoDB',
-    )
 job_table = Table(
     'job', metadata,
     Column('id', Integer, primary_key=True),
@@ -138,38 +120,6 @@ class Node(object):
             session.commit()
 
 
-class SubNode(object):
-    def __init__(self, node,
-                 hostname=None, external_id=None, ip=None, ip_private=None,
-                 state=BUILDING):
-        self.node_id = node.id
-        self.provider_name = node.provider_name
-        self.label_name = node.label_name
-        self.target_name = node.target_name
-        self.external_id = external_id
-        self.ip = ip
-        self.ip_private = ip_private
-        self.hostname = hostname
-        self.state = state
-
-    def delete(self):
-        session = Session.object_session(self)
-        session.delete(self)
-        session.commit()
-
-    @property
-    def state(self):
-        return self._state
-
-    @state.setter
-    def state(self, state):
-        self._state = state
-        self.state_time = int(time.time())
-        session = Session.object_session(self)
-        if session:
-            session.commit()
-
-
 class Job(object):
     def __init__(self, name=None, hold_on_failure=0):
         self.name = name
@@ -184,19 +134,9 @@ class Job(object):
 mapper(Job, job_table)
 
 
-mapper(SubNode, subnode_table,
-       properties=dict(_state=subnode_table.c.state))
-
-
 mapper(Node, node_table,
        properties=dict(
-           _state=node_table.c.state,
-           subnodes=relationship(
-               SubNode,
-               cascade='all, delete-orphan',
-               uselist=True,
-               primaryjoin=foreign(subnode_table.c.node_id) == node_table.c.id,
-               backref='node')))
+           _state=node_table.c.state))
 
 
 class NodeDatabase(object):
@@ -259,24 +199,12 @@ class NodeDatabaseSession(object):
         self.commit()
         return new
 
-    def createSubNode(self, *args, **kwargs):
-        new = SubNode(*args, **kwargs)
-        self.session().add(new)
-        self.commit()
-        return new
-
     def getNode(self, id):
         nodes = self.session().query(Node).filter_by(id=id).all()
         if not nodes:
             return None
         return nodes[0]
 
-    def getSubNode(self, id):
-        nodes = self.session().query(SubNode).filter_by(id=id).all()
-        if not nodes:
-            return None
-        return nodes[0]
-
     def getNodeByHostname(self, hostname):
         nodes = self.session().query(Node).filter_by(hostname=hostname).all()
         if not nodes:
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 92c5ad038..d08c1101e 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -364,20 +364,7 @@ class OLDNodeLauncher(threading.Thread):
         # Save the elapsed time for statsd
         dt = int((time.time() - start_time) * 1000)
 
-        if self.label.subnodes:
-            self.log.info("Node id: %s is waiting on subnodes" % self.node.id)
-
-            while ((time.time() - start_time) < (NODE_CLEANUP - 60)):
-                session.commit()
-                ready_subnodes = [n for n in self.node.subnodes
-                                  if n.state == nodedb.READY]
-                if len(ready_subnodes) == self.label.subnodes:
-                    break
-                time.sleep(5)
-
         nodelist = []
-        for subnode in self.node.subnodes:
-            nodelist.append(('sub', subnode))
         nodelist.append(('primary', self.node))
 
         self.writeNodepoolInfo(nodelist)
@@ -460,16 +447,6 @@ class OLDNodeLauncher(threading.Thread):
             f = ftp.open('/etc/nodepool/primary_node_private', 'w')
             f.write(self.node.ip_private + '\n')
             f.close()
-            # The IPs of all sub nodes in this node set
-            f = ftp.open('/etc/nodepool/sub_nodes', 'w')
-            for subnode in self.node.subnodes:
-                f.write(subnode.ip + '\n')
-            f.close()
-            # The private IPs of all sub nodes in this node set
-            f = ftp.open('/etc/nodepool/sub_nodes_private', 'w')
-            for subnode in self.node.subnodes:
-                f.write(subnode.ip_private + '\n')
-            f.close()
             # The SSH key for this node set
             f = ftp.open('/etc/nodepool/id_rsa', 'w')
             key.write_private_key(f)
@@ -511,166 +488,6 @@ class OLDNodeLauncher(threading.Thread):
                      output=True)
 
 
-class SubNodeLauncher(threading.Thread):
-    log = logging.getLogger("nodepool.SubNodeLauncher")
-
-    def __init__(self, nodepool, provider, label, subnode_id,
-                 node_id, node_target_name, timeout, launch_timeout, node_az,
-                 manager_name):
-        threading.Thread.__init__(self, name='SubNodeLauncher for %s'
-                                  % subnode_id)
-        self.provider = provider
-        self.label = label
-        self.image = provider.images[label.image]
-        self.node_target_name = node_target_name
-        self.subnode_id = subnode_id
-        self.node_id = node_id
-        self.timeout = timeout
-        self.nodepool = nodepool
-        self.launch_timeout = launch_timeout
-        self.node_az = node_az
-        self.manager_name = manager_name
-
-    def run(self):
-        try:
-            self._run()
-        except Exception:
-            self.log.exception("Exception in run method:")
-
-    def _run(self):
-        with self.nodepool.getDB().getSession() as session:
-            self.log.debug("Launching subnode id: %s for node id: %s" %
-                           (self.subnode_id, self.node_id))
-            try:
-                self.subnode = session.getSubNode(self.subnode_id)
-                self.manager = self.nodepool.getProviderManager(self.provider)
-            except Exception:
-                self.log.exception("Exception preparing to launch subnode "
-                                   "id: %s for node id: %s:"
-                                   % (self.subnode_id, self.node_id))
-                return
-
-            try:
-                start_time = time.time()
-                dt = self.launchSubNode(session)
-                failed = False
-                statsd_key = 'ready'
-            except Exception as e:
-                self.log.exception("%s launching subnode id: %s "
-                                   "for node id: %s in provider: %s error:" %
-                                   (e.__class__.__name__, self.subnode_id,
-                                    self.node_id, self.provider.name))
-                dt = int((time.time() - start_time) * 1000)
-                failed = True
-                if hasattr(e, 'statsd_key'):
-                    statsd_key = e.statsd_key
-                else:
-                    statsd_key = 'error.unknown'
-
-            try:
-                self.nodepool.launchStats(statsd_key, dt, self.image.name,
-                                          self.provider.name,
-                                          self.node_target_name,
-                                          self.node_az,
-                                          self.manager_name)
-            except Exception:
-                self.log.exception("Exception reporting launch stats:")
-
-            if failed:
-                try:
-                    self.nodepool.deleteSubNode(self.subnode, self.manager)
-                except Exception:
-                    self.log.exception("Exception deleting subnode id: %s: "
-                                       "for node id: %s:" %
-                                       (self.subnode_id, self.node_id))
-                    return
-
-    def launchSubNode(self, session):
-        start_time = time.time()
-        timestamp = int(start_time)
-
-        target = self.nodepool.config.targets[self.node_target_name]
-        hostname = target.subnode_hostname.format(
-            label=self.label, provider=self.provider, node_id=self.node_id,
-            subnode_id=self.subnode_id, timestamp=str(timestamp))
-        self.subnode.hostname = hostname
-        self.subnode.nodename = hostname.split('.')[0]
-
-        cloud_image = self.nodepool.zk.getMostRecentImageUpload(
-            self.image.name, self.provider.name)
-        if not cloud_image:
-            raise LaunchNodepoolException("Unable to find current cloud "
-                                          "image %s in %s" %
-                                          (self.image.name,
-                                           self.provider.name))
-
-        self.log.info("Creating server with hostname %s in %s from image %s "
-                      "for subnode id: %s for node id: %s"
-                      % (hostname, self.provider.name,
-                         self.image.name, self.subnode_id, self.node_id))
-        server = self.manager.createServer(
-            hostname, self.image.min_ram, cloud_image.external_id,
-            name_filter=self.image.name_filter, az=self.node_az,
-            config_drive=self.image.config_drive,
-            nodepool_node_id=self.node_id,
-            nodepool_image_name=self.image.name)
-        server_id = server['id']
-        self.subnode.external_id = server_id
-        session.commit()
-
-        self.log.debug("Waiting for server %s for subnode id: %s for "
-                       "node id: %s" %
-                       (server_id, self.subnode_id, self.node_id))
-        server = self.manager.waitForServer(server, self.launch_timeout)
-        if server['status'] != 'ACTIVE':
-            raise LaunchStatusException("Server %s for subnode id: "
-                                        "%s for node id: %s "
-                                        "status: %s" %
-                                        (server_id, self.subnode_id,
-                                         self.node_id, server['status']))
-
-        ip = server.get('public_v4')
-        ip_v6 = server.get('public_v6')
-        if self.provider.ipv6_preferred:
-            if ip_v6:
-                ip = ip_v6
-            else:
-                self.log.warning('Preferred ipv6 not available, '
-                                 'falling back to ipv4.')
-        if not ip:
-            raise LaunchNetworkException("Unable to find public IP of server")
-
-        self.subnode.ip_private = server.get('private_v4')
-        # devstack-gate multi-node depends on private_v4 being populated
-        # with something. On clouds that don't have a private address, use
-        # the public.
-        if not self.subnode.ip_private:
-            self.subnode.ip_private = server.get('public_v4')
-        self.subnode.ip = ip
-        self.log.debug("Subnode id: %s for node id: %s is running, "
-                       "ipv4: %s, ipv6: %s" %
-                       (self.subnode_id, self.node_id, server.get('public_v4'),
-                        server.get('public_v6')))
-
-        self.log.debug("Subnode id: %s for node id: %s testing ssh at ip: %s" %
-                       (self.subnode_id, self.node_id, ip))
-        connect_kwargs = dict(key_filename=self.image.private_key)
-        if not utils.ssh_connect(ip, self.image.username,
-                                 connect_kwargs=connect_kwargs,
-                                 timeout=self.timeout):
-            raise LaunchAuthException("Unable to connect via ssh")
-
-        # Save the elapsed time for statsd
-        dt = int((time.time() - start_time) * 1000)
-
-        self.subnode.state = nodedb.READY
-        self.log.info("Subnode id: %s for node id: %s is ready"
-                      % (self.subnode_id, self.node_id))
-        self.nodepool.updateStats(session, self.provider.name)
-
-        return dt
-
-
 class NodeLauncher(threading.Thread):
     def __init__(self, zk, node, retries):
         threading.Thread.__init__(self)
@@ -1340,12 +1157,12 @@ class NodePool(threading.Thread):
                             n.label_name == label_name and
                             n.state == state)])
 
-        def count_nodes_and_subnodes(provider_name):
+        def count_provider_nodes(provider_name):
             count = 0
             for n in nodes:
                 if n.provider_name != provider_name:
                     continue
-                count += 1 + len(n.subnodes)
+                count += 1
             return count
 
         # Add a provider for each node provider, along with current
@@ -1353,7 +1170,7 @@ class NodePool(threading.Thread):
         allocation_providers = {}
         for provider in self.config.providers.values():
             provider_max = provider.max_servers
-            n_provider = count_nodes_and_subnodes(provider.name)
+            n_provider = count_provider_nodes(provider.name)
             available = provider_max - n_provider
             if available < 0:
                 self.log.warning("Provider %s over-allocated: "
@@ -1436,7 +1253,7 @@ class NodePool(threading.Thread):
                         # request should be distributed to this target).
                         sr, agt = ar.addProvider(
                             allocation_providers[provider.name],
-                            at, label.subnodes)
+                            at, 0)
                         tlps[agt] = (target, label,
                                      self.config.providers[provider.name])
                     else:
@@ -1470,19 +1287,6 @@ class NodePool(threading.Thread):
         self.log.debug("Finished node launch calculation")
         return nodes_to_launch
 
-    def getNeededSubNodes(self, session):
-        nodes_to_launch = []
-        for node in session.getNodes():
-            if node.label_name in self.config.labels:
-                expected_subnodes = \
-                    self.config.labels[node.label_name].subnodes
-                active_subnodes = len([n for n in node.subnodes
-                                       if n.state != nodedb.DELETE])
-                deficit = max(expected_subnodes - active_subnodes, 0)
-                if deficit:
-                    nodes_to_launch.append((node, deficit))
-        return nodes_to_launch
-
     def updateConfig(self):
         config = self.loadConfig()
         self.reconfigureZooKeeper(config)
@@ -1527,16 +1331,6 @@ class NodePool(threading.Thread):
             self._wake_condition.release()
 
     def _run(self, session, allocation_history):
-        # Make up the subnode deficit first to make sure that an
-        # already allocated node has priority in filling its subnodes
-        # ahead of new nodes.
-        subnodes_to_launch = self.getNeededSubNodes(session)
-        for (node, num_to_launch) in subnodes_to_launch:
-            self.log.info("Need to launch %s subnodes for node id: %s" %
-                          (num_to_launch, node.id))
-            for i in range(num_to_launch):
-                self.launchSubNode(session, node)
-
         nodes_to_launch = self.getNeededNodes(session, allocation_history)
 
         for (tlp, num_to_launch) in nodes_to_launch:
@@ -1575,39 +1369,6 @@ class NodePool(threading.Thread):
                          launch_timeout)
         t.start()
 
-    def launchSubNode(self, session, node):
-        try:
-            self._launchSubNode(session, node)
-        except Exception:
-            self.log.exception(
-                "Could not launch subnode for node id: %s", node.id)
-
-    def _launchSubNode(self, session, node):
-        provider = self.config.providers[node.provider_name]
-        label = self.config.labels[node.label_name]
-        timeout = provider.boot_timeout
-        launch_timeout = provider.launch_timeout
-        subnode = session.createSubNode(node)
-        t = SubNodeLauncher(self, provider, label, subnode.id,
-                            node.id, node.target_name, timeout, launch_timeout,
-                            node_az=node.az, manager_name=node.manager_name)
-        t.start()
-
-    def deleteSubNode(self, subnode, manager):
-        # Don't try too hard here, the actual node deletion will make
-        # sure this is cleaned up.
-        if subnode.external_id:
-            try:
-                self.log.debug('Deleting server %s for subnode id: '
-                               '%s of node id: %s' %
-                               (subnode.external_id, subnode.id,
-                                subnode.node.id))
-                manager.cleanupServer(subnode.external_id)
-                manager.waitForServerDeletion(subnode.external_id)
-            except provider_manager.NotFound:
-                pass
-        subnode.delete()
-
     def deleteNode(self, node_id):
         try:
             self._delete_threads_lock.acquire()
@@ -1654,16 +1415,6 @@ class NodePool(threading.Thread):
                 self.log.exception("Exception revoking node id: %s" %
                                    node.id)
 
-        for subnode in node.subnodes:
-            if subnode.external_id:
-                try:
-                    self.log.debug('Deleting server %s for subnode id: '
-                                   '%s of node id: %s' %
-                                   (subnode.external_id, subnode.id, node.id))
-                    manager.cleanupServer(subnode.external_id)
-                except provider_manager.NotFound:
-                    pass
-
         if node.external_id:
             try:
                 self.log.debug('Deleting server %s for node id: %s' %
@@ -1674,11 +1425,6 @@ class NodePool(threading.Thread):
                 pass
             node.external_id = None
 
-        for subnode in node.subnodes:
-            if subnode.external_id:
-                manager.waitForServerDeletion(subnode.external_id)
-            subnode.delete()
-
         node.delete()
         self.log.info("Deleted node id: %s" % node.id)
 
@@ -1886,7 +1632,7 @@ class NodePool(threading.Thread):
                 continue
             state = nodedb.STATE_NAMES[node.state]
             key = 'nodepool.nodes.%s' % state
-            total_nodes = self.config.labels[node.label_name].subnodes + 1
+            total_nodes = 1
             states[key] += total_nodes
 
             # NOTE(pabelanger): Check if we assign nodes via Gearman if so, use
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index dd9cafeee..087bdfa9e 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -21,7 +21,6 @@ labels:
   - name: trusty-2-node
     image: trusty
     ready-script: multinode_setup.sh
-    subnodes: 1
     min-ready: 0
     providers:
       - name: cloud1
diff --git a/nodepool/tests/fixtures/config_validate/yaml_error.yaml b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
index 08dd9626c..c8996334e 100644
--- a/nodepool/tests/fixtures/config_validate/yaml_error.yaml
+++ b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
@@ -21,7 +21,6 @@ labels:
   - name: trusty-2-node
     image: trusty
     ready-script: multinode_setup.sh
-    subnodes: 1
     min-ready: 0
     providers:
       - name: cloud1
diff --git a/nodepool/tests/fixtures/subnodes.yaml b/nodepool/tests/fixtures/subnodes.yaml
deleted file mode 100644
index 53c9ff8b3..000000000
--- a/nodepool/tests/fixtures/subnodes.yaml
+++ /dev/null
@@ -1,61 +0,0 @@
-elements-dir: .
-images-dir: '{images_dir}'
-
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
-zookeeper-servers:
-  - host: {zookeeper_host}
-    port: {zookeeper_port}
-    chroot: {zookeeper_chroot}
-
-labels:
-  - name: fake-label
-    image: fake-image
-    min-ready: 2
-    providers:
-      - name: fake-provider
-  - name: multi-fake
-    image: fake-image
-    ready-script: multinode_setup.sh
-    subnodes: 2
-    min-ready: 2
-    providers:
-      - name: fake-provider
-
-providers:
-  - name: fake-provider
-    region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
-    rate: 0.0001
-    images:
-      - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
-
-targets:
-  - name: fake-target
-
-diskimages:
-  - name: fake-image
-    elements:
-      - fedora
-      - vm
-    release: 21
-    env-vars:
-      TMPDIR: /opt/dib_tmp
-      DIB_IMAGE_CACHE: /opt/dib_cache
-      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
-      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_allocator.py b/nodepool/tests/test_allocator.py
index cdcdc408b..23279f606 100644
--- a/nodepool/tests/test_allocator.py
+++ b/nodepool/tests/test_allocator.py
@@ -40,7 +40,7 @@ class OneLabel(tests.AllocatorTestCase, tests.BaseTestCase):
         at1 = allocation.AllocationTarget('target1')
         ar1 = allocation.AllocationRequest('label1', self.label1)
         ar1.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1, 0)[1])
+        self.agt.append(ar1.addProvider(ap1, at1)[1])
         ap1.makeGrants()
 
 
@@ -67,8 +67,8 @@ class TwoLabels(tests.AllocatorTestCase, tests.BaseTestCase):
         ar2 = allocation.AllocationRequest('label2', self.label2)
         ar1.addTarget(at1, 0)
         ar2.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1, 0)[1])
-        self.agt.append(ar2.addProvider(ap1, at1, 0)[1])
+        self.agt.append(ar1.addProvider(ap1, at1)[1])
+        self.agt.append(ar2.addProvider(ap1, at1)[1])
         ap1.makeGrants()
 
 
@@ -115,10 +115,10 @@ class TwoProvidersTwoLabels(tests.AllocatorTestCase, tests.BaseTestCase):
         ar2 = allocation.AllocationRequest('label2', self.label2)
         ar1.addTarget(at1, 0)
         ar2.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1, 0)[1])
-        self.agt.append(ar2.addProvider(ap1, at1, 0)[1])
-        self.agt.append(ar1.addProvider(ap2, at1, 0)[1])
-        self.agt.append(ar2.addProvider(ap2, at1, 0)[1])
+        self.agt.append(ar1.addProvider(ap1, at1)[1])
+        self.agt.append(ar2.addProvider(ap1, at1)[1])
+        self.agt.append(ar1.addProvider(ap2, at1)[1])
+        self.agt.append(ar2.addProvider(ap2, at1)[1])
         ap1.makeGrants()
         ap2.makeGrants()
 
@@ -170,9 +170,9 @@ class TwoProvidersTwoLabelsOneShared(tests.AllocatorTestCase,
         ar2 = allocation.AllocationRequest('label2', self.label2)
         ar1.addTarget(at1, 0)
         ar2.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1, 0)[1])
-        self.agt.append(ar2.addProvider(ap1, at1, 0)[1])
-        self.agt.append(ar2.addProvider(ap2, at1, 0)[1])
+        self.agt.append(ar1.addProvider(ap1, at1)[1])
+        self.agt.append(ar2.addProvider(ap1, at1)[1])
+        self.agt.append(ar2.addProvider(ap2, at1)[1])
         ap1.makeGrants()
         ap2.makeGrants()
 
@@ -293,8 +293,8 @@ class RoundRobinAllocation(tests.RoundRobinTestCase, tests.BaseTestCase):
             # providers
             for ar in ars:
                 ar.addTarget(at1, 0)
-                ar.addProvider(ap1, at1, 0)
-                ar.addProvider(ap2, at1, 0)
+                ar.addProvider(ap1, at1)
+                ar.addProvider(ap2, at1)
 
             ap1.makeGrants()
             for g in ap1.grants:
@@ -414,15 +414,15 @@ class RoundRobinFixedProvider(tests.RoundRobinTestCase, tests.BaseTestCase):
             # first ar can only go to provider1, the last only to
             # provider2
             ars[0].addTarget(at1, 0)
-            ars[0].addProvider(ap1, at1, 0)
+            ars[0].addProvider(ap1, at1)
             ars[-1].addTarget(at1, 0)
-            ars[-1].addProvider(ap2, at1, 0)
+            ars[-1].addProvider(ap2, at1)
 
             # the rest can go anywhere
             for ar in ars[1:-1]:
                 ar.addTarget(at1, 0)
-                ar.addProvider(ap1, at1, 0)
-                ar.addProvider(ap2, at1, 0)
+                ar.addProvider(ap1, at1)
+                ar.addProvider(ap2, at1)
 
             ap1.makeGrants()
             for g in ap1.grants:
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index c614a9cbd..c82cba68f 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -214,69 +214,6 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
             self.assertEqual(len(nodes), 2)
 
-    @skip("Disabled for early v3 development")
-    def test_subnodes(self):
-        """Test that an image and node are created"""
-        configfile = self.setup_config('subnodes.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
-        pool.start()
-        self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 2)
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='multi-fake',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 2)
-            for node in nodes:
-                self.assertEqual(len(node.subnodes), 2)
-                for subnode in node.subnodes:
-                    self.assertEqual(subnode.state, nodedb.READY)
-
-    @skip("Disabled for early v3 development")
-    def test_subnode_deletion_success(self):
-        """Test that subnodes are deleted with parent node"""
-        configfile = self.setup_config('subnodes.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
-        pool.start()
-        self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        subnode_ids = []
-        node_ids = []
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='multi-fake',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 2)
-            for node in nodes:
-                self.assertEqual(len(node.subnodes), 2)
-                for subnode in node.subnodes:
-                    self.assertEqual(subnode.state, nodedb.READY)
-                    subnode_ids.append(subnode.id)
-                node_ids.append(node.id)
-
-        for node_id in node_ids:
-            pool.deleteNode(node_id)
-
-        self.wait_for_threads()
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            for subnode_id in subnode_ids:
-                s = session.getSubNode(subnode_id)
-                self.assertIsNone(s)
-
     @skip("Disabled for early v3 development")
     def test_node_az(self):
         """Test that an image and node are created with az specified"""
diff --git a/tools/fake.yaml b/tools/fake.yaml
index faf6e87c5..94425ce63 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -28,7 +28,6 @@ labels:
   - name: multi-fake
     image: fake-nodepool
     ready-script: multinode_setup.sh
-    subnodes: 2
     min-ready: 2
     providers:
       - name: fake-provider

From e35e2f14ebb812bb3d90a87e28a4e05d62e9504e Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Feb 2017 08:29:18 -0500
Subject: [PATCH 037/309] Implement node launching

This implements actual node launching by NodeLauncher and also
adds support for launching min-ready nodes. The min-ready nodes
functionality is implemented by submitting node requests for
the labels defined in the nodepool config.

Since we now create node requests, and not just update them,
the ZK API method updateNodeRequest() is renamed storeNodeRequest().

Change-Id: I72a7b85f8560e996124066a1e3bc35886f867f7e
---
 nodepool/nodepool.py                     | 323 ++++++++++++++++++++---
 nodepool/tests/__init__.py               |  15 +-
 nodepool/tests/test_nodelaunchmanager.py |  43 ++-
 nodepool/tests/test_nodepool.py          |  16 +-
 nodepool/tests/test_zk.py                |  56 ++++
 nodepool/zk.py                           |  80 +++++-
 6 files changed, 459 insertions(+), 74 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 92c5ad038..42fd443db 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -672,15 +672,180 @@ class SubNodeLauncher(threading.Thread):
 
 
 class NodeLauncher(threading.Thread):
-    def __init__(self, zk, node, retries):
-        threading.Thread.__init__(self)
+
+    def __init__(self, zk, provider, label, provider_manager, node, retries):
+        '''
+        Initialize the launcher.
+
+        :param ZooKeeper zk: A ZooKeeper object.
+        :param Provider provider: A config Provider object.
+        :param Label label: The Label object for this node type.
+        :param ProviderManager provider_manager: The manager object used to
+            interact with the selected provider.
+        :param Node node: The node object.
+        :param int retries: Number of times to retry failed launches.
+        '''
+        threading.Thread.__init__(self, name="NodeLauncher-%s" % node.id)
+        self.log = logging.getLogger("nodepool.NodeLauncher-%s" % node.id)
         self._zk = zk
+        self._provider = provider
+        self._label = label
+        self._manager = provider_manager
         self._node = node
         self._retries = retries
 
     def _launchNode(self):
-        # TODO(Shrews): Use self._retries here
-        pass
+        config_image = self._provider.images[self._label.image]
+
+        cloud_image = self._zk.getMostRecentImageUpload(
+            config_image.name, self._provider.name)
+        if not cloud_image:
+            raise LaunchNodepoolException(
+                "Unable to find current cloud image %s in %s" %
+                (config_image.name, self._provider.name)
+            )
+
+        hostname = self._provider.hostname_format.format(
+            label=self._label, provider=self._provider, node=self._node
+        )
+
+        self.log.info("Creating server with hostname %s in %s from image %s "
+                      "for node id: %s" % (hostname, self._provider.name,
+                                           config_image.name, self._node.id))
+
+        server = self._manager.createServer(
+            hostname,
+            config_image.min_ram,
+            cloud_image.external_id,
+            name_filter=config_image.name_filter,
+            az=self._node.az,
+            config_drive=config_image.config_drive,
+            nodepool_node_id=self._node.id,
+            nodepool_image_name=config_image.name)
+
+        self._node.external_id = server.id
+        self._node.hostname = hostname
+
+        # Checkpoint save the updated node info
+        self._zk.storeNode(self._node)
+
+        self.log.debug("Waiting for server %s for node id: %s" %
+                       (server.id, self._node.id))
+        server = self._manager.waitForServer(
+            server, self._provider.launch_timeout)
+
+        if server.status != 'ACTIVE':
+            raise LaunchStatusException("Server %s for node id: %s "
+                                        "status: %s" %
+                                        (server.id, self._node.id,
+                                         server.status))
+
+        self._node.public_ipv4 = server.public_v4
+        self._node.public_ipv6 = server.public_v6
+
+        preferred_ip = server.public_v4
+        if self._provider.ipv6_preferred:
+            if server.public_v6:
+                preferred_ip = server.public_v6
+            else:
+                self.log.warning('Preferred ipv6 not available, '
+                                 'falling back to ipv4.')
+        if not preferred_ip:
+            self.log.debug(
+                "Server data for failed IP: %s" % pprint.pformat(
+                    server))
+            raise LaunchNetworkException("Unable to find public IP of server")
+
+        self._node.private_ipv4 = server.private_v4
+        # devstack-gate multi-node depends on private_v4 being populated
+        # with something. On clouds that don't have a private address, use
+        # the public.
+        if not self._node.private_ipv4:
+            self._node.private_ipv4 = server.public_v4
+
+        # Checkpoint save the updated node info
+        self._zk.storeNode(self._node)
+
+        self.log.debug("Node id: %s is running, ipv4: %s, ipv6: %s" %
+                       (self._node.id, self._node.public_ipv4,
+                        self._node.public_ipv6))
+
+        self.log.debug("Node id: %s testing ssh at ip: %s" %
+                       (self._node.id, preferred_ip))
+        host = utils.ssh_connect(
+            preferred_ip, config_image.username,
+            connect_kwargs=dict(key_filename=config_image.private_key),
+            timeout=self._provider.boot_timeout)
+        if not host:
+            raise LaunchAuthException("Unable to connect via ssh")
+
+        self._writeNodepoolInfo(host, preferred_ip, self._node)
+        if self._label.ready_script:
+            self.runReadyScript(host, hostname, self._label.ready_script)
+
+    def _writeNodepoolInfo(self, host, preferred_ip, node):
+        key = paramiko.RSAKey.generate(2048)
+        public_key = key.get_name() + ' ' + key.get_base64()
+        host.ssh("test for config dir", "ls /etc/nodepool")
+
+        ftp = host.client.open_sftp()
+
+        # The IP of this node
+        f = ftp.open('/etc/nodepool/node', 'w')
+        f.write(preferred_ip + '\n')
+        f.close()
+        # The private IP of this node
+        f = ftp.open('/etc/nodepool/node_private', 'w')
+        f.write(node.private_ipv4 + '\n')
+        f.close()
+        # The SSH key for this node set
+        f = ftp.open('/etc/nodepool/id_rsa', 'w')
+        key.write_private_key(f)
+        f.close()
+        f = ftp.open('/etc/nodepool/id_rsa.pub', 'w')
+        f.write(public_key + '\n')
+        f.close()
+        # Provider information for this node set
+        f = ftp.open('/etc/nodepool/provider', 'w')
+        f.write('NODEPOOL_PROVIDER=%s\n' % self._provider.name)
+        f.write('NODEPOOL_CLOUD=%s\n' % self._provider.cloud_config.name)
+        f.write('NODEPOOL_REGION=%s\n' % (
+            self._provider.region_name or '',))
+        f.write('NODEPOOL_AZ=%s\n' % (node.az or '',))
+        f.close()
+        # The instance UUID for this node
+        f = ftp.open('/etc/nodepool/uuid', 'w')
+        f.write(node.external_id + '\n')
+        f.close()
+
+        ftp.close()
+
+    def _runReadyScript(self, host, hostname, script):
+        env_vars = ''
+        for k, v in os.environ.items():
+            if k.startswith('NODEPOOL_'):
+                env_vars += ' %s="%s"' % (k, v)
+        host.ssh("run ready script",
+                 "cd /opt/nodepool-scripts && %s ./%s %s" %
+                 (env_vars, script, hostname),
+                 output=True)
+
+    def _run(self):
+        attempts = 1
+        while attempts <= self._retries:
+            try:
+                self._launchNode()
+                break
+            except Exception:
+                self.log.exception("Launch attempt %d/%d failed for node %s:",
+                    attempts, self._retries, self._node.id)
+                if attempts == self._retries:
+                    raise
+                attempts += 1
+
+        self._node.state = zk.READY
+        self._zk.storeNode(self._node)
+        self.log.info("Node id %s is ready", self._node.id)
 
     def run(self):
         try:
@@ -689,23 +854,31 @@ class NodeLauncher(threading.Thread):
             self._node.state = zk.FAILED
             self._zk.storeNode(self._node)
 
-    def _run(self):
-        self._launchNode()
-        self._node.state = zk.READY
-        self._zk.storeNode(self._node)
-
 
 class NodeLaunchManager(object):
     '''
     Handle launching multiple nodes in parallel.
     '''
-    def __init__(self, zk, retries):
-        self._zk = zk
+    def __init__(self, zk, provider, labels, provider_manager, retries):
+        '''
+        Initialize the launch manager.
+
+        :param ZooKeeper zk: A ZooKeeper object.
+        :param Provider provider: A config Provider object.
+        :param dict labels: A dict of config Label objects.
+        :param ProviderManager provider_manager: The manager object used to
+            interact with the selected provider.
+        :param int retries: Number of times to retry failed launches.
+        '''
         self._retries = retries
         self._nodes = []
         self._failed_nodes = []
         self._ready_nodes = []
         self._threads = []
+        self._zk = zk
+        self._provider = provider
+        self._labels = labels
+        self._manager = provider_manager
 
     @property
     def alive_thread_count(self):
@@ -734,7 +907,9 @@ class NodeLaunchManager(object):
         :param Node node: The node object.
         '''
         self._nodes.append(node)
-        t = NodeLauncher(self._zk, node, self._retries)
+        label = self._labels[node.type]
+        t = NodeLauncher(self._zk, self._provider, label, self._manager,
+                         node, self._retries)
         t.start()
         self._threads.append(t)
 
@@ -784,6 +959,7 @@ class NodeRequestHandler(object):
         self.log = logging.getLogger("nodepool.NodeRequestHandler")
         self.provider = pw.provider
         self.zk = pw.zk
+        self.labels = pw.labels
         self.manager = pw.manager
         self.launcher_id = pw.launcher_id
         self.request = request
@@ -800,7 +976,13 @@ class NodeRequestHandler(object):
 
         :returns: True if it is available, False otherwise.
         '''
-        for img in self.request.node_types:
+        for label in self.request.node_types:
+            try:
+                img = self.labels[label].image
+            except KeyError:
+                 self.log.error("Node type %s not a defined label", label)
+                 return False
+
             if not self.zk.getMostRecentImageUpload(img, self.provider.name):
                 return False
         return True
@@ -841,26 +1023,6 @@ class NodeRequestHandler(object):
             except Exception:
                 self.log.exception("Error unlocking node:")
 
-    def _getReadyNodesOfTypes(self, ntypes):
-        '''
-        Query ZooKeeper for unused/ready nodes.
-
-        :param str ntypes: The node types we want.
-
-        :returns: A dictionary, keyed by node type, with lists of Node objects
-            that are ready, or an empty dict if none are found.
-        '''
-        ret = {}
-        for node_id in self.zk.getNodes():
-            node = self.zk.getNode(node_id)
-            if (node and node.state == zk.READY and
-                not node.allocated_to and node.type in ntypes
-            ):
-                if node.type not in ret:
-                    ret[node.type] = []
-                ret[node.type].append(node)
-        return ret
-
     def _run(self):
         '''
         Main body for the NodeRequestHandler.
@@ -880,16 +1042,17 @@ class NodeRequestHandler(object):
             if launchers.issubset(set(self.request.declined_by)):
                 # All launchers have declined it
                 self.request.state = zk.FAILED
-            self.zk.updateNodeRequest(self.request)
+            self.zk.storeNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
             self.done = True
             return
 
         self.request.state = zk.PENDING
-        self.zk.updateNodeRequest(self.request)
+        self.zk.storeNodeRequest(self.request)
 
-        self.launch_manager = NodeLaunchManager(self.zk, retries=3)
-        ready_nodes = self._getReadyNodesOfTypes(self.request.node_types)
+        self.launch_manager = NodeLaunchManager(
+            self.zk, self.provider, self.labels, self.manager, retries=3)
+        ready_nodes = self.zk.getReadyNodesOfTypes(self.request.node_types)
 
         for ntype in self.request.node_types:
             # First try to grab from the list of already available nodes.
@@ -917,7 +1080,7 @@ class NodeRequestHandler(object):
                 node.allocated_to = self.request.id
 
                 # Note: It should be safe (i.e., no race) to lock the node
-                # *after* it is stored since nodes in BUILDING state are not
+                # *after* it is stored since nodes in INIT state are not
                 # locked anywhere.
                 self.zk.storeNode(node)
                 self.zk.lockNode(node, blocking=False)
@@ -941,7 +1104,7 @@ class NodeRequestHandler(object):
         except Exception:
             self.log.exception("Exception in NodeRequestHandler:")
             self.request.state = zk.FAILED
-            self.zk.updateNodeRequest(self.request)
+            self.zk.storeNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
             self.done = True
 
@@ -988,7 +1151,7 @@ class NodeRequestHandler(object):
             self.request.state = zk.FULFILLED
 
         self._unlockNodeSet()
-        self.zk.updateNodeRequest(self.request)
+        self.zk.storeNodeRequest(self.request)
         self.zk.unlockNodeRequest(self.request)
         return True
 
@@ -1017,6 +1180,7 @@ class ProviderWorker(threading.Thread):
         # These attributes will be used by NodeRequestHandler
         self.zk = zk
         self.manager = None
+        self.labels = None
         self.provider = provider
         self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
                                          os.getpid(),
@@ -1035,6 +1199,7 @@ class ProviderWorker(threading.Thread):
         this thread to terminate.
         '''
         config = nodepool_config.loadConfig(self.configfile)
+        self.labels = config.labels
 
         if self.provider.name not in config.providers.keys():
             self.log.info("Provider %s removed from config"
@@ -1182,6 +1347,7 @@ class NodePool(threading.Thread):
         self._instance_delete_threads = {}
         self._instance_delete_threads_lock = threading.Lock()
         self._wake_condition = threading.Condition()
+        self._submittedRequests = {}
 
     def stop(self):
         self._stopped = True
@@ -1486,9 +1652,82 @@ class NodePool(threading.Thread):
     def updateConfig(self):
         config = self.loadConfig()
         self.reconfigureZooKeeper(config)
-        self.reconfigureCrons(config)
         self.setConfig(config)
 
+    def removeCompletedRequests(self):
+        '''
+        Remove (locally and in ZK) fulfilled node requests.
+
+        We also must reset the allocated_to attribute for each Node assigned
+        to our request, since we are deleting the request.
+        '''
+        for label in self._submittedRequests.keys():
+            req = self._submittedRequests[label]
+            self._submittedRequests[label] = self.zk.getNodeRequest(req.id)
+
+            if self._submittedRequests[label]:
+                if self._submittedRequests[label].state == zk.FULFILLED:
+                    self.log.debug("min-ready node request for %s fulfilled", label)
+                    # Reset node allocated_to
+                    for node_id in self._submittedRequests[label].nodes:
+                        node = self.zk.getNode(node_id)
+                        node.allocated_to = None
+                        # NOTE: locking shouldn't be necessary since a node with
+                        # allocated_to set should not be locked except by the
+                        # creator of the request (us).
+                        self.zk.storeNode(node)
+                    self.zk.deleteNodeRequest(self._submittedRequests[label])
+                    del self._submittedRequests[label]
+                elif self._submittedRequests[label].state == zk.FAILED:
+                    self.log.debug("min-ready node request for %s failed", label)
+                    self.zk.deleteNodeRequest(self._submittedRequests[label])
+                    del self._submittedRequests[label]
+
+    def createMinReady(self):
+        '''
+        Create node requests to make the minimum amount of ready nodes.
+
+        Since this method will be called repeatedly, we need to take care to
+        note when we have already submitted node requests to satisfy min-ready.
+        Requests we've already submitted are stored in the _submittedRequests
+        dict, keyed by label.
+        '''
+        def createRequest(label_name, count):
+            req = zk.NodeRequest()
+            req.state = zk.REQUESTED
+            for i in range(0, count):
+                req.node_types.append(label_name)
+            self.zk.storeNodeRequest(req)
+            self._submittedRequests[label_name] = req
+
+        # Since we could have already submitted node requests, do not
+        # resubmit a request for a type if a request for that type is
+        # still in progress.
+        self.removeCompletedRequests()
+        label_names = self.config.labels.keys()
+        requested_labels = self._submittedRequests.keys()
+        needed_labels = list(set(label_names) - set(requested_labels))
+
+        ready_nodes = self.zk.getReadyNodesOfTypes(needed_labels)
+
+        for label in self.config.labels.values():
+            if label.name not in needed_labels:
+                continue
+            min_ready = label.min_ready
+            if min_ready == -1:
+                continue   # disabled
+
+            # Calculate how many nodes of this type we need created
+            need = 0
+            if label.name not in ready_nodes.keys():
+                need = label.min_ready
+            elif len(ready_nodes[label.name]) < min_ready:
+                need = min_ready - len(ready_nodes[label.name])
+
+            if need:
+                self.log.info("Creating request for %d %s nodes", need, label.name)
+                createRequest(label.name, need)
+
     def run(self):
         '''
         Start point for the NodePool thread.
@@ -1502,6 +1741,8 @@ class NodePool(threading.Thread):
                     self.log.info("ZooKeeper suspended. Waiting")
                     time.sleep(SUSPEND_WAIT_TIME)
 
+                self.createMinReady()
+
                 # Start (or restart) provider threads for each provider in
                 # the config. Removing a provider from the config and then
                 # adding it back would cause a restart.
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 89047ed17..c8b369ea6 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -188,6 +188,10 @@ class BaseTestCase(testtools.TestCase):
                     continue
                 if t.name.startswith("CleanupWorker"):
                     continue
+                if t.name.startswith("ProviderWorker"):
+                    continue
+                if t.name.startswith("NodeLauncher"):
+                    continue
                 if t.name not in whitelist:
                     done = False
             if done:
@@ -430,17 +434,6 @@ class DBTestCase(BaseTestCase):
             time.sleep(1)
         self.wait_for_threads()
 
-    def submitNodeRequest(self, req):
-        '''
-        Very simple submit of a node request to ZooKeeper.
-        '''
-        priority = 100
-        req.state = zk.REQUESTED
-        path = '%s/%s-' % (self.zk.REQUEST_ROOT, priority)
-        path = self.zk.client.create(path, req.serialize(), makepath=True,
-                                     sequence=True, ephemeral=True)
-        req.id = path.split("/")[-1]
-
     def waitForNodeRequest(self, req):
         '''
         Wait for a node request to transition to a final state.
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index db87121cf..3236eed46 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -17,6 +17,8 @@ import logging
 import mock
 import time
 
+from nodepool import builder
+from nodepool import provider_manager
 from nodepool import tests
 from nodepool import zk
 from nodepool.nodepool import NodeLaunchManager
@@ -25,10 +27,34 @@ from nodepool.nodepool import NodeLaunchManager
 class TestNodeLaunchManager(tests.DBTestCase):
     log = logging.getLogger("nodepool.TestNodeLaunchManager")
 
+    def _setup(self, configfile):
+        # Need a builder for the launch code to work and to access
+        # config objects.
+        b = builder.NodePoolBuilder(configfile)
+        b.cleanup_interval = .5
+        b.build_interval = .1
+        b.upload_interval = .1
+        b.dib_cmd = 'nodepool/tests/fake-image-create'
+        b.start()
+        self.addCleanup(b.stop)
+        self.waitForImage('fake-provider', 'fake-image')
+
+        self.provider = b._config.providers['fake-provider']
+        self.labels = b._config.labels
+
+        # The builder config does not have a provider manager, so create one.
+        self.pmanager = provider_manager.ProviderManager(self.provider, False)
+        self.pmanager.resetClient()
+
     def test_successful_launch(self):
+        configfile = self.setup_config('node.yaml')
+        self._setup(configfile)
+
         n1 = zk.Node()
         n1.state = zk.BUILDING
-        mgr = NodeLaunchManager(self.zk, 0)
+        n1.type = 'fake-label'
+        mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
+                                self.pmanager, 1)
         mgr.launch(n1)
         while not mgr.poll():
             time.sleep(0)
@@ -37,10 +63,15 @@ class TestNodeLaunchManager(tests.DBTestCase):
 
     @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
     def test_failed_launch(self, mock_launch):
+        configfile = self.setup_config('node.yaml')
+        self._setup(configfile)
+
         mock_launch.side_effect = Exception()
         n1 = zk.Node()
         n1.state = zk.BUILDING
-        mgr = NodeLaunchManager(self.zk, 0)
+        n1.type = 'fake-label'
+        mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
+                                self.pmanager, 1)
         mgr.launch(n1)
         while not mgr.poll():
             time.sleep(0)
@@ -49,12 +80,18 @@ class TestNodeLaunchManager(tests.DBTestCase):
 
     @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
     def test_mixed_launch(self, mock_launch):
+        configfile = self.setup_config('node.yaml')
+        self._setup(configfile)
+
         mock_launch.side_effect = [None, Exception()]
         n1 = zk.Node()
         n1.state = zk.BUILDING
+        n1.type = 'fake-label'
         n2 = zk.Node()
         n2.state = zk.BUILDING
-        mgr = NodeLaunchManager(self.zk, 0)
+        n2.type = 'fake-label'
+        mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
+                                self.pmanager, 1)
         mgr.launch(n1)
         mgr.launch(n2)
         while not mgr.poll():
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index c614a9cbd..8feecfd72 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -44,9 +44,9 @@ class TestNodepool(tests.DBTestCase):
         pool.start()
 
         req = zk.NodeRequest()
-        req.node_types.append('fake-image')
-        self.submitNodeRequest(req)
-        self.assertEqual(req.state, zk.REQUESTED)
+        req.state = zk.REQUESTED
+        req.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req)
 
         req = self.waitForNodeRequest(req)
         self.assertEqual(req.state, zk.FULFILLED)
@@ -75,9 +75,9 @@ class TestNodepool(tests.DBTestCase):
         pool.start()
 
         req = zk.NodeRequest()
-        req.node_types.append('fake-image')
-        self.submitNodeRequest(req)
-        self.assertEqual(req.state, zk.REQUESTED)
+        req.state = zk.REQUESTED
+        req.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req)
 
         req = self.waitForNodeRequest(req)
         self.assertTrue(mock_launch.called)
@@ -93,9 +93,9 @@ class TestNodepool(tests.DBTestCase):
         pool.start()
 
         req = zk.NodeRequest()
+        req.state = zk.REQUESTED
         req.node_types.append("zorky-zumba")
-        self.submitNodeRequest(req)
-        self.assertEqual(req.state, zk.REQUESTED)
+        self.zk.storeNodeRequest(req)
 
         req = self.waitForNodeRequest(req)
         self.assertEqual(req.state, zk.FAILED)
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 8bdf33ab6..edecf2c5d 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -523,6 +523,54 @@ class TestZooKeeper(tests.DBTestCase):
         node2 = self.zk.getNode(node.id)
         self.assertEqual(node, node2)
 
+    def _create_node_request(self):
+        req = zk.NodeRequest()
+        req.state = zk.REQUESTED
+        req.node_types.append('label1')
+        self.zk.storeNodeRequest(req)
+        self.assertIsNotNone(
+            self.zk.client.exists(self.zk._requestPath(req.id))
+        )
+        return req
+
+    def test_storeNodeRequest(self):
+        req = self._create_node_request()
+        req2 = self.zk.getNodeRequest(req.id)
+        self.assertEqual(req, req2)
+
+    def test_storeNodeRequest_update(self):
+        req = self._create_node_request()
+        req.state = zk.FULFILLED
+        self.zk.storeNodeRequest(req)
+        self.assertIsNotNone(req.id)
+        req2 = self.zk.getNodeRequest(req.id)
+        self.assertEqual(req, req2)
+
+    def test_deleteNodeRequest(self):
+        req = self._create_node_request()
+        self.zk.deleteNodeRequest(req)
+        self.assertIsNone(
+            self.zk.client.exists(self.zk._requestPath(req.id))
+        )
+
+    def test_getReadyNodesOfTypes(self):
+        n1 = self._create_node()
+        n1.type = 'label1'
+        self.zk.storeNode(n1)
+        n2 = self._create_node()
+        n2.state = zk.READY
+        n2.type = 'label1'
+        self.zk.storeNode(n2)
+        n3 = self._create_node()
+        n3.state = zk.READY
+        n3.type = 'label2'
+        self.zk.storeNode(n3)
+
+        r = self.zk.getReadyNodesOfTypes(['label1'])
+        self.assertIn('label1', r)
+        self.assertEqual(1, len(r['label1']))
+        self.assertEqual(n2, r['label1'][0])
+
 
 class TestZKModel(tests.BaseTestCase):
 
@@ -658,6 +706,8 @@ class TestZKModel(tests.BaseTestCase):
         o.public_ipv6 = '<ipv6>'
         o.image_id = 'image-id'
         o.launcher = 'launcher-id'
+        o.external_id = 'ABCD'
+        o.hostname = 'xyz'
 
         d = o.toDict()
         self.assertNotIn('id', d)
@@ -673,6 +723,8 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(d['public_ipv6'], o.public_ipv6)
         self.assertEqual(d['image_id'], o.image_id)
         self.assertEqual(d['launcher'], o.launcher)
+        self.assertEqual(d['external_id'], o.external_id)
+        self.assertEqual(d['hostname'], o.hostname)
 
     def test_Node_fromDict(self):
         now = int(time.time())
@@ -690,6 +742,8 @@ class TestZKModel(tests.BaseTestCase):
             'public_ipv6': '<ipv6>',
             'image_id': 'image-id',
             'launcher': 'launcher-id',
+            'external_id': 'ABCD',
+            'hostname': 'xyz',
         }
 
         o = zk.Node.fromDict(d, node_id)
@@ -706,3 +760,5 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.public_ipv6, d['public_ipv6'])
         self.assertEqual(o.image_id, d['image_id'])
         self.assertEqual(o.launcher, d['launcher'])
+        self.assertEqual(o.external_id, d['external_id'])
+        self.assertEqual(o.hostname , d['hostname'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 0a7e2e398..f71fcd1a6 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -327,6 +327,15 @@ class NodeRequest(BaseModel):
         d['stat'] = self.stat
         return '<NodeRequest %s>' % d
 
+    def __eq__(self, other):
+        if isinstance(other, NodeRequest):
+            return (self.id == other.id and
+                    self.declined_by == other.declined_by and
+                    self.node_types == other.node_types and
+                    self.nodes == other.nodes)
+        else:
+            return False
+
     def toDict(self):
         '''
         Convert a NodeRequest object's attributes to a dictionary.
@@ -375,6 +384,8 @@ class Node(BaseModel):
         self.image_id = None
         self.launcher = None
         self.created_time = None
+        self.external_id = None
+        self.hostname = None
 
     def __repr__(self):
         d = self.toDict()
@@ -396,7 +407,9 @@ class Node(BaseModel):
                     self.public_ipv6 == other.public_ipv6 and
                     self.image_id == other.image_id and
                     self.launcher == other.launcher and
-                    self.created_time == other.created_time)
+                    self.created_time == other.created_time and
+                    self.external_id == other.external_id and
+                    self.hostname == other.hostname)
         else:
             return False
 
@@ -415,6 +428,8 @@ class Node(BaseModel):
         d['image_id'] = self.image_id
         d['launcher'] = self.launcher
         d['created_time'] = self.created_time
+        d['external_id'] = self.external_id
+        d['hostname'] = self.hostname
         return d
 
     @staticmethod
@@ -439,6 +454,8 @@ class Node(BaseModel):
         o.image_id = d.get('image_id')
         o.launcher = d.get('launcher')
         o.created_time = d.get('created_time')
+        o.external_id = d.get('external_id')
+        o.hostname = d.get('hostname')
         return o
 
 
@@ -1233,24 +1250,45 @@ class ZooKeeper(object):
         d.stat = stat
         return d
 
-    def updateNodeRequest(self, request):
+    def storeNodeRequest(self, request, priority="100"):
         '''
-        Update a node request.
-
-        The request must already be locked before updating.
+        Store a new or existing node request.
 
         :param NodeRequest request: The node request to update.
+        :param str priority: Priority of a new request. Ignored on updates.
         '''
-        if request.lock is None:
-            raise Exception("%s must be locked before updating." % request)
+        if not request.id:
+            path = "%s/%s-" % (self.REQUEST_ROOT, priority)
+            path = self.client.create(
+                path,
+                value=request.serialize(),
+                sequence=True,
+                makepath=True)
+            request.id = path.split("/")[-1]
 
         # Validate it still exists before updating
-        if not self.getNodeRequest(request.id):
-            raise Exception(
-                "Attempt to update non-existing request %s" % request)
+        else:
+            if not self.getNodeRequest(request.id):
+                raise Exception(
+                    "Attempt to update non-existing request %s" % request)
+
+            path = self._requestPath(request.id)
+            self.client.set(path, request.serialize())
+
+    def deleteNodeRequest(self, request):
+        '''
+        Delete a node request.
+
+        :param NodeRequest request: The request to delete.
+        '''
+        if not request.id:
+            return
 
         path = self._requestPath(request.id)
-        self.client.set(path, request.serialize())
+        try:
+            self.client.delete(path)
+        except kze.NoNodeError:
+            pass
 
     def lockNodeRequest(self, request, blocking=True, timeout=None):
         '''
@@ -1406,3 +1444,23 @@ class ZooKeeper(object):
         else:
             path = self._nodePath(node.id)
             self.client.set(path, node.serialize())
+
+    def getReadyNodesOfTypes(self, labels):
+        '''
+        Query ZooKeeper for unused/ready nodes.
+
+        :param list labels: The node types we want.
+
+        :returns: A dictionary, keyed by node type, with lists of Node objects
+            that are ready, or an empty dict if none are found.
+        '''
+        ret = {}
+        for node_id in self.getNodes():
+            node = self.getNode(node_id)
+            if (node and node.state == READY and
+                not node.allocated_to and node.type in labels
+            ):
+                if node.type not in ret:
+                    ret[node.type] = []
+                ret[node.type].append(node)
+        return ret

From 672612deaa9fac7e85e783f37a9ce174995c991f Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Feb 2017 12:18:28 -0500
Subject: [PATCH 038/309] Update nodepool 'list' command

Enables the nodepool 'list' command to speak ZooKeeper.
Re-enables the test_node_list test as well. Needed to
individually skip failing tests in test_commands.py.

Adds 'comment' attribute to the Node model since this is
output by the 'list' command.

Update waitForNodes() to use zookeeper syntax.

Change-Id: I61a92470054985c974f3c20d5be358b399925795
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/cmd/nodepoolcmd.py     |  5 +++--
 nodepool/status.py              | 34 +++++++++++++++++----------------
 nodepool/tests/__init__.py      | 15 +++++----------
 nodepool/tests/test_commands.py | 16 +++++++++++++---
 nodepool/tests/test_zk.py       |  4 ++++
 nodepool/zk.py                  |  6 +++++-
 6 files changed, 48 insertions(+), 32 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 5ffe1918b..c92a422d5 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -159,7 +159,7 @@ class NodePoolCmd(NodepoolApp):
             l.setLevel(logging.WARNING)
 
     def list(self, node_id=None):
-        print status.node_list(self.pool.getDB(), node_id)
+        print status.node_list(self.zk, node_id)
 
     def dib_image_list(self):
         print status.dib_image_list(self.zk)
@@ -354,7 +354,8 @@ class NodePoolCmd(NodepoolApp):
         # commands needing ZooKeeper
         if self.args.command in ('image-build', 'dib-image-list',
                                  'image-list', 'dib-image-delete',
-                                 'image-delete', 'alien-image-list'):
+                                 'image-delete', 'alien-image-list',
+                                 'list'):
             self.zk = zk.ZooKeeper()
             self.zk.connect(config.zookeeper_servers.values())
         else:
diff --git a/nodepool/status.py b/nodepool/status.py
index 1283d358f..934d42398 100644
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -17,8 +17,6 @@
 import json
 import time
 
-from nodepool import nodedb
-
 from prettytable import PrettyTable
 
 
@@ -31,21 +29,25 @@ def age(timestamp):
     return '%02d:%02d:%02d:%02d' % (d, h, m, s)
 
 
-def node_list(db, node_id=None):
-    t = PrettyTable(["ID", "Provider", "AZ", "Label", "Target",
-                     "Manager", "Hostname", "NodeName", "Server ID",
-                     "IP", "State", "Age", "Comment"])
+def node_list(zk, node_id=None):
+    t = PrettyTable(["ID", "Provider", "AZ", "Label",
+                     "Launcher", "Hostname", "Server ID",
+                     "Public IPv4", "Private IPv4", "IPv6",
+                     "State", "Age", "Comment"])
     t.align = 'l'
-    with db.getSession() as session:
-        for node in session.getNodes():
-            if node_id and node.id != node_id:
-                continue
-            t.add_row([node.id, node.provider_name, node.az,
-                       node.label_name, node.target_name,
-                       node.manager_name, node.hostname,
-                       node.nodename, node.external_id, node.ip,
-                       nodedb.STATE_NAMES[node.state],
-                       age(node.state_time), node.comment])
+    if node_id:
+        node = zk.getNode(node_id)
+        t.add_row([node.id, node.provider, node.az, node.type,
+                   node.launcher, node.hostname, node.external_id,
+                   node.public_ipv4, node.private_ipv4, node.public_ipv6,
+                   node.state, age(node.state_time), node.comment])
+    else:
+        for nid in zk.getNodes():
+            node = zk.getNode(nid)
+            t.add_row([node.id, node.provider, node.az, node.type,
+                       node.launcher, node.hostname, node.external_id,
+                       node.public_ipv4, node.private_ipv4, node.public_ipv6,
+                       node.state, age(node.state_time), node.comment])
     return str(t)
 
 
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index c8b369ea6..c0c4ef35f 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -32,7 +32,7 @@ import lockfile
 import kazoo.client
 import testtools
 
-from nodepool import allocation, builder, fakeprovider, nodepool, nodedb, webapp
+from nodepool import builder, fakeprovider, nodepool, webapp
 from nodepool import zk
 from nodepool.cmd.config_validator import ConfigValidator
 
@@ -420,17 +420,12 @@ class DBTestCase(BaseTestCase):
 
         self.wait_for_threads()
 
-    def waitForNodes(self, pool):
-        self.wait_for_config(pool)
-        allocation_history = allocation.AllocationHistory()
+    def waitForNodes(self, label):
         while True:
             self.wait_for_threads()
-            with pool.getDB().getSession() as session:
-                needed = pool.getNeededNodes(session, allocation_history)
-                if not needed:
-                    nodes = session.getNodes(state=nodedb.BUILDING)
-                    if not nodes:
-                        break
+            ready_nodes = self.zk.getReadyNodesOfTypes([label])
+            if ready_nodes:
+                break
             time.sleep(1)
         self.wait_for_threads()
 
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 2100d71ae..43f5a1a3a 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -21,6 +21,8 @@ import fixtures
 import mock
 import testtools
 
+from unittest import skip
+
 from nodepool.cmd import nodepoolcmd
 from nodepool import tests
 from nodepool import zk
@@ -28,8 +30,7 @@ from nodepool import zk
 
 class TestNodepoolCMD(tests.DBTestCase):
     def setUp(self):
-        super(tests.DBTestCase, self).setUp()
-        self.skipTest("Disabled for early v3 development")
+        super(TestNodepoolCMD, self).setUp()
 
     def patch_argv(self, *args):
         argv = ["nodepool", "-s", self.secure_conf]
@@ -88,6 +89,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.waitForUploadRecordDeletion('fake-provider', 'fake-image',
                                          image.build_id, image.id)
 
+    @skip("Disabled for early v3 development")
     def test_alien_list_fail(self):
         def fail_list(self):
             raise RuntimeError('Fake list error')
@@ -124,7 +126,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        self.waitForNodes('fake-label')
         self.assert_nodes_listed(configfile, 1)
 
     def test_config_validate(self):
@@ -147,6 +149,7 @@ class TestNodepoolCMD(tests.DBTestCase):
             nodepoolcmd.main()
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image', 0)
 
+    @skip("Disabled for early v3 development")
     def test_dib_image_pause(self):
         configfile = self.setup_config('node_diskimage_pause.yaml')
         self._useBuilder(configfile)
@@ -156,6 +159,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image', 0)
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image2', 1)
 
+    @skip("Disabled for early v3 development")
     def test_dib_image_upload_pause(self):
         configfile = self.setup_config('node_image_upload_pause.yaml')
         self._useBuilder(configfile)
@@ -169,6 +173,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(configfile, ['image-list'], 3, 'fake-image', 0)
         self.assert_listed(configfile, ['image-list'], 3, 'fake-image2', 1)
 
+    @skip("Disabled for early v3 development")
     def test_dib_image_delete(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -188,6 +193,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(
             configfile, ['dib-image-list'], 0, 'fake-image-0000000001', 0)
 
+    @skip("Disabled for early v3 development")
     def test_hold(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -205,6 +211,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(configfile, ['list'], 0, 1, 1)
         self.assert_nodes_listed(configfile, 1, 'hold')
 
+    @skip("Disabled for early v3 development")
     def test_delete(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -218,6 +225,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         # Delete node 1
         self.assert_listed(configfile, ['delete', '1'], 10, 'delete', 1)
 
+    @skip("Disabled for early v3 development")
     def test_delete_now(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -250,6 +258,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.waitForImage('fake-provider', 'fake-image', [image])
         self.assert_listed(configfile, ['dib-image-list'], 4, zk.READY, 2)
 
+    @skip("Disabled for early v3 development")
     def test_job_create(self):
         configfile = self.setup_config('node.yaml')
         self.patch_argv("-c", configfile, "job-create", "fake-job",
@@ -257,6 +266,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         nodepoolcmd.main()
         self.assert_listed(configfile, ['job-list'], 2, 1, 1)
 
+    @skip("Disabled for early v3 development")
     def test_job_delete(self):
         configfile = self.setup_config('node.yaml')
         self.patch_argv("-c", configfile, "job-create", "fake-job",
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index edecf2c5d..2ff2205a0 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -708,6 +708,7 @@ class TestZKModel(tests.BaseTestCase):
         o.launcher = 'launcher-id'
         o.external_id = 'ABCD'
         o.hostname = 'xyz'
+        o.comment = 'comment'
 
         d = o.toDict()
         self.assertNotIn('id', d)
@@ -725,6 +726,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(d['launcher'], o.launcher)
         self.assertEqual(d['external_id'], o.external_id)
         self.assertEqual(d['hostname'], o.hostname)
+        self.assertEqual(d['comment'], o.comment)
 
     def test_Node_fromDict(self):
         now = int(time.time())
@@ -744,6 +746,7 @@ class TestZKModel(tests.BaseTestCase):
             'launcher': 'launcher-id',
             'external_id': 'ABCD',
             'hostname': 'xyz',
+            'comment': 'comment',
         }
 
         o = zk.Node.fromDict(d, node_id)
@@ -762,3 +765,4 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.launcher, d['launcher'])
         self.assertEqual(o.external_id, d['external_id'])
         self.assertEqual(o.hostname , d['hostname'])
+        self.assertEqual(o.comment , d['comment'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index f71fcd1a6..93b6fc921 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -386,6 +386,7 @@ class Node(BaseModel):
         self.created_time = None
         self.external_id = None
         self.hostname = None
+        self.comment = None
 
     def __repr__(self):
         d = self.toDict()
@@ -409,7 +410,8 @@ class Node(BaseModel):
                     self.launcher == other.launcher and
                     self.created_time == other.created_time and
                     self.external_id == other.external_id and
-                    self.hostname == other.hostname)
+                    self.hostname == other.hostname,
+                    self.comment == other.comment)
         else:
             return False
 
@@ -430,6 +432,7 @@ class Node(BaseModel):
         d['created_time'] = self.created_time
         d['external_id'] = self.external_id
         d['hostname'] = self.hostname
+        d['comment'] = self.comment
         return d
 
     @staticmethod
@@ -456,6 +459,7 @@ class Node(BaseModel):
         o.created_time = d.get('created_time')
         o.external_id = d.get('external_id')
         o.hostname = d.get('hostname')
+        o.comment = d.get('comment')
         return o
 
 

From 5592d6a2b3ab097db73d7b52cff7ee17636da53d Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 9 Feb 2017 17:08:03 -0500
Subject: [PATCH 039/309] Update nodepool hold to use zookeeper

Replace database calls with new zookeeper APIs. Also enable our
testing.

Change-Id: Id6c07ed5b61e54afadc1b2787f4c8f4744ce33ff
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/cmd/nodepoolcmd.py     | 21 ++++++++++-----------
 nodepool/tests/__init__.py      |  2 ++
 nodepool/tests/test_commands.py | 13 +++++++------
 3 files changed, 19 insertions(+), 17 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index c92a422d5..375d47e69 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -89,8 +89,8 @@ class NodePoolCmd(NodepoolApp):
             help='place a node in the HOLD state')
         cmd_hold.set_defaults(func=self.hold)
         cmd_hold.add_argument('id', help='node id')
-        cmd_hold.add_argument('--reason',
-                              help='Optional reason this node is held')
+        cmd_hold.add_argument('--reason', help='Reason this node is held',
+                              required=True)
 
         cmd_delete = subparsers.add_parser(
             'delete',
@@ -252,14 +252,13 @@ class NodePoolCmd(NodepoolApp):
         print t
 
     def hold(self):
-        node_id = None
-        with self.pool.getDB().getSession() as session:
-            node = session.getNode(self.args.id)
-            node.state = nodedb.HOLD
-            if self.args.reason:
-                node.comment = self.args.reason
-            node_id = node.id
-        self.list(node_id=node_id)
+        node = self.zk.getNode(self.args.id)
+        node.state = zk.HOLD
+        node.comment = self.args.reason
+        self.zk.lockNode(node, blocking=False)
+        self.zk.storeNode(node)
+        self.zk.unlockNode(node)
+        self.list(node_id=self.args.id)
 
     def delete(self):
         if self.args.now:
@@ -355,7 +354,7 @@ class NodePoolCmd(NodepoolApp):
         if self.args.command in ('image-build', 'dib-image-list',
                                  'image-list', 'dib-image-delete',
                                  'image-delete', 'alien-image-list',
-                                 'list'):
+                                 'list', 'hold'):
             self.zk = zk.ZooKeeper()
             self.zk.connect(config.zookeeper_servers.values())
         else:
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index c0c4ef35f..191d5cfb6 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -428,6 +428,7 @@ class DBTestCase(BaseTestCase):
                 break
             time.sleep(1)
         self.wait_for_threads()
+        return ready_nodes[label]
 
     def waitForNodeRequest(self, req):
         '''
@@ -438,6 +439,7 @@ class DBTestCase(BaseTestCase):
             if req.state in (zk.FULFILLED, zk.FAILED):
                 break
             time.sleep(1)
+
         return req
 
     def useNodepool(self, *args, **kwargs):
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 43f5a1a3a..fcaf2dc6c 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -193,22 +193,23 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(
             configfile, ['dib-image-list'], 0, 'fake-image-0000000001', 0)
 
-    @skip("Disabled for early v3 development")
     def test_hold(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label')
+        node_id = nodes[0].id
         # Assert one node exists and it is node 1 in a ready state.
-        self.assert_listed(configfile, ['list'], 0, 1, 1)
+        self.assert_listed(configfile, ['list'], 0, node_id, 1)
         self.assert_nodes_listed(configfile, 1, zk.READY)
-        # Hold node 1
-        self.patch_argv('-c', configfile, 'hold', '1')
+        # Hold node 0000000000
+        self.patch_argv(
+            '-c', configfile, 'hold', node_id, '--reason', 'testing')
         nodepoolcmd.main()
         # Assert the state changed to HOLD
-        self.assert_listed(configfile, ['list'], 0, 1, 1)
+        self.assert_listed(configfile, ['list'], 0, node_id, 1)
         self.assert_nodes_listed(configfile, 1, 'hold')
 
     @skip("Disabled for early v3 development")

From 5e6cf751227855934f4c2c489219feb5486d1704 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Fri, 10 Feb 2017 15:32:26 -0500
Subject: [PATCH 040/309] Re-enable test_dib_image_pause /
 test_dib_image_upload_pause

Update tests to use new waitForNodes() syntax.

Change-Id: I125c48d9d7b1dbaf98f3b79f30a4fd7aea83b355
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_commands.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index fcaf2dc6c..cdeb2476f 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -149,23 +149,23 @@ class TestNodepoolCMD(tests.DBTestCase):
             nodepoolcmd.main()
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image', 0)
 
-    @skip("Disabled for early v3 development")
     def test_dib_image_pause(self):
         configfile = self.setup_config('node_diskimage_pause.yaml')
         self._useBuilder(configfile)
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label2')
+        self.assertEqual(len(nodes), 1)
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image', 0)
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image2', 1)
 
-    @skip("Disabled for early v3 development")
     def test_dib_image_upload_pause(self):
         configfile = self.setup_config('node_image_upload_pause.yaml')
         self._useBuilder(configfile)
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label2')
+        self.assertEqual(len(nodes), 1)
         # Make sure diskimages were built.
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image', 1)
         self.assert_listed(configfile, ['dib-image-list'], 1, 'fake-image2', 1)

From 06a553918af33423f1ba9b2fb9746954de8ee426 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Sat, 11 Feb 2017 11:24:42 -0500
Subject: [PATCH 041/309] Re-enable test_dib_image_delete test

Update test to use the new zookeeper syntax for waitForNodes().

Change-Id: I04780bf3e365693b8b4acfc1cf3af7dd335fe539
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_commands.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index cdeb2476f..b87014b10 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -173,14 +173,14 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(configfile, ['image-list'], 3, 'fake-image', 0)
         self.assert_listed(configfile, ['image-list'], 3, 'fake-image2', 1)
 
-    @skip("Disabled for early v3 development")
     def test_dib_image_delete(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
         # Check the image exists
         self.assert_listed(configfile, ['dib-image-list'], 4, zk.READY, 1)
         builds = self.zk.getMostRecentBuilds(1, 'fake-image', zk.READY)

From c4112ca2a4fdab310590dd740e69e5c7bea04d3c Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Sat, 11 Feb 2017 11:30:59 -0500
Subject: [PATCH 042/309] Re-enable test_node test

Replace database API with zookeeper.

Change-Id: Iba117d130ac02df122b2fd7fdee03171f154577d
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_nodepool.py | 13 +++++--------
 1 file changed, 5 insertions(+), 8 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 8feecfd72..8e1651eee 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -101,7 +101,6 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(req.state, zk.FAILED)
         self.assertNotEqual(req.declined_by, [])
 
-    @skip("Disabled for early v3 development")
     def test_node(self):
         """Test that an image and node are created"""
         configfile = self.setup_config('node.yaml')
@@ -109,14 +108,12 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label')
+
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
+        self.assertEqual(nodes[0].type, 'fake-label')
 
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
 
     @skip("Disabled for early v3 development")
     def test_disabled_label(self):

From 382295dcc085d4f9203acabdbf5af3246ed3d436 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Feb 2017 10:13:52 -0500
Subject: [PATCH 043/309] Split up min-ready requests to 1 node per request

This does two things:

  - Spreads the min-ready nodes across providers.
  - Solves the situation where a single provider may not be able to
    fulfill the min-ready request because of quota issues or configuration
    limitations. For example, min-ready=2 but max-servers=1.

We need to be able to force new node launches to satisfy min-ready,
so a new 'reuse' attribute is added to the NodeRequest model.

Enables the test_node_vhd_and_qcow2 test which is an example of
min-ready=2/max-servers=1 across two providers.

Change-Id: Id32318082035416be6de4b8fcec3709f4ade03a0
---
 nodepool/nodepool.py            | 63 +++++++++++++++++++++------------
 nodepool/tests/__init__.py      |  4 +--
 nodepool/tests/test_nodepool.py | 24 +++++--------
 nodepool/tests/test_zk.py       |  4 +++
 nodepool/zk.py                  |  6 +++-
 5 files changed, 61 insertions(+), 40 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 42fd443db..fce61a98c 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1057,7 +1057,7 @@ class NodeRequestHandler(object):
         for ntype in self.request.node_types:
             # First try to grab from the list of already available nodes.
             got_a_node = False
-            if ntype in ready_nodes:
+            if self.request.reuse and ntype in ready_nodes:
                 for node in ready_nodes[ntype]:
                     try:
                         self.zk.lockNode(node, blocking=False)
@@ -1662,26 +1662,37 @@ class NodePool(threading.Thread):
         to our request, since we are deleting the request.
         '''
         for label in self._submittedRequests.keys():
-            req = self._submittedRequests[label]
-            self._submittedRequests[label] = self.zk.getNodeRequest(req.id)
+            label_requests = self._submittedRequests[label]
+            active_requests = []
 
-            if self._submittedRequests[label]:
-                if self._submittedRequests[label].state == zk.FULFILLED:
-                    self.log.debug("min-ready node request for %s fulfilled", label)
+            for req in label_requests:
+                req = self.zk.getNodeRequest(req.id)
+
+                if not req:
+                    continue
+
+                if req.state == zk.FULFILLED:
                     # Reset node allocated_to
-                    for node_id in self._submittedRequests[label].nodes:
+                    for node_id in req.nodes:
                         node = self.zk.getNode(node_id)
                         node.allocated_to = None
-                        # NOTE: locking shouldn't be necessary since a node with
-                        # allocated_to set should not be locked except by the
-                        # creator of the request (us).
+                        # NOTE: locking shouldn't be necessary since a node
+                        # with allocated_to set should not be locked except
+                        # by the creator of the request (us).
                         self.zk.storeNode(node)
-                    self.zk.deleteNodeRequest(self._submittedRequests[label])
-                    del self._submittedRequests[label]
-                elif self._submittedRequests[label].state == zk.FAILED:
-                    self.log.debug("min-ready node request for %s failed", label)
-                    self.zk.deleteNodeRequest(self._submittedRequests[label])
-                    del self._submittedRequests[label]
+                    self.zk.deleteNodeRequest(req)
+                elif req.state == zk.FAILED:
+                    self.log.debug("min-ready node request failed: %s", req)
+                    self.zk.deleteNodeRequest(req)
+                else:
+                    active_requests.append(req)
+
+            if active_requests:
+                self._submittedRequests[label] = active_requests
+            else:
+                self.log.debug(
+                    "No more active min-ready requests for label %s", label)
+                del self._submittedRequests[label]
 
     def createMinReady(self):
         '''
@@ -1692,13 +1703,15 @@ class NodePool(threading.Thread):
         Requests we've already submitted are stored in the _submittedRequests
         dict, keyed by label.
         '''
-        def createRequest(label_name, count):
+        def createRequest(label_name):
             req = zk.NodeRequest()
             req.state = zk.REQUESTED
-            for i in range(0, count):
-                req.node_types.append(label_name)
+            req.node_types.append(label_name)
+            req.reuse = False    # force new node launches
             self.zk.storeNodeRequest(req)
-            self._submittedRequests[label_name] = req
+            if label_name not in self._submittedRequests:
+                self._submittedRequests[label_name] = []
+            self._submittedRequests[label_name].append(req)
 
         # Since we could have already submitted node requests, do not
         # resubmit a request for a type if a request for that type is
@@ -1725,8 +1738,14 @@ class NodePool(threading.Thread):
                 need = min_ready - len(ready_nodes[label.name])
 
             if need:
-                self.log.info("Creating request for %d %s nodes", need, label.name)
-                createRequest(label.name, need)
+                # Create requests for 1 node at a time. This helps to split
+                # up requests across providers, and avoids scenario where a
+                # single provider might fail the entire request because of
+                # quota (e.g., min-ready=2, but max-servers=1).
+                self.log.info("Creating requests for %d %s nodes",
+                              need, label.name)
+                for i in range(0, need):
+                    createRequest(label.name)
 
     def run(self):
         '''
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 191d5cfb6..18ff602c8 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -420,11 +420,11 @@ class DBTestCase(BaseTestCase):
 
         self.wait_for_threads()
 
-    def waitForNodes(self, label):
+    def waitForNodes(self, label, count=1):
         while True:
             self.wait_for_threads()
             ready_nodes = self.zk.getReadyNodesOfTypes([label])
-            if ready_nodes:
+            if label in ready_nodes and len(ready_nodes[label]) == count:
                 break
             time.sleep(1)
         self.wait_for_threads()
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 8e1651eee..b0b6db1aa 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -166,28 +166,22 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
         self.assertEqual(len(nodes), 1)
 
-    @skip("Disabled for early v3 development")
     def test_node_vhd_and_qcow2(self):
         """Test label provided by vhd and qcow2 images builds"""
         configfile = self.setup_config('node_vhd_and_qcow2.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
-        pool.start()
         self.waitForImage('fake-provider1', 'fake-image')
         self.waitForImage('fake-provider2', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider1',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            nodes = session.getNodes(provider_name='fake-provider2',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
+        pool.start()
+        nodes = self.waitForNodes('fake-label', 2)
+        self.assertEqual(len(nodes), 2)
+        self.assertEqual(zk.READY, nodes[0].state)
+        self.assertEqual(zk.READY, nodes[1].state)
+        if nodes[0].provider == 'fake-provider1':
+            self.assertEqual(nodes[1].provider, 'fake-provider2')
+        else:
+            self.assertEqual(nodes[1].provider, 'fake-provider1')
 
     @skip("Disabled for early v3 development")
     def test_dib_upload_fail(self):
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 2ff2205a0..614ad0406 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -667,6 +667,7 @@ class TestZKModel(tests.BaseTestCase):
         o.declined_by.append("abc")
         o.node_types.append('trusty')
         o.nodes.append('100')
+        o.reuse = False
         d = o.toDict()
         self.assertNotIn('id', d)
         self.assertIn('state', d)
@@ -674,6 +675,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(d['declined_by'], o.declined_by)
         self.assertEqual(d['node_types'], o.node_types)
         self.assertEqual(d['nodes'], o.nodes)
+        self.assertEqual(d['reuse'], o.reuse)
 
     def test_NodeRequest_fromDict(self):
         now = int(time.time())
@@ -684,6 +686,7 @@ class TestZKModel(tests.BaseTestCase):
             'declined_by': ['abc'],
             'node_types': ['trusty'],
             'nodes': ['100'],
+            'reuse': False,
         }
 
         o = zk.NodeRequest.fromDict(d, req_id)
@@ -693,6 +696,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.declined_by, d['declined_by'])
         self.assertEqual(o.node_types, d['node_types'])
         self.assertEqual(o.nodes, d['nodes'])
+        self.assertEqual(o.reuse, d['reuse'])
 
     def test_Node_toDict(self):
         o = zk.Node('123')
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 93b6fc921..f9b8eb9e3 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -320,6 +320,7 @@ class NodeRequest(BaseModel):
         self.declined_by = []
         self.node_types = []
         self.nodes = []
+        self.reuse = True
 
     def __repr__(self):
         d = self.toDict()
@@ -332,7 +333,8 @@ class NodeRequest(BaseModel):
             return (self.id == other.id and
                     self.declined_by == other.declined_by and
                     self.node_types == other.node_types and
-                    self.nodes == other.nodes)
+                    self.nodes == other.nodes,
+                    self.reuse == other.reuse)
         else:
             return False
 
@@ -344,6 +346,7 @@ class NodeRequest(BaseModel):
         d['declined_by'] = self.declined_by
         d['node_types'] = self.node_types
         d['nodes'] = self.nodes
+        d['reuse'] = self.reuse
         return d
 
     @staticmethod
@@ -361,6 +364,7 @@ class NodeRequest(BaseModel):
         o.declined_by = d.get('declined_by', [])
         o.node_types = d.get('node_types', [])
         o.nodes = d.get('nodes', [])
+        o.reuse = d.get('reuse', True)
         return o
 
 

From a49d722956dd3bc86dfd63c101de1750167914f1 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Mon, 13 Feb 2017 09:39:26 -0800
Subject: [PATCH 044/309] Use helper function to instantiate ProviderManager

This will create a fake provider manager if necessary.

Change-Id: I644929ed35c2eb91d0eb0ee9fd32dd814e0e91b0
Depends-On: I35982d0d03ae00af77a515839b53542c5d830c89
---
 nodepool/nodepool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index fce61a98c..c9d4816e3 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1213,7 +1213,7 @@ class ProviderWorker(threading.Thread):
 
         if not self.manager:
             self.log.debug("Creating new ProviderManager")
-            self.manager = provider_manager.ProviderManager(
+            self.manager = provider_manager.get_provider_manager(
                 self.provider, use_taskmanager=True)
             self.manager.start()
 

From ed1201ccf4d74b40591d095868d8b12686275fcc Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Mon, 13 Feb 2017 10:41:23 -0800
Subject: [PATCH 045/309] Wait for main loop when stopping

When stopping the nodepool launcher, wait for the main loop to
exit.  This prevents race conditions (especially in tests) where
it might continue to run for a bit while stopping.

Change-Id: I3f25fd40948c45b14944468abcbceee4151097fb
---
 nodepool/nodepool.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 42fd443db..754568d33 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1368,6 +1368,7 @@ class NodePool(threading.Thread):
             self.log.debug("Waiting for %s" % thd.name)
             thd.join()
 
+        self.join()
         self.log.debug("Finished stopping")
 
     def loadConfig(self):

From 5b3ca0d3edfd4d8aac00a09369f3b45c79a42932 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 13 Feb 2017 13:40:31 -0500
Subject: [PATCH 046/309] Re-enable test_node_net_name test

Update the test to use new zookeeper syntax.

Change-Id: I467569fbccc47d22415c25b9e197704632bb538b
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_nodepool.py | 13 ++++---------
 1 file changed, 4 insertions(+), 9 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index b0b6db1aa..34fe93fd0 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -132,7 +132,6 @@ class TestNodepool(tests.DBTestCase):
                                      state=nodedb.READY)
             self.assertEqual(len(nodes), 0)
 
-    @skip("Disabled for early v3 development")
     def test_node_net_name(self):
         """Test that a node is created with a net name"""
         configfile = self.setup_config('node_net_name.yaml')
@@ -140,14 +139,10 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
+        self.assertEqual(nodes[0].type, 'fake-label')
 
     @skip("Disabled for early v3 development")
     def test_node_vhd_image(self):

From e0f14f364914fb646709afc83ac6f0ff5b2c9e11 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 13 Feb 2017 13:58:20 -0500
Subject: [PATCH 047/309] Re-enable test_node_vhd_image test

Update syntax for zookeeper.

Change-Id: I867822e4fce63a781dd0b634ea5699baea4ba38c
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_nodepool.py | 11 +++--------
 1 file changed, 3 insertions(+), 8 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 34fe93fd0..282645b73 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -144,7 +144,6 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(nodes[0].provider, 'fake-provider')
         self.assertEqual(nodes[0].type, 'fake-label')
 
-    @skip("Disabled for early v3 development")
     def test_node_vhd_image(self):
         """Test that a image and node are created vhd image"""
         configfile = self.setup_config('node_vhd.yaml')
@@ -152,14 +151,10 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
+        nodes = self.waitForNodes('fake-label')
         self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
+        self.assertEqual(nodes[0].type, 'fake-label')
 
     def test_node_vhd_and_qcow2(self):
         """Test label provided by vhd and qcow2 images builds"""

From ca228357b1866e680fcab531cbb25b5d592c493c Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Feb 2017 14:48:13 -0500
Subject: [PATCH 048/309] Set Node image_id and launcher attributes

Change-Id: I4b9fa85b29117b9dae82024c2a83d248aeb37fe6
---
 nodepool/nodepool.py            |  6 ++++++
 nodepool/tests/test_nodepool.py | 10 ++++++++--
 2 files changed, 14 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 0a624b176..21673740e 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -725,6 +725,11 @@ class NodeLauncher(threading.Thread):
 
         self._node.external_id = server.id
         self._node.hostname = hostname
+        self._node.image_id = "{path}/{upload_id}".format(
+            path=self._zk._imageUploadPath(cloud_image.image_name,
+                                           cloud_image.build_id,
+                                           cloud_image.provider_name),
+            upload_id=cloud_image.id)
 
         # Checkpoint save the updated node info
         self._zk.storeNode(self._node)
@@ -1077,6 +1082,7 @@ class NodeRequestHandler(object):
                 node.state = zk.INIT
                 node.type = ntype
                 node.provider = self.provider.name
+                node.launcher = self.launcher_id
                 node.allocated_to = self.request.id
 
                 # Note: It should be safe (i.e., no race) to lock the node
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index b0b6db1aa..6d4400cee 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -38,7 +38,7 @@ class TestNodepool(tests.DBTestCase):
         '''
         configfile = self.setup_config('node.yaml')
         self._useBuilder(configfile)
-        self.waitForImage('fake-provider', 'fake-image')
+        image = self.waitForImage('fake-provider', 'fake-image')
 
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
@@ -56,10 +56,16 @@ class TestNodepool(tests.DBTestCase):
             node = self.zk.getNode(node_id)
             self.assertEqual(node.allocated_to, req.id)
             self.assertEqual(node.state, zk.READY)
+            self.assertIsNotNone(node.launcher)
+            p = "{path}/{id}".format(
+                path=self.zk._imageUploadPath(image.image_name,
+                                              image.build_id,
+                                              image.provider_name),
+                id=image.id)
+            self.assertEqual(node.image_id, p)
             self.zk.lockNode(node, blocking=False)
             self.zk.unlockNode(node)
 
-
     @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
     def test_fail_request_on_launch_failure(self, mock_launch):
         '''

From 5e18fbee2c784de2c9294f76e603cadf995bca06 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Feb 2017 15:32:19 -0500
Subject: [PATCH 049/309] Add generator API method for node iteration

This is a common enough pattern that we should simplify it.

Change-Id: I649c691cf09087cf7d46fa1e9c6c879e4d60247b
---
 nodepool/nodepool.py      |  5 ++---
 nodepool/tests/test_zk.py |  7 +++++++
 nodepool/zk.py            | 14 +++++++++++---
 3 files changed, 20 insertions(+), 6 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 21673740e..baf7d2cf9 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -999,9 +999,8 @@ class NodeRequestHandler(object):
         :returns: An integer for the number launched for this provider.
         '''
         count = 0
-        for node_id in self.zk.getNodes():
-            node = self.zk.getNode(node_id)
-            if node and node.provider == self.provider.name:
+        for node in self.zk.nodeIterator():
+            if node.provider == self.provider.name:
                 count += 1
         return count
 
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 614ad0406..1aad83ef3 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -571,6 +571,13 @@ class TestZooKeeper(tests.DBTestCase):
         self.assertEqual(1, len(r['label1']))
         self.assertEqual(n2, r['label1'][0])
 
+    def test_nodeIterator(self):
+        n1 = self._create_node()
+        i = self.zk.nodeIterator()
+        self.assertEqual(n1, i.next())
+        with testtools.ExpectedException(StopIteration):
+            i.next()
+
 
 class TestZKModel(tests.BaseTestCase):
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index f9b8eb9e3..eac6c451f 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1463,12 +1463,20 @@ class ZooKeeper(object):
             that are ready, or an empty dict if none are found.
         '''
         ret = {}
-        for node_id in self.getNodes():
-            node = self.getNode(node_id)
-            if (node and node.state == READY and
+        for node in self.nodeIterator():
+            if (node.state == READY and
                 not node.allocated_to and node.type in labels
             ):
                 if node.type not in ret:
                     ret[node.type] = []
                 ret[node.type].append(node)
         return ret
+
+    def nodeIterator(self):
+        '''
+        Utility generator method for iterating through all nodes.
+        '''
+        for node_id in self.getNodes():
+            node = self.getNode(node_id)
+            if node:
+                yield node

From 218e358dcfd35a76d7cfed191f6c49d2b9513e09 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 14 Feb 2017 15:17:35 -0500
Subject: [PATCH 050/309] Disconnect from ZooKeeper at shutdown

Here I sit all broken hearted
Wondering why, with zk started,
We did not try to disconnect,
When a stop command, we did get.
I blame the programmer who let it be,
Oh, wait! Just realized, that programmer is me.

Change-Id: I542858a10182719f1f4bdfc566d327eb2790f53d
---
 nodepool/nodepool.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index baf7d2cf9..b134c5646 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1374,6 +1374,7 @@ class NodePool(threading.Thread):
             thd.join()
 
         self.join()
+        self.zk.disconnect()
         self.log.debug("Finished stopping")
 
     def loadConfig(self):

From da774f869689a88eeb61ff907887eaba413aa682 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 13 Feb 2017 14:08:43 -0500
Subject: [PATCH 051/309] Re-enable test_dib_upload_fail test

Update test to use new zookeeper syntax.

Change-Id: Ida35846f2ab5e3339ec03bdf27d72d68c2f3ad55
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_nodepool.py | 22 ++++++++--------------
 1 file changed, 8 insertions(+), 14 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index ac8786a64..590fe1067 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -179,7 +179,6 @@ class TestNodepool(tests.DBTestCase):
         else:
             self.assertEqual(nodes[1].provider, 'fake-provider1')
 
-    @skip("Disabled for early v3 development")
     def test_dib_upload_fail(self):
         """Test that an image upload failure is contained."""
         configfile = self.setup_config('node_upload_fail.yaml')
@@ -187,19 +186,14 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider2', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider1',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 0)
-            nodes = session.getNodes(provider_name='fake-provider2',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 2)
+        nodes = self.waitForNodes('fake-label', 2)
+        self.assertEqual(len(nodes), 2)
+        total_nodes = sum(1 for _ in self.zk.nodeIterator())
+        self.assertEqual(total_nodes, 2)
+        self.assertEqual(nodes[0].provider, 'fake-provider2')
+        self.assertEqual(nodes[0].type, 'fake-label')
+        self.assertEqual(nodes[1].provider, 'fake-provider2')
+        self.assertEqual(nodes[1].type, 'fake-label')
 
     @skip("Disabled for early v3 development")
     def test_node_az(self):

From 93b9b54883e82c6fd243615a9b56343354897ef7 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 13 Feb 2017 15:55:53 -0500
Subject: [PATCH 052/309] Re-enable working test_builder.py tests

But leave the current failing tests disabled. These will be cleaned up
in a follow up patch.

Change-Id: Iea7d56ceb14684c77cb991d362bff992ca061590
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_builder.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 0ce7a69b6..a02e3840b 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -15,6 +15,7 @@
 
 import os
 import fixtures
+from unittest import skip
 
 from nodepool import builder, exceptions, fakeprovider, tests
 from nodepool import zk
@@ -85,9 +86,6 @@ class TestNodepoolBuilderDibImage(tests.BaseTestCase):
         self.assertRaises(exceptions.BuilderError, image.to_path, '/imagedir/')
 
 class TestNodePoolBuilder(tests.DBTestCase):
-    def setUp(self):
-        super(tests.DBTestCase, self).setUp()
-        self.skipTest("Disabled for early v3 development")
 
     def test_start_stop(self):
         config = self.setup_config('node.yaml')
@@ -98,6 +96,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
         nb.start()
         nb.stop()
 
+    @skip("Disabled for early v3 development")
     def test_image_upload_fail(self):
         """Test that image upload fails are handled properly."""
 
@@ -279,6 +278,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
         # Make sure our cleanup worker properly removes the first build.
         self.waitForBuildDeletion('fake-image', '0000000001')
 
+    @skip("Disabled for early v3 development")
     def test_diskimage_build_only(self):
         configfile = self.setup_config('node_diskimage_only.yaml')
         self._useBuilder(configfile)

From ba4eafa5a875bccf1ea7c454e9740d53f534f7bd Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 13 Feb 2017 15:59:36 -0500
Subject: [PATCH 053/309] Re-enable test_diskimage_build_only test

Remove gearman and zmq settings from yaml file.

Change-Id: I8f0938ce132af89b1c7fcd2e9b1d217f23d4df0f
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/fixtures/node_diskimage_only.yaml | 7 -------
 nodepool/tests/test_builder.py                   | 1 -
 2 files changed, 8 deletions(-)

diff --git a/nodepool/tests/fixtures/node_diskimage_only.yaml b/nodepool/tests/fixtures/node_diskimage_only.yaml
index f85ae34dd..63a0e91ec 100644
--- a/nodepool/tests/fixtures/node_diskimage_only.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_only.yaml
@@ -5,13 +5,6 @@ cron:
   check: '*/15 * * * *'
   cleanup: '*/1 * * * *'
 
-zmq-publishers:
-  - tcp://localhost:8881
-
-gearman-servers:
-  - host: localhost
-    port: {gearman_port}
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index a02e3840b..cf9c24c4a 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -278,7 +278,6 @@ class TestNodePoolBuilder(tests.DBTestCase):
         # Make sure our cleanup worker properly removes the first build.
         self.waitForBuildDeletion('fake-image', '0000000001')
 
-    @skip("Disabled for early v3 development")
     def test_diskimage_build_only(self):
         configfile = self.setup_config('node_diskimage_only.yaml')
         self._useBuilder(configfile)

From b5b3ad84d03c1102c2c1e60658bf77e7e060979a Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 13 Feb 2017 16:01:31 -0500
Subject: [PATCH 054/309] Re-enable test_image_upload_fail test

Update test to use new zookeeper syntax.

Change-Id: I2ace2f1f9e0827ab391821094674973d75e8b556
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_builder.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index cf9c24c4a..476f6998e 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -15,7 +15,6 @@
 
 import os
 import fixtures
-from unittest import skip
 
 from nodepool import builder, exceptions, fakeprovider, tests
 from nodepool import zk
@@ -96,7 +95,6 @@ class TestNodePoolBuilder(tests.DBTestCase):
         nb.start()
         nb.stop()
 
-    @skip("Disabled for early v3 development")
     def test_image_upload_fail(self):
         """Test that image upload fails are handled properly."""
 
@@ -118,7 +116,8 @@ class TestNodePoolBuilder(tests.DBTestCase):
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
 
         newest_builds = self.zk.getMostRecentBuilds(1, 'fake-image',
                                                     state=zk.READY)

From 386a5923bbe5df9019163344d3d95135e98f3edb Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 15 Feb 2017 19:26:43 -0500
Subject: [PATCH 055/309] Move ProviderManagers into main NodePool thread

Move the ProviderManager objects up from the ProviderWorker threads
into the parent NodePool thread. This is preparation for a new child
thread that will also need access to the managers.

Change-Id: I5a382992280b0e459a1fffe91b10d1d91711309c
---
 nodepool/cmd/nodepoolcmd.py |  2 +-
 nodepool/nodepool.py        | 96 ++++++++++++++-----------------------
 2 files changed, 38 insertions(+), 60 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 375d47e69..b0425368f 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -213,7 +213,7 @@ class NodePoolCmd(NodepoolApp):
             if (self.args.provider and
                     provider.name != self.args.provider):
                 continue
-            manager = self.pool.getProviderManager(provider)
+            manager = self.pool.getProviderManager(provider.name)
 
             # Build list of provider images as known by the provider
             provider_images = []
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 9eee65d81..f55c064e5 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -779,10 +779,10 @@ class NodeRequestHandler(object):
         :param NodeRequest request: The request to handle.
         '''
         self.log = logging.getLogger("nodepool.NodeRequestHandler")
-        self.provider = pw.provider
-        self.zk = pw.zk
-        self.labels = pw.labels
-        self.manager = pw.manager
+        self.provider = pw.getProviderConfig()
+        self.zk = pw.getZK()
+        self.labels = pw.getLabelsConfig()
+        self.manager = pw.getProviderManager()
         self.launcher_id = pw.launcher_id
         self.request = request
         self.launch_manager = None
@@ -988,22 +988,17 @@ class ProviderWorker(threading.Thread):
     that will be recognized and this thread will shut itself down.
     '''
 
-    def __init__(self, configfile, zk, provider,
-                 watermark_sleep=WATERMARK_SLEEP):
+    def __init__(self, nodepool, provider_name):
         threading.Thread.__init__(
-            self, name='ProviderWorker.%s' % provider.name
+            self, name='ProviderWorker.%s' % provider_name
         )
         self.log = logging.getLogger("nodepool.%s" % self.name)
+        self.nodepool = nodepool
+        self.provider_name = provider_name
         self.running = False
-        self.configfile = configfile
         self.request_handlers = []
-        self.watermark_sleep = watermark_sleep
-
-        # These attributes will be used by NodeRequestHandler
-        self.zk = zk
-        self.manager = None
-        self.labels = None
-        self.provider = provider
+        self.watermark_sleep = nodepool.watermark_sleep
+        self.zk = self.getZK()
         self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
                                          os.getpid(),
                                          self.ident)
@@ -1012,33 +1007,6 @@ class ProviderWorker(threading.Thread):
     # Private methods
     #----------------------------------------------------------------
 
-    def _updateProvider(self):
-        '''
-        Update the provider definition from the config file.
-
-        If this provider has been removed from the config, we need to
-        stop processing the request queue. This will effectively cause
-        this thread to terminate.
-        '''
-        config = nodepool_config.loadConfig(self.configfile)
-        self.labels = config.labels
-
-        if self.provider.name not in config.providers.keys():
-            self.log.info("Provider %s removed from config"
-                          % self.provider.name)
-            self.stop()
-        elif self.provider != config.providers[self.provider.name]:
-            self.provider = config.providers[self.provider.name]
-            if self.manager:
-                self.manager.stop()
-                self.manager = None
-
-        if not self.manager:
-            self.log.debug("Creating new ProviderManager")
-            self.manager = provider_manager.get_provider_manager(
-                self.provider, use_taskmanager=True)
-            self.manager.start()
-
     def _activeThreads(self):
         '''
         Return the number of alive threads in use by this provider.
@@ -1060,13 +1028,14 @@ class ProviderWorker(threading.Thread):
         satisfy the request, then return. We will need to periodically poll
         the handler for completion.
         '''
-        if self.provider.max_concurrency == 0:
+        provider = self.getProviderConfig()
+        if provider.max_concurrency == 0:
             return
 
         for req_id in self.zk.getNodeRequests():
             # Short-circuit for limited request handling
-            if (self.provider.max_concurrency > 0
-                and self._activeThreads() >= self.provider.max_concurrency
+            if (provider.max_concurrency > 0
+                and self._activeThreads() >= provider.max_concurrency
             ):
                 return
 
@@ -1112,6 +1081,18 @@ class ProviderWorker(threading.Thread):
     # Public methods
     #----------------------------------------------------------------
 
+    def getZK(self):
+        return self.nodepool.getZK()
+
+    def getProviderConfig(self):
+        return self.nodepool.config.providers[self.provider_name]
+
+    def getProviderManager(self):
+        return self.nodepool.getProviderManager(self.provider_name)
+
+    def getLabelsConfig(self):
+        return self.nodepool.config.labels
+
     def run(self):
         self.running = True
 
@@ -1124,10 +1105,6 @@ class ProviderWorker(threading.Thread):
             # Make sure we're always registered with ZK
             self.zk.registerLauncher(self.launcher_id)
 
-            self._updateProvider()
-            if not self.running:
-                break
-
             self._assignHandlers()
             self._removeCompletedHandlers()
             time.sleep(self.watermark_sleep)
@@ -1143,10 +1120,6 @@ class ProviderWorker(threading.Thread):
         self.log.info("%s received stop" % self.name)
         self.running = False
 
-        if self.manager:
-            self.manager.stop()
-            self.manager.join()
-
 
 class NodePool(threading.Thread):
     log = logging.getLogger("nodepool.NodePool")
@@ -1298,8 +1271,8 @@ class NodePool(threading.Thread):
     def getZK(self):
         return self.zk
 
-    def getProviderManager(self, provider):
-        return self.config.provider_managers[provider.name]
+    def getProviderManager(self, provider_name):
+        return self.config.provider_managers[provider_name]
 
     def getJenkinsManager(self, target):
         if target.name in self.config.jenkins_managers:
@@ -1462,6 +1435,7 @@ class NodePool(threading.Thread):
 
     def updateConfig(self):
         config = self.loadConfig()
+        provider_manager.ProviderManager.reconfigure(self.config, config)
         self.reconfigureZooKeeper(config)
         self.setConfig(config)
 
@@ -1573,20 +1547,24 @@ class NodePool(threading.Thread):
 
                 self.createMinReady()
 
+                # Stop any ProviderWorker threads if the provider was removed
+                # from the config.
+                for provider_name in self._provider_threads.keys():
+                    if provider_name not in self.config.providers.keys():
+                        self._provider_threads[provider_name].stop()
+
                 # Start (or restart) provider threads for each provider in
                 # the config. Removing a provider from the config and then
                 # adding it back would cause a restart.
                 for p in self.config.providers.values():
                     if p.name not in self._provider_threads.keys():
-                        t = ProviderWorker(self.configfile, self.zk, p,
-                                           self.watermark_sleep)
+                        t = ProviderWorker(self, p.name)
                         self.log.info( "Starting %s" % t.name)
                         t.start()
                         self._provider_threads[p.name] = t
                     elif not self._provider_threads[p.name].isAlive():
                         self._provider_threads[p.name].join()
-                        t = ProviderWorker(self.configfile, self.zk, p,
-                                           self.watermark_sleep)
+                        t = ProviderWorker(self, p.name)
                         self.log.info( "Restarting %s" % t.name)
                         t.start()
                         self._provider_threads[p.name] = t

From 59fa7781c72612218d8bad42b0dc7dd3047316c1 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 14 Feb 2017 10:53:29 -0500
Subject: [PATCH 056/309] Implement node cleanup

To prove it works, this also reworks the 'delete' command to use
ZooKeeper.

Summary:
  - Re-enables the 'delete' command
  - Adds waitForNodeDeletion() for testing.
  - Re-enables tests:
     - test_node_delete_success
     - test_delete
     - test_delete_now
  - Fixes a bug in Node.__eq__ causing it to fail.

Change-Id: I539bca7d2d3d3b90f8e04e9098065e8b6797b194
---
 nodepool/cmd/nodepoolcmd.py     |  28 ++++---
 nodepool/nodepool.py            | 131 ++++++++++++++++++++++++++++----
 nodepool/status.py              |  12 +--
 nodepool/tests/__init__.py      |  14 ++++
 nodepool/tests/test_commands.py |  37 +++++----
 nodepool/tests/test_nodepool.py |  42 ++++------
 nodepool/tests/test_zk.py       |   7 ++
 nodepool/zk.py                  |  17 ++++-
 8 files changed, 212 insertions(+), 76 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index b0425368f..ed9ebaab4 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -18,7 +18,7 @@ import argparse
 import logging.config
 import sys
 
-from nodepool import nodedb
+from nodepool import provider_manager
 from nodepool import nodepool
 from nodepool import status
 from nodepool import zk
@@ -261,17 +261,21 @@ class NodePoolCmd(NodepoolApp):
         self.list(node_id=self.args.id)
 
     def delete(self):
+        node = self.zk.getNode(self.args.id)
+        provider = self.pool.config.providers[node.provider]
+        self.zk.lockNode(node, blocking=True, timeout=5)
+
         if self.args.now:
-            self.pool.reconfigureManagers(self.pool.config)
-        with self.pool.getDB().getSession() as session:
-            node = session.getNode(self.args.id)
-            if not node:
-                print "Node %s not found." % self.args.id
-            elif self.args.now:
-                self.pool._deleteNode(session, node)
-            else:
-                node.state = nodedb.DELETE
-                self.list(node_id=node.id)
+            manager = provider_manager.get_provider_manager(provider, True)
+            manager.start()
+            nodepool.InstanceDeleter.delete(self.zk, manager, node)
+            manager.stop()
+        else:
+            node.state = zk.DELETING
+            self.zk.storeNode(node)
+            self.zk.unlockNode(node)
+
+        self.list(node_id=node.id)
 
     def dib_image_delete(self):
         (image, build_num) = self.args.id.rsplit('-', 1)
@@ -354,7 +358,7 @@ class NodePoolCmd(NodepoolApp):
         if self.args.command in ('image-build', 'dib-image-list',
                                  'image-list', 'dib-image-delete',
                                  'image-delete', 'alien-image-list',
-                                 'list', 'hold'):
+                                 'list', 'hold', 'delete'):
             self.zk = zk.ZooKeeper()
             self.zk.connect(config.zookeeper_servers.values())
         else:
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index f55c064e5..4830aa8ee 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -174,20 +174,41 @@ class NodeCompleteThread(threading.Thread):
 class InstanceDeleter(threading.Thread):
     log = logging.getLogger("nodepool.InstanceDeleter")
 
-    def __init__(self, nodepool, provider_name, external_id):
+    def __init__(self, zk, manager, node):
         threading.Thread.__init__(self, name='InstanceDeleter for %s %s' %
-                                  (provider_name, external_id))
-        self.nodepool = nodepool
-        self.provider_name = provider_name
-        self.external_id = external_id
+                                  (node.provider, node.external_id))
+        self._zk = zk
+        self._manager = manager
+        self._node = node
+
+    @staticmethod
+    def delete(zk, manager, node):
+        '''
+        Delete a node.
+
+        This is a class method so we can support instantaneous deletes.
+        '''
+        try:
+            manager.cleanupServer(node.external_id)
+        except provider_manager.NotFound:
+            InstanceDeleter.log.info("Instance %s not found in provider %s",
+                                     node.external_id, node.provider)
+        except Exception:
+            InstanceDeleter.log.exception(
+                "Exception deleting instance %s from %s:",
+                node.external_id, node.provider)
+            # Don't delete the ZK node in this case, but do unlock it
+            zk.unlockNode(node)
+            return
+
+        InstanceDeleter.log.info(
+            "Deleting ZK node id=%s, state=%s, external_id=%s",
+            node.id, node.state, node.external_id)
+        zk.unlockNode(node)
+        zk.deleteNode(node)
 
     def run(self):
-        try:
-            self.nodepool._deleteInstance(self.provider_name,
-                                          self.external_id)
-        except Exception:
-            self.log.exception("Exception deleting instance %s from %s:" %
-                               (self.external_id, self.provider_name))
+        self.delete(self._zk, self._manager, self._node)
 
 
 class NodeDeleter(threading.Thread):
@@ -1121,26 +1142,95 @@ class ProviderWorker(threading.Thread):
         self.running = False
 
 
+class NodeCleanupWorker(threading.Thread):
+    def __init__(self, nodepool, interval):
+        threading.Thread.__init__(self, name='NodeCleanupWorker')
+        self.log = logging.getLogger("nodepool.NodeCleanupWorker")
+        self._nodepool = nodepool
+        self._interval = interval
+        self._running = False
+
+    def _deleteInstance(self, node):
+        '''
+        Delete an instance from a provider.
+
+        A thread will be spawned to delete the actual instance from the
+        provider.
+
+        :param Node node: A Node object representing the instance to delete.
+        '''
+        self.log.info("Deleting instance %s from %s",
+                      node.external_id, node.provider)
+        try:
+            t = InstanceDeleter(
+                self._nodepool.getZK(),
+                self._nodepool.getProviderManager(node.provider),
+                node)
+            t.start()
+        except Exception:
+            self.log.exception("Could not delete instance %s on provider %s",
+                               node.external_id, node.provider)
+
+    def _cleanupNodes(self):
+        '''
+        Delete instances from providers and nodes entries from ZooKeeper.
+        '''
+        # TODO(Shrews): Cleanup alien instances
+
+        zk_conn = self._nodepool.getZK()
+        for node in zk_conn.nodeIterator():
+            # Can't do anything if we aren't configured for this provider.
+            if node.provider not in self._nodepool.config.providers:
+                continue
+
+            # Any nodes in these states that are unlocked can be deleted.
+            if node.state in (zk.USED, zk.IN_USE, zk.BUILDING, zk.DELETING):
+                try:
+                    zk_conn.lockNode(node, blocking=False)
+                except exceptions.ZKLockException:
+                    continue
+
+                # The InstanceDeleter thread will unlock and remove the
+                # node from ZooKeeper if it succeeds.
+                self._deleteInstance(node)
+
+    def run(self):
+        self.log.info("Starting")
+        self._running = True
+
+        while self._running:
+            try:
+                self._cleanupNodes()
+            except Exception:
+                self.log.exception("Exception in NodeCleanupWorker:")
+
+            time.sleep(self._interval)
+
+        self.log.info("Stopped")
+
+    def stop(self):
+        self._running = False
+        self.join()
+
+
 class NodePool(threading.Thread):
     log = logging.getLogger("nodepool.NodePool")
 
+    #TODO(Shrews): remove --no-deletes option
     def __init__(self, securefile, configfile, no_deletes=False,
                  watermark_sleep=WATERMARK_SLEEP):
         threading.Thread.__init__(self, name='NodePool')
         self.securefile = securefile
         self.configfile = configfile
-        self.no_deletes = no_deletes
         self.watermark_sleep = watermark_sleep
+        self.cleanup_interval = 5
         self._stopped = False
         self.config = None
         self.apsched = None
         self.zk = None
         self.statsd = stats.get_client()
         self._provider_threads = {}
-        self._delete_threads = {}
-        self._delete_threads_lock = threading.Lock()
-        self._instance_delete_threads = {}
-        self._instance_delete_threads_lock = threading.Lock()
+        self._cleanup_thread = None
         self._wake_condition = threading.Condition()
         self._submittedRequests = {}
 
@@ -1154,6 +1244,10 @@ class NodePool(threading.Thread):
         if self.apsched and self.apsched.running:
             self.apsched.shutdown()
 
+        if self._cleanup_thread:
+            self._cleanup_thread.stop()
+            self._cleanup_thread.join()
+
         # Don't let stop() return until all provider threads have been
         # terminated.
         self.log.debug("Stopping provider threads")
@@ -1547,6 +1641,11 @@ class NodePool(threading.Thread):
 
                 self.createMinReady()
 
+                if not self._cleanup_thread:
+                    self._cleanup_thread = NodeCleanupWorker(
+                        self, self.cleanup_interval)
+                    self._cleanup_thread.start()
+
                 # Stop any ProviderWorker threads if the provider was removed
                 # from the config.
                 for provider_name in self._provider_threads.keys():
diff --git a/nodepool/status.py b/nodepool/status.py
index 934d42398..8946d0306 100644
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -37,13 +37,13 @@ def node_list(zk, node_id=None):
     t.align = 'l'
     if node_id:
         node = zk.getNode(node_id)
-        t.add_row([node.id, node.provider, node.az, node.type,
-                   node.launcher, node.hostname, node.external_id,
-                   node.public_ipv4, node.private_ipv4, node.public_ipv6,
-                   node.state, age(node.state_time), node.comment])
+        if node:
+            t.add_row([node.id, node.provider, node.az, node.type,
+                       node.launcher, node.hostname, node.external_id,
+                       node.public_ipv4, node.private_ipv4, node.public_ipv6,
+                       node.state, age(node.state_time), node.comment])
     else:
-        for nid in zk.getNodes():
-            node = zk.getNode(nid)
+        for node in zk.nodeIterator():
             t.add_row([node.id, node.provider, node.az, node.type,
                        node.launcher, node.hostname, node.external_id,
                        node.public_ipv4, node.private_ipv4, node.public_ipv6,
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 18ff602c8..84deaf5e3 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -192,6 +192,8 @@ class BaseTestCase(testtools.TestCase):
                     continue
                 if t.name.startswith("NodeLauncher"):
                     continue
+                if t.name.startswith("NodeCleanupWorker"):
+                    continue
                 if t.name not in whitelist:
                     done = False
             if done:
@@ -420,6 +422,17 @@ class DBTestCase(BaseTestCase):
 
         self.wait_for_threads()
 
+    def waitForNodeDeletion(self, node):
+        while True:
+            exists = False
+            for n in self.zk.nodeIterator():
+                if node.id == n.id:
+                    exists = True
+                    break
+            if not exists:
+                break
+            time.sleep(1)
+
     def waitForNodes(self, label, count=1):
         while True:
             self.wait_for_threads()
@@ -445,6 +458,7 @@ class DBTestCase(BaseTestCase):
     def useNodepool(self, *args, **kwargs):
         args = (self.secure_conf,) + args
         pool = nodepool.NodePool(*args, **kwargs)
+        pool.cleanup_interval = .5
         self.addCleanup(pool.stop)
         return pool
 
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index b87014b10..81a01300b 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -212,36 +212,47 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(configfile, ['list'], 0, node_id, 1)
         self.assert_nodes_listed(configfile, 1, 'hold')
 
-    @skip("Disabled for early v3 development")
     def test_delete(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-        # Assert one node exists and it is node 1 in a ready state.
-        self.assert_listed(configfile, ['list'], 0, 1, 1)
-        self.assert_nodes_listed(configfile, 1, zk.READY)
-        # Delete node 1
-        self.assert_listed(configfile, ['delete', '1'], 10, 'delete', 1)
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+
+        # Assert one node exists and it is nodes[0].id in a ready state.
+        self.assert_listed(configfile, ['list'], 0, nodes[0].id, 1)
+        self.assert_nodes_listed(configfile, 1, zk.READY)
+
+        # Delete node
+        self.patch_argv('-c', configfile, 'delete', nodes[0].id)
+        nodepoolcmd.main()
+        self.waitForNodeDeletion(nodes[0])
+
+        # Assert the node is gone
+        self.assert_listed(configfile, ['list'], 0, nodes[0].id, 0)
 
-    @skip("Disabled for early v3 development")
     def test_delete_now(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage( 'fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+
         # Assert one node exists and it is node 1 in a ready state.
-        self.assert_listed(configfile, ['list'], 0, 1, 1)
+        self.assert_listed(configfile, ['list'], 0, nodes[0].id, 1)
         self.assert_nodes_listed(configfile, 1, zk.READY)
-        # Delete node 1
-        self.patch_argv('-c', configfile, 'delete', '--now', '1')
+
+        # Delete node
+        self.patch_argv('-c', configfile, 'delete', '--now', nodes[0].id)
         nodepoolcmd.main()
+        self.waitForNodeDeletion(nodes[0])
+
         # Assert the node is gone
-        self.assert_listed(configfile, ['list'], 0, 1, 0)
+        self.assert_listed(configfile, ['list'], 0, nodes[0].id, 0)
 
     def test_image_build(self):
         configfile = self.setup_config('node.yaml')
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 590fe1067..f2e88e36c 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -248,42 +248,28 @@ class TestNodepool(tests.DBTestCase):
             self.assertEqual(len(nodes), 1)
             self.assertEqual(nodes[0].ip, 'fake')
 
-    @skip("Disabled for early v3 development")
     def test_node_delete_success(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-        node_id = -1
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            node_id = nodes[0].id
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(zk.READY, nodes[0].state)
+        self.assertEqual('fake-provider', nodes[0].provider)
+        nodes[0].state = zk.DELETING
+        self.zk.storeNode(nodes[0])
 
-        pool.deleteNode(node_id)
-        self.wait_for_threads()
-        self.waitForNodes(pool)
+        # Wait for this one to be deleted
+        self.waitForNodeDeletion(nodes[0])
 
-        with pool.getDB().getSession() as session:
-            ready_nodes = session.getNodes(provider_name='fake-provider',
-                                           label_name='fake-label',
-                                           target_name='fake-target',
-                                           state=nodedb.READY)
-            deleted_nodes = session.getNodes(provider_name='fake-provider',
-                                             label_name='fake-label',
-                                             target_name='fake-target',
-                                             state=nodedb.DELETE)
-            # Make sure we have one node which is a new node
-            self.assertEqual(len(ready_nodes), 1)
-            self.assertNotEqual(node_id, ready_nodes[0].id)
-
-            # Make sure our old node was deleted
-            self.assertEqual(len(deleted_nodes), 0)
+        # Wait for a new one to take it's place
+        new_nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(new_nodes), 1)
+        self.assertEqual(zk.READY, new_nodes[0].state)
+        self.assertEqual('fake-provider', new_nodes[0].provider)
+        self.assertNotEqual(nodes[0], new_nodes[0])
 
     @skip("Disabled for early v3 development")
     def test_node_delete_failure(self):
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 1aad83ef3..e23de4f4b 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -553,6 +553,13 @@ class TestZooKeeper(tests.DBTestCase):
             self.zk.client.exists(self.zk._requestPath(req.id))
         )
 
+    def test_deleteNode(self):
+        n1 = self._create_node()
+        self.zk.deleteNode(n1)
+        self.assertIsNone(
+            self.zk.client.exists(self.zk._nodePath(n1.id))
+        )
+
     def test_getReadyNodesOfTypes(self):
         n1 = self._create_node()
         n1.type = 'label1'
diff --git a/nodepool/zk.py b/nodepool/zk.py
index eac6c451f..24d3de288 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -414,7 +414,7 @@ class Node(BaseModel):
                     self.launcher == other.launcher and
                     self.created_time == other.created_time and
                     self.external_id == other.external_id and
-                    self.hostname == other.hostname,
+                    self.hostname == other.hostname and
                     self.comment == other.comment)
         else:
             return False
@@ -1453,6 +1453,21 @@ class ZooKeeper(object):
             path = self._nodePath(node.id)
             self.client.set(path, node.serialize())
 
+    def deleteNode(self, node):
+        '''
+        Delete a node.
+
+        :param Node node: The Node object representing the ZK node to delete.
+        '''
+        if not node.id:
+            return
+
+        path = self._nodePath(node.id)
+        try:
+            self.client.delete(path, recursive=True)
+        except kze.NoNodeError:
+            pass
+
     def getReadyNodesOfTypes(self, labels):
         '''
         Query ZooKeeper for unused/ready nodes.

From d884a35937ed0dd93f60ea643eedbf844acf1922 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Feb 2017 12:19:43 -0500
Subject: [PATCH 057/309] Re-enable devstack test job

Change-Id: I8073a3706eb16fe0a271ea59f6381f363ead0e5b
---
 tools/check_devstack_plugin.sh | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/tools/check_devstack_plugin.sh b/tools/check_devstack_plugin.sh
index f86692a1f..01ddcb2dc 100755
--- a/tools/check_devstack_plugin.sh
+++ b/tools/check_devstack_plugin.sh
@@ -40,8 +40,6 @@ function waitfornode {
     done
 }
 
-exit 0
-
 if [ $NODEPOOL_PAUSE_CENTOS_7_DIB = 'false' ]; then
     # check that image built
     waitforimage centos-7
@@ -82,7 +80,7 @@ set -o errexit
 $NODEPOOL list
 
 # Try to delete the nodes that were just built
-$NODEPOOL delete --now 1
+$NODEPOOL delete --now 0000000000
 
 # show the deleted nodes (and their replacements may be building)
 $NODEPOOL list

From 4e6dedfd0f9ae6b7a16ac5c382054837527afb6a Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 15 Feb 2017 12:05:03 -0500
Subject: [PATCH 058/309] Add lock state to node listing

Also make waitfornodes in the devstack script to wait for unlocked
nodes.

Change-Id: I76f35d46f66f9e3beafe9f5f5a93049256a8df44
---
 nodepool/status.py             | 21 ++++++++++++++++++---
 tools/check_devstack_plugin.sh |  2 +-
 2 files changed, 19 insertions(+), 4 deletions(-)

diff --git a/nodepool/status.py b/nodepool/status.py
index 8946d0306..18846da9e 100644
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -33,21 +33,36 @@ def node_list(zk, node_id=None):
     t = PrettyTable(["ID", "Provider", "AZ", "Label",
                      "Launcher", "Hostname", "Server ID",
                      "Public IPv4", "Private IPv4", "IPv6",
-                     "State", "Age", "Comment"])
+                     "State", "Age", "Locked", "Comment"])
     t.align = 'l'
     if node_id:
         node = zk.getNode(node_id)
         if node:
+            locked = "unlocked"
+            try:
+                zk.lockNode(node, blocking=False)
+            except Exception:
+                locked = "locked"
+            else:
+                zk.unlockNode(node)
+
             t.add_row([node.id, node.provider, node.az, node.type,
                        node.launcher, node.hostname, node.external_id,
                        node.public_ipv4, node.private_ipv4, node.public_ipv6,
-                       node.state, age(node.state_time), node.comment])
+                       node.state, age(node.state_time), locked, node.comment])
     else:
         for node in zk.nodeIterator():
+            locked = "unlocked"
+            try:
+                zk.lockNode(node, blocking=False)
+            except Exception:
+                locked = "locked"
+            else:
+                zk.unlockNode(node)
             t.add_row([node.id, node.provider, node.az, node.type,
                        node.launcher, node.hostname, node.external_id,
                        node.public_ipv4, node.private_ipv4, node.public_ipv6,
-                       node.state, age(node.state_time), node.comment])
+                       node.state, age(node.state_time), locked, node.comment])
     return str(t)
 
 
diff --git a/tools/check_devstack_plugin.sh b/tools/check_devstack_plugin.sh
index 01ddcb2dc..3c9b7bc02 100755
--- a/tools/check_devstack_plugin.sh
+++ b/tools/check_devstack_plugin.sh
@@ -31,7 +31,7 @@ function waitfornode {
     name=$1
     state='ready'
 
-    while ! $NODEPOOL list | grep $name | grep $state; do
+    while ! $NODEPOOL list | grep $name | grep $state | grep "unlocked"; do
         $NODEPOOL image-list > /tmp/.nodepool-image-list.txt
         $NODEPOOL list > /tmp/.nodepool-list.txt
         sudo mv /tmp/.nodepool-image-list.txt $WORKSPACE/logs/nodepool-image-list.txt

From ae20ff1792cfc7b13f45c5f1d07bba2a8a6a1614 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 16 Feb 2017 15:05:13 -0500
Subject: [PATCH 059/309] Wait for server deletion before deleting ZK node

Change-Id: I2f8531cd2ffc027fe6d2d1064b3cd42f8b1845b1
---
 nodepool/nodepool.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 4830aa8ee..5576fd018 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -190,6 +190,7 @@ class InstanceDeleter(threading.Thread):
         '''
         try:
             manager.cleanupServer(node.external_id)
+            manager.waitForServerDeletion(node.external_id)
         except provider_manager.NotFound:
             InstanceDeleter.log.info("Instance %s not found in provider %s",
                                      node.external_id, node.provider)

From 64b39bf970182f7e0dcb0fe2b0545803775ff5d1 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 16 Feb 2017 15:15:36 -0500
Subject: [PATCH 060/309] Partial dead code deletion

Most of the unused code around node deletion can now be removed.

Change-Id: I88262abae183c014b7cfa05517794252f0238dcd
---
 nodepool/nodepool.py | 139 -------------------------------------------
 requirements.txt     |   1 -
 2 files changed, 140 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 5576fd018..dac12e6a4 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -16,8 +16,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import apscheduler.schedulers.background
-import apscheduler.triggers.cron
 import json
 import logging
 import os
@@ -1309,35 +1307,6 @@ class NodePool(threading.Thread):
                                            t.name)
                         t.online = False
 
-    def reconfigureCrons(self, config):
-        cron_map = {
-            'cleanup': self._doPeriodicCleanup,
-            'check': self._doPeriodicCheck,
-            }
-
-        if not self.apsched:
-            self.apsched = apscheduler.schedulers.background.BackgroundScheduler()
-            self.apsched.start()
-
-        for c in config.crons.values():
-            if ((not self.config) or
-                c.timespec != self.config.crons[c.name].timespec):
-                if self.config and self.config.crons[c.name].job:
-                    self.config.crons[c.name].job.remove()
-                parts = c.timespec.split()
-                if len(parts) > 5:
-                    second = parts[5]
-                else:
-                    second = None
-                minute, hour, dom, month, dow = parts[:5]
-                trigger = apscheduler.triggers.cron.CronTrigger(
-                    month=month, day=dom, day_of_week=dow,
-                    hour=hour, minute=minute, second=second)
-                c.job = self.apsched.add_job(
-                    cron_map[c.name], trigger=trigger)
-            else:
-                c.job = self.config.crons[c.name].job
-
     def reconfigureZooKeeper(self, config):
         if self.config:
             running = self.config.zookeeper_servers.values()
@@ -1714,19 +1683,6 @@ class NodePool(threading.Thread):
                          launch_timeout)
         t.start()
 
-    def deleteNode(self, node_id):
-        try:
-            self._delete_threads_lock.acquire()
-            if node_id in self._delete_threads:
-                return
-            t = NodeDeleter(self, node_id)
-            self._delete_threads[node_id] = t
-            t.start()
-        except Exception:
-            self.log.exception("Could not delete node %s", node_id)
-        finally:
-            self._delete_threads_lock.release()
-
     def _deleteNode(self, session, node):
         self.log.debug("Deleting node id: %s which has been in %s "
                        "state for %s hours" %
@@ -1782,72 +1738,6 @@ class NodePool(threading.Thread):
             self.statsd.incr(key)
         self.updateStats(session, node.provider_name)
 
-    def deleteInstance(self, provider_name, external_id):
-        key = (provider_name, external_id)
-        try:
-            self._instance_delete_threads_lock.acquire()
-            if key in self._instance_delete_threads:
-                return
-            t = InstanceDeleter(self, provider_name, external_id)
-            self._instance_delete_threads[key] = t
-            t.start()
-        except Exception:
-            self.log.exception("Could not delete instance %s on provider %s",
-                               provider_name, external_id)
-        finally:
-            self._instance_delete_threads_lock.release()
-
-    def _deleteInstance(self, provider_name, external_id):
-        provider = self.config.providers[provider_name]
-        manager = self.getProviderManager(provider)
-        manager.cleanupServer(external_id)
-
-    def _doPeriodicCleanup(self):
-        if self.no_deletes:
-            return
-        try:
-            self.periodicCleanup()
-        except Exception:
-            self.log.exception("Exception in periodic cleanup:")
-
-    def periodicCleanup(self):
-        # This function should be run periodically to clean up any hosts
-        # that may have slipped through the cracks, as well as to remove
-        # old images.
-
-        self.log.debug("Starting periodic cleanup")
-
-        for k, t in self._delete_threads.items()[:]:
-            if not t.isAlive():
-                del self._delete_threads[k]
-
-        for k, t in self._instance_delete_threads.items()[:]:
-            if not t.isAlive():
-                del self._instance_delete_threads[k]
-
-        node_ids = []
-        with self.getDB().getSession() as session:
-            for node in session.getNodes():
-                node_ids.append(node.id)
-
-        for node_id in node_ids:
-            try:
-                with self.getDB().getSession() as session:
-                    node = session.getNode(node_id)
-                    if node:
-                        self.cleanupOneNode(session, node)
-            except Exception:
-                self.log.exception("Exception cleaning up node id %s:" %
-                                   node_id)
-
-        try:
-            self.cleanupLeakedInstances()
-            pass
-        except Exception:
-            self.log.exception("Exception cleaning up leaked nodes")
-
-        self.log.debug("Finished periodic cleanup")
-
     def cleanupLeakedInstances(self):
         known_providers = self.config.providers.keys()
         for provider in self.config.providers.values():
@@ -1888,35 +1778,6 @@ class NodePool(threading.Thread):
             if provider.clean_floating_ips:
                 manager.cleanupLeakedFloaters()
 
-    def cleanupOneNode(self, session, node):
-        now = time.time()
-        time_in_state = now - node.state_time
-        if (node.state in [nodedb.READY, nodedb.HOLD]):
-            return
-        delete = False
-        if (node.state == nodedb.DELETE):
-            delete = True
-        elif (node.state == nodedb.TEST and
-              time_in_state > TEST_CLEANUP):
-            delete = True
-        elif time_in_state > NODE_CLEANUP:
-            delete = True
-        if delete:
-            try:
-                self.deleteNode(node.id)
-            except Exception:
-                self.log.exception("Exception deleting node id: "
-                                   "%s" % node.id)
-
-    def _doPeriodicCheck(self):
-        if self.no_deletes:
-            return
-        try:
-            with self.getDB().getSession() as session:
-                self.periodicCheck(session)
-        except Exception:
-            self.log.exception("Exception in periodic check:")
-
     def periodicCheck(self, session):
         # This function should be run periodically to make sure we can
         # still access hosts via ssh.
diff --git a/requirements.txt b/requirements.txt
index 324e4e45f..b6f254c00 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -6,7 +6,6 @@ paramiko>1.11.6,<2.0.0
 python-daemon>=2.0.4,<2.1.0
 extras
 statsd>=3.0
-apscheduler>=3.0
 sqlalchemy>=0.8.2,<1.1.0
 PyMySQL
 PrettyTable>=0.6,<0.8

From b2d053d06c5ca5ca5473b45113c31a572acdde26 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 16 Feb 2017 16:27:26 -0500
Subject: [PATCH 061/309] Use thread name in launcher ID

The Thread.ident attribute is apparently returning None for some
reason in tests, causing our launchers to share an ID. Change it
to Thread.name, which we know has a value.

Change-Id: Ib5c54804224ffd147372b2d1cfa6b62cc8a8b4cc
---
 nodepool/nodepool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index dac12e6a4..14091ccfc 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1021,7 +1021,7 @@ class ProviderWorker(threading.Thread):
         self.zk = self.getZK()
         self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
                                          os.getpid(),
-                                         self.ident)
+                                         self.name)
 
     #----------------------------------------------------------------
     # Private methods

From b740c8907e45e830f5092b1a592cb62da8f7637f Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Fri, 17 Feb 2017 09:44:28 -0500
Subject: [PATCH 062/309] Disable test_image_upload_fail

This test is currently flapping and needs to be reworked. Disable
again as not to side track the PTG effort.

Change-Id: I23ed4024fc3d2b906c2ae4702042ed65ce020a6b
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_builder.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 476f6998e..9d95f45a1 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -15,6 +15,7 @@
 
 import os
 import fixtures
+from unittest import skip
 
 from nodepool import builder, exceptions, fakeprovider, tests
 from nodepool import zk
@@ -95,6 +96,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
         nb.start()
         nb.stop()
 
+    @skip("Disabled for early v3 development")
     def test_image_upload_fail(self):
         """Test that image upload fails are handled properly."""
 

From 08f0a2d827232b4a9912fd5aff64887242afa292 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 16 Feb 2017 16:36:08 -0500
Subject: [PATCH 063/309] Fix possible race with node request handling

We were properly double checking the state after locking the request,
but we weren't actually querying ZK to get the updated request info.

Change-Id: I5764bd53478b94fdb4dd99fb04731f97cc203f73
---
 nodepool/nodepool.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 14091ccfc..1c3677473 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1076,8 +1076,9 @@ class ProviderWorker(threading.Thread):
             except exceptions.ZKLockException:
                 continue
 
-            # Make sure the state didn't change on us
-            if req.state != zk.REQUESTED:
+            # Make sure the state didn't change on us after getting the lock
+            req2 = self.zk.getNodeRequest(req_id)
+            if req2 and req2.state != zk.REQUESTED:
                 self.zk.unlockNodeRequest(req)
                 continue
 

From 78dcd29fa398fc1ec8bf23c8c74e0fdce6581169 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Fri, 17 Feb 2017 10:02:07 -0500
Subject: [PATCH 064/309] Disable CleanupWorker thread for
 test_image_upload_fail

We currently have a race condition between our cleanup worker and our
unit test. My hope is, if we agree to disable the CleanupWorker thread
for the test, we still consider this a valid test.

Change-Id: I04b87ef044de7f99cc9cbd0c08747e53d383693b
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/builder.py            | 28 +++++++++++++---------------
 nodepool/tests/__init__.py     |  9 +++++----
 nodepool/tests/test_builder.py |  6 +++---
 3 files changed, 21 insertions(+), 22 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index a3457f135..a1802b4a2 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -1114,18 +1114,19 @@ class NodePoolBuilder(object):
                 w.start()
                 self._upload_workers.append(w)
 
-            self._janitor = CleanupWorker(0, self._config_path,
-                                          self.cleanup_interval, self.zk)
-            self._janitor.start()
+            if self.cleanup_interval > 0:
+                self._janitor = CleanupWorker(
+                    0, self._config_path, self.cleanup_interval, self.zk)
+                self._janitor.start()
 
             # Wait until all threads are running. Otherwise, we have a race
             # on the worker _running attribute if shutdown() is called before
             # run() actually begins.
+            workers = self._build_workers + self._upload_workers
+            if self._janitor:
+                workers += [self._janitor]
             while not all([
-                x.running for x in (self._build_workers
-                                    + self._upload_workers
-                                    + [self._janitor])
-            ]):
+                x.running for x in (workers)]):
                 time.sleep(0)
 
     def stop(self):
@@ -1138,10 +1139,10 @@ class NodePoolBuilder(object):
         '''
         with self._start_lock:
             self.log.debug("Stopping. NodePoolBuilder shutting down workers")
-            for worker in (self._build_workers
-                           + self._upload_workers
-                           + [self._janitor]
-            ):
+            workers = self._build_workers + self._upload_workers
+            if self._janitor:
+                workers += [self._janitor]
+            for worker in (workers):
                 worker.shutdown()
 
         self._running = False
@@ -1149,10 +1150,7 @@ class NodePoolBuilder(object):
         self.log.debug('Waiting for jobs to complete')
 
         # Do not exit until all of our owned threads exit.
-        for worker in (self._build_workers
-                       + self._upload_workers
-                       + [self._janitor]
-        ):
+        for worker in (workers):
             worker.join()
 
         self.log.debug('Terminating ZooKeeper connection')
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 84deaf5e3..241e414fd 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -272,15 +272,16 @@ class MySQLSchemaFixture(fixtures.Fixture):
 
 
 class BuilderFixture(fixtures.Fixture):
-    def __init__(self, configfile):
+    def __init__(self, configfile, cleanup_interval):
         super(BuilderFixture, self).__init__()
         self.configfile = configfile
+        self.cleanup_interval = cleanup_interval
         self.builder = None
 
     def setUp(self):
         super(BuilderFixture, self).setUp()
         self.builder = builder.NodePoolBuilder(self.configfile)
-        self.builder.cleanup_interval = .5
+        self.builder.cleanup_interval = self.cleanup_interval
         self.builder.build_interval = .1
         self.builder.upload_interval = .1
         self.builder.dib_cmd = 'nodepool/tests/fake-image-create'
@@ -467,8 +468,8 @@ class DBTestCase(BaseTestCase):
         self.addCleanup(app.stop)
         return app
 
-    def _useBuilder(self, configfile):
-        self.useFixture(BuilderFixture(configfile))
+    def _useBuilder(self, configfile, cleanup_interval=.5):
+        self.useFixture(BuilderFixture(configfile, cleanup_interval))
 
     def setupZK(self):
         f = ZookeeperServerFixture()
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 9d95f45a1..63564e6d2 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -15,7 +15,6 @@
 
 import os
 import fixtures
-from unittest import skip
 
 from nodepool import builder, exceptions, fakeprovider, tests
 from nodepool import zk
@@ -96,7 +95,6 @@ class TestNodePoolBuilder(tests.DBTestCase):
         nb.start()
         nb.stop()
 
-    @skip("Disabled for early v3 development")
     def test_image_upload_fail(self):
         """Test that image upload fails are handled properly."""
 
@@ -115,7 +113,9 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        # NOTE(pabelanger): Disable CleanupWorker thread for nodepool-builder
+        # as we currently race it to validate our failed uploads.
+        self._useBuilder(configfile, cleanup_interval=0)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')

From 8f46532c542902b8022782f0fd023e98862e9c4a Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 11:07:50 -0500
Subject: [PATCH 065/309] Bug fix: Failed nodes were not getting unlocked

We were resetting the nodeset before unlocking it if we had failed
nodes, leaving the nodes in a LOCKED state, which is no good. There's
no reason to reset the nodeset, so just remove that line.

Change-Id: Ic290682f0efb6b8ca8587ae5ecbda806f2745667
---
 nodepool/nodepool.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 1c3677473..be7e077c7 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -977,7 +977,6 @@ class NodeRequestHandler(object):
             return True
 
         if self.launch_manager.failed_nodes:
-            self.nodeset = []
             self.request.declined_by.append(self.launcher_id)
             launchers = set(self.zk.getRegisteredLaunchers())
             if launchers.issubset(set(self.request.declined_by)):

From 079204ef0b320cb20b4af0741222e6bd8a7b9605 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 11:42:01 -0500
Subject: [PATCH 066/309] Bug fix: Delete FAILED nodes

Change-Id: I6db31e21adb6924374b973ad1a3c99212a83acbe
---
 nodepool/nodepool.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index be7e077c7..b2bc17b02 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1183,7 +1183,8 @@ class NodeCleanupWorker(threading.Thread):
                 continue
 
             # Any nodes in these states that are unlocked can be deleted.
-            if node.state in (zk.USED, zk.IN_USE, zk.BUILDING, zk.DELETING):
+            if node.state in (zk.USED, zk.IN_USE, zk.BUILDING, zk.FAILED,
+                              zk.DELETING):
                 try:
                     zk_conn.lockNode(node, blocking=False)
                 except exceptions.ZKLockException:

From ce6a9cd646dfdb21fbc8e1b6a8a523f973241783 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 12:35:01 -0500
Subject: [PATCH 067/309] Bug Fix: Call _runReadyScript correctly

Change-Id: I2379be3726e7ea7d2c6dac8fb2b6cf9a806d1289
---
 nodepool/nodepool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index b2bc17b02..101254cee 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -623,7 +623,7 @@ class NodeLauncher(threading.Thread):
 
         self._writeNodepoolInfo(host, preferred_ip, self._node)
         if self._label.ready_script:
-            self.runReadyScript(host, hostname, self._label.ready_script)
+            self._runReadyScript(host, hostname, self._label.ready_script)
 
     def _writeNodepoolInfo(self, host, preferred_ip, node):
         key = paramiko.RSAKey.generate(2048)

From b040984b604a86cca04fa4609ef95e551aeabcdd Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 12:51:24 -0500
Subject: [PATCH 068/309] Bug fix: Delete instance during launch retries

If we launched an instance, and we find a problem with it (cannot
ssh in, for example), we should delete it before another launch
attempt.

Change-Id: I784997aabf9457f8b59f14620ec6ec069734b122
---
 nodepool/nodepool.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 101254cee..4d9c85336 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -681,6 +681,14 @@ class NodeLauncher(threading.Thread):
             except Exception:
                 self.log.exception("Launch attempt %d/%d failed for node %s:",
                     attempts, self._retries, self._node.id)
+                # If we created an instance, delete it.
+                if self._node.external_id:
+                    self._manager.cleanupServer(self._node.external_id)
+                    self._manager.waitForServerDeletion(self._node.external_id)
+                    self._node.external_id = None
+                    self._node.public_ipv4 = None
+                    self._node.public_ipv6 = None
+                    self._zk.storeNode(self._node)
                 if attempts == self._retries:
                     raise
                 attempts += 1

From dc0b734e66fdfb90eabd599d7e9a4a2d78676e01 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 10:00:51 -0500
Subject: [PATCH 069/309] Send min-ready requests only when images are ready

Do not send min-ready requests until images are available. This helps
prevent repeated request failures while waiting for images to upload
to the provider.

Change-Id: I360f6079b5c04c06a59e3766f61126f038714a78
---
 nodepool/nodepool.py | 16 +++++++++++++++-
 1 file changed, 15 insertions(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 1c3677473..6d3e6beb7 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1544,6 +1544,20 @@ class NodePool(threading.Thread):
                     "No more active min-ready requests for label %s", label)
                 del self._submittedRequests[label]
 
+    def labelImageIsAvailable(self, label):
+        '''
+        Check if the image associated with a label is ready in any provider.
+
+        :param Label label: The label config object.
+
+        :returns: True if image associated with the label is uploaded and
+            ready in at least one provider. False otherwise.
+        '''
+        for provider_name in label.providers.keys():
+            if self.zk.getMostRecentImageUpload(label.image, provider_name):
+                return True
+        return False
+
     def createMinReady(self):
         '''
         Create node requests to make the minimum amount of ready nodes.
@@ -1587,7 +1601,7 @@ class NodePool(threading.Thread):
             elif len(ready_nodes[label.name]) < min_ready:
                 need = min_ready - len(ready_nodes[label.name])
 
-            if need:
+            if need and self.labelImageIsAvailable(label):
                 # Create requests for 1 node at a time. This helps to split
                 # up requests across providers, and avoids scenario where a
                 # single provider might fail the entire request because of

From 39aec713a34f01ee84f03427c66ed4908b48c49d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 13:44:45 -0500
Subject: [PATCH 070/309] Check for not found node in 'delete' command

Display a friendly message when a node is not found for the nodepool
client 'delete' command.

Change-Id: I169f7e1b7882020273ef9a2780cf8e7236ffebea
---
 nodepool/cmd/nodepoolcmd.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index ed9ebaab4..a8c52f575 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -262,6 +262,10 @@ class NodePoolCmd(NodepoolApp):
 
     def delete(self):
         node = self.zk.getNode(self.args.id)
+        if not node:
+            print("Node id %s not found" % self.args.id)
+            return
+
         provider = self.pool.config.providers[node.provider]
         self.zk.lockNode(node, blocking=True, timeout=5)
 

From 646c48800be66149649408745efb444eea5ea940 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 15:17:40 -0500
Subject: [PATCH 071/309] Remove verbose logging related to config loading

Change-Id: I9e70b661ba50e878ed39e1f5a3619fcc8fbcb6f8
---
 nodepool/nodepool.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 4d9c85336..c26ba1094 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1270,7 +1270,6 @@ class NodePool(threading.Thread):
         self.log.debug("Finished stopping")
 
     def loadConfig(self):
-        self.log.debug("Loading configuration")
         config = nodepool_config.loadConfig(self.configfile)
         nodepool_config.loadSecureConfig(config, self.securefile)
         return config
@@ -1324,7 +1323,6 @@ class NodePool(threading.Thread):
 
         configured = config.zookeeper_servers.values()
         if running == configured:
-            self.log.debug("Zookeeper client does not need to be updated")
             return
 
         if not self.zk and configured:

From ac716b87d14fcd5c1b3966f1d4042d494bfdf4c3 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 21 Feb 2017 09:20:10 -0500
Subject: [PATCH 072/309] Node requests should be ephemeral

Node requests are supposed to be ephemeral so that if the requestor
dies, the request becomes invalid and disappears.

Change-Id: I30ffc10247c06ebfe01e4e707eb7b6caa7e4f85e
---
 nodepool/zk.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/zk.py b/nodepool/zk.py
index 24d3de288..440d60266 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1270,6 +1270,7 @@ class ZooKeeper(object):
             path = self.client.create(
                 path,
                 value=request.serialize(),
+                ephemeral=True,
                 sequence=True,
                 makepath=True)
             request.id = path.split("/")[-1]

From 71035081d5b57decb4f3a30070905883d433d64e Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Tue, 21 Feb 2017 10:15:31 -0500
Subject: [PATCH 073/309] Allow configuring nodepool launch retries

Nodepool currently hardcodes that 3 attempts are made to upload an image
to the cloud. Allow modifying this in your provider configuration.

Change-Id: I61f44e163d419771824daa2039f7cdecc74742aa
---
 doc/source/configuration.rst                  |  8 +++
 nodepool/cmd/config_validator.py              |  1 +
 nodepool/config.py                            |  1 +
 nodepool/nodepool.py                          |  3 +-
 .../tests/fixtures/config_validate/good.yaml  |  1 +
 .../tests/fixtures/node_launch_retry.yaml     | 55 +++++++++++++++++++
 nodepool/tests/test_nodepool.py               | 21 +++++++
 7 files changed, 89 insertions(+), 1 deletion(-)
 create mode 100644 nodepool/tests/fixtures/node_launch_retry.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 1f4eea811..82a5b0016 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -296,6 +296,7 @@ provider, the Nodepool image types are also defined (see
         - az1
       boot-timeout: 120
       launch-timeout: 900
+      launch-retries: 3
       image-name-format: 'template-{image_name}-{timestamp}'
       hostname-format: '{label.name}-{provider.name}-{node.id}'
       ipv6-preferred: False
@@ -413,6 +414,13 @@ provider, the Nodepool image types are also defined (see
 
     In seconds. Default 3600.
 
+  ``launch-retries``
+
+    The number of times to retry launching a server before considering the job
+    failed.
+
+    Default 3.
+
   ``keypair``
     Default None
 
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 65afd65cc..f49ffe3d2 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -74,6 +74,7 @@ class ConfigValidator:
             'boot-timeout': int,
             'api-timeout': int,
             'launch-timeout': int,
+            'launch-retries': int,
             'rate': float,
             'images': [images],
             'hostname-format': str,
diff --git a/nodepool/config.py b/nodepool/config.py
index 7a49152ba..0f76c551b 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -182,6 +182,7 @@ def loadConfig(config_path):
         p.api_timeout = provider.get('api-timeout')
         p.boot_timeout = provider.get('boot-timeout', 60)
         p.launch_timeout = provider.get('launch-timeout', 3600)
+        p.launch_retries = provider.get('launch-retries', 3)
         p.networks = []
         for network in provider.get('networks', []):
             n = Network()
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index c26ba1094..c55f130ad 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -900,7 +900,8 @@ class NodeRequestHandler(object):
         self.zk.storeNodeRequest(self.request)
 
         self.launch_manager = NodeLaunchManager(
-            self.zk, self.provider, self.labels, self.manager, retries=3)
+            self.zk, self.provider, self.labels, self.manager,
+            retries=self.provider.launch_retries)
         ready_nodes = self.zk.getReadyNodesOfTypes(self.request.node_types)
 
         for ntype in self.request.node_types:
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 087bdfa9e..0da775bdf 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -38,6 +38,7 @@ providers:
     boot-timeout: 120
     max-servers: 184
     max-concurrency: 10
+    launch-retries: 3
     rate: 0.001
     images:
       - name: trusty
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
new file mode 100644
index 000000000..eee985ed2
--- /dev/null
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -0,0 +1,55 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+cron:
+  check: '*/15 * * * *'
+  cleanup: '*/1 * * * *'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    image: fake-image
+    min-ready: 0
+    providers:
+      - name: fake-provider
+
+providers:
+  - name: fake-provider
+    region-name: fake-region
+    keypair: 'if-present-use-this-keypair'
+    username: 'fake'
+    password: 'fake'
+    auth-url: 'fake'
+    project-id: 'fake'
+    max-servers: 96
+    pool: 'fake'
+    launch-retries: 2
+    networks:
+      - net-id: 'some-uuid'
+    rate: 0.0001
+    images:
+      - name: fake-image
+        min-ram: 8192
+        name-filter: 'Fake'
+        meta:
+          key: value
+          key2: value
+
+targets:
+  - name: fake-target
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index f2e88e36c..74732890a 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -271,6 +271,27 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual('fake-provider', new_nodes[0].provider)
         self.assertNotEqual(nodes[0], new_nodes[0])
 
+    @mock.patch('nodepool.provider_manager.FakeProviderManager.createServer')
+    def test_node_launch_retries(self, mock_create_server):
+        mock_create_server.side_effect = Exception('Boom!')
+
+        configfile = self.setup_config('node_launch_retry.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage('fake-provider', 'fake-image')
+
+        req = zk.NodeRequest()
+        req.state = zk.REQUESTED
+        req.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req)
+
+        req = self.waitForNodeRequest(req)
+        self.assertEqual(req.state, zk.FAILED)
+
+        # retries in config is set to 2, so 2 attempts to create a server
+        self.assertEqual(2, mock_create_server.call_count)
+
     @skip("Disabled for early v3 development")
     def test_node_delete_failure(self):
         def fail_delete(self, name):

From 3f42a89df9af528daabaff6e4f827f0f3cb5afac Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 21 Feb 2017 12:59:53 -0500
Subject: [PATCH 074/309] Support launch failures in FakeProviderManager

Let's not use mock for testing launch failures. Instead, add an
attribute to FakeProviderManager that tells it how many times
successive calls to createServer() should fail.

Change-Id: Iba6f8f89de84b06d2c858b0ee69bc65c37ef3cf0
---
 nodepool/provider_manager.py    |  7 +++++++
 nodepool/tests/test_nodepool.py | 23 +++++++++++------------
 2 files changed, 18 insertions(+), 12 deletions(-)

diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 6dc887fde..0206d720f 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -362,8 +362,15 @@ class ProviderManager(object):
 
 class FakeProviderManager(ProviderManager):
     def __init__(self, provider, use_taskmanager):
+        self.createServer_fails = 0
         self.__client = fakeprovider.FakeOpenStackCloud()
         super(FakeProviderManager, self).__init__(provider, use_taskmanager)
 
     def _getClient(self):
         return self.__client
+
+    def createServer(self, *args, **kwargs):
+        while self.createServer_fails:
+            self.createServer_fails -= 1
+            raise Exception("Expected createServer exception")
+        return super(FakeProviderManager, self).createServer(*args, **kwargs)
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 74732890a..59db57922 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -15,7 +15,6 @@
 
 import json
 import logging
-import mock
 import time
 from unittest import skip
 
@@ -66,19 +65,19 @@ class TestNodepool(tests.DBTestCase):
             self.zk.lockNode(node, blocking=False)
             self.zk.unlockNode(node)
 
-    @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
-    def test_fail_request_on_launch_failure(self, mock_launch):
+    def test_fail_request_on_launch_failure(self):
         '''
         Test that provider launch error fails the request.
         '''
-        mock_launch.side_effect = Exception()
-
-        configfile = self.setup_config('node.yaml')
+        configfile = self.setup_config('node_launch_retry.yaml')
         self._useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
+        self.wait_for_config(pool)
+        manager = pool.getProviderManager('fake-provider')
+        manager.createServer_fails = 2
 
         req = zk.NodeRequest()
         req.state = zk.REQUESTED
@@ -86,7 +85,7 @@ class TestNodepool(tests.DBTestCase):
         self.zk.storeNodeRequest(req)
 
         req = self.waitForNodeRequest(req)
-        self.assertTrue(mock_launch.called)
+        self.assertEqual(0, manager.createServer_fails)
         self.assertEqual(req.state, zk.FAILED)
         self.assertNotEqual(req.declined_by, [])
 
@@ -271,14 +270,14 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual('fake-provider', new_nodes[0].provider)
         self.assertNotEqual(nodes[0], new_nodes[0])
 
-    @mock.patch('nodepool.provider_manager.FakeProviderManager.createServer')
-    def test_node_launch_retries(self, mock_create_server):
-        mock_create_server.side_effect = Exception('Boom!')
-
+    def test_node_launch_retries(self):
         configfile = self.setup_config('node_launch_retry.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
+        self.wait_for_config(pool)
+        manager = pool.getProviderManager('fake-provider')
+        manager.createServer_fails = 2
         self.waitForImage('fake-provider', 'fake-image')
 
         req = zk.NodeRequest()
@@ -290,7 +289,7 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(req.state, zk.FAILED)
 
         # retries in config is set to 2, so 2 attempts to create a server
-        self.assertEqual(2, mock_create_server.call_count)
+        self.assertEqual(0, manager.createServer_fails)
 
     @skip("Disabled for early v3 development")
     def test_node_delete_failure(self):

From b679863e399bd60608e654d12581147af40511ec Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 22 Feb 2017 17:34:19 -0500
Subject: [PATCH 075/309] Add some lock debug lines and an exception handler

Change-Id: Ieb0d71d42fefe36af2c995162bdd007873ef3772
---
 nodepool/nodepool.py | 23 +++++++++++++++++++++--
 1 file changed, 21 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index c55f130ad..6671d907e 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -871,6 +871,8 @@ class NodeRequestHandler(object):
                 self.zk.unlockNode(node)
             except Exception:
                 self.log.exception("Error unlocking node:")
+            self.log.debug("Unlocked node %s for request %s",
+                           node.id, self.request.id)
 
     def _run(self):
         '''
@@ -886,9 +888,13 @@ class NodeRequestHandler(object):
             expected failure from the underlying library, which is ok for now.
         '''
         if not self._imagesAvailable() or self._wouldExceedQuota():
+            self.log.debug("Declining node request %s",
+                           self.request.id)
             self.request.declined_by.append(self.launcher_id)
             launchers = set(self.zk.getRegisteredLaunchers())
             if launchers.issubset(set(self.request.declined_by)):
+                self.log.debug("Failing declined node request %s",
+                               self.request.id)
                 # All launchers have declined it
                 self.request.state = zk.FAILED
             self.zk.storeNodeRequest(self.request)
@@ -896,6 +902,7 @@ class NodeRequestHandler(object):
             self.done = True
             return
 
+        self.log.debug("Accepting node request %s", self.request.id)
         self.request.state = zk.PENDING
         self.zk.storeNodeRequest(self.request)
 
@@ -915,6 +922,9 @@ class NodeRequestHandler(object):
                         # It's already locked so skip it.
                         continue
                     else:
+                        self.log.debug(
+                            "Locked existing node %s for request %s",
+                            node.id, self.request.id)
                         got_a_node = True
                         node.allocated_to = self.request.id
                         self.zk.storeNode(node)
@@ -935,6 +945,8 @@ class NodeRequestHandler(object):
                 # locked anywhere.
                 self.zk.storeNode(node)
                 self.zk.lockNode(node, blocking=False)
+                self.log.debug("Locked building node %s for request %s",
+                               node.id, self.request.id)
 
                 # Set state AFTER lock so sthat it isn't accidentally cleaned
                 # up (unlocked BUILDING nodes will be deleted).
@@ -990,6 +1002,8 @@ class NodeRequestHandler(object):
             launchers = set(self.zk.getRegisteredLaunchers())
             if launchers.issubset(set(self.request.declined_by)):
                 # All launchers have declined it
+                self.log.debug("Failing declined node request %s",
+                               self.request.id)
                 self.request.state = zk.FAILED
             else:
                 self.request.state = zk.REQUESTED
@@ -998,6 +1012,8 @@ class NodeRequestHandler(object):
             for node in self.nodeset:
                 # Record node ID in the request
                 self.request.nodes.append(node.id)
+                self.log.debug("Fulfilled node request %s",
+                               self.request.id)
             self.request.state = zk.FULFILLED
 
         self._unlockNodeSet()
@@ -1134,8 +1150,11 @@ class ProviderWorker(threading.Thread):
             # Make sure we're always registered with ZK
             self.zk.registerLauncher(self.launcher_id)
 
-            self._assignHandlers()
-            self._removeCompletedHandlers()
+            try:
+                self._assignHandlers()
+                self._removeCompletedHandlers()
+            except Exception:
+                self.log.exception("Error in ProviderWorker:")
             time.sleep(self.watermark_sleep)
 
     def stop(self):

From eccebb1de869910b3ed9e6e897aed802ff98bf43 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 23 Feb 2017 10:53:37 -0500
Subject: [PATCH 076/309] Fix fulfilled log line

This line was over-indented.

Also, add a log entry for a declined code path that was missed.

Change-Id: Id9e3b47e86d5bd89332aa16eeb07decc528cc3db
---
 nodepool/nodepool.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 6671d907e..cd3982a5b 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -998,6 +998,8 @@ class NodeRequestHandler(object):
             return True
 
         if self.launch_manager.failed_nodes:
+            self.log.debug("Declining node request %s",
+                           self.request.id)
             self.request.declined_by.append(self.launcher_id)
             launchers = set(self.zk.getRegisteredLaunchers())
             if launchers.issubset(set(self.request.declined_by)):
@@ -1012,8 +1014,8 @@ class NodeRequestHandler(object):
             for node in self.nodeset:
                 # Record node ID in the request
                 self.request.nodes.append(node.id)
-                self.log.debug("Fulfilled node request %s",
-                               self.request.id)
+            self.log.debug("Fulfilled node request %s",
+                           self.request.id)
             self.request.state = zk.FULFILLED
 
         self._unlockNodeSet()

From 599d71bad25d097ae080517f8a79a3d3238ce264 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 23 Feb 2017 14:56:45 -0500
Subject: [PATCH 077/309] Add reasons to decline log entries

Also log the full information for a node request once when it is
assigned.

Change-Id: I81081e75d849b7e8547f336084e2e518b020eb55
---
 nodepool/nodepool.py | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 441e003a5..d42268c0b 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -887,9 +887,14 @@ class NodeRequestHandler(object):
             launcher has already started doing so. This would cause an
             expected failure from the underlying library, which is ok for now.
         '''
-        if not self._imagesAvailable() or self._wouldExceedQuota():
-            self.log.debug("Declining node request %s",
-                           self.request.id)
+        declined_reasons = []
+        if not self._imagesAvailable():
+            declined_reasons.append('images are not available')
+        if self._wouldExceedQuota():
+            declined_reasons.append('it would exceed quota')
+        if declined_reasons:
+            self.log.debug("Declining node request %s because %s",
+                           self.request.id, ', '.join(declined_reasons))
             self.request.declined_by.append(self.launcher_id)
             launchers = set(self.zk.getRegisteredLaunchers())
             if launchers.issubset(set(self.request.declined_by)):
@@ -998,7 +1003,7 @@ class NodeRequestHandler(object):
             return True
 
         if self.launch_manager.failed_nodes:
-            self.log.debug("Declining node request %s",
+            self.log.debug("Declining node request %s because nodes failed",
                            self.request.id)
             self.request.declined_by.append(self.launcher_id)
             launchers = set(self.zk.getRegisteredLaunchers())
@@ -1109,7 +1114,7 @@ class ProviderWorker(threading.Thread):
                 continue
 
             # Got a lock, so assign it
-            self.log.info("Assigning node request %s" % req.id)
+            self.log.info("Assigning node request %s" % req)
             rh = NodeRequestHandler(self, req)
             rh.run()
             self.request_handlers.append(rh)

From dd36a8588a205fb9b128c29acd04f0fb6e7126e6 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Feb 2017 14:33:09 -0500
Subject: [PATCH 078/309] Cleanup node request locks

Node requests are created in /nodepool/requests. The request locks are
created in /nodepool/requests-lock. When a node request is deleted, or
if it simply disappears (it is an ephemeral znode, so it could just go
away), the lock will still remain. Add code to delete locks where there
is no equivalent request.

Change-Id: I7c442bf13f0995e0361745a5817a3e244947407b
---
 nodepool/nodepool.py            | 16 ++++++++++++++++
 nodepool/tests/__init__.py      | 11 +++++++++++
 nodepool/tests/test_nodepool.py |  7 +++++++
 nodepool/tests/test_zk.py       | 22 ++++++++++++++++++++++
 nodepool/zk.py                  | 22 ++++++++++++++++++++++
 5 files changed, 78 insertions(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index d42268c0b..12fe199c7 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1184,6 +1184,21 @@ class NodeCleanupWorker(threading.Thread):
         self._interval = interval
         self._running = False
 
+    def _cleanupNodeRequestLocks(self):
+        '''
+        Remove request locks where the request no longer exists.
+
+        Because the node request locks are not direct children of the request
+        znode, we need to remove the locks separately after the request has
+        been processed.
+        '''
+        zk = self._nodepool.getZK()
+        requests = zk.getNodeRequests()
+        locks = zk.getNodeRequestLocks()
+        locks_without_requests = set(locks) - set(requests)
+        for lock_id in locks_without_requests:
+            zk.deleteNodeRequestLock(lock_id)
+
     def _deleteInstance(self, node):
         '''
         Delete an instance from a provider.
@@ -1235,6 +1250,7 @@ class NodeCleanupWorker(threading.Thread):
 
         while self._running:
             try:
+                self._cleanupNodeRequestLocks()
                 self._cleanupNodes()
             except Exception:
                 self.log.exception("Exception in NodeCleanupWorker:")
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 84deaf5e3..a24657578 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -433,6 +433,17 @@ class DBTestCase(BaseTestCase):
                 break
             time.sleep(1)
 
+    def waitForNodeRequestLockDeletion(self, request_id):
+        while True:
+            exists = False
+            for lock_id in self.zk.getNodeRequestLocks():
+                if request_id == lock_id:
+                    exists = True
+                    break
+            if not exists:
+                break
+            time.sleep(1)
+
     def waitForNodes(self, label, count=1):
         while True:
             self.wait_for_threads()
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 59db57922..42f853aaf 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -65,6 +65,13 @@ class TestNodepool(tests.DBTestCase):
             self.zk.lockNode(node, blocking=False)
             self.zk.unlockNode(node)
 
+        # Verify the cleanup thread removed the lock
+        self.assertIsNotNone(
+            self.zk.client.exists(self.zk._requestLockPath(req.id))
+        )
+        self.zk.deleteNodeRequest(req)
+        self.waitForNodeRequestLockDeletion(req.id)
+
     def test_fail_request_on_launch_failure(self):
         '''
         Test that provider launch error fails the request.
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index e23de4f4b..52907607b 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -585,6 +585,28 @@ class TestZooKeeper(tests.DBTestCase):
         with testtools.ExpectedException(StopIteration):
             i.next()
 
+    def test_getNodeRequestLocks(self):
+        req = self._create_node_request()
+        self.zk.lockNodeRequest(req, blocking=False)
+        locks = self.zk.getNodeRequestLocks()
+        self.assertEqual(1, len(locks))
+        self.assertEqual(req.id, locks[0])
+        self.zk.unlockNodeRequest(req)
+        self.zk.deleteNodeRequest(req)
+
+    def test_deleteNodeRequestLock(self):
+        req = self._create_node_request()
+        self.zk.lockNodeRequest(req, blocking=False)
+        self.zk.unlockNodeRequest(req)
+        self.zk.deleteNodeRequest(req)
+
+        # We expect the lock to linger even after the request is deleted
+        locks = self.zk.getNodeRequestLocks()
+        self.assertEqual(1, len(locks))
+        self.assertEqual(req.id, locks[0])
+        self.zk.deleteNodeRequestLock(locks[0])
+        self.assertEqual([], self.zk.getNodeRequestLocks())
+
 
 class TestZKModel(tests.BaseTestCase):
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 440d60266..dde4225c9 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1240,6 +1240,28 @@ class ZooKeeper(object):
 
         return sorted(requests)
 
+    def getNodeRequestLocks(self):
+        '''
+        Get the current list of all node request locks.
+        '''
+        try:
+            locks = self.client.get_children(self.REQUEST_LOCK_ROOT)
+        except kze.NoNodeError:
+            return []
+        return locks
+
+    def deleteNodeRequestLock(self, lock):
+        '''
+        Delete the znode for a node request lock.
+
+        :param str lock: The lock ID.
+        '''
+        path = self._requestLockPath(lock)
+        try:
+            self.client.delete(path)
+        except kze.NoNodeError:
+            pass
+
     def getNodeRequest(self, request):
         '''
         Get the data for a specific node request.

From 8625185072d12978c6a98b6758e23a26d3d61e8f Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 24 Feb 2017 09:32:02 -0500
Subject: [PATCH 079/309] Delete node request locks after a delay

It's possible the lock cleanup could run during the scenario
where a lock is currently held for request processing, but the
request has disappeared before the request handler has noticed
it. Only delete locks after they've been around for at least
8 hours.

Change-Id: I0f004116c67e9152160e9c193d75a8c944ef109d
---
 nodepool/nodepool.py            | 17 +++++++----
 nodepool/tests/test_nodepool.py |  1 +
 nodepool/tests/test_zk.py       | 19 ++++++++++++
 nodepool/zk.py                  | 51 +++++++++++++++++++++++++++++++++
 4 files changed, 83 insertions(+), 5 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 12fe199c7..59368a930 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -45,6 +45,7 @@ WATERMARK_SLEEP = 10         # Interval between checking if new servers needed
 IMAGE_TIMEOUT = 6 * HOURS    # How long to wait for an image save
 CONNECT_TIMEOUT = 10 * MINS  # How long to try to connect after a server
                              # is ACTIVE
+LOCK_CLEANUP = 8 * HOURS     # When to delete node request lock znodes
 NODE_CLEANUP = 8 * HOURS     # When to start deleting a node that is not
                              # READY or HOLD
 TEST_CLEANUP = 5 * MINS      # When to start deleting a node that is in TEST
@@ -1190,14 +1191,20 @@ class NodeCleanupWorker(threading.Thread):
 
         Because the node request locks are not direct children of the request
         znode, we need to remove the locks separately after the request has
-        been processed.
+        been processed. Only remove them after LOCK_CLEANUP seconds have
+        passed. This helps prevent the scenario where a request could go
+        away _while_ a lock is currently held for processing and the cleanup
+        thread attempts to delete it. The delay should reduce the chance that
+        we delete a currently held lock.
         '''
         zk = self._nodepool.getZK()
         requests = zk.getNodeRequests()
-        locks = zk.getNodeRequestLocks()
-        locks_without_requests = set(locks) - set(requests)
-        for lock_id in locks_without_requests:
-            zk.deleteNodeRequestLock(lock_id)
+        now = time.time()
+        for lock in zk.nodeRequestLockIterator():
+            if lock.id in requests:
+                continue
+            if (now - lock.stat.mtime/1000) > LOCK_CLEANUP:
+                zk.deleteNodeRequestLock(lock.id)
 
     def _deleteInstance(self, node):
         '''
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 42f853aaf..04e36f3aa 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -39,6 +39,7 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         image = self.waitForImage('fake-provider', 'fake-image')
 
+        nodepool.nodepool.LOCK_CLEANUP = 1
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
 
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 52907607b..0e254efa6 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -594,6 +594,25 @@ class TestZooKeeper(tests.DBTestCase):
         self.zk.unlockNodeRequest(req)
         self.zk.deleteNodeRequest(req)
 
+    def test_getNodeRequestLock(self):
+        req = self._create_node_request()
+        self.zk.lockNodeRequest(req, blocking=False)
+        lock = self.zk.getNodeRequestLock(req.id)
+        self.assertEqual(lock.id, req.id)
+        self.assertIsNotNone(lock.stat)
+        self.zk.unlockNodeRequest(req)
+        self.zk.deleteNodeRequest(req)
+
+    def test_nodeRequestLockIterator(self):
+        req = self._create_node_request()
+        self.zk.lockNodeRequest(req, blocking=False)
+        i = self.zk.nodeRequestLockIterator()
+        self.assertEqual(zk.NodeRequestLock(req.id), i.next())
+        with testtools.ExpectedException(StopIteration):
+            i.next()
+        self.zk.unlockNodeRequest(req)
+        self.zk.deleteNodeRequest(req)
+
     def test_deleteNodeRequestLock(self):
         req = self._create_node_request()
         self.zk.lockNodeRequest(req, blocking=False)
diff --git a/nodepool/zk.py b/nodepool/zk.py
index dde4225c9..cad3a71cb 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -308,6 +308,27 @@ class ImageUpload(BaseModel):
         return o
 
 
+class NodeRequestLock(object):
+    '''
+    Class representing a node request lock.
+
+    This doesn't need to derive from BaseModel since this class exists only
+    to associate the znode stats with the lock.
+    '''
+    def __init__(self, id=None):
+        self.id = id
+        self.stat = None
+
+    def __eq__(self, other):
+        if isinstance(other, NodeRequestLock):
+            return (self.id == other.id)
+        else:
+            return False
+
+    def __repr__(self):
+        return '<NodeRequestLock %s>' % self.id
+
+
 class NodeRequest(BaseModel):
     '''
     Class representing a node request.
@@ -1250,6 +1271,27 @@ class ZooKeeper(object):
             return []
         return locks
 
+    def getNodeRequestLock(self, lock):
+        '''
+        Get the data for a specific node request lock.
+
+        Note that there is no user data set on a node request lock znode. The
+        main purpose for this method is to get the ZK stat data for the lock
+        so we can inspect it and use it for lock deletion.
+
+        :param str lock: The node request lock ID.
+
+        :returns: A NodeRequestLock object.
+        '''
+        path = self._requestLockPath(lock)
+        try:
+            data, stat = self.client.get(path)
+        except kze.NoNodeError:
+            return None
+        d = NodeRequestLock(lock)
+        d.stat = stat
+        return d
+
     def deleteNodeRequestLock(self, lock):
         '''
         Delete the znode for a node request lock.
@@ -1518,3 +1560,12 @@ class ZooKeeper(object):
             node = self.getNode(node_id)
             if node:
                 yield node
+
+    def nodeRequestLockIterator(self):
+        '''
+        Utility generator method for iterating through all nodes request locks.
+        '''
+        for lock_id in self.getNodeRequestLocks():
+            lock = self.getNodeRequestLock(lock_id)
+            if lock:
+                yield lock

From e5f5840c272d75eea38367bf5eb3f8d9f42e57e5 Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Wed, 1 Mar 2017 10:17:20 -0600
Subject: [PATCH 080/309] Use devstack's zookeeper support

devstack grew the ability to install and configure zookeeper in support
of DLM and tooz. Go ahead and use it.

Change-Id: I0436abf286acc1e77d96b4df1624b8d3435ec4be
---
 devstack/files/debs/nodepool | 1 -
 devstack/settings            | 1 +
 2 files changed, 1 insertion(+), 1 deletion(-)

diff --git a/devstack/files/debs/nodepool b/devstack/files/debs/nodepool
index fe8b87512..ccba43056 100644
--- a/devstack/files/debs/nodepool
+++ b/devstack/files/debs/nodepool
@@ -2,4 +2,3 @@ qemu-utils
 kpartx
 debootstrap
 yum-utils
-zookeeperd
diff --git a/devstack/settings b/devstack/settings
index d42263511..50a7faf83 100644
--- a/devstack/settings
+++ b/devstack/settings
@@ -21,6 +21,7 @@ DISKIMAGE_BUILDER_REPO_REF=${DISKIMAGE_BUILDER_REPO_REF:-master}
 GLEAN_REPO_URL=${GLEAN_REPO_URL:-https://git.openstack.org/openstack/glean}
 GLEAN_REPO_REF=${GLEAN_REPO_REF:-master}
 
+enable_service zookeeper
 enable_service geard
 enable_service statsd
 enable_service nodepool

From 94cb8b7efb96b173630707ea2e81486d4b55dc35 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 2 Mar 2017 14:36:37 -0500
Subject: [PATCH 081/309] Correct the quota/availability algorithm

Requests that try to request more than the total quota will be
flat out rejected.

Requests that cannot be satisified because of node availability
will cause the launcher for the provider satisifying the request
to pause handling new requests until the current request can be
satisfied.

Change-Id: Id04e5182a65f2485ee96caa8cb74b5e95a4ea6a1
---
 nodepool/nodepool.py | 83 ++++++++++++++++++++++++--------------------
 1 file changed, 46 insertions(+), 37 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 59368a930..d07c4c613 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -850,17 +850,6 @@ class NodeRequestHandler(object):
                 count += 1
         return count
 
-    def _wouldExceedQuota(self):
-        '''
-        Determines if request would exceed provider quota.
-
-        :returns: True if quota would be exceeded, False otherwise.
-        '''
-        provider_max = self.provider.max_servers
-        num_requested = len(self.request.node_types)
-        num_in_use = self._countNodes()
-        return num_requested + num_in_use > provider_max
-
     def _unlockNodeSet(self):
         '''
         Attempt unlocking all Nodes in the object node set.
@@ -875,9 +864,12 @@ class NodeRequestHandler(object):
             self.log.debug("Unlocked node %s for request %s",
                            node.id, self.request.id)
 
-    def _run(self):
+    def _waitForNodeSet(self):
         '''
-        Main body for the NodeRequestHandler.
+        Fill node set for the request.
+
+        Obtain nodes for the request, pausing all new request handling for
+        this provider until the node set can be filled.
 
         note:: This code is a bit racey in its calculation of the number of
             nodes in use for quota purposes. It is possible for multiple
@@ -888,30 +880,6 @@ class NodeRequestHandler(object):
             launcher has already started doing so. This would cause an
             expected failure from the underlying library, which is ok for now.
         '''
-        declined_reasons = []
-        if not self._imagesAvailable():
-            declined_reasons.append('images are not available')
-        if self._wouldExceedQuota():
-            declined_reasons.append('it would exceed quota')
-        if declined_reasons:
-            self.log.debug("Declining node request %s because %s",
-                           self.request.id, ', '.join(declined_reasons))
-            self.request.declined_by.append(self.launcher_id)
-            launchers = set(self.zk.getRegisteredLaunchers())
-            if launchers.issubset(set(self.request.declined_by)):
-                self.log.debug("Failing declined node request %s",
-                               self.request.id)
-                # All launchers have declined it
-                self.request.state = zk.FAILED
-            self.zk.storeNodeRequest(self.request)
-            self.zk.unlockNodeRequest(self.request)
-            self.done = True
-            return
-
-        self.log.debug("Accepting node request %s", self.request.id)
-        self.request.state = zk.PENDING
-        self.zk.storeNodeRequest(self.request)
-
         self.launch_manager = NodeLaunchManager(
             self.zk, self.provider, self.labels, self.manager,
             retries=self.provider.launch_retries)
@@ -939,6 +907,18 @@ class NodeRequestHandler(object):
 
             # Could not grab an existing node, so launch a new one.
             if not got_a_node:
+                logged = False
+
+                # If we calculate that we're at capacity, pause until nodes
+                # are released by Zuul and removed by the NodeCleanupWorker.
+                while self._countNodes() >= self.provider.max_servers:
+                    if not logged:
+                        self.log.debug(
+                            "Pausing request handling to satisfy request %s",
+                             self.request)
+                        logged = True
+                    time.sleep(1)
+
                 node = zk.Node()
                 node.state = zk.INIT
                 node.type = ntype
@@ -963,6 +943,35 @@ class NodeRequestHandler(object):
                 # launches.
                 self.launch_manager.launch(node)
 
+    def _run(self):
+        '''
+        Main body for the NodeRequestHandler.
+        '''
+        declined_reasons = []
+        if not self._imagesAvailable():
+            declined_reasons.append('images are not available')
+        if len(self.request.node_types) > self.provider.max_servers:
+            declined_reasons.append('it would exceed quota')
+        if declined_reasons:
+            self.log.debug("Declining node request %s because %s",
+                           self.request.id, ', '.join(declined_reasons))
+            self.request.declined_by.append(self.launcher_id)
+            launchers = set(self.zk.getRegisteredLaunchers())
+            if launchers.issubset(set(self.request.declined_by)):
+                self.log.debug("Failing declined node request %s",
+                               self.request.id)
+                # All launchers have declined it
+                self.request.state = zk.FAILED
+            self.zk.storeNodeRequest(self.request)
+            self.zk.unlockNodeRequest(self.request)
+            self.done = True
+            return
+
+        self.log.debug("Accepting node request %s", self.request.id)
+        self.request.state = zk.PENDING
+        self.zk.storeNodeRequest(self.request)
+        self._waitForNodeSet()
+
     @property
     def alive_thread_count(self):
         return self.launch_manager.alive_thread_count

From 96c8ba1781f9abe68d3cec262292534828295667 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 3 Mar 2017 13:15:28 -0500
Subject: [PATCH 082/309] Only use ready nodes from the same provider.

When filling out a node set for a request, we should not consider
READY nodes that are not from the provider being used to satisfy
the request.

Change-Id: I63c79c920133753be0fc2c3061bfe4131fc1c7cb
---
 nodepool/nodepool.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index d07c4c613..1267c9669 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -890,6 +890,10 @@ class NodeRequestHandler(object):
             got_a_node = False
             if self.request.reuse and ntype in ready_nodes:
                 for node in ready_nodes[ntype]:
+                    # Only interested in nodes from this provider
+                    if node.provider != self.provider.name:
+                        continue
+
                     try:
                         self.zk.lockNode(node, blocking=False)
                     except exceptions.ZKLockException:

From ad92ea629ffad4a653c549c657171090c2721d11 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 3 Mar 2017 15:48:45 -0500
Subject: [PATCH 083/309] Group nodes by availability zone

An AZ is chosen at random when selecting a node set for a node request.
If the AZs are not listed within the config, then we cannot guarantee
AZ grouping.

To avoid selecting an AZ that may not match any nodes within our READY
pool (because we ALWAYS want to use READY nodes when they're available),
we use the AZ from the first READY node for the random AZ choice. If we
bypass the READY pool (e.g, min-ready requests), or if the READY pool is
depleted, then we randomly select an AZ from the config.

Change-Id: I97bdda2c4b6952f1cea18f72927ed1e8ccff9787
---
 nodepool/fakeprovider.py          |  2 ++
 nodepool/nodepool.py              | 36 +++++++++++++++++++++++++++----
 nodepool/tests/fixtures/node.yaml |  2 ++
 nodepool/tests/test_nodepool.py   |  1 +
 4 files changed, 37 insertions(+), 4 deletions(-)

diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index 2ee40b3a7..5feafe135 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -31,6 +31,7 @@ class Dummy(object):
     INSTANCE = 'Instance'
     FLAVOR = 'Flavor'
     KEYPAIR = 'Keypair'
+    LOCATION = 'Server.Location'
 
     def __init__(self, kind, **kw):
         self.__kind = kind
@@ -146,6 +147,7 @@ class FakeOpenStackCloud(object):
                   public_v4=public_v4,
                   public_v6=public_v6,
                   private_v4=private_v4,
+                  location=Dummy(Dummy.LOCATION, zone=kw.get('az')),
                   metadata=kw.get('meta', {}),
                   manager=self,
                   key_name=kw.get('key_name', None),
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 1267c9669..2fb116b94 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -561,6 +561,10 @@ class NodeLauncher(threading.Thread):
             nodepool_node_id=self._node.id,
             nodepool_image_name=config_image.name)
 
+        # If we didn't specify an AZ, set it to the one chosen by Nova.
+        if not self._node.az:
+            self._node.az = server.location.zone
+
         self._node.external_id = server.id
         self._node.hostname = hostname
         self._node.image_id = "{path}/{upload_id}".format(
@@ -609,11 +613,11 @@ class NodeLauncher(threading.Thread):
         # Checkpoint save the updated node info
         self._zk.storeNode(self._node)
 
-        self.log.debug("Node id: %s is running, ipv4: %s, ipv6: %s" %
-                       (self._node.id, self._node.public_ipv4,
+        self.log.debug("Node %s is running [az: %s, ipv4: %s, ipv6: %s]" %
+                       (self._node.id, self._node.az, self._node.public_ipv4,
                         self._node.public_ipv6))
 
-        self.log.debug("Node id: %s testing ssh at ip: %s" %
+        self.log.debug("Node %s testing ssh at ip: %s" %
                        (self._node.id, preferred_ip))
         host = utils.ssh_connect(
             preferred_ip, config_image.username,
@@ -871,6 +875,14 @@ class NodeRequestHandler(object):
         Obtain nodes for the request, pausing all new request handling for
         this provider until the node set can be filled.
 
+        We attempt to group the node set within the same provider availability
+        zone. For this to work properly, the provider entry in the nodepool
+        config must list the availability zones. Otherwise, new nodes will be
+        put in random AZs at nova's whim. The exception being if there is an
+        existing node in the READY state that we can select for this node set.
+        Its AZ will then be used for new nodes, as well as any other READY
+        nodes.
+
         note:: This code is a bit racey in its calculation of the number of
             nodes in use for quota purposes. It is possible for multiple
             launchers to be doing this calculation at the same time. Since we
@@ -885,14 +897,19 @@ class NodeRequestHandler(object):
             retries=self.provider.launch_retries)
         ready_nodes = self.zk.getReadyNodesOfTypes(self.request.node_types)
 
+        chosen_az = None
+
         for ntype in self.request.node_types:
             # First try to grab from the list of already available nodes.
             got_a_node = False
             if self.request.reuse and ntype in ready_nodes:
                 for node in ready_nodes[ntype]:
-                    # Only interested in nodes from this provider
+                    # Only interested in nodes from this provider and within
+                    # the selected AZ.
                     if node.provider != self.provider.name:
                         continue
+                    if chosen_az and node.az != chosen_az:
+                        continue
 
                     try:
                         self.zk.lockNode(node, blocking=False)
@@ -907,10 +924,20 @@ class NodeRequestHandler(object):
                         node.allocated_to = self.request.id
                         self.zk.storeNode(node)
                         self.nodeset.append(node)
+
+                        # AZ from this ready node. This will cause new nodes
+                        # to share this AZ, as well.
+                        if not chosen_az and node.az:
+                            chosen_az = node.az
                         break
 
             # Could not grab an existing node, so launch a new one.
             if not got_a_node:
+                # Select grouping AZ if we didn't set AZ from a selected,
+                # pre-existing node
+                if not chosen_az and self.provider.azs:
+                    chosen_az = random.choice(self.provider.azs)
+
                 logged = False
 
                 # If we calculate that we're at capacity, pause until nodes
@@ -927,6 +954,7 @@ class NodeRequestHandler(object):
                 node.state = zk.INIT
                 node.type = ntype
                 node.provider = self.provider.name
+                node.az = chosen_az
                 node.launcher = self.launcher_id
                 node.allocated_to = self.request.id
 
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 7e62d53c7..3406c61e8 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -20,6 +20,8 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
+    availability-zones:
+      - az1
     keypair: 'if-present-use-this-keypair'
     username: 'fake'
     password: 'fake'
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 04e36f3aa..1712edf5a 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -57,6 +57,7 @@ class TestNodepool(tests.DBTestCase):
             self.assertEqual(node.allocated_to, req.id)
             self.assertEqual(node.state, zk.READY)
             self.assertIsNotNone(node.launcher)
+            self.assertEqual(node.az, "az1")
             p = "{path}/{id}".format(
                 path=self.zk._imageUploadPath(image.image_name,
                                               image.build_id,

From 4a8803ddb2b0dd0492132a688009bf03b0262a6c Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 6 Mar 2017 11:43:32 -0500
Subject: [PATCH 084/309] Fix comment about AZ selection

Accidentally removed a comment line in a previous change. This
adds it back (correcting it, slightly).

Change-Id: Ia09694d482748d9d0ca7e4037307a7f0fe24470c
---
 nodepool/nodepool.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 2fb116b94..de8556f25 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -925,6 +925,7 @@ class NodeRequestHandler(object):
                         self.zk.storeNode(node)
                         self.nodeset.append(node)
 
+                        # If we haven't already chosen an AZ, select the
                         # AZ from this ready node. This will cause new nodes
                         # to share this AZ, as well.
                         if not chosen_az and node.az:

From 200e5b1e0959bb8f206d7fe8da9036b7be83e78b Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 6 Mar 2017 12:03:21 -0500
Subject: [PATCH 085/309] Suspend NodeCleanupWorker on ZK suspension

Similar to other threads, we need to wait for ZK connections to
return.

Change-Id: Id3cb828290bb80422d2a665dcfbc920982e3c662
---
 nodepool/nodepool.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index de8556f25..3aebccaed 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1298,6 +1298,12 @@ class NodeCleanupWorker(threading.Thread):
         self._running = True
 
         while self._running:
+            # Don't do work if we've lost communication with the ZK cluster
+            zk_conn = self._nodepool.getZK()
+            while zk_conn and (zk_conn.suspended or zk_conn.lost):
+                self.log.info("ZooKeeper suspended. Waiting")
+                time.sleep(SUSPEND_WAIT_TIME)
+
             try:
                 self._cleanupNodeRequestLocks()
                 self._cleanupNodes()

From cdc28ca3699c9048d743bcd15a018e97b83ad28f Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 8 Mar 2017 09:30:36 -0500
Subject: [PATCH 086/309] Add 'requestor' to NodeRequest model

Zuul adds this attribute to the ZK data. Nodepool will need it
when reporting launch statistics.

Change-Id: Ibfec696a20b8a2cf610ed3599afbe670d8986ccc
---
 nodepool/tests/test_zk.py | 4 ++++
 nodepool/zk.py            | 6 +++++-
 2 files changed, 9 insertions(+), 1 deletion(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 0e254efa6..6168057c1 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -723,6 +723,7 @@ class TestZKModel(tests.BaseTestCase):
         o.node_types.append('trusty')
         o.nodes.append('100')
         o.reuse = False
+        o.requestor = 'zuul'
         d = o.toDict()
         self.assertNotIn('id', d)
         self.assertIn('state', d)
@@ -731,6 +732,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(d['node_types'], o.node_types)
         self.assertEqual(d['nodes'], o.nodes)
         self.assertEqual(d['reuse'], o.reuse)
+        self.assertEqual(d['requestor'], o.requestor)
 
     def test_NodeRequest_fromDict(self):
         now = int(time.time())
@@ -742,6 +744,7 @@ class TestZKModel(tests.BaseTestCase):
             'node_types': ['trusty'],
             'nodes': ['100'],
             'reuse': False,
+            'requestor': 'zuul',
         }
 
         o = zk.NodeRequest.fromDict(d, req_id)
@@ -752,6 +755,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.node_types, d['node_types'])
         self.assertEqual(o.nodes, d['nodes'])
         self.assertEqual(o.reuse, d['reuse'])
+        self.assertEqual(o.requestor, d['requestor'])
 
     def test_Node_toDict(self):
         o = zk.Node('123')
diff --git a/nodepool/zk.py b/nodepool/zk.py
index cad3a71cb..98e07f913 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -342,6 +342,7 @@ class NodeRequest(BaseModel):
         self.node_types = []
         self.nodes = []
         self.reuse = True
+        self.requestor = None
 
     def __repr__(self):
         d = self.toDict()
@@ -355,7 +356,8 @@ class NodeRequest(BaseModel):
                     self.declined_by == other.declined_by and
                     self.node_types == other.node_types and
                     self.nodes == other.nodes,
-                    self.reuse == other.reuse)
+                    self.reuse == other.reuse,
+                    self.requestor == other.requestor)
         else:
             return False
 
@@ -368,6 +370,7 @@ class NodeRequest(BaseModel):
         d['node_types'] = self.node_types
         d['nodes'] = self.nodes
         d['reuse'] = self.reuse
+        d['requestor'] = self.requestor
         return d
 
     @staticmethod
@@ -386,6 +389,7 @@ class NodeRequest(BaseModel):
         o.node_types = d.get('node_types', [])
         o.nodes = d.get('nodes', [])
         o.reuse = d.get('reuse', True)
+        o.requestor = d.get('requestor')
         return o
 
 

From f616f88111bfb294660e3f9ec6296a2f8ea9b6a4 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Mar 2017 07:33:17 -0500
Subject: [PATCH 087/309] Add back statsd reporting

This may require tweaking.

Change-Id: I5481d5855045fa53fa468fca7b189efc76001d38
---
 nodepool/nodepool.py                     | 249 ++++++++++++-----------
 nodepool/tests/test_nodelaunchmanager.py |   6 +-
 2 files changed, 135 insertions(+), 120 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 3aebccaed..a335b8648 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -170,12 +170,103 @@ class NodeCompleteThread(threading.Thread):
         self.nodepool.deleteNode(node.id)
 
 
-class InstanceDeleter(threading.Thread):
+class StatsReporter(object):
+    '''
+    Class adding statsd reporting functionality.
+    '''
+    def __init__(self):
+        super(StatsReporter, self).__init__()
+        self._statsd = stats.get_client()
+
+    def recordLaunchStats(self, subkey, dt, image_name,
+                          provider_name, node_az, requestor):
+        '''
+        Record node launch statistics.
+
+        :param str subkey: statsd key
+        :param int dt: Time delta in milliseconds
+        :param str image_name: Name of the image used
+        :param str provider_name: Name of the provider
+        :param str node_az: AZ of the launched node
+        :param str requestor: Identifier for the request originator
+        '''
+        if not self._statsd:
+            return
+
+        keys = [
+            'nodepool.launch.provider.%s.%s' % (provider_name, subkey),
+            'nodepool.launch.image.%s.%s' % (image_name, subkey),
+            'nodepool.launch.%s' % (subkey,),
+            ]
+
+        if node_az:
+            keys.append('nodepool.launch.provider.%s.%s.%s' %
+                        (provider_name, node_az, subkey))
+
+        if requestor:
+           keys.append('nodepool.launch.requestor.%s.%s' %
+                       (requestor, subkey))
+
+        for key in keys:
+            self._statsd.timing(key, dt)
+            self._statsd.incr(key)
+
+
+    def updateNodeStats(self, zk_conn, provider):
+        '''
+        Refresh statistics for all known nodes.
+
+        :param ZooKeeper zk_conn: A ZooKeeper connection object.
+        :param Provider provider: A config Provider object.
+        '''
+        if not self._statsd:
+            return
+
+        states = {}
+
+        # Initialize things we know about to zero
+        for state in zk.Node.VALID_STATES:
+            key = 'nodepool.nodes.%s' % state
+            states[key] = 0
+            key = 'nodepool.provider.%s.nodes.%s' % (provider.name, state)
+            states[key] = 0
+
+        for node in zk_conn.nodeIterator():
+            #nodepool.nodes.STATE
+            key = 'nodepool.nodes.%s' % node.state
+            states[key] += 1
+
+            #nodepool.label.LABEL.nodes.STATE
+            key = 'nodepool.label.%s.nodes.%s' % (node.type, node.state)
+            # It's possible we could see node types that aren't in our config
+            if key in states:
+                states[key] += 1
+            else:
+                states[key] = 1
+
+            #nodepool.provider.PROVIDER.nodes.STATE
+            key = 'nodepool.provider.%s.nodes.%s' % (node.provider, node.state)
+            # It's possible we could see providers that aren't in our config
+            if key in states:
+                states[key] += 1
+            else:
+                states[key] = 1
+
+        for key, count in states.items():
+            self._statsd.gauge(key, count)
+
+        #nodepool.provider.PROVIDER.max_servers
+        key = 'nodepool.provider.%s.max_servers' % provider.name
+        self._statsd.gauge(key, provider.max_servers)
+
+
+class InstanceDeleter(threading.Thread, StatsReporter):
     log = logging.getLogger("nodepool.InstanceDeleter")
 
     def __init__(self, zk, manager, node):
         threading.Thread.__init__(self, name='InstanceDeleter for %s %s' %
                                   (node.provider, node.external_id))
+        StatsReporter.__init__(self)
         self._zk = zk
         self._manager = manager
         self._node = node
@@ -210,6 +301,11 @@ class InstanceDeleter(threading.Thread):
     def run(self):
         self.delete(self._zk, self._manager, self._node)
 
+        try:
+            self.updateNodeStats(self._zk, self._manager.provider)
+        except Exception:
+            self.log.exception("Exception while reporting stats:")
+
 
 class NodeDeleter(threading.Thread):
     log = logging.getLogger("nodepool.NodeDeleter")
@@ -509,9 +605,10 @@ class OLDNodeLauncher(threading.Thread):
                      output=True)
 
 
-class NodeLauncher(threading.Thread):
+class NodeLauncher(threading.Thread, StatsReporter):
 
-    def __init__(self, zk, provider, label, provider_manager, node, retries):
+    def __init__(self, zk, provider, label, provider_manager, requestor,
+                 node, retries):
         '''
         Initialize the launcher.
 
@@ -520,10 +617,12 @@ class NodeLauncher(threading.Thread):
         :param Label label: The Label object for this node type.
         :param ProviderManager provider_manager: The manager object used to
             interact with the selected provider.
+        :param str requestor: Identifier for the request originator.
         :param Node node: The node object.
         :param int retries: Number of times to retry failed launches.
         '''
         threading.Thread.__init__(self, name="NodeLauncher-%s" % node.id)
+        StatsReporter.__init__(self)
         self.log = logging.getLogger("nodepool.NodeLauncher-%s" % node.id)
         self._zk = zk
         self._provider = provider
@@ -531,10 +630,15 @@ class NodeLauncher(threading.Thread):
         self._manager = provider_manager
         self._node = node
         self._retries = retries
+        self._image_name = None
+        self._requestor = requestor
 
     def _launchNode(self):
         config_image = self._provider.images[self._label.image]
 
+        # Stored for statsd reporting
+        self._image_name = config_image.name
+
         cloud_image = self._zk.getMostRecentImageUpload(
             config_image.name, self._provider.name)
         if not cloud_image:
@@ -703,18 +807,36 @@ class NodeLauncher(threading.Thread):
         self.log.info("Node id %s is ready", self._node.id)
 
     def run(self):
+        start_time = time.time()
+        statsd_key = 'ready'
+
         try:
             self._run()
-        except Exception:
+        except Exception as e:
             self._node.state = zk.FAILED
             self._zk.storeNode(self._node)
 
+            if hasattr(e, 'statsd_key'):
+                statsd_key = e.statsd_key
+            else:
+                statsd_key = 'error.unknown'
+
+        dt = int((time.time() - start_time) * 1000)
+        try:
+            self.recordLaunchStats(statsd_key, dt, self._image_name,
+                                   self._node.provider, self._node.az,
+                                   self._requestor)
+            self.updateNodeStats(self._zk, self._provider)
+        except Exception:
+            self.log.exception("Exception while reporting stats:")
+
 
 class NodeLaunchManager(object):
     '''
     Handle launching multiple nodes in parallel.
     '''
-    def __init__(self, zk, provider, labels, provider_manager, retries):
+    def __init__(self, zk, provider, labels, provider_manager,
+                 requestor, retries):
         '''
         Initialize the launch manager.
 
@@ -723,6 +845,7 @@ class NodeLaunchManager(object):
         :param dict labels: A dict of config Label objects.
         :param ProviderManager provider_manager: The manager object used to
             interact with the selected provider.
+        :param str requestor: Identifier for the request originator.
         :param int retries: Number of times to retry failed launches.
         '''
         self._retries = retries
@@ -734,6 +857,7 @@ class NodeLaunchManager(object):
         self._provider = provider
         self._labels = labels
         self._manager = provider_manager
+        self._requestor = requestor
 
     @property
     def alive_thread_count(self):
@@ -764,7 +888,7 @@ class NodeLaunchManager(object):
         self._nodes.append(node)
         label = self._labels[node.type]
         t = NodeLauncher(self._zk, self._provider, label, self._manager,
-                         node, self._retries)
+                         self._requestor, node, self._retries)
         t.start()
         self._threads.append(t)
 
@@ -894,9 +1018,9 @@ class NodeRequestHandler(object):
         '''
         self.launch_manager = NodeLaunchManager(
             self.zk, self.provider, self.labels, self.manager,
-            retries=self.provider.launch_retries)
-        ready_nodes = self.zk.getReadyNodesOfTypes(self.request.node_types)
+            self.request.requestor, retries=self.provider.launch_retries)
 
+        ready_nodes = self.zk.getReadyNodesOfTypes(self.request.node_types)
         chosen_az = None
 
         for ntype in self.request.node_types:
@@ -1922,112 +2046,3 @@ class NodePool(threading.Thread):
                                    node.label_name)
             self.deleteNode(node.id)
         self.log.debug("Finished periodic check")
-
-    def updateStats(self, session, provider_name):
-        if not self.statsd:
-            return
-        # This may be called outside of the main thread.
-
-        states = {}
-
-        #nodepool.nodes.STATE
-        #nodepool.target.TARGET.nodes.STATE
-        #nodepool.label.LABEL.nodes.STATE
-        #nodepool.provider.PROVIDER.nodes.STATE
-        for state in nodedb.STATE_NAMES.values():
-            key = 'nodepool.nodes.%s' % state
-            states[key] = 0
-            for target in self.config.targets.values():
-                key = 'nodepool.target.%s.nodes.%s' % (
-                    target.name, state)
-                states[key] = 0
-            for label in self.config.labels.values():
-                key = 'nodepool.label.%s.nodes.%s' % (
-                    label.name, state)
-                states[key] = 0
-            for provider in self.config.providers.values():
-                key = 'nodepool.provider.%s.nodes.%s' % (
-                    provider.name, state)
-                states[key] = 0
-
-        managers = set()
-
-        for node in session.getNodes():
-            if node.state not in nodedb.STATE_NAMES:
-                continue
-            state = nodedb.STATE_NAMES[node.state]
-            key = 'nodepool.nodes.%s' % state
-            total_nodes = 1
-            states[key] += total_nodes
-
-            # NOTE(pabelanger): Check if we assign nodes via Gearman if so, use
-            # the manager name.
-            #nodepool.manager.MANAGER.nodes.STATE
-            if node.manager_name:
-                key = 'nodepool.manager.%s.nodes.%s' % (
-                    node.manager_name, state)
-                if key not in states:
-                    states[key] = 0
-                managers.add(node.manager_name)
-            else:
-                key = 'nodepool.target.%s.nodes.%s' % (
-                    node.target_name, state)
-            states[key] += total_nodes
-
-            key = 'nodepool.label.%s.nodes.%s' % (
-                node.label_name, state)
-            states[key] += total_nodes
-
-            key = 'nodepool.provider.%s.nodes.%s' % (
-                node.provider_name, state)
-            states[key] += total_nodes
-
-        # NOTE(pabelanger): Initialize other state values to zero if missed
-        # above.
-        #nodepool.manager.MANAGER.nodes.STATE
-        for state in nodedb.STATE_NAMES.values():
-            for manager_name in managers:
-                key = 'nodepool.manager.%s.nodes.%s' % (
-                    manager_name, state)
-                if key not in states:
-                    states[key] = 0
-
-        for key, count in states.items():
-            self.statsd.gauge(key, count)
-
-        #nodepool.provider.PROVIDER.max_servers
-        for provider in self.config.providers.values():
-            key = 'nodepool.provider.%s.max_servers' % provider.name
-            self.statsd.gauge(key, provider.max_servers)
-
-    def launchStats(self, subkey, dt, image_name,
-                    provider_name, target_name, node_az, manager_name):
-        if not self.statsd:
-            return
-        #nodepool.launch.provider.PROVIDER.subkey
-        #nodepool.launch.image.IMAGE.subkey
-        #nodepool.launch.subkey
-        keys = [
-            'nodepool.launch.provider.%s.%s' % (provider_name, subkey),
-            'nodepool.launch.image.%s.%s' % (image_name, subkey),
-            'nodepool.launch.%s' % (subkey,),
-            ]
-        if node_az:
-            #nodepool.launch.provider.PROVIDER.AZ.subkey
-            keys.append('nodepool.launch.provider.%s.%s.%s' %
-                        (provider_name, node_az, subkey))
-
-        if manager_name:
-            # NOTE(pabelanger): Check if we assign nodes via Gearman if so, use
-            # the manager name.
-            #nodepool.launch.manager.MANAGER.subkey
-            keys.append('nodepool.launch.manager.%s.%s' %
-                        (manager_name, subkey))
-        else:
-            #nodepool.launch.target.TARGET.subkey
-            keys.append('nodepool.launch.target.%s.%s' %
-                        (target_name, subkey))
-
-        for key in keys:
-            self.statsd.timing(key, dt)
-            self.statsd.incr(key)
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index 3236eed46..d93715899 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -54,7 +54,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n1.state = zk.BUILDING
         n1.type = 'fake-label'
         mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
-                                self.pmanager, 1)
+                                self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         while not mgr.poll():
             time.sleep(0)
@@ -71,7 +71,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n1.state = zk.BUILDING
         n1.type = 'fake-label'
         mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
-                                self.pmanager, 1)
+                                self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         while not mgr.poll():
             time.sleep(0)
@@ -91,7 +91,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n2.state = zk.BUILDING
         n2.type = 'fake-label'
         mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
-                                self.pmanager, 1)
+                                self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         mgr.launch(n2)
         while not mgr.poll():

From 904d1248c0fb91b8e395a538c1d4b0454f1c37c9 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Mar 2017 08:59:44 -0500
Subject: [PATCH 088/309] Remove old/dead classes

Removes three classes that are either dead code or replaced
by newer classes.

Change-Id: I6cf96c81af1d57b11e42ffb5083c44697b82c71e
---
 nodepool/nodepool.py | 395 -------------------------------------------
 1 file changed, 395 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index a335b8648..23840a0c6 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -73,103 +73,6 @@ class LaunchAuthException(Exception):
     statsd_key = 'error.auth'
 
 
-class NodeCompleteThread(threading.Thread):
-    log = logging.getLogger("nodepool.NodeCompleteThread")
-
-    def __init__(self, nodepool, nodename, jobname, result, branch):
-        threading.Thread.__init__(self, name='NodeCompleteThread for %s' %
-                                  nodename)
-        self.nodename = nodename
-        self.nodepool = nodepool
-        self.jobname = jobname
-        self.result = result
-        self.branch = branch
-        self.statsd = stats.get_client()
-
-    def run(self):
-        try:
-            with self.nodepool.getDB().getSession() as session:
-                self.handleEvent(session)
-        except Exception:
-            self.log.exception("Exception handling event for %s:" %
-                               self.nodename)
-
-    def handleEvent(self, session):
-        node = session.getNodeByNodename(self.nodename)
-        if not node:
-            self.log.debug("Unable to find node with nodename: %s" %
-                           self.nodename)
-            return
-
-        if node.state == nodedb.HOLD:
-            self.log.info("Node id: %s is complete but in HOLD state" %
-                          node.id)
-            return
-
-        nodepool_job = session.getJobByName(self.jobname)
-        if (nodepool_job and nodepool_job.hold_on_failure and
-            self.result != 'SUCCESS'):
-            held_nodes = session.getNodes(state=nodedb.HOLD)
-            held_nodes = [n for n in held_nodes if self.jobname in n.comment]
-            if len(held_nodes) >= nodepool_job.hold_on_failure:
-                self.log.info("Node id: %s has failed %s but %s nodes "
-                              "are already held for that job" % (
-                                  node.id, self.jobname, len(held_nodes)))
-            else:
-                node.state = nodedb.HOLD
-                node.comment = "Automatically held after failing %s" % (
-                    self.jobname,)
-                self.log.info("Node id: %s failed %s, automatically holding" % (
-                    node.id, self.jobname))
-                self.nodepool.updateStats(session, node.provider_name)
-                return
-
-        target = self.nodepool.config.targets[node.target_name]
-        if self.jobname == target.jenkins_test_job:
-            self.log.debug("Test job for node id: %s complete, result: %s" %
-                           (node.id, self.result))
-            if self.result == 'SUCCESS':
-                jenkins = self.nodepool.getJenkinsManager(target)
-                old = jenkins.relabelNode(node.nodename, [node.image_name])
-                if not old:
-                    old = '[unlabeled]'
-                self.log.info("Relabeled jenkins node id: %s from %s to %s" %
-                              (node.id, old, node.image_name))
-                node.state = nodedb.READY
-                self.log.info("Node id: %s is ready" % node.id)
-                self.nodepool.updateStats(session, node.provider_name)
-                return
-            self.log.info("Node id: %s failed acceptance test, deleting" %
-                          node.id)
-
-        if self.statsd and self.result == 'SUCCESS':
-            start = node.state_time
-            dt = int((time.time() - start) * 1000)
-
-            # nodepool.job.tempest
-            key = 'nodepool.job.%s' % self.jobname
-            self.statsd.timing(key + '.runtime', dt)
-            self.statsd.incr(key + '.builds')
-
-            # nodepool.job.tempest.master
-            key += '.%s' % self.branch
-            self.statsd.timing(key + '.runtime', dt)
-            self.statsd.incr(key + '.builds')
-
-            # nodepool.job.tempest.master.devstack-precise
-            key += '.%s' % node.label_name
-            self.statsd.timing(key + '.runtime', dt)
-            self.statsd.incr(key + '.builds')
-
-            # nodepool.job.tempest.master.devstack-precise.rax-ord
-            key += '.%s' % node.provider_name
-            self.statsd.timing(key + '.runtime', dt)
-            self.statsd.incr(key + '.builds')
-
-        time.sleep(DELETE_DELAY)
-        self.nodepool.deleteNode(node.id)
-
-
 class StatsReporter(object):
     '''
     Class adding statsd reporting functionality.
@@ -307,304 +210,6 @@ class InstanceDeleter(threading.Thread, StatsReporter):
             self.log.exception("Exception while reporting stats:")
 
 
-class NodeDeleter(threading.Thread):
-    log = logging.getLogger("nodepool.NodeDeleter")
-
-    def __init__(self, nodepool, node_id):
-        threading.Thread.__init__(self, name='NodeDeleter for %s' % node_id)
-        self.node_id = node_id
-        self.nodepool = nodepool
-
-    def run(self):
-        try:
-            with self.nodepool.getDB().getSession() as session:
-                node = session.getNode(self.node_id)
-                self.nodepool._deleteNode(session, node)
-        except Exception:
-            self.log.exception("Exception deleting node %s:" %
-                               self.node_id)
-
-
-class OLDNodeLauncher(threading.Thread):
-    log = logging.getLogger("nodepool.NodeLauncher")
-
-    def __init__(self, nodepool, provider, label, target, node_id, timeout,
-                 launch_timeout):
-        threading.Thread.__init__(self, name='NodeLauncher for %s' % node_id)
-        self.provider = provider
-        self.label = label
-        self.image = provider.images[label.image]
-        self.target = target
-        self.node_id = node_id
-        self.timeout = timeout
-        self.nodepool = nodepool
-        self.launch_timeout = launch_timeout
-
-    def run(self):
-        try:
-            self._run()
-        except Exception:
-            self.log.exception("Exception in run method:")
-
-    def _run(self):
-        with self.nodepool.getDB().getSession() as session:
-            self.log.debug("Launching node id: %s" % self.node_id)
-            try:
-                self.node = session.getNode(self.node_id)
-                self.manager = self.nodepool.getProviderManager(self.provider)
-            except Exception:
-                self.log.exception("Exception preparing to launch node id: %s:"
-                                   % self.node_id)
-                return
-
-            try:
-                start_time = time.time()
-                dt = self.launchNode(session)
-                failed = False
-                statsd_key = 'ready'
-                self.log.debug('Node %s ready in provider: %s' %
-                               (self.node_id, self.provider.name))
-            except exceptions.TimeoutException as e:
-                # Don't log exception for timeouts. Each one has
-                # a specific Exception, and we know it's a timeout, so
-                # the traceback in the log is just noise
-                self.log.error("Timeout launching node id: %s "
-                                   "in provider: %s error: %s" %
-                                   (self.node_id, self.provider.name,
-                                    str(e)))
-                dt = int((time.time() - start_time) * 1000)
-                failed = True
-                statsd_key = e.statsd_key
-            except Exception as e:
-                self.log.exception("%s launching node id: %s "
-                                   "in provider: %s error:" %
-                                   (e.__class__.__name__,
-                                    self.node_id, self.provider.name))
-                dt = int((time.time() - start_time) * 1000)
-                failed = True
-                if hasattr(e, 'statsd_key'):
-                    statsd_key = e.statsd_key
-                else:
-                    statsd_key = 'error.unknown'
-
-            try:
-
-                self.nodepool.launchStats(statsd_key, dt, self.image.name,
-                                          self.provider.name,
-                                          self.target.name,
-                                          self.node.az,
-                                          self.node.manager_name)
-            except Exception:
-                self.log.exception("Exception reporting launch stats:")
-
-            if failed:
-                try:
-                    self.nodepool.deleteNode(self.node_id)
-                except Exception:
-                    self.log.exception("Exception deleting node id: %s:" %
-                                       self.node_id)
-
-    def launchNode(self, session):
-        start_time = time.time()
-        timestamp = int(start_time)
-
-        hostname = self.target.hostname.format(
-            label=self.label, provider=self.provider, node_id=self.node.id,
-            timestamp=str(timestamp))
-        self.node.hostname = hostname
-        self.node.nodename = hostname.split('.')[0]
-        self.node.target_name = self.target.name
-
-        cloud_image = self.nodepool.zk.getMostRecentImageUpload(
-            self.image.name, self.provider.name)
-        if not cloud_image:
-            raise LaunchNodepoolException("Unable to find current cloud"
-                                          "image %s in %s" %
-                                          (self.image.name,
-                                           self.provider.name))
-
-        self.log.info("Creating server with hostname %s in %s from image %s "
-                      "for node id: %s" % (hostname, self.provider.name,
-                                           self.image.name, self.node_id))
-        server = self.manager.createServer(
-            hostname, self.image.min_ram, cloud_image.external_id,
-            name_filter=self.image.name_filter, az=self.node.az,
-            config_drive=self.image.config_drive,
-            nodepool_node_id=self.node_id,
-            nodepool_image_name=self.image.name)
-        server_id = server['id']
-        self.node.external_id = server_id
-        session.commit()
-
-        self.log.debug("Waiting for server %s for node id: %s" %
-                       (server_id, self.node.id))
-        server = self.manager.waitForServer(server, self.launch_timeout)
-        if server['status'] != 'ACTIVE':
-            raise LaunchStatusException("Server %s for node id: %s "
-                                        "status: %s" %
-                                        (server_id, self.node.id,
-                                         server['status']))
-
-        ip = server.get('public_v4')
-        ip_v6 = server.get('public_v6')
-        if self.provider.ipv6_preferred:
-            if ip_v6:
-                ip = ip_v6
-            else:
-                self.log.warning('Preferred ipv6 not available, '
-                                 'falling back to ipv4.')
-        if not ip:
-            self.log.debug(
-                "Server data for failed IP: %s" % pprint.pformat(
-                    server))
-            raise LaunchNetworkException("Unable to find public IP of server")
-
-        self.node.ip_private = server.get('private_v4')
-        # devstack-gate multi-node depends on private_v4 being populated
-        # with something. On clouds that don't have a private address, use
-        # the public.
-        if not self.node.ip_private:
-            self.node.ip_private = server.get('public_v4')
-        self.node.ip = ip
-        self.log.debug("Node id: %s is running, ipv4: %s, ipv6: %s" %
-                       (self.node.id, server.get('public_v4'),
-                        server.get('public_v6')))
-
-        self.log.debug("Node id: %s testing ssh at ip: %s" %
-                       (self.node.id, ip))
-        connect_kwargs = dict(key_filename=self.image.private_key)
-        if not utils.ssh_connect(ip, self.image.username,
-                                 connect_kwargs=connect_kwargs,
-                                 timeout=self.timeout):
-            raise LaunchAuthException("Unable to connect via ssh")
-
-        # Save the elapsed time for statsd
-        dt = int((time.time() - start_time) * 1000)
-
-        nodelist = []
-        nodelist.append(('primary', self.node))
-
-        self.writeNodepoolInfo(nodelist)
-        if self.label.ready_script:
-            self.runReadyScript(nodelist)
-
-        # Do this before adding to jenkins to avoid a race where
-        # Jenkins might immediately use the node before we've updated
-        # the state:
-        if self.target.jenkins_test_job:
-            self.node.state = nodedb.TEST
-            self.log.info("Node id: %s is in testing" % self.node.id)
-        else:
-            self.node.state = nodedb.READY
-            self.log.info("Node id: %s is ready" % self.node.id)
-        self.nodepool.updateStats(session, self.provider.name)
-
-        if self.target.jenkins_url:
-            self.log.debug("Adding node id: %s to jenkins" % self.node.id)
-            self.createJenkinsNode()
-            self.log.info("Node id: %s added to jenkins" % self.node.id)
-
-        return dt
-
-    def createJenkinsNode(self):
-        jenkins = self.nodepool.getJenkinsManager(self.target)
-
-        args = dict(name=self.node.nodename,
-                    host=self.node.ip,
-                    description='Dynamic single use %s node' % self.label.name,
-                    executors=1,
-                    root=self.image.user_home)
-        if not self.target.jenkins_test_job:
-            args['labels'] = self.label.name
-        if self.target.jenkins_credentials_id:
-            args['credentials_id'] = self.target.jenkins_credentials_id
-        else:
-            args['username'] = self.image.username
-            args['private_key'] = self.image.private_key
-
-        jenkins.createNode(**args)
-
-        if self.target.jenkins_test_job:
-            params = dict(NODE=self.node.nodename)
-            jenkins.startBuild(self.target.jenkins_test_job, params)
-
-    def writeNodepoolInfo(self, nodelist):
-        key = paramiko.RSAKey.generate(2048)
-        public_key = key.get_name() + ' ' + key.get_base64()
-
-        for role, n in nodelist:
-            connect_kwargs = dict(key_filename=self.image.private_key)
-            host = utils.ssh_connect(n.ip, self.image.username,
-                                     connect_kwargs=connect_kwargs,
-                                     timeout=self.timeout)
-            if not host:
-                raise Exception("Unable to log in via SSH")
-
-            host.ssh("test for config dir", "ls /etc/nodepool")
-
-            ftp = host.client.open_sftp()
-
-            # The Role of this node
-            f = ftp.open('/etc/nodepool/role', 'w')
-            f.write(role + '\n')
-            f.close()
-            # The IP of this node
-            f = ftp.open('/etc/nodepool/node', 'w')
-            f.write(n.ip + '\n')
-            f.close()
-            # The private IP of this node
-            f = ftp.open('/etc/nodepool/node_private', 'w')
-            f.write(n.ip_private + '\n')
-            f.close()
-            # The IP of the primary node of this node set
-            f = ftp.open('/etc/nodepool/primary_node', 'w')
-            f.write(self.node.ip + '\n')
-            f.close()
-            # The private IP of the primary node of this node set
-            f = ftp.open('/etc/nodepool/primary_node_private', 'w')
-            f.write(self.node.ip_private + '\n')
-            f.close()
-            # The SSH key for this node set
-            f = ftp.open('/etc/nodepool/id_rsa', 'w')
-            key.write_private_key(f)
-            f.close()
-            f = ftp.open('/etc/nodepool/id_rsa.pub', 'w')
-            f.write(public_key + '\n')
-            f.close()
-            # Provider information for this node set
-            f = ftp.open('/etc/nodepool/provider', 'w')
-            f.write('NODEPOOL_PROVIDER=%s\n' % self.provider.name)
-            f.write('NODEPOOL_CLOUD=%s\n' % self.provider.cloud_config.name)
-            f.write('NODEPOOL_REGION=%s\n' % (
-                self.provider.region_name or '',))
-            f.write('NODEPOOL_AZ=%s\n' % (self.node.az or '',))
-            f.close()
-            # The instance UUID for this node
-            f = ftp.open('/etc/nodepool/uuid', 'w')
-            f.write(n.external_id + '\n')
-            f.close()
-
-            ftp.close()
-
-    def runReadyScript(self, nodelist):
-        for role, n in nodelist:
-            connect_kwargs = dict(key_filename=self.image.private_key)
-            host = utils.ssh_connect(n.ip, self.image.username,
-                                     connect_kwargs=connect_kwargs,
-                                     timeout=self.timeout)
-            if not host:
-                raise Exception("Unable to log in via SSH")
-
-            env_vars = ''
-            for k, v in os.environ.items():
-                if k.startswith('NODEPOOL_'):
-                    env_vars += ' %s="%s"' % (k, v)
-            host.ssh("run ready script",
-                     "cd /opt/nodepool-scripts && %s ./%s %s" %
-                     (env_vars, self.label.ready_script, n.hostname),
-                     output=True)
-
-
 class NodeLauncher(threading.Thread, StatsReporter):
 
     def __init__(self, zk, provider, label, provider_manager, requestor,

From 9ff5fc9c5082e1157c398fe802854c4487b8138b Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Mar 2017 10:24:30 -0500
Subject: [PATCH 089/309] Add leaked instance cleanup

Servers not listed in the ZooKeeper data are deleted.

Change-Id: Ic4181d1c73bbfa5520e52be476ea74a436d1d8cf
---
 nodepool/nodepool.py            | 124 +++++++++++++++++++-------------
 nodepool/tests/__init__.py      |   7 ++
 nodepool/tests/test_nodepool.py |  44 ++++--------
 3 files changed, 96 insertions(+), 79 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 23840a0c6..677d1e9c8 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -175,11 +175,19 @@ class InstanceDeleter(threading.Thread, StatsReporter):
         self._node = node
 
     @staticmethod
-    def delete(zk, manager, node):
+    def delete(zk, manager, node, node_exists=True):
         '''
-        Delete a node.
+        Delete a server instance and ZooKeeper node.
 
         This is a class method so we can support instantaneous deletes.
+
+        :param ProviderManager manager: ProviderManager object to use for
+            deleting the server.
+        :param Node node: A locked Node object that describes the server to
+            delete.
+        :param bool node_exists: True if the node actually exists in ZooKeeper.
+            An artifical Node object can be passed that can be used to delete
+            a leaked instance.
         '''
         try:
             manager.cleanupServer(node.external_id)
@@ -192,17 +200,26 @@ class InstanceDeleter(threading.Thread, StatsReporter):
                 "Exception deleting instance %s from %s:",
                 node.external_id, node.provider)
             # Don't delete the ZK node in this case, but do unlock it
-            zk.unlockNode(node)
+            if node_exists:
+                zk.unlockNode(node)
             return
 
-        InstanceDeleter.log.info(
-            "Deleting ZK node id=%s, state=%s, external_id=%s",
-            node.id, node.state, node.external_id)
-        zk.unlockNode(node)
-        zk.deleteNode(node)
+        if node_exists:
+            InstanceDeleter.log.info(
+                "Deleting ZK node id=%s, state=%s, external_id=%s",
+                node.id, node.state, node.external_id)
+            zk.unlockNode(node)
+            zk.deleteNode(node)
 
     def run(self):
-        self.delete(self._zk, self._manager, self._node)
+        # Since leaked instances won't have an actual node in ZooKeeper,
+        # we need to check 'id' to see if this is an artificial Node.
+        if self._node.id is None:
+            node_exists = False
+        else:
+            node_exists = True
+
+        self.delete(self._zk, self._manager, self._node, node_exists)
 
         try:
             self.updateNodeStats(self._zk, self._manager.provider)
@@ -1022,6 +1039,54 @@ class NodeCleanupWorker(threading.Thread):
                 # node from ZooKeeper if it succeeds.
                 self._deleteInstance(node)
 
+    def _cleanupLeakedInstances(self):
+        '''
+        Delete any leaked server instances.
+
+        Remove any servers we find in providers we know about that are not
+        recorded in the ZooKeeper data.
+        '''
+        zk_conn = self._nodepool.getZK()
+
+        for provider in self._nodepool.config.providers.values():
+            manager = self._nodepool.getProviderManager(provider.name)
+
+            # NOTE: Cache the servers BEFORE caching the nodes. Doing this in
+            # the reverse order would create a race where a new server could
+            # be created just after we cache the list of nodes, thus making it
+            # incorrectly appear as leaked since we might not have cached the
+            # node for it.
+            servers = manager.listServers()
+            known = set([n.external_id for n in zk_conn.nodeIterator() if n.provider == provider.name])
+
+            for server in servers:
+                meta = server.get('metadata', {}).get('nodepool')
+                if not meta:
+                    self.log.debug(
+                        "Instance %s (%s) in %s has no nodepool metadata",
+                        server.name, server.id, provider.name)
+                    continue
+
+                meta = json.loads(meta)
+                if meta['provider_name'] != provider.name:
+                    # Another launcher, sharing this provider but configured
+                    # with a different name, owns this.
+                    continue
+
+                if server.id not in known:
+                    self.log.warning(
+                        "Deleting leaked instance %s (%s) in %s",
+                        server.name, server.id, provider.name
+                    )
+                    # Create an artifical node to use for deleting the server.
+                    node = zk.Node()
+                    node.external_id = server.id
+                    node.provider = provider.name
+                    self._deleteInstance(node)
+
+            if provider.clean_floating_ips:
+                manager.cleanupLeakedFloaters()
+
     def run(self):
         self.log.info("Starting")
         self._running = True
@@ -1036,6 +1101,7 @@ class NodeCleanupWorker(threading.Thread):
             try:
                 self._cleanupNodeRequestLocks()
                 self._cleanupNodes()
+                self._cleanupLeakedInstances()
             except Exception:
                 self.log.exception("Exception in NodeCleanupWorker:")
 
@@ -1586,46 +1652,6 @@ class NodePool(threading.Thread):
             self.statsd.incr(key)
         self.updateStats(session, node.provider_name)
 
-    def cleanupLeakedInstances(self):
-        known_providers = self.config.providers.keys()
-        for provider in self.config.providers.values():
-            manager = self.getProviderManager(provider)
-            servers = manager.listServers()
-            with self.getDB().getSession() as session:
-                for server in servers:
-                    meta = server.get('metadata', {}).get('nodepool')
-                    if not meta:
-                        self.log.debug("Instance %s (%s) in %s has no "
-                                       "nodepool metadata" % (
-                                           server['name'], server['id'],
-                                           provider.name))
-                        continue
-                    meta = json.loads(meta)
-                    if meta['provider_name'] not in known_providers:
-                        self.log.debug("Instance %s (%s) in %s "
-                                       "lists unknown provider %s" % (
-                                           server['name'], server['id'],
-                                           provider.name,
-                                           meta['provider_name']))
-                        continue
-                    node_id = meta.get('node_id')
-                    if node_id:
-                        if session.getNode(node_id):
-                            continue
-                        self.log.warning("Deleting leaked instance %s (%s) "
-                                         "in %s for node id: %s" % (
-                                             server['name'], server['id'],
-                                             provider.name, node_id))
-                        self.deleteInstance(provider.name, server['id'])
-                    else:
-                        self.log.warning("Instance %s (%s) in %s has no "
-                                         "database id" % (
-                                             server['name'], server['id'],
-                                             provider.name))
-                        continue
-            if provider.clean_floating_ips:
-                manager.cleanupLeakedFloaters()
-
     def periodicCheck(self, session):
         # This function should be run periodically to make sure we can
         # still access hosts via ssh.
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index a24657578..828efd276 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -433,6 +433,13 @@ class DBTestCase(BaseTestCase):
                 break
             time.sleep(1)
 
+    def waitForInstanceDeletion(self, manager, instance_id):
+        while True:
+            servers = manager.listServers()
+            if not (instance_id in [s.id for s in servers]):
+                break
+            time.sleep(1)
+
     def waitForNodeRequestLockDeletion(self, request_id):
         while True:
             exists = False
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 1712edf5a..2789243c4 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -344,7 +344,6 @@ class TestNodepool(tests.DBTestCase):
             self.assertEqual(len(deleted_nodes), 1)
             self.assertEqual(node_id, deleted_nodes[0].id)
 
-    @skip("Disabled for early v3 development")
     def test_leaked_node(self):
         """Test that a leaked node is deleted"""
         configfile = self.setup_config('leaked_node.yaml')
@@ -353,48 +352,33 @@ class TestNodepool(tests.DBTestCase):
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         self.log.debug("Waiting for initial pool...")
-        self.waitForNodes(pool)
+        nodes = self.waitForNodes('fake-label')
         self.log.debug("...done waiting for initial pool.")
 
         # Make sure we have a node built and ready
-        provider = pool.config.providers['fake-provider']
-        manager = pool.getProviderManager(provider)
+        self.assertEqual(len(nodes), 1)
+        manager = pool.getProviderManager('fake-provider')
         servers = manager.listServers()
         self.assertEqual(len(servers), 1)
 
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            # Delete the node from the db, but leave the instance
-            # so it is leaked.
-            self.log.debug("Delete node db record so instance is leaked...")
-            for node in nodes:
-                node.delete()
-            self.log.debug("...deleted node db so instance is leaked.")
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 0)
+        # Delete the node from ZooKeeper, but leave the instance
+        # so it is leaked.
+        self.log.debug("Delete node db record so instance is leaked...")
+        self.zk.deleteNode(nodes[0])
+        self.log.debug("...deleted node db so instance is leaked.")
 
-        # Wait for nodepool to replace it, which should be enough
-        # time for it to also delete the leaked node
+        # Wait for nodepool to replace it
         self.log.debug("Waiting for replacement pool...")
-        self.waitForNodes(pool)
+        new_nodes = self.waitForNodes('fake-label')
         self.log.debug("...done waiting for replacement pool.")
+        self.assertEqual(len(new_nodes), 1)
+
+        # Wait for the instance to be cleaned up
+        self.waitForInstanceDeletion(manager, nodes[0].external_id)
 
         # Make sure we end up with only one server (the replacement)
         servers = manager.listServers()
         self.assertEqual(len(servers), 1)
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
 
     @skip("Disabled for early v3 development")
     def test_building_image_cleanup_on_start(self):

From 7a0d29b039e0ac8207550ce4e3a4b7a4d55788ab Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 9 Mar 2017 10:43:44 -0500
Subject: [PATCH 090/309] Re-enable test_alien_list_fail and alien_list cmd

Fixes the alien_list command for ZooKeeper, re-enables the
test_alien_list_fail test for it.

Also, we can now remove dead code from NodePool class.

Change-Id: If571c85e8c9377497311ef232ca5e381b37dbfdd
---
 nodepool/cmd/nodepoolcmd.py     |  38 ++--
 nodepool/nodepool.py            | 326 --------------------------------
 nodepool/tests/test_commands.py |   3 +-
 3 files changed, 21 insertions(+), 346 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index a8c52f575..21b7d3517 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -181,30 +181,32 @@ class NodePoolCmd(NodepoolApp):
         self.zk.submitBuildRequest(diskimage)
 
     def alien_list(self):
-        self.pool.reconfigureManagers(self.pool.config, False)
+        self.pool.updateConfig()
 
         t = PrettyTable(["Provider", "Hostname", "Server ID", "IP"])
         t.align = 'l'
-        with self.pool.getDB().getSession() as session:
-            for provider in self.pool.config.providers.values():
-                if (self.args.provider and
-                        provider.name != self.args.provider):
-                    continue
-                manager = self.pool.getProviderManager(provider)
 
-                try:
-                    for server in manager.listServers():
-                        if not session.getNodeByExternalID(
-                                provider.name, server['id']):
-                            t.add_row([provider.name, server['name'],
-                                       server['id'], server['public_v4']])
-                except Exception as e:
-                    log.warning("Exception listing aliens for %s: %s"
-                                % (provider.name, str(e.message)))
+        for provider in self.pool.config.providers.values():
+            if (self.args.provider and
+                    provider.name != self.args.provider):
+                continue
+            manager = self.pool.getProviderManager(provider)
+
+            try:
+                servers = manager.listServers()
+                known = set([n.external_id for n in self.zk.nodeIterator()
+                             if n.provider == provider.name])
+                for server in servers:
+                    if server.id not in known:
+                        t.add_row([provider.name, server.name,
+                                   server.id, server.public_v4])
+            except Exception as e:
+                log.warning("Exception listing aliens for %s: %s"
+                            % (provider.name, str(e.message)))
         print t
 
     def alien_image_list(self):
-        self.pool.reconfigureManagers(self.pool.config, False)
+        self.pool.updateConfig()
 
         t = PrettyTable(["Provider", "Name", "Image ID"])
         t.align = 'l'
@@ -362,7 +364,7 @@ class NodePoolCmd(NodepoolApp):
         if self.args.command in ('image-build', 'dib-image-list',
                                  'image-list', 'dib-image-delete',
                                  'image-delete', 'alien-image-list',
-                                 'list', 'hold', 'delete'):
+                                 'alien-list', 'list', 'hold', 'delete'):
             self.zk = zk.ZooKeeper()
             self.zk.connect(config.zookeeper_servers.values())
         else:
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 677d1e9c8..5f5f55fcb 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -27,9 +27,6 @@ import socket
 import threading
 import time
 
-import allocation
-import jenkins_manager
-import nodedb
 import exceptions
 import nodeutils as utils
 import provider_manager
@@ -1167,47 +1164,6 @@ class NodePool(threading.Thread):
         nodepool_config.loadSecureConfig(config, self.securefile)
         return config
 
-    def reconfigureManagers(self, config, check_targets=True):
-        provider_manager.ProviderManager.reconfigure(self.config, config)
-
-        stop_managers = []
-        for t in config.targets.values():
-            oldmanager = None
-            if self.config:
-                oldmanager = self.config.jenkins_managers.get(t.name)
-            if oldmanager:
-                if (t.jenkins_url != oldmanager.target.jenkins_url or
-                    t.jenkins_user != oldmanager.target.jenkins_user or
-                    t.jenkins_apikey != oldmanager.target.jenkins_apikey):
-                    stop_managers.append(oldmanager)
-                    oldmanager = None
-            if oldmanager:
-                config.jenkins_managers[t.name] = oldmanager
-            elif t.jenkins_url:
-                self.log.debug("Creating new JenkinsManager object "
-                               "for %s" % t.name)
-                config.jenkins_managers[t.name] = \
-                    jenkins_manager.JenkinsManager(t)
-                config.jenkins_managers[t.name].start()
-        for oldmanager in stop_managers:
-            oldmanager.stop()
-
-        # only do it if we need to check for targets
-        if check_targets:
-            for t in config.targets.values():
-                if t.jenkins_url:
-                    try:
-                        info = config.jenkins_managers[t.name].getInfo()
-                        if info['quietingDown']:
-                            self.log.info("Target %s is offline" % t.name)
-                            t.online = False
-                        else:
-                            t.online = True
-                    except Exception:
-                        self.log.exception("Unable to check status of %s" %
-                                           t.name)
-                        t.online = False
-
     def reconfigureZooKeeper(self, config):
         if self.config:
             running = self.config.zookeeper_servers.values()
@@ -1229,174 +1185,12 @@ class NodePool(threading.Thread):
     def setConfig(self, config):
         self.config = config
 
-    def getDB(self):
-        return self.config.db
-
     def getZK(self):
         return self.zk
 
     def getProviderManager(self, provider_name):
         return self.config.provider_managers[provider_name]
 
-    def getJenkinsManager(self, target):
-        if target.name in self.config.jenkins_managers:
-            return self.config.jenkins_managers[target.name]
-        else:
-            raise KeyError("{0} not in {1}".format(target.name,
-                           self.config.jenkins_managers.keys()))
-
-    def getNeededNodes(self, session, allocation_history):
-        self.log.debug("Beginning node launch calculation")
-        # Get the current demand for nodes.
-        label_demand = {}
-
-        for name, demand in label_demand.items():
-            self.log.debug("  Demand from gearman: %s: %s" % (name, demand))
-
-        online_targets = set()
-        for target in self.config.targets.values():
-            if not target.online:
-                continue
-            online_targets.add(target.name)
-
-        nodes = session.getNodes()
-
-        def count_nodes(label_name, state):
-            return len([n for n in nodes
-                        if (n.target_name in online_targets and
-                            n.label_name == label_name and
-                            n.state == state)])
-
-        def count_provider_nodes(provider_name):
-            count = 0
-            for n in nodes:
-                if n.provider_name != provider_name:
-                    continue
-                count += 1
-            return count
-
-        # Add a provider for each node provider, along with current
-        # capacity
-        allocation_providers = {}
-        for provider in self.config.providers.values():
-            provider_max = provider.max_servers
-            n_provider = count_provider_nodes(provider.name)
-            available = provider_max - n_provider
-            if available < 0:
-                self.log.warning("Provider %s over-allocated: "
-                                 "max-servers %d but counted %d " %
-                                 (provider.name, provider_max, n_provider))
-                available = 0
-            ap = allocation.AllocationProvider(provider.name, available)
-            allocation_providers[provider.name] = ap
-
-        # calculate demand for labels
-        # Actual need is: demand - (ready + building + used)
-        # NOTE(jhesketh): This assumes that the nodes in use are actually being
-        # used for a job in demand.
-        for label in self.config.labels.values():
-            start_demand = label_demand.get(label.name, 0)
-            n_ready = count_nodes(label.name, nodedb.READY)
-            n_building = count_nodes(label.name, nodedb.BUILDING)
-            n_used = count_nodes(label.name, nodedb.USED)
-            n_test = count_nodes(label.name, nodedb.TEST)
-            ready = n_ready + n_building + n_used + n_test
-
-            capacity = 0
-            for provider in label.providers.values():
-                capacity += allocation_providers[provider.name].available
-
-            # Note actual_demand and extra_demand are written this way
-            # because max(0, x - y + z) != max(0, x - y) + z.
-            # The requested number of nodes minus those already available
-            actual_demand = max(0, start_demand - ready)
-            # Demand that accomodates extra demand from min-ready value
-            extra_demand = max(0, start_demand + label.min_ready - ready)
-            # We only request extras for the min ready value if there is
-            # clearly capacity for them. This is to avoid the allocator
-            # making bad choices spinning up nodes to satisfy min-ready when
-            # there is "real" work to do with other nodes.
-            if extra_demand <= capacity:
-                demand = extra_demand
-            else:
-                demand = actual_demand
-
-            label_demand[label.name] = demand
-            self.log.debug("  Deficit: %s: %s "
-                           "(start: %s min-ready: %s ready: %s capacity: %s)" %
-                           (label.name, demand,
-                            start_demand, label.min_ready, ready, capacity))
-
-        # "Target-Label-Provider" -- the triplet of info that identifies
-        # the source and location of each node.  The mapping is
-        # AllocationGrantTarget -> TargetLabelProvider, because
-        # the allocation system produces AGTs as the final product.
-        tlps = {}
-        # label_name -> AllocationRequest
-        allocation_requests = {}
-        # Set up the request values in the allocation system
-        for target in self.config.targets.values():
-            if not target.online:
-                continue
-            at = allocation.AllocationTarget(target.name)
-            for label in self.config.labels.values():
-                ar = allocation_requests.get(label.name)
-                if not ar:
-                    # A request for a certain number of nodes of this
-                    # label type.  We may have already started a
-                    # request from a previous target-label in this
-                    # loop.
-                    ar = allocation.AllocationRequest(label.name,
-                                                      label_demand[label.name],
-                                                      allocation_history)
-
-                nodes = session.getNodes(label_name=label.name,
-                                         target_name=target.name)
-                allocation_requests[label.name] = ar
-                ar.addTarget(at, len(nodes))
-                for provider in label.providers.values():
-                    image = self.zk.getMostRecentImageUpload(
-                        label.image, provider.name)
-                    if image:
-                        # This request may be supplied by this provider
-                        # (and nodes from this provider supplying this
-                        # request should be distributed to this target).
-                        sr, agt = ar.addProvider(
-                            allocation_providers[provider.name],
-                            at, 0)
-                        tlps[agt] = (target, label,
-                                     self.config.providers[provider.name])
-                    else:
-                        self.log.debug("  %s does not have image %s "
-                                       "for label %s." % (provider.name,
-                                                          label.image,
-                                                          label.name))
-
-        self.log.debug("  Allocation requests:")
-        for ar in allocation_requests.values():
-            self.log.debug('    %s' % ar)
-            for sr in ar.sub_requests.values():
-                self.log.debug('      %s' % sr)
-
-        nodes_to_launch = []
-
-        # Let the allocation system do it's thing, and then examine
-        # the AGT objects that it produces.
-        self.log.debug("  Grants:")
-        for ap in allocation_providers.values():
-            ap.makeGrants()
-            for g in ap.grants:
-                self.log.debug('    %s' % g)
-                for agt in g.targets:
-                    self.log.debug('      %s' % agt)
-                    tlp = tlps[agt]
-                    nodes_to_launch.append((tlp, agt.amount))
-
-        allocation_history.grantsDone()
-
-        self.log.debug("Finished node launch calculation")
-        return nodes_to_launch
-
     def updateConfig(self):
         config = self.loadConfig()
         provider_manager.ProviderManager.reconfigure(self.config, config)
@@ -1557,123 +1351,3 @@ class NodePool(threading.Thread):
             self._wake_condition.acquire()
             self._wake_condition.wait(self.watermark_sleep)
             self._wake_condition.release()
-
-    def _run(self, session, allocation_history):
-        nodes_to_launch = self.getNeededNodes(session, allocation_history)
-
-        for (tlp, num_to_launch) in nodes_to_launch:
-            (target, label, provider) = tlp
-            if (not target.online) or (not num_to_launch):
-                continue
-            self.log.info("Need to launch %s %s nodes for %s on %s" %
-                          (num_to_launch, label.name,
-                           target.name, provider.name))
-            for i in range(num_to_launch):
-                cloud_image = self.zk.getMostRecentImageUpload(
-                    label.image, provider.name)
-                if not cloud_image:
-                    self.log.debug("No current image for %s on %s"
-                                   % (label.image, provider.name))
-                else:
-                    self.launchNode(session, provider, label, target)
-
-    def launchNode(self, session, provider, label, target):
-        try:
-            self._launchNode(session, provider, label, target)
-        except Exception:
-            self.log.exception(
-                "Could not launch node %s on %s", label.name, provider.name)
-
-    def _launchNode(self, session, provider, label, target):
-        provider = self.config.providers[provider.name]
-        timeout = provider.boot_timeout
-        launch_timeout = provider.launch_timeout
-        if provider.azs:
-            az = random.choice(provider.azs)
-        else:
-            az = None
-        node = session.createNode(provider.name, label.name, target.name, az)
-        t = NodeLauncher(self, provider, label, target, node.id, timeout,
-                         launch_timeout)
-        t.start()
-
-    def _deleteNode(self, session, node):
-        self.log.debug("Deleting node id: %s which has been in %s "
-                       "state for %s hours" %
-                       (node.id, nodedb.STATE_NAMES[node.state],
-                        (time.time() - node.state_time) / (60 * 60)))
-        # Delete a node
-        if node.state != nodedb.DELETE:
-            # Don't write to the session if not needed.
-            node.state = nodedb.DELETE
-        self.updateStats(session, node.provider_name)
-        provider = self.config.providers[node.provider_name]
-        target = self.config.targets[node.target_name]
-        label = self.config.labels.get(node.label_name, None)
-        if label and label.image in provider.images:
-            image_name = provider.images[label.image].name
-        else:
-            image_name = None
-        manager = self.getProviderManager(provider)
-
-        if target.jenkins_url and (node.nodename is not None):
-            jenkins = self.getJenkinsManager(target)
-            jenkins_name = node.nodename
-            if jenkins.nodeExists(jenkins_name):
-                jenkins.deleteNode(jenkins_name)
-            self.log.info("Deleted jenkins node id: %s" % node.id)
-
-        if node.manager_name is not None:
-            try:
-                self.revokeAssignedNode(node)
-            except Exception:
-                self.log.exception("Exception revoking node id: %s" %
-                                   node.id)
-
-        if node.external_id:
-            try:
-                self.log.debug('Deleting server %s for node id: %s' %
-                               (node.external_id, node.id))
-                manager.cleanupServer(node.external_id)
-                manager.waitForServerDeletion(node.external_id)
-            except provider_manager.NotFound:
-                pass
-            node.external_id = None
-
-        node.delete()
-        self.log.info("Deleted node id: %s" % node.id)
-
-        if self.statsd:
-            dt = int((time.time() - node.state_time) * 1000)
-            key = 'nodepool.delete.%s.%s.%s' % (image_name,
-                                                node.provider_name,
-                                                node.target_name)
-            self.statsd.timing(key, dt)
-            self.statsd.incr(key)
-        self.updateStats(session, node.provider_name)
-
-    def periodicCheck(self, session):
-        # This function should be run periodically to make sure we can
-        # still access hosts via ssh.
-
-        self.log.debug("Starting periodic check")
-        for node in session.getNodes():
-            if node.state != nodedb.READY:
-                continue
-            provider = self.config.providers[node.provider_name]
-            if node.label_name in self.config.labels:
-                label = self.config.labels[node.label_name]
-                image = provider.images[label.image]
-                connect_kwargs = dict(key_filename=image.private_key)
-                try:
-                    if utils.ssh_connect(node.ip, image.username,
-                                         connect_kwargs=connect_kwargs):
-                        continue
-                except Exception:
-                    self.log.exception("SSH Check failed for node id: %s" %
-                                       node.id)
-            else:
-                self.log.exception("Node with non-existing label %s" %
-                                   node.label_name)
-            self.deleteNode(node.id)
-        self.log.debug("Finished periodic check")
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 81a01300b..0d938bcc6 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -89,7 +89,6 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.waitForUploadRecordDeletion('fake-provider', 'fake-image',
                                          image.build_id, image.id)
 
-    @skip("Disabled for early v3 development")
     def test_alien_list_fail(self):
         def fail_list(self):
             raise RuntimeError('Fake list error')
@@ -98,7 +97,7 @@ class TestNodepoolCMD(tests.DBTestCase):
             fail_list))
 
         configfile = self.setup_config("node_cmd.yaml")
-        self.patch_argv("-c", configfile, "alien-list")
+        self.patch_argv("-c", configfile, "alien-list", "fakeprovider")
         nodepoolcmd.main()
 
     def test_alien_image_list_empty(self):

From 0c7146053eff5095b6b87131350ed0ca45de9099 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 10 Mar 2017 10:09:46 -0500
Subject: [PATCH 091/309] Remove job_list, job_create, job_delete cmds/tests

These don't make sense in the ZuulV3 world.

Change-Id: I2cf4d5a546f61cebbbe1c708b675aaa496fabdf5
---
 nodepool/cmd/nodepoolcmd.py     | 41 ---------------------------------
 nodepool/tests/test_commands.py | 21 -----------------
 2 files changed, 62 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 21b7d3517..197d03af3 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -125,23 +125,6 @@ class NodePoolCmd(NodepoolApp):
             help='Validate configuration file')
         cmd_config_validate.set_defaults(func=self.config_validate)
 
-        cmd_job_list = subparsers.add_parser('job-list', help='list jobs')
-        cmd_job_list.set_defaults(func=self.job_list)
-
-        cmd_job_create = subparsers.add_parser('job-create', help='create job')
-        cmd_job_create.add_argument(
-            'name',
-            help='job name')
-        cmd_job_create.add_argument('--hold-on-failure',
-                                    help='number of nodes to hold when this job fails')
-        cmd_job_create.set_defaults(func=self.job_create)
-
-        cmd_job_delete = subparsers.add_parser(
-            'job-delete',
-            help='delete job')
-        cmd_job_delete.set_defaults(func=self.job_delete)
-        cmd_job_delete.add_argument('id', help='job id')
-
         self.args = parser.parse_args()
 
     def setup_logging(self):
@@ -323,28 +306,6 @@ class NodePoolCmd(NodepoolApp):
         log.info("Configuration validation complete")
         #TODO(asselin,yolanda): add validation of secure.conf
 
-    def job_list(self):
-        t = PrettyTable(["ID", "Name", "Hold on Failure"])
-        t.align = 'l'
-        with self.pool.getDB().getSession() as session:
-            for job in session.getJobs():
-                t.add_row([job.id, job.name, job.hold_on_failure])
-            print t
-
-    def job_create(self):
-        with self.pool.getDB().getSession() as session:
-            session.createJob(self.args.name,
-                              hold_on_failure=self.args.hold_on_failure)
-        self.job_list()
-
-    def job_delete(self):
-        with self.pool.getDB().getSession() as session:
-            job = session.getJob(self.args.id)
-            if not job:
-                print "Job %s not found." % self.args.id
-            else:
-                job.delete()
-
     def _wait_for_threads(self, threads):
         for t in threads:
             if t:
@@ -367,8 +328,6 @@ class NodePoolCmd(NodepoolApp):
                                  'alien-list', 'list', 'hold', 'delete'):
             self.zk = zk.ZooKeeper()
             self.zk.connect(config.zookeeper_servers.values())
-        else:
-            self.pool.reconfigureDatabase(config)
 
         self.pool.setConfig(config)
         self.args.func()
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 0d938bcc6..40a05bbda 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -21,8 +21,6 @@ import fixtures
 import mock
 import testtools
 
-from unittest import skip
-
 from nodepool.cmd import nodepoolcmd
 from nodepool import tests
 from nodepool import zk
@@ -268,22 +266,3 @@ class TestNodepoolCMD(tests.DBTestCase):
 
         self.waitForImage('fake-provider', 'fake-image', [image])
         self.assert_listed(configfile, ['dib-image-list'], 4, zk.READY, 2)
-
-    @skip("Disabled for early v3 development")
-    def test_job_create(self):
-        configfile = self.setup_config('node.yaml')
-        self.patch_argv("-c", configfile, "job-create", "fake-job",
-                        "--hold-on-failure", "1")
-        nodepoolcmd.main()
-        self.assert_listed(configfile, ['job-list'], 2, 1, 1)
-
-    @skip("Disabled for early v3 development")
-    def test_job_delete(self):
-        configfile = self.setup_config('node.yaml')
-        self.patch_argv("-c", configfile, "job-create", "fake-job",
-                        "--hold-on-failure", "1")
-        nodepoolcmd.main()
-        self.assert_listed(configfile, ['job-list'], 2, 1, 1)
-        self.patch_argv("-c", configfile, "job-delete", "1")
-        nodepoolcmd.main()
-        self.assert_listed(configfile, ['job-list'], 0, 1, 0)

From 03299d3fc1849ffcef186772e6fc324c9fb177a6 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 10 Mar 2017 10:24:18 -0500
Subject: [PATCH 092/309] Re-enable test_image_upload_fail

Not entirely certain why this was disabled, but meh.

Change-Id: Ibebaa1cb26300219491058ad36ecfb430e34de9a
---
 nodepool/tests/test_builder.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 9d95f45a1..476f6998e 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -15,7 +15,6 @@
 
 import os
 import fixtures
-from unittest import skip
 
 from nodepool import builder, exceptions, fakeprovider, tests
 from nodepool import zk
@@ -96,7 +95,6 @@ class TestNodePoolBuilder(tests.DBTestCase):
         nb.start()
         nb.stop()
 
-    @skip("Disabled for early v3 development")
     def test_image_upload_fail(self):
         """Test that image upload fails are handled properly."""
 

From 94c63821bc2cce7b173e1e26548ab43b8e457591 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 10 Mar 2017 10:33:09 -0500
Subject: [PATCH 093/309] Re-enable test_nodepool_osc_config_reload

This required adding a check to the Nodepool thread to verify
it was started before we join on it.

Change-Id: I3cd7395233ac77cbd5805bcd7dd5a88e576cba26
---
 nodepool/nodepool.py                     | 3 ++-
 nodepool/tests/test_shade_integration.py | 3 ---
 2 files changed, 2 insertions(+), 4 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 5f5f55fcb..c8ccbe3b7 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1155,7 +1155,8 @@ class NodePool(threading.Thread):
             self.log.debug("Waiting for %s" % thd.name)
             thd.join()
 
-        self.join()
+        if self.isAlive():
+            self.join()
         self.zk.disconnect()
         self.log.debug("Finished stopping")
 
diff --git a/nodepool/tests/test_shade_integration.py b/nodepool/tests/test_shade_integration.py
index 6da6a1b27..6c06e924c 100644
--- a/nodepool/tests/test_shade_integration.py
+++ b/nodepool/tests/test_shade_integration.py
@@ -20,8 +20,6 @@ import shade
 import testtools
 import yaml
 
-from unittest import skip
-
 from nodepool import config as nodepool_config
 from nodepool import provider_manager
 from nodepool import tests
@@ -75,7 +73,6 @@ class TestShadeIntegration(tests.IntegrationTestCase):
         pm.start()
         self.assertEqual(pm._client.auth, auth_data)
 
-    @skip("Disabled for early v3 development")
     def test_nodepool_osc_config_reload(self):
         configfile = self.setup_config('integration_osc.yaml')
         auth_data = {'username': 'os_real',

From f55a9236f4173910e239ccda5e7209bacbd148cd Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 10 Mar 2017 10:42:01 -0500
Subject: [PATCH 094/309] Re-enable TestWebApp tests

Change-Id: I3c245634d0e0f23407eb54898b1208c633c439eb
---
 nodepool/tests/test_webapp.py | 7 ++-----
 1 file changed, 2 insertions(+), 5 deletions(-)

diff --git a/nodepool/tests/test_webapp.py b/nodepool/tests/test_webapp.py
index dd3627f7b..08295bb4c 100644
--- a/nodepool/tests/test_webapp.py
+++ b/nodepool/tests/test_webapp.py
@@ -17,14 +17,12 @@ import json
 import logging
 import urllib2
 
-from unittest import skip
 from nodepool import tests
 
 
 class TestWebApp(tests.DBTestCase):
     log = logging.getLogger("nodepool.TestWebApp")
 
-    @skip("Disabled for early v3 development")
     def test_image_list(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -35,7 +33,7 @@ class TestWebApp(tests.DBTestCase):
         port = webapp.server.socket.getsockname()[1]
 
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        self.waitForNodes('fake-label')
 
         req = urllib2.Request(
             "http://localhost:%s/image-list" % port)
@@ -45,7 +43,6 @@ class TestWebApp(tests.DBTestCase):
         data = f.read()
         self.assertTrue('fake-image' in data)
 
-    @skip("Disabled for early v3 development")
     def test_dib_image_list_json(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -56,7 +53,7 @@ class TestWebApp(tests.DBTestCase):
         port = webapp.server.socket.getsockname()[1]
 
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
+        self.waitForNodes('fake-label')
 
         req = urllib2.Request(
             "http://localhost:%s/dib-image-list.json" % port)

From e2d103005e77fb79edd0e6641f6e3fdc90976690 Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Fri, 10 Mar 2017 10:04:37 -0600
Subject: [PATCH 095/309] Rename osc to occ in tests

occ is the general acronyn for os-client-config while osc generally
stands for python-openstackclient. While it doesn't actually matter,
it took me half a second to realize while reviewing the previous change
that we weren't trying to do something with python-openstackclient.

Change-Id: I201f8c5b987bd03ba4798a316540a96c9c8defde
---
 ...tegration_osc.yaml => integration_occ.yaml} |  0
 nodepool/tests/test_shade_integration.py       | 18 +++++++++---------
 2 files changed, 9 insertions(+), 9 deletions(-)
 rename nodepool/tests/fixtures/{integration_osc.yaml => integration_occ.yaml} (100%)

diff --git a/nodepool/tests/fixtures/integration_osc.yaml b/nodepool/tests/fixtures/integration_occ.yaml
similarity index 100%
rename from nodepool/tests/fixtures/integration_osc.yaml
rename to nodepool/tests/fixtures/integration_occ.yaml
diff --git a/nodepool/tests/test_shade_integration.py b/nodepool/tests/test_shade_integration.py
index 6c06e924c..d6bf7bae5 100644
--- a/nodepool/tests/test_shade_integration.py
+++ b/nodepool/tests/test_shade_integration.py
@@ -57,14 +57,14 @@ class TestShadeIntegration(tests.IntegrationTestCase):
         self.assertEqual(pm._client.auth, auth_data)
         self.assertEqual(pm._client.region_name, 'real-region')
 
-    def test_nodepool_osc_config(self):
-        configfile = self.setup_config('integration_osc.yaml')
+    def test_nodepool_occ_config(self):
+        configfile = self.setup_config('integration_occ.yaml')
         auth_data = {'username': 'os_real',
                      'project_name': 'os_real',
                      'password': 'os_real',
                      'auth_url': 'os_real'}
-        osc_config = {'clouds': {'real-cloud': {'auth': auth_data}}}
-        self._use_cloud_config(osc_config)
+        occ_config = {'clouds': {'real-cloud': {'auth': auth_data}}}
+        self._use_cloud_config(occ_config)
 
         config = nodepool_config.loadConfig(configfile)
         self.assertIn('real-provider', config.providers)
@@ -73,14 +73,14 @@ class TestShadeIntegration(tests.IntegrationTestCase):
         pm.start()
         self.assertEqual(pm._client.auth, auth_data)
 
-    def test_nodepool_osc_config_reload(self):
-        configfile = self.setup_config('integration_osc.yaml')
+    def test_nodepool_occ_config_reload(self):
+        configfile = self.setup_config('integration_occ.yaml')
         auth_data = {'username': 'os_real',
                      'project_name': 'os_real',
                      'password': 'os_real',
                      'auth_url': 'os_real'}
-        osc_config = {'clouds': {'real-cloud': {'auth': auth_data}}}
-        self._use_cloud_config(osc_config)
+        occ_config = {'clouds': {'real-cloud': {'auth': auth_data}}}
+        self._use_cloud_config(occ_config)
 
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.updateConfig()
@@ -91,7 +91,7 @@ class TestShadeIntegration(tests.IntegrationTestCase):
         auth_data['password'] = 'os_new_real'
         os.remove(self.clouds_path)
         with open(self.clouds_path, 'w') as h:
-            yaml.safe_dump(osc_config, h)
+            yaml.safe_dump(occ_config, h)
 
         pool.updateConfig()
         provider_manager = pool.config.provider_managers['real-provider']

From a3d822dcdeff5a44c4b0ee9b83c6e24ee8bfc1ff Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Sun, 29 Jan 2017 10:51:23 -0500
Subject: [PATCH 096/309] Fix fedora 25 pause bug with devstack

We mistakenly skipped this setting, as a results fedora-25 images are
built by default, causing un needed churn for our nodepool project
jobs.

Change-Id: Id91991a490709f9bbac5a4f6e9847e047b83ca51
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/settings | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/devstack/settings b/devstack/settings
index 50a7faf83..888dcc22a 100644
--- a/devstack/settings
+++ b/devstack/settings
@@ -7,7 +7,7 @@ NODEPOOL_DIB_BASE_PATH=/opt/dib
 # NOTE(pabelanger): Be sure to also update tools/check_devstack_plugin.sh if you
 # change the defaults.
 NODEPOOL_PAUSE_CENTOS_7_DIB=${NODEPOOL_PAUSE_CENTOS_7_DIB:-true}
-NODEPOOL_PAUSE_FEDORA_24_DIB=${NODEPOOL_PAUSE_FEDORA_24_DIB:-true}
+NODEPOOL_PAUSE_FEDORA_25_DIB=${NODEPOOL_PAUSE_FEDORA_25_DIB:-true}
 NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB=${NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB:-true}
 NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=${NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB:-false}
 NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB=${NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB:-true}

From 2a5698251e63452d99c9490b49f4d2ff58057d46 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 10 Mar 2017 09:23:38 -0800
Subject: [PATCH 097/309] Remove allocator

This is no longer used.

Change-Id: I69f588e548f2d1fb7f99217d3aef6bc24632c7e1
---
 nodepool/allocation.py           | 416 -----------------------------
 nodepool/tests/test_allocator.py | 444 -------------------------------
 2 files changed, 860 deletions(-)
 delete mode 100644 nodepool/allocation.py
 delete mode 100644 nodepool/tests/test_allocator.py

diff --git a/nodepool/allocation.py b/nodepool/allocation.py
deleted file mode 100644
index c834dffc0..000000000
--- a/nodepool/allocation.py
+++ /dev/null
@@ -1,416 +0,0 @@
-#!/usr/bin/env python
-
-# Copyright (C) 2013 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-#
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-"""
-This module holds classes that represent concepts in nodepool's
-allocation algorithm.
-
-The algorithm is:
-
-  Setup:
-
-  * Establish the node providers with their current available
-    capacity.
-  * Establish requests that are to be made of each provider for a
-    certain label.
-  * Indicate which providers can supply nodes of that label.
-  * Indicate to which targets nodes of a certain label from a certain
-    provider may be distributed (and the weight that should be
-    given to each target when distributing).
-
-  Run:
-
-  * For each label, set the requested number of nodes from each
-    provider to be proportional to that providers overall capacity.
-
-  * Define the 'priority' of a request as the number of requests for
-    the same label from other providers.
-
-  * For each provider, sort the requests by the priority.  This puts
-    requests that can be serviced by the fewest providers first.
-
-  * Grant each such request in proportion to that requests portion of
-    the total amount requested by requests of the same priority.
-
-  * The nodes allocated by a grant are then distributed to the targets
-    which are associated with the provider and label, in proportion to
-    that target's portion of the sum of the weights of each target for
-    that label.
-"""
-
-import functools
-
-# History allocation tracking
-
-#  The goal of the history allocation tracking is to ensure forward
-#  progress by not starving any particular label when in over-quota
-#  situations.  For example, if you have two labels, say 'fedora' and
-#  'ubuntu', and 'ubuntu' is requesting many more nodes than 'fedora',
-#  it is quite possible that 'fedora' never gets any allocations.  If
-#  'fedora' is required for a gate-check job, older changes may wait
-#  in Zuul's pipelines longer than expected while jobs for newer
-#  changes continue to receive 'ubuntu' nodes and overall merge
-#  throughput decreases during such contention.
-#
-#  We track the history of allocations by label.  A persistent
-#  AllocationHistory object should be kept and passed along with each
-#  AllocationRequest, which records its initial request in the history
-#  via recordRequest().
-#
-#  When a sub-allocation gets a grant, it records this via a call to
-#  AllocationHistory.recordGrant().  All the sub-allocations
-#  contribute to tracking the total grants for the parent
-#  AllocationRequest.
-#
-#  When finished requesting grants from all providers,
-#  AllocationHistory.grantsDone() should be called to store the
-#  allocation state in the history.
-#
-#  This history is used AllocationProvider.makeGrants() to prioritize
-#  requests that have not been granted in prior iterations.
-#  AllocationHistory.getWaitTime will return how many iterations
-#  each label has been waiting for an allocation.
-
-
-class AllocationHistory(object):
-    '''A history of allocation requests and grants'''
-
-    def __init__(self, history=100):
-        # current allocations for this iteration
-        # keeps elements of type
-        #   label -> (request, granted)
-        self.current_allocations = {}
-
-        self.history = history
-        # list of up to <history> previous current_allocation
-        # dictionaries
-        self.past_allocations = []
-
-    def recordRequest(self, label, amount):
-        try:
-            a = self.current_allocations[label]
-            a['requested'] += amount
-        except KeyError:
-            self.current_allocations[label] = dict(requested=amount,
-                                                   allocated=0)
-
-    def recordGrant(self, label, amount):
-        try:
-            a = self.current_allocations[label]
-            a['allocated'] += amount
-        except KeyError:
-            # granted but not requested?  shouldn't happen
-            raise
-
-    def grantsDone(self):
-        # save this round of allocations/grants up to our history
-        self.past_allocations.insert(0, self.current_allocations)
-        self.past_allocations = self.past_allocations[:self.history]
-        self.current_allocations = {}
-
-    def getWaitTime(self, label):
-        # go through the history of allocations and calculate how many
-        # previous iterations this label has received none of its
-        # requested allocations.
-        wait = 0
-
-        # We don't look at the current_alloctions here; only
-        # historical.  With multiple providers, possibly the first
-        # provider has given nodes to the waiting label (which would
-        # be recorded in current_allocations), and a second provider
-        # should fall back to using the usual ratio-based mechanism?
-        for i, a in enumerate(self.past_allocations):
-            if (label in a) and (a[label]['allocated'] == 0):
-                wait = i + 1
-                continue
-
-            # only interested in consecutive failures to allocate.
-            break
-
-        return wait
-
-
-class AllocationProvider(object):
-    """A node provider and its capacity."""
-    def __init__(self, name, available):
-        self.name = name
-        # if this is negative, many of the calcuations turn around and
-        # we start handing out nodes that don't exist.
-        self.available = available if available >= 0 else 0
-        self.sub_requests = []
-        self.grants = []
-
-    def __repr__(self):
-        return '<AllocationProvider %s>' % self.name
-
-    def makeGrants(self):
-        # build a list of (request,wait-time) tuples
-        all_reqs = [(x, x.getWaitTime()) for x in self.sub_requests]
-
-        # reqs with no wait time get processed via ratio mechanism
-        reqs = [x[0] for x in all_reqs if x[1] == 0]
-
-        # we prioritize whoever has been waiting the longest and give
-        # them whatever is available.  If we run out, put them back in
-        # the ratio queue
-        waiters = [x for x in all_reqs if x[1] != 0]
-        waiters.sort(key=lambda x: x[1], reverse=True)
-
-        for w in waiters:
-            w = w[0]
-            if self.available > 0:
-                w.grant(min(int(w.amount), self.available))
-            else:
-                reqs.append(w)
-
-        # Sort the remaining requests by priority so we fill the most
-        # specific requests first (e.g., if this provider is the only
-        # one that can supply foo nodes, then it should focus on
-        # supplying them and leave bar nodes to other providers).
-        reqs.sort(lambda a, b: cmp(a.getPriority(), b.getPriority()))
-
-        for req in reqs:
-            total_requested = 0.0
-            # Within a specific priority, limit the number of
-            # available nodes to a value proportionate to the request.
-            reqs_at_this_level = [r for r in reqs
-                                  if r.getPriority() == req.getPriority()]
-            for r in reqs_at_this_level:
-                total_requested += r.amount
-            if total_requested:
-                ratio = float(req.amount) / total_requested
-            else:
-                ratio = 0.0
-
-            grant = int(round(req.amount))
-            grant = min(grant, int(round(self.available * ratio)))
-            # This adjusts our availability as well as the values of
-            # other requests, so values will be correct the next time
-            # through the loop.
-            req.grant(grant)
-
-
-class AllocationRequest(object):
-    """A request for a number of labels."""
-
-    def __init__(self, name, amount, history=None):
-        self.name = name
-        self.amount = float(amount)
-        # Sub-requests of individual providers that make up this
-        # request.  AllocationProvider -> AllocationSubRequest
-        self.sub_requests = {}
-        # Targets to which nodes from this request may be assigned.
-        # AllocationTarget -> AllocationRequestTarget
-        self.request_targets = {}
-
-        if history is not None:
-            self.history = history
-        else:
-            self.history = AllocationHistory()
-
-        self.history.recordRequest(name, amount)
-
-        # subrequests use these
-        self.recordGrant = functools.partial(self.history.recordGrant, name)
-        self.getWaitTime = functools.partial(self.history.getWaitTime, name)
-
-    def __repr__(self):
-        return '<AllocationRequest for %s of %s>' % (self.amount, self.name)
-
-    def addTarget(self, target, current):
-        art = AllocationRequestTarget(self, target, current)
-        self.request_targets[target] = art
-
-    def addProvider(self, provider, target):
-        # Handle being called multiple times with different targets.
-        s = self.sub_requests.get(provider)
-        if not s:
-            s = AllocationSubRequest(self, provider)
-        agt = s.addTarget(self.request_targets[target])
-        self.sub_requests[provider] = s
-        if s not in provider.sub_requests:
-            provider.sub_requests.append(s)
-        self.makeRequests()
-        return s, agt
-
-    def makeRequests(self):
-        # (Re-)distribute this request across all of its providers.
-        total_available = 0.0
-        for sub_request in self.sub_requests.values():
-            total_available += sub_request.provider.available
-        for sub_request in self.sub_requests.values():
-            if total_available:
-                ratio = float(sub_request.provider.available) / total_available
-            else:
-                ratio = 0.0
-            sub_request.setAmount(ratio * self.amount)
-
-
-class AllocationSubRequest(object):
-    """A request for a number of images from a specific provider."""
-    def __init__(self, request, provider):
-        self.request = request
-        self.provider = provider
-        self.amount = 0.0
-        self.targets = []
-
-    def __repr__(self):
-        return '<AllocationSubRequest for %s (out of %s) of %s from %s>' % (
-            self.amount, self.request.amount, self.request.name,
-            self.provider.name)
-
-    def addTarget(self, request_target):
-        agt = AllocationGrantTarget(self, request_target)
-        self.targets.append(agt)
-        return agt
-
-    def setAmount(self, amount):
-        self.amount = amount
-
-    def getPriority(self):
-        return len(self.request.sub_requests)
-
-    def getWaitTime(self):
-        return self.request.getWaitTime()
-
-    def grant(self, amount):
-        # Grant this request (with the supplied amount).  Adjust this
-        # sub-request's value to the actual, as well as the values of
-        # any remaining sub-requests.
-
-        # fractional amounts don't make sense
-        assert int(amount) == amount
-
-        # Remove from the set of sub-requests so that this is not
-        # included in future calculations.
-        self.provider.sub_requests.remove(self)
-        del self.request.sub_requests[self.provider]
-        if amount > 0:
-            grant = AllocationGrant(self.request, self.provider,
-                                    amount, self.targets)
-            self.request.recordGrant(amount)
-            # This is now a grant instead of a request.
-            self.provider.grants.append(grant)
-        else:
-            grant = None
-            amount = 0
-        self.amount = amount
-        # Adjust provider and request values accordingly.
-        self.request.amount -= amount
-        self.provider.available -= (amount)
-        # Adjust the requested values for related sub-requests.
-        self.request.makeRequests()
-        # Allocate these granted nodes to targets.
-        if grant:
-            grant.makeAllocations()
-
-
-class AllocationGrant(object):
-    """A grant of a certain number of nodes of an image from a
-    specific provider."""
-
-    def __init__(self, request, provider, amount, targets):
-        self.request = request
-        self.provider = provider
-        self.amount = amount
-        self.targets = targets
-
-    def __repr__(self):
-        return '<AllocationGrant of %s of %s from %s>' % (
-            self.amount, self.request.name, self.provider.name)
-
-    def makeAllocations(self):
-        # Allocate this grant to the linked targets.
-        total_current = 0
-        for agt in self.targets:
-            total_current += agt.request_target.current
-        amount = self.amount
-        # Add the nodes in this allocation to the total number of
-        # nodes for this image so that we're setting our target
-        # allocations based on a portion of the total future nodes.
-        total_current += amount
-        remaining_targets = len(self.targets)
-        for agt in self.targets:
-            # Evenly distribute the grants across all targets
-            ratio = 1.0 / remaining_targets
-            # Take the weight and apply it to the total number of
-            # nodes to this image to figure out how many of the total
-            # nodes should ideally be on this target.
-            desired_count = int(round(ratio * total_current))
-            # The number of nodes off from our calculated target.
-            delta = desired_count - agt.request_target.current
-            # Use the delta as the allocation for this target, but
-            # make sure it's bounded by 0 and the number of nodes we
-            # have available to allocate.
-            allocation = min(delta, amount)
-            allocation = max(allocation, 0)
-
-            # The next time through the loop, we have reduced our
-            # grant by this amount.
-            amount -= allocation
-            # Don't consider this target's count in the total number
-            # of nodes in the next iteration, nor the nodes we have
-            # just allocated.
-            total_current -= agt.request_target.current
-            total_current -= allocation
-            # Since we aren't considering this target's count, also
-            # don't consider this target itself when calculating the
-            # ratio.
-            remaining_targets -= 1
-            # Set the amount of this allocation.
-            agt.allocate(allocation)
-
-
-class AllocationTarget(object):
-    """A target to which nodes may be assigned."""
-    def __init__(self, name):
-        self.name = name
-
-    def __repr__(self):
-        return '<AllocationTarget %s>' % (self.name)
-
-
-class AllocationRequestTarget(object):
-    """A request associated with a target to which nodes may be assigned."""
-    def __init__(self, request, target, current):
-        self.target = target
-        self.request = request
-        self.current = current
-
-
-class AllocationGrantTarget(object):
-    """A target for a specific grant to which nodes may be assigned."""
-    def __init__(self, sub_request, request_target):
-        self.sub_request = sub_request
-        self.request_target = request_target
-        self.amount = 0
-
-    def __repr__(self):
-        return '<AllocationGrantTarget for %s of %s to %s>' % (
-            self.amount, self.sub_request.request.name,
-            self.request_target.target.name)
-
-    def allocate(self, amount):
-        # This is essentially the output of this system.  This
-        # represents the number of nodes of a specific image from a
-        # specific provider that should be assigned to a specific
-        # target.
-        self.amount = amount
-        # Update the number of nodes of this image that are assigned
-        # to this target to assist in other allocation calculations
-        self.request_target.current += amount
diff --git a/nodepool/tests/test_allocator.py b/nodepool/tests/test_allocator.py
deleted file mode 100644
index 23279f606..000000000
--- a/nodepool/tests/test_allocator.py
+++ /dev/null
@@ -1,444 +0,0 @@
-# Copyright (C) 2014 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import testscenarios
-
-from nodepool import tests
-from nodepool import allocation
-
-
-class OneLabel(tests.AllocatorTestCase, tests.BaseTestCase):
-    """The simplest case: one each of providers, labels, and
-    targets.
-
-    Result AGT is:
-      * label1 from provider1
-    """
-
-    scenarios = [
-        ('one_node',
-         dict(provider1=10, label1=1, results=[1])),
-        ('two_nodes',
-         dict(provider1=10, label1=2, results=[2])),
-        ]
-
-    def setUp(self):
-        super(OneLabel, self).setUp()
-        ap1 = allocation.AllocationProvider('provider1', self.provider1)
-        at1 = allocation.AllocationTarget('target1')
-        ar1 = allocation.AllocationRequest('label1', self.label1)
-        ar1.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1)[1])
-        ap1.makeGrants()
-
-
-class TwoLabels(tests.AllocatorTestCase, tests.BaseTestCase):
-    """Two labels from one provider.
-
-    Result AGTs are:
-      * label1 from provider1
-      * label1 from provider2
-    """
-
-    scenarios = [
-        ('one_node',
-         dict(provider1=10, label1=1, label2=1, results=[1, 1])),
-        ('two_nodes',
-         dict(provider1=10, label1=2, label2=2, results=[2, 2])),
-        ]
-
-    def setUp(self):
-        super(TwoLabels, self).setUp()
-        ap1 = allocation.AllocationProvider('provider1', self.provider1)
-        at1 = allocation.AllocationTarget('target1')
-        ar1 = allocation.AllocationRequest('label1', self.label1)
-        ar2 = allocation.AllocationRequest('label2', self.label2)
-        ar1.addTarget(at1, 0)
-        ar2.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1)[1])
-        self.agt.append(ar2.addProvider(ap1, at1)[1])
-        ap1.makeGrants()
-
-
-class TwoProvidersTwoLabels(tests.AllocatorTestCase, tests.BaseTestCase):
-    """Two labels, each of which is supplied by both providers.
-
-    Result AGTs are:
-      * label1 from provider1
-      * label2 from provider1
-      * label1 from provider2
-      * label2 from provider2
-    """
-
-    scenarios = [
-        ('one_node',
-         dict(provider1=10, provider2=10, label1=1, label2=1,
-              results=[1, 1, 0, 0])),
-        ('two_nodes',
-         dict(provider1=10, provider2=10, label1=2, label2=2,
-              results=[1, 1, 1, 1])),
-        ('three_nodes',
-         dict(provider1=10, provider2=10, label1=3, label2=3,
-              results=[2, 2, 1, 1])),
-        ('four_nodes',
-         dict(provider1=10, provider2=10, label1=4, label2=4,
-              results=[2, 2, 2, 2])),
-        ('four_nodes_at_quota',
-         dict(provider1=4, provider2=4, label1=4, label2=4,
-              results=[2, 2, 2, 2])),
-        ('four_nodes_over_quota',
-         dict(provider1=2, provider2=2, label1=4, label2=4,
-              results=[1, 1, 1, 1])),
-        ('negative_provider',
-         dict(provider1=-5, provider2=20, label1=5, label2=5,
-              results=[0, 0, 5, 5])),
-        ]
-
-    def setUp(self):
-        super(TwoProvidersTwoLabels, self).setUp()
-        ap1 = allocation.AllocationProvider('provider1', self.provider1)
-        ap2 = allocation.AllocationProvider('provider2', self.provider2)
-        at1 = allocation.AllocationTarget('target1')
-        ar1 = allocation.AllocationRequest('label1', self.label1)
-        ar2 = allocation.AllocationRequest('label2', self.label2)
-        ar1.addTarget(at1, 0)
-        ar2.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1)[1])
-        self.agt.append(ar2.addProvider(ap1, at1)[1])
-        self.agt.append(ar1.addProvider(ap2, at1)[1])
-        self.agt.append(ar2.addProvider(ap2, at1)[1])
-        ap1.makeGrants()
-        ap2.makeGrants()
-
-
-class TwoProvidersTwoLabelsOneShared(tests.AllocatorTestCase,
-                                     tests.BaseTestCase):
-    """One label is served by both providers, the other can only come
-    from one.  This tests that the allocator uses the diverse provider
-    to supply the label that can come from either while reserving
-    nodes from the more restricted provider for the label that can
-    only be supplied by it.
-
-    label1 is supplied by provider1 and provider2.
-    label2 is supplied only by provider2.
-
-    Result AGTs are:
-      * label1 from provider1
-      * label2 from provider1
-      * label2 from provider2
-    """
-
-    scenarios = [
-        ('one_node',
-         dict(provider1=10, provider2=10, label1=1, label2=1,
-              results=[1, 1, 0])),
-        ('two_nodes',
-         dict(provider1=10, provider2=10, label1=2, label2=2,
-              results=[2, 1, 1])),
-        ('three_nodes',
-         dict(provider1=10, provider2=10, label1=3, label2=3,
-              results=[3, 2, 1])),
-        ('four_nodes',
-         dict(provider1=10, provider2=10, label1=4, label2=4,
-              results=[4, 2, 2])),
-        ('four_nodes_at_quota',
-         dict(provider1=4, provider2=4, label1=4, label2=4,
-              results=[4, 0, 4])),
-        ('four_nodes_over_quota',
-         dict(provider1=2, provider2=2, label1=4, label2=4,
-              results=[2, 0, 2])),
-        ]
-
-    def setUp(self):
-        super(TwoProvidersTwoLabelsOneShared, self).setUp()
-        ap1 = allocation.AllocationProvider('provider1', self.provider1)
-        ap2 = allocation.AllocationProvider('provider2', self.provider2)
-        at1 = allocation.AllocationTarget('target1')
-        ar1 = allocation.AllocationRequest('label1', self.label1)
-        ar2 = allocation.AllocationRequest('label2', self.label2)
-        ar1.addTarget(at1, 0)
-        ar2.addTarget(at1, 0)
-        self.agt.append(ar1.addProvider(ap1, at1)[1])
-        self.agt.append(ar2.addProvider(ap1, at1)[1])
-        self.agt.append(ar2.addProvider(ap2, at1)[1])
-        ap1.makeGrants()
-        ap2.makeGrants()
-
-
-class RoundRobinAllocation(tests.RoundRobinTestCase, tests.BaseTestCase):
-    """Test the round-robin behaviour of the AllocationHistory object to
-    ensure fairness of distribution
-
-    """
-
-    scenarios = [
-        # * one_to_one
-        #
-        # test that with only one node available we cycle through the
-        # available labels.
-        #
-        # There's a slight trick with the ordering here; makeGrants()
-        # algorithm allocates proportionally from the available nodes
-        # (i.e. if there's allocations for 100 and 50, then the first
-        # gets twice as many of the available nodes than the second).
-        # The algorithm is
-        #
-        #  1) add up all your peer requests
-        #  2) calculate your ratio = (your_request / all_peers)
-        #  3) multiples that ratio by the available nodes
-        #  4) take the floor() (you can only allocate a whole node)
-        #
-        # So we've got 8 total requests, each requesting one node:
-        #
-        #  label1 = 1/7 other requests = 0.142 * 1 available node = 0
-        #  label2 = 1/6 other requests = 0.166 * 1 available node = 0
-        #  label3 = 1/4 other requests = 0.25  * 1 available node = 0
-        #  ...
-        #  label7 = 1/1 other requests = 1 * 1 available node = 1
-        #
-        # ergo label7 is the first to be granted its request.  Thus we
-        # start the round-robin from there
-        ('one_to_one',
-         dict(provider1=1, provider2=0,
-              label1=1, label2=1, label3=1, label4=1,
-              label5=1, label6=1, label7=1, label8=1,
-              results=['label7',
-                       'label1',
-                       'label2',
-                       'label3',
-                       'label4',
-                       'label5',
-                       'label6',
-                       'label8',
-                       'label7',
-                       'label1',
-                       'label2'])),
-
-        # * at_quota
-        #
-        # Test that when at quota, every node gets allocated on every
-        # round; i.e. nobody ever misses out.  odds go to ap1, even to
-        # ap2
-        ('at_quota',
-         dict(provider1=4, provider2=4,
-              label1=1, label2=1, label3=1, label4=1,
-              label5=1, label6=1, label7=1, label8=1,
-              results=[
-                  'label1', 'label3', 'label5', 'label7',
-                  'label2', 'label4', 'label6', 'label8'] * 11
-              )),
-
-        # * big_fish_little_pond
-        #
-        # In this test we have one label that far outweighs the other.
-        # From the description of the ratio allocation above, it can
-        # swamp the allocation pool and not allow other nodes to come
-        # online.
-        #
-        # Here with two nodes, we check that one node is dedicated to
-        # the larger label request, but the second node cycles through
-        # the smaller requests.
-        ('big_fish_little_pond',
-         dict(provider1=1, provider2=1,
-              label1=100, label2=1, label3=1, label4=1,
-              label5=1, label6=1, label7=1, label8=1,
-              #        provider1 provider2
-              results=['label1', 'label1',  # round 1
-                       'label1', 'label2',  # round 2
-                       'label1', 'label3',  # ...
-                       'label1', 'label4',
-                       'label1', 'label5',
-                       'label1', 'label6',
-                       'label1', 'label7',
-                       'label1', 'label8',
-                       'label1', 'label2',
-                       'label1', 'label3',
-                       'label1', 'label4'])),
-    ]
-
-    def setUp(self):
-        super(RoundRobinAllocation, self).setUp()
-
-        ah = allocation.AllocationHistory()
-
-        def do_it():
-            ap1 = allocation.AllocationProvider('provider1', self.provider1)
-            ap2 = allocation.AllocationProvider('provider2', self.provider2)
-
-            at1 = allocation.AllocationTarget('target1')
-
-            ars = []
-            ars.append(allocation.AllocationRequest('label1', self.label1, ah))
-            ars.append(allocation.AllocationRequest('label2', self.label2, ah))
-            ars.append(allocation.AllocationRequest('label3', self.label3, ah))
-            ars.append(allocation.AllocationRequest('label4', self.label4, ah))
-            ars.append(allocation.AllocationRequest('label5', self.label5, ah))
-            ars.append(allocation.AllocationRequest('label6', self.label6, ah))
-            ars.append(allocation.AllocationRequest('label7', self.label7, ah))
-            ars.append(allocation.AllocationRequest('label8', self.label8, ah))
-
-            # each request to one target, and can be satisfied by both
-            # providers
-            for ar in ars:
-                ar.addTarget(at1, 0)
-                ar.addProvider(ap1, at1)
-                ar.addProvider(ap2, at1)
-
-            ap1.makeGrants()
-            for g in ap1.grants:
-                self.allocations.append(g.request.name)
-            ap2.makeGrants()
-            for g in ap2.grants:
-                self.allocations.append(g.request.name)
-
-            ah.grantsDone()
-
-        # run the test several times to make sure we bounce around
-        # enough
-        for i in range(0, 11):
-            do_it()
-
-
-class RoundRobinFixedProvider(tests.RoundRobinTestCase, tests.BaseTestCase):
-    """Test that round-robin behaviour exists when we have a more complex
-    situation where some nodes can only be provided by some providers
-
-     * label1 is only able to be allocated from provider1
-     * label8 is only able to be allocated from provider2
-    """
-
-    scenarios = [
-        # * fixed_even
-        #
-        # What we see below is an edge case:
-        #
-        # Below, label1 always gets chosen because for provider1.
-        # This is because label1 is requesting 1.0 nodes (it can only
-        # run on provider1) and all the other labels are requesting
-        # only 0.5 of a node (they can run on either and no
-        # allocations have been made yet).  We do actually grant in a
-        # round-robin fashion, but int(0.5) == 0 so no node gets
-        # allocated.  We fall back to the ratio calculation and label1
-        # wins.
-        #
-        # However, after provider1.makeGrants(), the other labels
-        # increase their request on the remaning provider2 to their
-        # full 1.0 nodes.  Now the "fight" starts and we allocate in
-        # the round-robin fashion.
-        ('fixed_even',
-         dict(provider1=1, provider2=1,
-              label1=1, label2=1, label3=1, label4=1,
-              label5=1, label6=1, label7=1, label8=1,
-              #        provider1 provider2
-              results=['label1', 'label6',  # round 1
-                       'label1', 'label8',  # round 2
-                       'label1', 'label2',  # ...
-                       'label1', 'label3',
-                       'label1', 'label4',
-                       'label1', 'label5',
-                       'label1', 'label7',
-                       'label1', 'label6',
-                       'label1', 'label8',
-                       'label1', 'label2',
-                       'label1', 'label3'])),
-
-        # * over_subscribed
-        #
-        # In contrast to above, any grant made will be satisfied.  We
-        # see that the fixed node label1 and label8 do not get as full
-        # a share as the non-fixed nodes -- but they do round-robin
-        # with the other requests.  Fixing this is left as an exercise
-        # for the reader :)
-        ('over_subscribed',
-         dict(provider1=1, provider2=1,
-              label1=20, label2=20, label3=20, label4=20,
-              label5=20, label6=20, label7=20, label8=20,
-              results=['label1', 'label6',
-                       'label2', 'label8',
-                       'label3', 'label3',
-                       'label4', 'label4',
-                       'label5', 'label5',
-                       'label7', 'label7',
-                       'label1', 'label6',
-                       'label2', 'label8',
-                       'label3', 'label3',
-                       'label4', 'label4',
-                       'label5', 'label5'])),
-
-        # * even
-        #
-        #  When there's enough nodes to go around, we expect everyone
-        #  to be fully satisifed with label1 on provider1 and label8
-        #  on provider2 as required
-        ('even',
-         dict(provider1=4, provider2=4,
-              label1=1, label2=1, label3=1, label4=1,
-              label5=1, label6=1, label7=1, label8=1,
-              results=[
-                  'label1', 'label2', 'label4', 'label6',
-                  'label8', 'label3', 'label5', 'label7'] * 11))]
-
-    def setUp(self):
-        super(RoundRobinFixedProvider, self).setUp()
-
-        ah = allocation.AllocationHistory()
-
-        def do_it():
-            ap1 = allocation.AllocationProvider('provider1', self.provider1)
-            ap2 = allocation.AllocationProvider('provider2', self.provider2)
-
-            at1 = allocation.AllocationTarget('target1')
-
-            ars = []
-            ars.append(allocation.AllocationRequest('label1', self.label1, ah))
-            ars.append(allocation.AllocationRequest('label2', self.label2, ah))
-            ars.append(allocation.AllocationRequest('label3', self.label3, ah))
-            ars.append(allocation.AllocationRequest('label4', self.label4, ah))
-            ars.append(allocation.AllocationRequest('label5', self.label5, ah))
-            ars.append(allocation.AllocationRequest('label6', self.label6, ah))
-            ars.append(allocation.AllocationRequest('label7', self.label7, ah))
-            ars.append(allocation.AllocationRequest('label8', self.label8, ah))
-
-            # first ar can only go to provider1, the last only to
-            # provider2
-            ars[0].addTarget(at1, 0)
-            ars[0].addProvider(ap1, at1)
-            ars[-1].addTarget(at1, 0)
-            ars[-1].addProvider(ap2, at1)
-
-            # the rest can go anywhere
-            for ar in ars[1:-1]:
-                ar.addTarget(at1, 0)
-                ar.addProvider(ap1, at1)
-                ar.addProvider(ap2, at1)
-
-            ap1.makeGrants()
-            for g in ap1.grants:
-                self.allocations.append(g.request.name)
-
-            ap2.makeGrants()
-            for g in ap2.grants:
-                self.allocations.append(g.request.name)
-
-            ah.grantsDone()
-
-        # run the test several times to make sure we bounce around
-        # enough
-        for i in range(0, 11):
-            do_it()
-
-
-def load_tests(loader, in_tests, pattern):
-    return testscenarios.load_tests_apply_scenarios(loader, in_tests, pattern)

From a52d0b4cc9530db17a37d2bdb1d1b703e83a989d Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 10 Mar 2017 09:24:36 -0800
Subject: [PATCH 098/309] Remove jenkins_manager

This is no longer used.

Change-Id: Iaf2b5aa96c41e03d5b73254776f2b2814dd0973b
---
 nodepool/jenkins_manager.py | 137 ------------------------------------
 1 file changed, 137 deletions(-)
 delete mode 100644 nodepool/jenkins_manager.py

diff --git a/nodepool/jenkins_manager.py b/nodepool/jenkins_manager.py
deleted file mode 100644
index 92f3e0e4b..000000000
--- a/nodepool/jenkins_manager.py
+++ /dev/null
@@ -1,137 +0,0 @@
-#!/usr/bin/env python
-
-# Copyright (C) 2011-2013 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-#
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import logging
-import re
-
-import myjenkins
-import fakeprovider
-from task_manager import Task, TaskManager
-
-
-class CreateNodeTask(Task):
-    def main(self, jenkins):
-        if 'credentials_id' in self.args:
-            launcher_params = {'port': 22,
-                               'credentialsId': self.args['credentials_id'],
-                               'host': self.args['host']}
-        else:
-            launcher_params = {'port': 22,
-                               'username': self.args['username'],
-                               'privatekey': self.args['private_key'],
-                               'host': self.args['host']}
-        args = dict(
-            name=self.args['name'],
-            numExecutors=self.args['executors'],
-            nodeDescription=self.args['description'],
-            remoteFS=self.args['root'],
-            exclusive=True,
-            launcher='hudson.plugins.sshslaves.SSHLauncher',
-            launcher_params=launcher_params)
-        if self.args['labels']:
-            args['labels'] = self.args['labels']
-        try:
-            jenkins.create_node(**args)
-        except myjenkins.JenkinsException as e:
-            if 'already exists' in str(e):
-                pass
-            else:
-                raise
-
-
-class NodeExistsTask(Task):
-    def main(self, jenkins):
-        return jenkins.node_exists(self.args['name'])
-
-
-class DeleteNodeTask(Task):
-    def main(self, jenkins):
-        return jenkins.delete_node(self.args['name'])
-
-
-class GetNodeConfigTask(Task):
-    def main(self, jenkins):
-        return jenkins.get_node_config(self.args['name'])
-
-
-class SetNodeConfigTask(Task):
-    def main(self, jenkins):
-        jenkins.reconfig_node(self.args['name'], self.args['config'])
-
-
-class StartBuildTask(Task):
-    def main(self, jenkins):
-        jenkins.build_job(self.args['name'],
-                          parameters=self.args['params'])
-
-
-class GetInfoTask(Task):
-    def main(self, jenkins):
-        return jenkins.get_info()
-
-
-class JenkinsManager(TaskManager):
-    log = logging.getLogger("nodepool.JenkinsManager")
-
-    def __init__(self, target):
-        super(JenkinsManager, self).__init__(None, target.name, target.rate)
-        self.target = target
-        self._client = self._getClient()
-
-    def _getClient(self):
-        if self.target.jenkins_apikey == 'fake':
-            return fakeprovider.FakeJenkins(self.target.jenkins_user)
-        return myjenkins.Jenkins(self.target.jenkins_url,
-                                 self.target.jenkins_user,
-                                 self.target.jenkins_apikey)
-
-    def createNode(self, name, host, description, executors, root, labels=[],
-                   credentials_id=None, username=None, private_key=None):
-        args = dict(name=name, host=host, description=description,
-                    labels=labels, executors=executors, root=root)
-        if credentials_id:
-            args['credentials_id'] = credentials_id
-        else:
-            args['username'] = username
-            args['private_key'] = private_key
-        return self.submitTask(CreateNodeTask(**args))
-
-    def nodeExists(self, name):
-        return self.submitTask(NodeExistsTask(name=name))
-
-    def deleteNode(self, name):
-        return self.submitTask(DeleteNodeTask(name=name))
-
-    LABEL_RE = re.compile(r'<label>(.*)</label>')
-
-    def relabelNode(self, name, labels):
-        config = self.submitTask(GetNodeConfigTask(name=name))
-        old = None
-        m = self.LABEL_RE.search(config)
-        if m:
-            old = m.group(1)
-        config = self.LABEL_RE.sub('<label>%s</label>' % ' '.join(labels),
-                                   config)
-        self.submitTask(SetNodeConfigTask(name=name, config=config))
-        return old
-
-    def startBuild(self, name, params):
-        self.submitTask(StartBuildTask(name=name, params=params))
-
-    def getInfo(self):
-        return self._client.get_info()

From 1b04cf979f44ffe0f80308855ec2e973b1c961eb Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Tue, 28 Feb 2017 15:47:00 -0800
Subject: [PATCH 099/309] Add destructor to SSHClient

Newer versions of paramiko require a client object to be explicitly
closed.  Fortunately, we wrap all of our use of paramiko client
objects in our own class.  Add a destructor to our class which
closes the client object.

Note, this has been tested to work (and is needed) even if a
connection is not established.

Change-Id: I5dff7ed254567968b42d053b85004769f8647ecb
(cherry picked from commit d616e61723207ed0e29ea69d67908a00ebf2cdfb)
---
 nodepool/sshclient.py | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/nodepool/sshclient.py b/nodepool/sshclient.py
index 51faca093..8be0c0089 100644
--- a/nodepool/sshclient.py
+++ b/nodepool/sshclient.py
@@ -25,14 +25,17 @@ class SSHClient(object):
     def __init__(self, ip, username, password=None, pkey=None,
                  key_filename=None, log=None, look_for_keys=False,
                  allow_agent=False):
-        client = paramiko.SSHClient()
-        client.set_missing_host_key_policy(paramiko.WarningPolicy())
-        client.connect(ip, username=username, password=password, pkey=pkey,
-                       key_filename=key_filename, look_for_keys=look_for_keys,
-                       allow_agent=allow_agent)
-        self.client = client
+        self.client = paramiko.SSHClient()
+        self.client.set_missing_host_key_policy(paramiko.WarningPolicy())
+        self.client.connect(ip, username=username, password=password,
+                            pkey=pkey, key_filename=key_filename,
+                            look_for_keys=look_for_keys,
+                            allow_agent=allow_agent)
         self.log = log
 
+    def __del__(self):
+        self.client.close()
+
     def ssh(self, action, command, get_pty=True, output=False):
         if self.log:
             self.log.debug("*** START to %s" % action)

From 8845584810b69bc12b54aae11554c57662fff97d Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 10 Mar 2017 09:53:33 -0800
Subject: [PATCH 100/309] Handle exception edge cases in node launching

There are some paths where we could end up not logging exceptions,
so make sure they are logged.

Change-Id: I26b8e4e41981e5abf06e7ba57bccc0cfebf2d247
---
 nodepool/nodepool.py | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index c8ccbe3b7..0c06d140f 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -407,8 +407,10 @@ class NodeLauncher(threading.Thread, StatsReporter):
                 self._launchNode()
                 break
             except Exception:
-                self.log.exception("Launch attempt %d/%d failed for node %s:",
-                    attempts, self._retries, self._node.id)
+                if attempts <= self._retries:
+                    self.log.exception(
+                        "Launch attempt %d/%d failed for node %s:",
+                        attempts, self._retries, self._node.id)
                 # If we created an instance, delete it.
                 if self._node.external_id:
                     self._manager.cleanupServer(self._node.external_id)
@@ -432,6 +434,8 @@ class NodeLauncher(threading.Thread, StatsReporter):
         try:
             self._run()
         except Exception as e:
+            self.log.exception("Launch failed for node %s:",
+                               self._node.id)
             self._node.state = zk.FAILED
             self._zk.storeNode(self._node)
 
@@ -440,8 +444,8 @@ class NodeLauncher(threading.Thread, StatsReporter):
             else:
                 statsd_key = 'error.unknown'
 
-        dt = int((time.time() - start_time) * 1000)
         try:
+            dt = int((time.time() - start_time) * 1000)
             self.recordLaunchStats(statsd_key, dt, self._image_name,
                                    self._node.provider, self._node.az,
                                    self._requestor)

From 066942a0ac1a76cacdb9d228c7a6216c6e8acecc Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Sat, 26 Mar 2016 09:38:33 -0500
Subject: [PATCH 101/309] Stop json-encoding the nodepool metadata

When we first started putting nodepool metadata into the server record
in OpenStack, we json encoded the data so that we could store a dict
into a field that only takes strings. We were also going to teach the
ansible OpenStack Inventory about this so that it could read the data
out of the groups list. However, ansible was not crazy about accepting
"attempt to json decode values in the metadata" since json-encoded
values are not actually part of the interface OpenStack expects - which
means one of our goals, which is ansible inventory groups based on
nodepool information is no longer really a thing.

We could push harder on that, but we actually don't need the functionality
we're getting from the json encoding. The OpenStack Inventory has
supported comma separated lists of groups since before day one. And the
other nodepool info we're storing stores and fetches just as easily
with 4 different top level keys as it does in a json dict - and is
easier to read and deal with when just looking at server records.
Finally, nova has a 255 byte limit on size of the value that can be
stored, so we cannot grow the information in the nodepool dict
indefinitely anyway.

Migrate the data to store into nodepool_ variables and a comma separated
list for groups. Consume both forms, so that people upgrading will not
lose track of existing stock of nodes.

Finally, we don't use snapshot_id anymore - so remove it.

Change-Id: I2c06dc7c2faa19e27d1fb1d9d6df78da45ffa6dd
---
 doc/source/operation.rst     | 17 +++++++----------
 nodepool/nodepool.py         | 11 +++++------
 nodepool/provider_manager.py | 25 +++++++++++--------------
 3 files changed, 23 insertions(+), 30 deletions(-)

diff --git a/doc/source/operation.rst b/doc/source/operation.rst
index 800db95a7..a821798a3 100644
--- a/doc/source/operation.rst
+++ b/doc/source/operation.rst
@@ -77,21 +77,18 @@ When Nodepool creates instances, it will assign the following nova
 metadata:
 
   groups
-    A json-encoded list containing the name of the image and the name
+    A comma separated list containing the name of the image and the name
     of the provider.  This may be used by the Ansible OpenStack
     inventory plugin.
 
-  nodepool
-    A json-encoded dictionary with the following entries:
+  nodepool_image_name
+    The name of the image as a string.
 
-    image_name
-      The name of the image as a string.
+  nodepool_provider_name
+    The name of the provider as a string.
 
-    provider_name
-      The name of the provider as a string.
-
-    node_id
-      The nodepool id of the node as an integer.
+  nodepool_node_id
+    The nodepool id of the node as an integer.
 
 Command Line Tools
 ------------------
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index c8ccbe3b7..901d69ed6 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -16,7 +16,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import json
 import logging
 import os
 import os.path
@@ -1057,15 +1056,15 @@ class NodeCleanupWorker(threading.Thread):
             known = set([n.external_id for n in zk_conn.nodeIterator() if n.provider == provider.name])
 
             for server in servers:
-                meta = server.get('metadata', {}).get('nodepool')
-                if not meta:
+                meta = server.get('metadata', {})
+
+                if 'nodepool_provider_name' not in meta:
                     self.log.debug(
-                        "Instance %s (%s) in %s has no nodepool metadata",
+                        "Instance %s (%s) in %s has no nodepool_provider_name",
                         server.name, server.id, provider.name)
                     continue
 
-                meta = json.loads(meta)
-                if meta['provider_name'] != provider.name:
+                if meta['nodepool_provider_name'] != provider.name:
                     # Another launcher, sharing this provider but configured
                     # with a different name, owns this.
                     continue
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 0206d720f..217d4b742 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -16,7 +16,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import json
 import logging
 import paramiko
 from contextlib import contextmanager
@@ -186,8 +185,7 @@ class ProviderManager(object):
     def createServer(self, name, min_ram, image_id=None, image_name=None,
                      az=None, key_name=None, name_filter=None,
                      config_drive=None, nodepool_node_id=None,
-                     nodepool_image_name=None,
-                     nodepool_snapshot_image_id=None):
+                     nodepool_image_name=None):
         if image_name:
             image = self.findImage(image_name)
         else:
@@ -218,19 +216,18 @@ class ProviderManager(object):
         # Also list each of those values directly so that non-ansible
         # consumption programs don't need to play a game of knowing that
         # groups[0] is the image name or anything silly like that.
-        nodepool_meta = dict(provider_name=self.provider.name)
-        groups_meta = [self.provider.name]
-        if nodepool_node_id:
-            nodepool_meta['node_id'] = nodepool_node_id
-        if nodepool_snapshot_image_id:
-            nodepool_meta['snapshot_image_id'] = nodepool_snapshot_image_id
+        groups_list = [self.provider.name]
         if nodepool_image_name:
-            nodepool_meta['image_name'] = nodepool_image_name
-            groups_meta.append(nodepool_image_name)
-        create_args['meta'] = dict(
-            groups=json.dumps(groups_meta),
-            nodepool=json.dumps(nodepool_meta)
+            groups_list.append(nodepool_image_name)
+        meta = dict(
+            groups=",".join(groups_list),
+            nodepool_provider_name=self.provider.name,
         )
+        if nodepool_node_id:
+            meta['nodepool_node_id'] = nodepool_node_id
+        if nodepool_image_name:
+            meta['nodepool_image_name'] = nodepool_image_name
+        create_args['meta'] = meta
 
         with shade_inner_exceptions():
             return self._client.create_server(wait=False, **create_args)

From 0eb7fdde1ff670e88c458efd38ceb52b63359b4d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 10 Mar 2017 16:39:39 -0500
Subject: [PATCH 102/309] Use node ID for instance leak detection

Using the instance external ID creates a race since this value isn't
available while the instance is building. This could cause the leak
detection code (in its current form) to delete a building instance.
Instead, use the node ID we put in the server metadata for the check.

Change-Id: I6f417bf90f720ca7ded698a9760dd8feb348e638
---
 nodepool/nodepool.py | 23 +++++++++++------------
 1 file changed, 11 insertions(+), 12 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 901d69ed6..cc2485b90 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -273,6 +273,11 @@ class NodeLauncher(threading.Thread, StatsReporter):
                       "for node id: %s" % (hostname, self._provider.name,
                                            config_image.name, self._node.id))
 
+        # NOTE: We store the node ID in the server metadata to use for leaked
+        # instance detection. We cannot use the external server ID for this
+        # because that isn't available in ZooKeeper until after the server is
+        # active, which could cause a race in leak detection.
+
         server = self._manager.createServer(
             hostname,
             config_image.min_ram,
@@ -1047,15 +1052,7 @@ class NodeCleanupWorker(threading.Thread):
         for provider in self._nodepool.config.providers.values():
             manager = self._nodepool.getProviderManager(provider.name)
 
-            # NOTE: Cache the servers BEFORE caching the nodes. Doing this in
-            # the reverse order would create a race where a new server could
-            # be created just after we cache the list of nodes, thus making it
-            # incorrectly appear as leaked since we might not have cached the
-            # node for it.
-            servers = manager.listServers()
-            known = set([n.external_id for n in zk_conn.nodeIterator() if n.provider == provider.name])
-
-            for server in servers:
+            for server in manager.listServers():
                 meta = server.get('metadata', {})
 
                 if 'nodepool_provider_name' not in meta:
@@ -1069,10 +1066,12 @@ class NodeCleanupWorker(threading.Thread):
                     # with a different name, owns this.
                     continue
 
-                if server.id not in known:
+                if not zk_conn.getNode(meta['nodepool_node_id']):
                     self.log.warning(
-                        "Deleting leaked instance %s (%s) in %s",
-                        server.name, server.id, provider.name
+                        "Deleting leaked instance %s (%s) in %s "
+                        "(unknown node id %s)",
+                        server.name, server.id, provider.name,
+                        meta['nodepool_node_id']
                     )
                     # Create an artifical node to use for deleting the server.
                     node = zk.Node()

From 6c708b655c48e16f47c9f9c9722e88d6fce4cfbf Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 10 Mar 2017 10:54:48 -0800
Subject: [PATCH 103/309] Fix failure of node assignment at quota

The node request handler has a bug when near quota. Adds a test
for the bug and changes node request handling to pause the parent
ProviderWorker thread through use of a control attribute instead
of idling.

Co-Authored By: David Shrewsbury <shrewsbury.dave@gmail.com>

Change-Id: I1927fcf087a398524930109616d405ca53984c5f
---
 nodepool/fakeprovider.py                |  15 ++-
 nodepool/nodepool.py                    | 153 +++++++++++++++++-------
 nodepool/tests/__init__.py              |   6 +-
 nodepool/tests/fixtures/node_quota.yaml |  56 +++++++++
 nodepool/tests/test_nodepool.py         |  79 ++++++++++++
 5 files changed, 262 insertions(+), 47 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_quota.yaml

diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index 5feafe135..c78ab2eb1 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -75,6 +75,7 @@ class FakeOpenStackCloud(object):
     log = logging.getLogger("nodepool.FakeOpenStackCloud")
 
     def __init__(self, images=None, networks=None):
+        self.pause_creates = False
         self._image_list = images
         if self._image_list is None:
             self._image_list = [
@@ -151,7 +152,8 @@ class FakeOpenStackCloud(object):
                   metadata=kw.get('meta', {}),
                   manager=self,
                   key_name=kw.get('key_name', None),
-                  should_fail=should_fail)
+                  should_fail=should_fail,
+                  event=threading.Event())
         instance_list.append(s)
         t = threading.Thread(target=self._finish,
                              name='FakeProvider create',
@@ -170,7 +172,13 @@ class FakeOpenStackCloud(object):
         self.log.debug("Deleted from %s" % (repr(instance_list),))
 
     def _finish(self, obj, delay, status):
-        time.sleep(delay)
+        self.log.debug("Pause creates %s", self.pause_creates)
+        if self.pause_creates:
+            self.log.debug("Pausing")
+            obj.event.wait()
+            self.log.debug("Continuing")
+        else:
+            time.sleep(delay)
         obj.status = status
 
     def create_image(self, **kwargs):
@@ -223,7 +231,8 @@ class FakeOpenStackCloud(object):
         return result
 
     def wait_for_server(self, server, **kwargs):
-        server.status = 'ACTIVE'
+        while server.status == 'BUILD':
+            time.sleep(0.1)
         return server
 
     def list_servers(self):
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index cc2485b90..41ffa321e 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -559,15 +559,26 @@ class NodeRequestHandler(object):
         :param NodeRequest request: The request to handle.
         '''
         self.log = logging.getLogger("nodepool.NodeRequestHandler")
-        self.provider = pw.getProviderConfig()
-        self.zk = pw.getZK()
-        self.labels = pw.getLabelsConfig()
-        self.manager = pw.getProviderManager()
-        self.launcher_id = pw.launcher_id
+        self.pw = pw
         self.request = request
         self.launch_manager = None
         self.nodeset = []
         self.done = False
+        self.chosen_az = None
+        self.paused = False
+
+    def _setFromProviderWorker(self):
+        '''
+        Set values that we pull from the parent ProviderWorker.
+
+        We don't do this in __init__ because this class is re-entrant and we
+        want the updated values.
+        '''
+        self.provider = self.pw.getProviderConfig()
+        self.zk = self.pw.getZK()
+        self.labels = self.pw.getLabelsConfig()
+        self.manager = self.pw.getProviderManager()
+        self.launcher_id = self.pw.launcher_id
 
     def _imagesAvailable(self):
         '''
@@ -601,20 +612,6 @@ class NodeRequestHandler(object):
                 count += 1
         return count
 
-    def _unlockNodeSet(self):
-        '''
-        Attempt unlocking all Nodes in the object node set.
-        '''
-        for node in self.nodeset:
-            if not node.lock:
-                continue
-            try:
-                self.zk.unlockNode(node)
-            except Exception:
-                self.log.exception("Error unlocking node:")
-            self.log.debug("Unlocked node %s for request %s",
-                           node.id, self.request.id)
-
     def _waitForNodeSet(self):
         '''
         Fill node set for the request.
@@ -639,12 +636,12 @@ class NodeRequestHandler(object):
             launcher has already started doing so. This would cause an
             expected failure from the underlying library, which is ok for now.
         '''
-        self.launch_manager = NodeLaunchManager(
-            self.zk, self.provider, self.labels, self.manager,
-            self.request.requestor, retries=self.provider.launch_retries)
+        if not self.launch_manager:
+            self.launch_manager = NodeLaunchManager(
+                self.zk, self.provider, self.labels, self.manager,
+                self.request.requestor, retries=self.provider.launch_retries)
 
         ready_nodes = self.zk.getReadyNodesOfTypes(self.request.node_types)
-        chosen_az = None
 
         for ntype in self.request.node_types:
             # First try to grab from the list of already available nodes.
@@ -655,7 +652,7 @@ class NodeRequestHandler(object):
                     # the selected AZ.
                     if node.provider != self.provider.name:
                         continue
-                    if chosen_az and node.az != chosen_az:
+                    if self.chosen_az and node.az != self.chosen_az:
                         continue
 
                     try:
@@ -675,34 +672,37 @@ class NodeRequestHandler(object):
                         # If we haven't already chosen an AZ, select the
                         # AZ from this ready node. This will cause new nodes
                         # to share this AZ, as well.
-                        if not chosen_az and node.az:
-                            chosen_az = node.az
+                        if not self.chosen_az and node.az:
+                            self.chosen_az = node.az
                         break
 
             # Could not grab an existing node, so launch a new one.
             if not got_a_node:
                 # Select grouping AZ if we didn't set AZ from a selected,
                 # pre-existing node
-                if not chosen_az and self.provider.azs:
-                    chosen_az = random.choice(self.provider.azs)
-
-                logged = False
+                if not self.chosen_az and self.provider.azs:
+                    self.chosen_az = random.choice(self.provider.azs)
 
                 # If we calculate that we're at capacity, pause until nodes
                 # are released by Zuul and removed by the NodeCleanupWorker.
-                while self._countNodes() >= self.provider.max_servers:
-                    if not logged:
+                if self._countNodes() >= self.provider.max_servers:
+                    self.paused = True
+                    if not self.pw.paused:
                         self.log.debug(
                             "Pausing request handling to satisfy request %s",
                              self.request)
-                        logged = True
-                    time.sleep(1)
+                        self.pw.paused = True
+                    return
+
+                if self.paused:
+                    self.log.debug("Unpaused request %s", self.request)
+                    self.paused = False
 
                 node = zk.Node()
                 node.state = zk.INIT
                 node.type = ntype
                 node.provider = self.provider.name
-                node.az = chosen_az
+                node.az = self.chosen_az
                 node.launcher = self.launcher_id
                 node.allocated_to = self.request.id
 
@@ -727,6 +727,8 @@ class NodeRequestHandler(object):
         '''
         Main body for the NodeRequestHandler.
         '''
+        self._setFromProviderWorker()
+
         declined_reasons = []
         if not self._imagesAvailable():
             declined_reasons.append('images are not available')
@@ -742,25 +744,67 @@ class NodeRequestHandler(object):
                                self.request.id)
                 # All launchers have declined it
                 self.request.state = zk.FAILED
+            self.unlockNodeSet(clear_allocation=True)
             self.zk.storeNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
             self.done = True
             return
 
-        self.log.debug("Accepting node request %s", self.request.id)
-        self.request.state = zk.PENDING
-        self.zk.storeNodeRequest(self.request)
+        if self.paused:
+            self.log.debug("Retrying node request %s", self.request.id)
+        else:
+            self.log.debug("Accepting node request %s", self.request.id)
+            self.request.state = zk.PENDING
+            self.zk.storeNodeRequest(self.request)
+
         self._waitForNodeSet()
 
     @property
     def alive_thread_count(self):
         return self.launch_manager.alive_thread_count
 
+    #----------------------------------------------------------------
+    # Public methods
+    #----------------------------------------------------------------
+
+    def unlockNodeSet(self, clear_allocation=False):
+        '''
+        Attempt unlocking all Nodes in the node set.
+
+        :param bool clear_allocation: If true, clears the node allocated_to
+            attribute.
+        '''
+        for node in self.nodeset:
+            if not node.lock:
+                continue
+
+            if clear_allocation:
+                node.allocated_to = None
+                self.zk.storeNode(node)
+
+            try:
+                self.zk.unlockNode(node)
+            except Exception:
+                self.log.exception("Error unlocking node:")
+            self.log.debug("Unlocked node %s for request %s",
+                           node.id, self.request.id)
+
+        self.nodeset = []
+
     def run(self):
+        '''
+        Execute node request handling.
+
+        This code is designed to be re-entrant. Because we can't always
+        satisfy a request immediately (due to lack of provider resources), we
+        need to be able to call run() repeatedly until the request can be
+        fulfilled. The node set is saved and added to between calls.
+        '''
         try:
             self._run()
         except Exception:
             self.log.exception("Exception in NodeRequestHandler:")
+            self.unlockNodeSet(clear_allocation=True)
             self.request.state = zk.FAILED
             self.zk.storeNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
@@ -789,7 +833,7 @@ class NodeRequestHandler(object):
             for node in self.nodeset:
                 node.allocated_to = None
                 self.zk.storeNode(node)
-            self._unlockNodeSet()
+            self.unlockNodeSet()
             return True
 
         if self.launch_manager.failed_nodes:
@@ -813,7 +857,7 @@ class NodeRequestHandler(object):
                            self.request.id)
             self.request.state = zk.FULFILLED
 
-        self._unlockNodeSet()
+        self.unlockNodeSet()
         self.zk.storeNodeRequest(self.request)
         self.zk.unlockNodeRequest(self.request)
         return True
@@ -837,6 +881,7 @@ class ProviderWorker(threading.Thread):
         self.nodepool = nodepool
         self.provider_name = provider_name
         self.running = False
+        self.paused = False
         self.request_handlers = []
         self.watermark_sleep = nodepool.watermark_sleep
         self.zk = self.getZK()
@@ -874,6 +919,9 @@ class ProviderWorker(threading.Thread):
             return
 
         for req_id in self.zk.getNodeRequests():
+            if self.paused:
+                return
+
             # Short-circuit for limited request handling
             if (provider.max_concurrency > 0
                 and self._activeThreads() >= provider.max_concurrency
@@ -915,7 +963,7 @@ class ProviderWorker(threading.Thread):
         '''
         active_handlers = []
         for r in self.request_handlers:
-            if not r.poll():
+            if r.paused or not r.poll():
                 active_handlers.append(r)
         self.request_handlers = active_handlers
 
@@ -948,12 +996,33 @@ class ProviderWorker(threading.Thread):
             self.zk.registerLauncher(self.launcher_id)
 
             try:
-                self._assignHandlers()
+                if not self.paused:
+                    self._assignHandlers()
+                else:
+                    # If we are paused, one request handler could not satisify
+                    # its assigned request, so we need to find it and give it
+                    # another shot (there can be only 1). Unpause ourselves if
+                    # it completed.
+                    completed = True
+                    for handler in self.request_handlers:
+                        if handler.paused:
+                            self.log.debug("Re-run handler %s", handler)
+                            handler.run()
+                            completed = False
+                            break
+                    if completed:
+                        self.paused = False
+
                 self._removeCompletedHandlers()
             except Exception:
                 self.log.exception("Error in ProviderWorker:")
             time.sleep(self.watermark_sleep)
 
+        # Cleanup on exit
+        if self.paused:
+            for handler in self.request_handlers:
+                handler.unlockNodeSet(clear_allocation=True)
+
     def stop(self):
         '''
         Shutdown the ProviderWorker thread.
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 0d9a959bd..8317c36d5 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -462,13 +462,15 @@ class DBTestCase(BaseTestCase):
         self.wait_for_threads()
         return ready_nodes[label]
 
-    def waitForNodeRequest(self, req):
+    def waitForNodeRequest(self, req, states=None):
         '''
         Wait for a node request to transition to a final state.
         '''
+        if states is None:
+            states = (zk.FULFILLED, zk.FAILED)
         while True:
             req = self.zk.getNodeRequest(req.id)
-            if req.state in (zk.FULFILLED, zk.FAILED):
+            if req.state in states:
                 break
             time.sleep(1)
 
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota.yaml
new file mode 100644
index 000000000..01a41cd29
--- /dev/null
+++ b/nodepool/tests/fixtures/node_quota.yaml
@@ -0,0 +1,56 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+cron:
+  check: '*/15 * * * *'
+  cleanup: '*/1 * * * *'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    image: fake-image
+    min-ready: 0
+    providers:
+      - name: fake-provider
+
+providers:
+  - name: fake-provider
+    region-name: fake-region
+    availability-zones:
+      - az1
+    keypair: 'if-present-use-this-keypair'
+    username: 'fake'
+    password: 'fake'
+    auth-url: 'fake'
+    project-id: 'fake'
+    max-servers: 2
+    pool: 'fake'
+    networks:
+      - net-id: 'some-uuid'
+    rate: 0.0001
+    images:
+      - name: fake-image
+        min-ram: 8192
+        name-filter: 'Fake'
+        meta:
+          key: value
+          key2: value
+
+targets:
+  - name: fake-target
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 2789243c4..19de6693f 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -74,6 +74,85 @@ class TestNodepool(tests.DBTestCase):
         self.zk.deleteNodeRequest(req)
         self.waitForNodeRequestLockDeletion(req.id)
 
+    def test_node_assignment_at_quota(self):
+        '''
+        Successful node launch should have unlocked nodes in READY state
+        and assigned to the request.
+        '''
+        configfile = self.setup_config('node_quota.yaml')
+        self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
+
+        nodepool.nodepool.LOCK_CLEANUP = 1
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+        self.wait_for_config(pool)
+
+        client = pool.getProviderManager('fake-provider')._getClient()
+
+        # One of the things we want to test is that if spawn many node
+        # launches at once, we do not deadlock while the request
+        # handler pauses for quota.  To ensure we test that case,
+        # pause server creation until we have accepted all of the node
+        # requests we submit.  This will ensure that we hold locks on
+        # all of the nodes before pausing so that we can validate they
+        # are released.
+        client.pause_creates = True
+
+        req1 = zk.NodeRequest()
+        req1.state = zk.REQUESTED
+        req1.node_types.append('fake-label')
+        req1.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req1)
+        req2 = zk.NodeRequest()
+        req2.state = zk.REQUESTED
+        req2.node_types.append('fake-label')
+        req2.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req2)
+
+        req1 = self.waitForNodeRequest(req1, (zk.PENDING,))
+        req2 = self.waitForNodeRequest(req2, (zk.PENDING,))
+
+        # At this point, we should be about to create or have already
+        # created two servers for the first request, and the request
+        # handler has accepted the second node request but paused
+        # waiting for the server count to go below quota.
+
+        # Wait until both of the servers exist.
+        while len(client._server_list) < 2:
+            time.sleep(0.1)
+
+        # Allow the servers to finish being created.
+        for server in client._server_list:
+            server.event.set()
+
+        self.log.debug("Waiting for 1st request %s", req1.id)
+        req1 = self.waitForNodeRequest(req1)
+        self.assertEqual(req1.state, zk.FULFILLED)
+        self.assertEqual(len(req1.nodes), 2)
+
+        # Mark the first request's nodes as USED, which will get them deleted
+        # and allow the second to proceed.
+        self.log.debug("Deleting 1st request %s", req1.id)
+        for node_id in req1.nodes:
+            node = self.zk.getNode(node_id)
+            node.state = zk.USED
+            self.zk.storeNode(node)
+        self.zk.deleteNodeRequest(req1)
+        self.waitForNodeRequestLockDeletion(req1.id)
+
+        # Wait until both of the servers exist.
+        while len(client._server_list) < 2:
+            time.sleep(0.1)
+
+        # Allow the servers to finish being created.
+        for server in client._server_list:
+            server.event.set()
+
+        req2 = self.waitForNodeRequest(req2)
+        self.assertEqual(req2.state, zk.FULFILLED)
+        self.assertEqual(len(req2.nodes), 2)
+
     def test_fail_request_on_launch_failure(self):
         '''
         Test that provider launch error fails the request.

From b65f4bb9748d14a84ec429f523b738b02fe723f5 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 10 Mar 2017 14:30:27 -0800
Subject: [PATCH 104/309] Store a pointer to the paused node request handler

Rather than looping through, let's say, 500 request handlers looking
for the one that is paused, which in the current implementation will
almost certainly be the last in the list, just store a pointer to
the one which is paused.

Change-Id: Ia26345f339297d7d48d93989d3fc7425d6e5e83f
---
 nodepool/nodepool.py | 44 ++++++++++++++++++++------------------------
 1 file changed, 20 insertions(+), 24 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 41ffa321e..d637d7bdd 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -686,12 +686,11 @@ class NodeRequestHandler(object):
                 # If we calculate that we're at capacity, pause until nodes
                 # are released by Zuul and removed by the NodeCleanupWorker.
                 if self._countNodes() >= self.provider.max_servers:
-                    self.paused = True
-                    if not self.pw.paused:
+                    if not self.paused:
                         self.log.debug(
                             "Pausing request handling to satisfy request %s",
-                             self.request)
-                        self.pw.paused = True
+                            self.request)
+                    self.paused = True
                     return
 
                 if self.paused:
@@ -820,6 +819,9 @@ class NodeRequestHandler(object):
 
         :returns: True if we are done with the request, False otherwise.
         '''
+        if self.paused:
+            return False
+
         if self.done:
             return True
 
@@ -881,7 +883,7 @@ class ProviderWorker(threading.Thread):
         self.nodepool = nodepool
         self.provider_name = provider_name
         self.running = False
-        self.paused = False
+        self.paused_handler = None
         self.request_handlers = []
         self.watermark_sleep = nodepool.watermark_sleep
         self.zk = self.getZK()
@@ -919,7 +921,7 @@ class ProviderWorker(threading.Thread):
             return
 
         for req_id in self.zk.getNodeRequests():
-            if self.paused:
+            if self.paused_handler:
                 return
 
             # Short-circuit for limited request handling
@@ -955,6 +957,8 @@ class ProviderWorker(threading.Thread):
             self.log.info("Assigning node request %s" % req)
             rh = NodeRequestHandler(self, req)
             rh.run()
+            if rh.paused:
+                self.paused_handler = rh
             self.request_handlers.append(rh)
 
     def _removeCompletedHandlers(self):
@@ -963,7 +967,7 @@ class ProviderWorker(threading.Thread):
         '''
         active_handlers = []
         for r in self.request_handlers:
-            if r.paused or not r.poll():
+            if not r.poll():
                 active_handlers.append(r)
         self.request_handlers = active_handlers
 
@@ -996,22 +1000,15 @@ class ProviderWorker(threading.Thread):
             self.zk.registerLauncher(self.launcher_id)
 
             try:
-                if not self.paused:
+                if not self.paused_handler:
                     self._assignHandlers()
                 else:
-                    # If we are paused, one request handler could not satisify
-                    # its assigned request, so we need to find it and give it
-                    # another shot (there can be only 1). Unpause ourselves if
-                    # it completed.
-                    completed = True
-                    for handler in self.request_handlers:
-                        if handler.paused:
-                            self.log.debug("Re-run handler %s", handler)
-                            handler.run()
-                            completed = False
-                            break
-                    if completed:
-                        self.paused = False
+                    # If we are paused, one request handler could not
+                    # satisify its assigned request, so give it
+                    # another shot. Unpause ourselves if it completed.
+                    self.paused_handler.run()
+                    if not self.paused_handler.paused:
+                        self.paused_handler = None
 
                 self._removeCompletedHandlers()
             except Exception:
@@ -1019,9 +1016,8 @@ class ProviderWorker(threading.Thread):
             time.sleep(self.watermark_sleep)
 
         # Cleanup on exit
-        if self.paused:
-            for handler in self.request_handlers:
-                handler.unlockNodeSet(clear_allocation=True)
+        if self.paused_handler:
+            self.paused_handler.unlockNodeSet(clear_allocation=True)
 
     def stop(self):
         '''

From 1115a3a8fce31a36832dbcf9354c5e985ef88a3a Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Sun, 12 Mar 2017 07:57:02 -0400
Subject: [PATCH 105/309] Re-enable test_disabled_label

Re-enable this test, and correct the docstring since min-ready
doesn't affect an image being created, only nodes.

Change-Id: I4756939db6649edeb4dba567a09e6eb772fb6e9d
---
 nodepool/tests/test_nodepool.py | 14 +++-----------
 1 file changed, 3 insertions(+), 11 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 19de6693f..d42b27303 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -207,23 +207,15 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(nodes[0].provider, 'fake-provider')
         self.assertEqual(nodes[0].type, 'fake-label')
 
-
-    @skip("Disabled for early v3 development")
     def test_disabled_label(self):
-        """Test that an image and node are not created"""
+        """Test that a node is not created with min-ready=0"""
         configfile = self.setup_config('node_disabled_label.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 0)
+        self.assertEqual([], self.zk.getNodeRequests())
+        self.assertEqual([], self.zk.getNodes())
 
     def test_node_net_name(self):
         """Test that a node is created with a net name"""

From 8fc83ab818e7f6ac682246a7cd002ab08576847c Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Sun, 12 Mar 2017 08:01:10 -0400
Subject: [PATCH 106/309] Re-enable test_node_az

Change-Id: I942ce1b0ac14a0cad7c4ec7133e0d34125cec888
---
 nodepool/tests/test_nodepool.py | 14 ++++----------
 1 file changed, 4 insertions(+), 10 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index d42b27303..dcf16b0ae 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -274,7 +274,6 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(nodes[1].provider, 'fake-provider2')
         self.assertEqual(nodes[1].type, 'fake-label')
 
-    @skip("Disabled for early v3 development")
     def test_node_az(self):
         """Test that an image and node are created with az specified"""
         configfile = self.setup_config('node_az.yaml')
@@ -282,15 +281,10 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            self.assertEqual(nodes[0].az, 'az1')
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
+        self.assertEqual(nodes[0].az, 'az1')
 
     @skip("Disabled for early v3 development")
     def test_node_ipv6(self):

From b80f03ce2030cc02238c88004eec1ee9d8c9cf42 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Sun, 12 Mar 2017 08:53:25 -0400
Subject: [PATCH 107/309] Fix provider-label association

Providers should not build node types for which they are not
configured. We were not checking to see if a provider was listed
within a label definition before building the node. This caused
ANY provider to build a node of that type.

Change-Id: I3538b7ced7452c15e2309bc4253e6c13d4c83b84
---
 nodepool/nodepool.py                          | 22 ++++++
 .../tests/fixtures/node_label_provider.yaml   | 73 +++++++++++++++++++
 nodepool/tests/test_nodepool.py               | 12 +++
 3 files changed, 107 insertions(+)
 create mode 100644 nodepool/tests/fixtures/node_label_provider.yaml

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index d637d7bdd..e9d8cc41b 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -600,6 +600,23 @@ class NodeRequestHandler(object):
                 return False
         return True
 
+    def _invalidNodeTypes(self):
+        '''
+        Return any node types that are invalid for this provider.
+
+        :returns: A list of node type names that are invalid, or an empty
+            list if all are valid.
+        '''
+        invalid = []
+        for ntype in self.request.node_types:
+            if ntype not in self.labels:
+                invalid.append(ntype)
+            else:
+                label = self.labels[ntype]
+                if self.provider.name not in label.providers.keys():
+                    invalid.append(ntype)
+        return invalid
+
     def _countNodes(self):
         '''
         Query ZooKeeper to determine the number of provider nodes launched.
@@ -733,6 +750,11 @@ class NodeRequestHandler(object):
             declined_reasons.append('images are not available')
         if len(self.request.node_types) > self.provider.max_servers:
             declined_reasons.append('it would exceed quota')
+        invalid_types = self._invalidNodeTypes()
+        if invalid_types:
+            declined_reasons.append('node type(s) [%s] not available' %
+                                    ','.join(invalid_types))
+
         if declined_reasons:
             self.log.debug("Declining node request %s because %s",
                            self.request.id, ', '.join(declined_reasons))
diff --git a/nodepool/tests/fixtures/node_label_provider.yaml b/nodepool/tests/fixtures/node_label_provider.yaml
new file mode 100644
index 000000000..e9c4c5ee8
--- /dev/null
+++ b/nodepool/tests/fixtures/node_label_provider.yaml
@@ -0,0 +1,73 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+cron:
+  check: '*/15 * * * *'
+  cleanup: '*/1 * * * *'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    image: fake-image
+    min-ready: 1
+    providers:
+      - name: fake-provider2
+
+providers:
+  - name: fake-provider
+    region-name: fake-region
+    keypair: 'if-present-use-this-keypair'
+    username: 'fake'
+    password: 'fake'
+    auth-url: 'fake'
+    project-id: 'fake'
+    max-servers: 96
+    pool: 'fake'
+    networks:
+      - net-id: 'some-uuid'
+    rate: 0.0001
+    images:
+      - name: fake-image
+        min-ram: 8192
+        name-filter: 'Fake'
+        meta:
+          key: value
+          key2: value
+  - name: fake-provider2
+    region-name: fake-region
+    keypair: 'if-present-use-this-keypair'
+    username: 'fake'
+    password: 'fake'
+    auth-url: 'fake'
+    project-id: 'fake'
+    max-servers: 96
+    pool: 'fake'
+    networks:
+      - net-id: 'some-uuid'
+    rate: 0.0001
+    images:
+      - name: fake-image
+        min-ram: 8192
+        name-filter: 'Fake'
+        meta:
+          key: value
+          key2: value
+
+targets:
+  - name: fake-target
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index dcf16b0ae..3a56746dc 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -666,3 +666,15 @@ class TestNodepool(tests.DBTestCase):
         with pool.getDB().getSession() as session:
             node = session.getNode(2)
             self.assertEqual(node, None)
+
+    def test_label_provider(self):
+        """Test that only providers listed in the label satisfy the request"""
+        configfile = self.setup_config('node_label_provider.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage('fake-provider', 'fake-image')
+        self.waitForImage('fake-provider2', 'fake-image')
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider2')

From ee03dda479d899da6699b28a00ab8f2cddf2d149 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Sun, 12 Mar 2017 08:57:57 -0400
Subject: [PATCH 108/309] Re-enable test_node_ipv6

Note: This exposed the provider-label association bug, so it's also
a good test for that, too.

Change-Id: Ia21bc148ad895b7b54bcb9f661928e025e64ed5d
---
 nodepool/tests/test_nodepool.py | 45 +++++++++++++++------------------
 1 file changed, 21 insertions(+), 24 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 3a56746dc..8ed80ac5f 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -286,7 +286,6 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(nodes[0].provider, 'fake-provider')
         self.assertEqual(nodes[0].az, 'az1')
 
-    @skip("Disabled for early v3 development")
     def test_node_ipv6(self):
         """Test that a node is created w/ or w/o ipv6 preferred flag"""
         configfile = self.setup_config('node_ipv6.yaml')
@@ -296,30 +295,28 @@ class TestNodepool(tests.DBTestCase):
         self.waitForImage('fake-provider1', 'fake-image')
         self.waitForImage('fake-provider2', 'fake-image')
         self.waitForImage('fake-provider3', 'fake-image')
-        self.waitForNodes(pool)
+        label1_nodes = self.waitForNodes('fake-label1')
+        label2_nodes = self.waitForNodes('fake-label2')
+        label3_nodes = self.waitForNodes('fake-label3')
 
-        with pool.getDB().getSession() as session:
-            # ipv6 preferred set to true and ipv6 address available
-            nodes = session.getNodes(provider_name='fake-provider1',
-                                     label_name='fake-label1',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            self.assertEqual(nodes[0].ip, 'fake_v6')
-            # ipv6 preferred unspecified and ipv6 address available
-            nodes = session.getNodes(provider_name='fake-provider2',
-                                     label_name='fake-label2',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            self.assertEqual(nodes[0].ip, 'fake')
-            # ipv6 preferred set to true but ipv6 address unavailable
-            nodes = session.getNodes(provider_name='fake-provider3',
-                                     label_name='fake-label3',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            self.assertEqual(nodes[0].ip, 'fake')
+        self.assertEqual(len(label1_nodes), 1)
+        self.assertEqual(len(label2_nodes), 1)
+        self.assertEqual(len(label3_nodes), 1)
+
+        # ipv6 preferred set to true and ipv6 address available
+        self.assertEqual(label1_nodes[0].provider, 'fake-provider1')
+        self.assertEqual(label1_nodes[0].public_ipv4, 'fake')
+        self.assertEqual(label1_nodes[0].public_ipv6, 'fake_v6')
+
+        # ipv6 preferred unspecified and ipv6 address available
+        self.assertEqual(label2_nodes[0].provider, 'fake-provider2')
+        self.assertEqual(label2_nodes[0].public_ipv4, 'fake')
+        self.assertEqual(label2_nodes[0].public_ipv6, 'fake_v6')
+
+        # ipv6 preferred set to true but ipv6 address unavailable
+        self.assertEqual(label3_nodes[0].provider, 'fake-provider3')
+        self.assertEqual(label3_nodes[0].public_ipv4, 'fake')
+        self.assertEqual(label3_nodes[0].public_ipv6, '')
 
     def test_node_delete_success(self):
         configfile = self.setup_config('node.yaml')

From 28405cf1fa54b9574b3b64e2e3ea720d8b4b3ad8 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Sun, 12 Mar 2017 09:01:39 -0400
Subject: [PATCH 109/309] Remove test_nodepool.test_job_* tests

These are invalid in the ZuulV3 world.

Change-Id: Ib66ad07005463b06e29f552b454161fc79bf8577
---
 nodepool/tests/test_nodepool.py | 125 --------------------------------
 1 file changed, 125 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 8ed80ac5f..c427fa060 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -13,7 +13,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import json
 import logging
 import time
 from unittest import skip
@@ -540,130 +539,6 @@ class TestNodepool(tests.DBTestCase):
             # should be second image built.
             self.assertEqual(images[0].id, 2)
 
-    @skip("Disabled for early v3 development")
-    def test_job_start_event(self):
-        """Test that job start marks node used"""
-        configfile = self.setup_config('node.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
-        pool.start()
-        self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        msg_obj = {'name': 'fake-job',
-                   'build': {'node_name': 'fake-label-fake-provider-1'}}
-        json_string = json.dumps(msg_obj)
-        handler = nodepool.nodepool.NodeUpdateListener(pool,
-                                                       'tcp://localhost:8881')
-        handler.handleEvent('onStarted', json_string)
-        self.wait_for_threads()
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.USED)
-            self.assertEqual(len(nodes), 1)
-
-    @skip("Disabled for early v3 development")
-    def test_job_end_event(self):
-        """Test that job end marks node delete"""
-        configfile = self.setup_config('node.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
-        pool.start()
-        self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        msg_obj = {'name': 'fake-job',
-                   'build': {'node_name': 'fake-label-fake-provider-1',
-                             'status': 'SUCCESS'}}
-        json_string = json.dumps(msg_obj)
-        # Don't delay when deleting.
-        self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.nodepool.DELETE_DELAY',
-            0))
-        handler = nodepool.nodepool.NodeUpdateListener(pool,
-                                                       'tcp://localhost:8881')
-        handler.handleEvent('onFinalized', json_string)
-        self.wait_for_threads()
-
-        with pool.getDB().getSession() as session:
-            node = session.getNode(1)
-            self.assertEqual(node, None)
-
-    @skip("Disabled for early v3 development")
-    def _test_job_auto_hold(self, result):
-        configfile = self.setup_config('node.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
-        pool.start()
-
-        self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            session.createJob('fake-job', hold_on_failure=1)
-
-        msg_obj = {'name': 'fake-job',
-                   'build': {'node_name': 'fake-label-fake-provider-1',
-                             'status': result}}
-        json_string = json.dumps(msg_obj)
-        # Don't delay when deleting.
-        self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.nodepool.DELETE_DELAY',
-            0))
-        handler = nodepool.nodepool.NodeUpdateListener(pool,
-                                                       'tcp://localhost:8881')
-        handler.handleEvent('onFinalized', json_string)
-        self.wait_for_threads()
-        return pool
-
-    @skip("Disabled for early v3 development")
-    def test_job_auto_hold_success(self):
-        """Test that a successful job does not hold a node"""
-        pool = self._test_job_auto_hold('SUCCESS')
-        with pool.getDB().getSession() as session:
-            node = session.getNode(1)
-            self.assertIsNone(node)
-
-    @skip("Disabled for early v3 development")
-    def test_job_auto_hold_failure(self):
-        """Test that a failed job automatically holds a node"""
-        pool = self._test_job_auto_hold('FAILURE')
-        with pool.getDB().getSession() as session:
-            node = session.getNode(1)
-            self.assertEqual(node.state, nodedb.HOLD)
-
-    @skip("Disabled for early v3 development")
-    def test_job_auto_hold_failure_max(self):
-        """Test that a failed job automatically holds only one node"""
-        pool = self._test_job_auto_hold('FAILURE')
-        with pool.getDB().getSession() as session:
-            node = session.getNode(1)
-            self.assertEqual(node.state, nodedb.HOLD)
-
-        # Wait for a replacement node
-        self.waitForNodes(pool)
-        with pool.getDB().getSession() as session:
-            node = session.getNode(2)
-            self.assertEqual(node.state, nodedb.READY)
-
-        # Fail the job again
-        msg_obj = {'name': 'fake-job',
-                   'build': {'node_name': 'fake-label-fake-provider-2',
-                             'status': 'FAILURE'}}
-        json_string = json.dumps(msg_obj)
-        handler = nodepool.nodepool.NodeUpdateListener(pool,
-                                                       'tcp://localhost:8881')
-        handler.handleEvent('onFinalized', json_string)
-        self.wait_for_threads()
-
-        # Ensure that the second node was deleted
-        with pool.getDB().getSession() as session:
-            node = session.getNode(2)
-            self.assertEqual(node, None)
-
     def test_label_provider(self):
         """Test that only providers listed in the label satisfy the request"""
         configfile = self.setup_config('node_label_provider.yaml')

From 8c6461ebe439ea5178fa3cac680bccc96f00deac Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Sun, 12 Mar 2017 10:21:03 -0400
Subject: [PATCH 110/309] Remove Jenkins

Remove files and fakes related to Jenkins. Since the 'targets'
config section was for mapping to Jenkins, this isn't needed either.

Change-Id: Ib5c615a95fcdce5234b3c63957171d77b8fbc65d
---
 devstack/plugin.sh                            |   5 -
 doc/source/configuration.rst                  |  84 +----------
 nodepool/cmd/config_validator.py              |  12 --
 nodepool/config.py                            |  33 -----
 nodepool/fakeprovider.py                      |  46 ------
 nodepool/jenkins_manager.py                   | 137 ------------------
 nodepool/myjenkins.py                         | 136 -----------------
 .../tests/fixtures/config_validate/good.yaml  |   3 -
 .../fixtures/config_validate/yaml_error.yaml  |   3 -
 nodepool/tests/fixtures/integration.yaml      |   7 -
 nodepool/tests/fixtures/integration_occ.yaml  |   3 -
 nodepool/tests/fixtures/leaked_node.yaml      |   3 -
 nodepool/tests/fixtures/node.yaml             |   3 -
 nodepool/tests/fixtures/node_az.yaml          |   3 -
 nodepool/tests/fixtures/node_cmd.yaml         |   3 -
 .../tests/fixtures/node_disabled_label.yaml   |   3 -
 .../tests/fixtures/node_diskimage_fail.yaml   |   3 -
 .../tests/fixtures/node_diskimage_only.yaml   |   2 -
 .../tests/fixtures/node_diskimage_pause.yaml  |   3 -
 .../fixtures/node_image_upload_pause.yaml     |   3 -
 nodepool/tests/fixtures/node_ipv6.yaml        |   3 -
 .../tests/fixtures/node_label_provider.yaml   |   3 -
 .../tests/fixtures/node_launch_retry.yaml     |   3 -
 nodepool/tests/fixtures/node_net_name.yaml    |   3 -
 nodepool/tests/fixtures/node_quota.yaml       |   3 -
 nodepool/tests/fixtures/node_two_image.yaml   |   3 -
 .../tests/fixtures/node_two_image_remove.yaml |   3 -
 .../tests/fixtures/node_two_provider.yaml     |   3 -
 .../fixtures/node_two_provider_remove.yaml    |   3 -
 nodepool/tests/fixtures/node_upload_fail.yaml |   3 -
 nodepool/tests/fixtures/node_vhd.yaml         |   3 -
 .../tests/fixtures/node_vhd_and_qcow2.yaml    |   3 -
 nodepool/tests/fixtures/secure.conf           |   6 -
 requirements.txt                              |   1 -
 tools/fake-dib.yaml                           |   3 -
 tools/fake-secure.conf                        |   6 -
 tools/fake.yaml                               |   3 -
 37 files changed, 5 insertions(+), 545 deletions(-)
 delete mode 100644 nodepool/jenkins_manager.py
 delete mode 100644 nodepool/myjenkins.py

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index d2f5528c6..7149208e0 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -184,11 +184,6 @@ zookeeper-servers:
   - host: localhost
     port: 2181
 
-# Need to have at least one target for node allocations, but
-# this does not need to be a jenkins target.
-targets:
-  - name: dummy
-
 cron:
   cleanup: '*/1 * * * *'
   check: '*/15 * * * *'
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 82a5b0016..e41d4a80f 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -5,18 +5,11 @@ Configuration
 
 Nodepool reads its secure configuration from ``/etc/nodepool/secure.conf``
 by default. The secure file is a standard ini config file, with
-one section for database, and another section for the jenkins
-secrets for each target::
+one section for the database.
 
   [database]
   dburi={dburi}
 
-  [jenkins "{target_name}"]
-  user={user}
-  apikey={apikey}
-  credentials={credentials}
-  url={url}
-
 Following settings are available::
 
 **required**
@@ -29,36 +22,11 @@ Following settings are available::
 
     dburi='mysql+pymysql://nodepool@localhost/nodepool'
 
-**optional**
-
-  While it is possible to run Nodepool without any Jenkins targets,
-  if Jenkins is used, the `target_name` and `url` are required. The
-  `user`, `apikey` and `credentials` also may be needed depending on
-  the Jenkins security settings.
-
-  ``target_name``
-  Name of the jenkins target. It needs to match with a target
-  specified in nodepool.yaml, in order to retrieve its settings.
-
-  ``url``
-  Url to the Jenkins REST API.
-
-  ``user``
-  Jenkins username.
-
-  ``apikey``
-  API key generated by Jenkins (not the user password).
-
-  ``credentials``
-  If provided, Nodepool will configure the Jenkins slave to use the Jenkins
-  credential identified by that ID, otherwise it will use the username and
-  ssh keys configured in the image.
-
 Nodepool reads its configuration from ``/etc/nodepool/nodepool.yaml``
 by default.  The configuration file follows the standard YAML syntax
 with a number of sections defined with top level keys.  For example, a
 full configuration file may have the ``diskimages``, ``labels``,
-``providers``, and ``targets`` sections::
+and ``providers`` sections::
 
   diskimages:
     ...
@@ -66,8 +34,6 @@ full configuration file may have the ``diskimages``, ``labels``,
     ...
   providers:
     ...
-  targets:
-    ...
 
 The following sections are available.  All are required unless
 otherwise indicated.
@@ -135,8 +101,7 @@ labels
 Defines the types of nodes that should be created.  Maps node types to
 the images that are used to back them and the providers that are used
 to supply them.  Jobs should be written to run on nodes of a certain
-label (so targets such as Jenkins don't need to know about what
-providers or images are used to create them).  Example::
+label. Example::
 
   labels:
     - name: my-precise
@@ -430,9 +395,8 @@ provider, the Nodepool image types are also defined (see
 
   ``ipv6-preferred``
     If it is set to True, nodepool will try to find ipv6 in public net first
-    as the ip address for ssh connection to build snapshot images and create
-    jenkins slave definition. If ipv6 is not found or the key is not
-    specified or set to False, ipv4 address will be used.
+    as the ip address for the ssh connection. If ipv6 is not found or the key
+    is not specified or set to False, ipv4 address will be used.
 
   ``api-timeout`` (compatability)
     Timeout for the OpenStack API calls client in seconds. Prefer setting
@@ -533,41 +497,3 @@ Example configuration::
     Arbitrary key/value metadata to store for this server using the Nova
     metadata service. A maximum of five entries is allowed, and both keys and
     values must be 255 characters or less.
-
-.. _targets:
-
-targets
--------
-
-Lists the Jenkins masters to which Nodepool should attach nodes after
-they are created.  Nodes of each label will be evenly distributed
-across all of the targets which are on-line::
-
-  targets:
-    - name: jenkins1
-    - name: jenkins2
-
-**required**
-
-  ``name``
-  Identifier for the system an instance is attached to.
-
-**optional**
-
-  ``rate``
-    In seconds. Default 1.0
-
-  ``jenkins`` (dict)
-
-    ``test-job`` (optional)
-      Setting this would cause a newly created instance to be in a TEST state.
-      The job name given will then be executed with the node name as a
-      parameter.
-
-      If the job succeeds, move the node into READY state and relabel it with
-      the appropriate label (from the image name).
-
-      If it fails, immediately delete the node.
-
-      If the job never runs, the node will eventually be cleaned up by the
-      periodic cleanup task.
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index f49ffe3d2..f8b463762 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -92,17 +92,6 @@ class ConfigValidator:
             }],
         }
 
-        targets = {
-            'name': str,
-            'jenkins': {
-                'url': str,
-                'user': str,
-                'apikey': str,
-                'credentials-id': str,
-                'test-job': str
-            }
-        }
-
         diskimages = {
             'name': str,
             'pause': bool,
@@ -125,7 +114,6 @@ class ConfigValidator:
             'cron': cron,
             'providers': [providers],
             'labels': [labels],
-            'targets': [targets],
             'diskimages': [diskimages],
         }
 
diff --git a/nodepool/config.py b/nodepool/config.py
index 0f76c551b..aa77cc11e 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -82,11 +82,6 @@ class ProviderImage(ConfigValue):
         return "<ProviderImage %s>" % self.name
 
 
-class Target(ConfigValue):
-    def __repr__(self):
-        return "<Target %s>" % self.name
-
-
 class Label(ConfigValue):
     def __repr__(self):
         return "<Label %s>" % self.name
@@ -138,13 +133,11 @@ def loadConfig(config_path):
     newconfig.db = None
     newconfig.dburi = None
     newconfig.providers = {}
-    newconfig.targets = {}
     newconfig.labels = {}
     newconfig.elementsdir = config.get('elements-dir')
     newconfig.imagesdir = config.get('images-dir')
     newconfig.dburi = None
     newconfig.provider_managers = {}
-    newconfig.jenkins_managers = {}
     newconfig.zookeeper_servers = {}
     newconfig.diskimages = {}
     newconfig.crons = {}
@@ -277,19 +270,6 @@ def loadConfig(config_path):
             p.name = provider['name']
             l.providers[p.name] = p
 
-    for target in config.get('targets', []):
-        t = Target()
-        t.name = target['name']
-        newconfig.targets[t.name] = t
-        jenkins = target.get('jenkins', {})
-        t.online = True
-        t.rate = target.get('rate', 1.0)
-        t.jenkins_test_job = jenkins.get('test-job')
-        t.jenkins_url = None
-        t.jenkins_user = None
-        t.jenkins_apikey = None
-        t.jenkins_credentials_id = None
-
     return newconfig
 
 
@@ -299,19 +279,6 @@ def loadSecureConfig(config, secure_config_path):
 
     config.dburi = secure.get('database', 'dburi')
 
-    for target in config.targets.values():
-        section_name = 'jenkins "%s"' % target.name
-        if secure.has_section(section_name):
-            target.jenkins_url = secure.get(section_name, 'url')
-            target.jenkins_user = secure.get(section_name, 'user')
-            target.jenkins_apikey = secure.get(section_name, 'apikey')
-
-        try:
-            target.jenkins_credentials_id = secure.get(
-                section_name, 'credentials')
-        except:
-            pass
-
 
 def _cloudKwargsFromProvider(provider):
     cloud_kwargs = {}
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index c78ab2eb1..38737c93f 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -20,7 +20,6 @@ import threading
 import time
 import uuid
 
-from jenkins import JenkinsException
 import shade
 
 import exceptions
@@ -294,48 +293,3 @@ class FakeSSHClient(object):
 
     def open_sftp(self):
         return FakeSFTPClient()
-
-
-class FakeJenkins(object):
-    def __init__(self, user):
-        self._nodes = {}
-        self.quiet = False
-        self.down = False
-        if user == 'quiet':
-            self.quiet = True
-        if user == 'down':
-            self.down = True
-
-    def node_exists(self, name):
-        return name in self._nodes
-
-    def create_node(self, name, **kw):
-        self._nodes[name] = kw
-
-    def delete_node(self, name):
-        del self._nodes[name]
-
-    def get_info(self):
-        if self.down:
-            raise JenkinsException("Jenkins is down")
-        d = {u'assignedLabels': [{}],
-             u'description': None,
-             u'jobs': [{u'color': u'red',
-                        u'name': u'test-job',
-                        u'url': u'https://jenkins.example.com/job/test-job/'}],
-             u'mode': u'NORMAL',
-             u'nodeDescription': u'the master Jenkins node',
-             u'nodeName': u'',
-             u'numExecutors': 1,
-             u'overallLoad': {},
-             u'primaryView': {u'name': u'Overview',
-                              u'url': u'https://jenkins.example.com/'},
-             u'quietingDown': self.quiet,
-             u'slaveAgentPort': 8090,
-             u'unlabeledLoad': {},
-             u'useCrumbs': False,
-             u'useSecurity': True,
-             u'views': [
-                 {u'name': u'test-view',
-                  u'url': u'https://jenkins.example.com/view/test-view/'}]}
-        return d
diff --git a/nodepool/jenkins_manager.py b/nodepool/jenkins_manager.py
deleted file mode 100644
index 92f3e0e4b..000000000
--- a/nodepool/jenkins_manager.py
+++ /dev/null
@@ -1,137 +0,0 @@
-#!/usr/bin/env python
-
-# Copyright (C) 2011-2013 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-#
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import logging
-import re
-
-import myjenkins
-import fakeprovider
-from task_manager import Task, TaskManager
-
-
-class CreateNodeTask(Task):
-    def main(self, jenkins):
-        if 'credentials_id' in self.args:
-            launcher_params = {'port': 22,
-                               'credentialsId': self.args['credentials_id'],
-                               'host': self.args['host']}
-        else:
-            launcher_params = {'port': 22,
-                               'username': self.args['username'],
-                               'privatekey': self.args['private_key'],
-                               'host': self.args['host']}
-        args = dict(
-            name=self.args['name'],
-            numExecutors=self.args['executors'],
-            nodeDescription=self.args['description'],
-            remoteFS=self.args['root'],
-            exclusive=True,
-            launcher='hudson.plugins.sshslaves.SSHLauncher',
-            launcher_params=launcher_params)
-        if self.args['labels']:
-            args['labels'] = self.args['labels']
-        try:
-            jenkins.create_node(**args)
-        except myjenkins.JenkinsException as e:
-            if 'already exists' in str(e):
-                pass
-            else:
-                raise
-
-
-class NodeExistsTask(Task):
-    def main(self, jenkins):
-        return jenkins.node_exists(self.args['name'])
-
-
-class DeleteNodeTask(Task):
-    def main(self, jenkins):
-        return jenkins.delete_node(self.args['name'])
-
-
-class GetNodeConfigTask(Task):
-    def main(self, jenkins):
-        return jenkins.get_node_config(self.args['name'])
-
-
-class SetNodeConfigTask(Task):
-    def main(self, jenkins):
-        jenkins.reconfig_node(self.args['name'], self.args['config'])
-
-
-class StartBuildTask(Task):
-    def main(self, jenkins):
-        jenkins.build_job(self.args['name'],
-                          parameters=self.args['params'])
-
-
-class GetInfoTask(Task):
-    def main(self, jenkins):
-        return jenkins.get_info()
-
-
-class JenkinsManager(TaskManager):
-    log = logging.getLogger("nodepool.JenkinsManager")
-
-    def __init__(self, target):
-        super(JenkinsManager, self).__init__(None, target.name, target.rate)
-        self.target = target
-        self._client = self._getClient()
-
-    def _getClient(self):
-        if self.target.jenkins_apikey == 'fake':
-            return fakeprovider.FakeJenkins(self.target.jenkins_user)
-        return myjenkins.Jenkins(self.target.jenkins_url,
-                                 self.target.jenkins_user,
-                                 self.target.jenkins_apikey)
-
-    def createNode(self, name, host, description, executors, root, labels=[],
-                   credentials_id=None, username=None, private_key=None):
-        args = dict(name=name, host=host, description=description,
-                    labels=labels, executors=executors, root=root)
-        if credentials_id:
-            args['credentials_id'] = credentials_id
-        else:
-            args['username'] = username
-            args['private_key'] = private_key
-        return self.submitTask(CreateNodeTask(**args))
-
-    def nodeExists(self, name):
-        return self.submitTask(NodeExistsTask(name=name))
-
-    def deleteNode(self, name):
-        return self.submitTask(DeleteNodeTask(name=name))
-
-    LABEL_RE = re.compile(r'<label>(.*)</label>')
-
-    def relabelNode(self, name, labels):
-        config = self.submitTask(GetNodeConfigTask(name=name))
-        old = None
-        m = self.LABEL_RE.search(config)
-        if m:
-            old = m.group(1)
-        config = self.LABEL_RE.sub('<label>%s</label>' % ' '.join(labels),
-                                   config)
-        self.submitTask(SetNodeConfigTask(name=name, config=config))
-        return old
-
-    def startBuild(self, name, params):
-        self.submitTask(StartBuildTask(name=name, params=params))
-
-    def getInfo(self):
-        return self._client.get_info()
diff --git a/nodepool/myjenkins.py b/nodepool/myjenkins.py
deleted file mode 100644
index 5434614b8..000000000
--- a/nodepool/myjenkins.py
+++ /dev/null
@@ -1,136 +0,0 @@
-#!/usr/bin/env python
-# Copyright 2011-2013 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License"); you may
-# not use this file except in compliance with the License. You may obtain
-# a copy of the License at
-#
-#      http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
-# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
-# License for the specific language governing permissions and limitations
-# under the License.
-
-import jenkins
-import json
-
-import six.moves.urllib.parse as urlparse
-import six.moves.urllib.request as urlrequest
-
-from jenkins import JenkinsException, NODE_TYPE, CREATE_NODE
-
-TOGGLE_OFFLINE = '/computer/%(name)s/toggleOffline?offlineMessage=%(msg)s'
-CONFIG_NODE = '/computer/%(name)s/config.xml'
-
-
-class Jenkins(jenkins.Jenkins):
-    def disable_node(self, name, msg=''):
-        '''
-        Disable a node
-
-        @param name: Jenkins node name
-        @type  name: str
-        @param msg: Offline message
-        @type  msg: str
-        '''
-        info = self.get_node_info(name)
-        if info['offline']:
-            return
-        self.jenkins_open(
-            urlrequest.Request(self.server + TOGGLE_OFFLINE % locals()))
-
-    def enable_node(self, name):
-        '''
-        Enable a node
-
-        @param name: Jenkins node name
-        @type  name: str
-        '''
-        info = self.get_node_info(name)
-        if not info['offline']:
-            return
-        msg = ''
-        self.jenkins_open(
-            urlrequest.Request(self.server + TOGGLE_OFFLINE % locals()))
-
-    def get_node_config(self, name):
-        '''
-        Get the configuration for a node.
-
-        :param name: Jenkins node name, ``str``
-        '''
-        get_config_url = self.server + CONFIG_NODE % locals()
-        return self.jenkins_open(urlrequest.Request(get_config_url))
-
-    def reconfig_node(self, name, config_xml):
-        '''
-        Change the configuration for an existing node.
-
-        :param name: Jenkins node name, ``str``
-        :param config_xml: New XML configuration, ``str``
-        '''
-        headers = {'Content-Type': 'text/xml'}
-        reconfig_url = self.server + CONFIG_NODE % locals()
-        self.jenkins_open(
-            urlrequest.Request(reconfig_url, config_xml, headers))
-
-    def create_node(self, name, numExecutors=2, nodeDescription=None,
-                    remoteFS='/var/lib/jenkins', labels=None, exclusive=False,
-                    launcher='hudson.slaves.JNLPLauncher', launcher_params={}):
-        '''
-        @param name: name of node to create
-        @type  name: str
-        @param numExecutors: number of executors for node
-        @type  numExecutors: int
-        @param nodeDescription: Description of node
-        @type  nodeDescription: str
-        @param remoteFS: Remote filesystem location to use
-        @type  remoteFS: str
-        @param labels: Labels to associate with node
-        @type  labels: str
-        @param exclusive: Use this node for tied jobs only
-        @type  exclusive: boolean
-        @param launcher: The launch method for the slave
-        @type  launcher: str
-        @param launcher_params: Additional parameters for the launcher
-        @type  launcher_params: dict
-        '''
-        if self.node_exists(name):
-            raise JenkinsException('node[%s] already exists' % (name))
-
-        mode = 'NORMAL'
-        if exclusive:
-            mode = 'EXCLUSIVE'
-
-        #hudson.plugins.sshslaves.SSHLauncher
-        #hudson.slaves.CommandLauncher
-        #hudson.os.windows.ManagedWindowsServiceLauncher
-        launcher_params['stapler-class'] = launcher
-
-        inner_params = {
-            'name': name,
-            'nodeDescription': nodeDescription,
-            'numExecutors': numExecutors,
-            'remoteFS': remoteFS,
-            'labelString': labels,
-            'mode': mode,
-            'type': NODE_TYPE,
-            'retentionStrategy': {
-                'stapler-class': 'hudson.slaves.RetentionStrategy$Always'},
-            'nodeProperties': {'stapler-class-bag': 'true'},
-            'launcher': launcher_params
-        }
-
-        params = {
-            'name': name,
-            'type': NODE_TYPE,
-            'json': json.dumps(inner_params)
-        }
-
-        self.jenkins_open(urlrequest.Request(
-            self.server + CREATE_NODE % urlparse.urlencode(params)))
-
-        if not self.node_exists(name):
-            raise JenkinsException('create[%s] failed' % (name))
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 0da775bdf..6dc65e98d 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -65,9 +65,6 @@ providers:
         user-home: /home/jenkins
         private-key: /home/nodepool/.ssh/id_rsa
 
-targets:
-  - name: zuul
-
 diskimages:
   - name: trusty
     formats:
diff --git a/nodepool/tests/fixtures/config_validate/yaml_error.yaml b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
index c8996334e..0b108c12b 100644
--- a/nodepool/tests/fixtures/config_validate/yaml_error.yaml
+++ b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
@@ -60,9 +60,6 @@ providers:
         username: jenkins
         private-key: /home/nodepool/.ssh/id_rsa
 
-targets:
-  - name: zuul
-
 diskimages:
   - name: trusty
     elements:
diff --git a/nodepool/tests/fixtures/integration.yaml b/nodepool/tests/fixtures/integration.yaml
index 400695a8e..64883457a 100644
--- a/nodepool/tests/fixtures/integration.yaml
+++ b/nodepool/tests/fixtures/integration.yaml
@@ -35,12 +35,5 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-    jenkins:
-      url: https://jenkins.example.org/
-      user: fake
-      apikey: fake
-
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/integration_occ.yaml b/nodepool/tests/fixtures/integration_occ.yaml
index ac0c955f6..d73abf51e 100644
--- a/nodepool/tests/fixtures/integration_occ.yaml
+++ b/nodepool/tests/fixtures/integration_occ.yaml
@@ -31,8 +31,5 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/leaked_node.yaml b/nodepool/tests/fixtures/leaked_node.yaml
index d54ae71d0..9a39b048f 100644
--- a/nodepool/tests/fixtures/leaked_node.yaml
+++ b/nodepool/tests/fixtures/leaked_node.yaml
@@ -38,9 +38,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 3406c61e8..607ec3ab9 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -40,9 +40,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index cf1dd2cb4..badd7da32 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -40,9 +40,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index bffba1c39..f22747445 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -59,9 +59,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image1
   - name: fake-image2
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 646ed14b9..82512f45a 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -38,9 +38,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index 08c956198..597f767dc 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -38,9 +38,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_diskimage_only.yaml b/nodepool/tests/fixtures/node_diskimage_only.yaml
index 63a0e91ec..0484b4fda 100644
--- a/nodepool/tests/fixtures/node_diskimage_only.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_only.yaml
@@ -14,8 +14,6 @@ labels: []
 
 providers: []
 
-targets: []
-
 diskimages:
   - name: fake-image
     formats:
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index 87dbd5735..fa55ba1a2 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -45,9 +45,6 @@ providers:
       - name: fake-image2
         min-ram: 8192
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     pause: True
diff --git a/nodepool/tests/fixtures/node_image_upload_pause.yaml b/nodepool/tests/fixtures/node_image_upload_pause.yaml
index e22481ff5..8b6d35d16 100644
--- a/nodepool/tests/fixtures/node_image_upload_pause.yaml
+++ b/nodepool/tests/fixtures/node_image_upload_pause.yaml
@@ -46,9 +46,6 @@ providers:
       - name: fake-image2
         min-ram: 8192
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index dc4ecd6ef..94c6fb780 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -92,9 +92,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_label_provider.yaml b/nodepool/tests/fixtures/node_label_provider.yaml
index e9c4c5ee8..a94e46b46 100644
--- a/nodepool/tests/fixtures/node_label_provider.yaml
+++ b/nodepool/tests/fixtures/node_label_provider.yaml
@@ -57,9 +57,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
index eee985ed2..56ea49bbf 100644
--- a/nodepool/tests/fixtures/node_launch_retry.yaml
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -39,9 +39,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index 61008c4d5..b00e3ebd5 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -40,9 +40,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota.yaml
index 01a41cd29..d984c061b 100644
--- a/nodepool/tests/fixtures/node_quota.yaml
+++ b/nodepool/tests/fixtures/node_quota.yaml
@@ -40,9 +40,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_two_image.yaml b/nodepool/tests/fixtures/node_two_image.yaml
index 82c6872d9..3c2ccb458 100644
--- a/nodepool/tests/fixtures/node_two_image.yaml
+++ b/nodepool/tests/fixtures/node_two_image.yaml
@@ -45,9 +45,6 @@ providers:
       - name: fake-image2
         min-ram: 8192
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_two_image_remove.yaml b/nodepool/tests/fixtures/node_two_image_remove.yaml
index 7e62d53c7..18dbf7cbc 100644
--- a/nodepool/tests/fixtures/node_two_image_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_image_remove.yaml
@@ -38,9 +38,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_two_provider.yaml b/nodepool/tests/fixtures/node_two_provider.yaml
index 8a7fbb135..b8a7a4d42 100644
--- a/nodepool/tests/fixtures/node_two_provider.yaml
+++ b/nodepool/tests/fixtures/node_two_provider.yaml
@@ -58,9 +58,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_two_provider_remove.yaml b/nodepool/tests/fixtures/node_two_provider_remove.yaml
index d48d8d550..f4d96cdd4 100644
--- a/nodepool/tests/fixtures/node_two_provider_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_provider_remove.yaml
@@ -51,9 +51,6 @@ providers:
     rate: 0.0001
     images: []
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index ba3d961e3..53e382b75 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -59,9 +59,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index 3676f3516..3a3c6f1b8 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -39,9 +39,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index a1e9a569f..58989321f 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -60,9 +60,6 @@ providers:
           key: value
           key2: value
 
-targets:
-  - name: fake-target
-
 diskimages:
   - name: fake-image
     elements:
diff --git a/nodepool/tests/fixtures/secure.conf b/nodepool/tests/fixtures/secure.conf
index fd6074da1..08f7d8909 100644
--- a/nodepool/tests/fixtures/secure.conf
+++ b/nodepool/tests/fixtures/secure.conf
@@ -1,8 +1,2 @@
 [database]
 dburi={dburi}
-
-[jenkins "fake-target"]
-user=fake
-apikey=fake
-credentials=fake
-url=http://fake-url
diff --git a/requirements.txt b/requirements.txt
index b6f254c00..a11843862 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,7 +1,6 @@
 pbr>=1.3
 
 PyYAML
-python-jenkins
 paramiko>1.11.6,<2.0.0
 python-daemon>=2.0.4,<2.1.0
 extras
diff --git a/tools/fake-dib.yaml b/tools/fake-dib.yaml
index bb02b7108..eb36c426e 100644
--- a/tools/fake-dib.yaml
+++ b/tools/fake-dib.yaml
@@ -36,6 +36,3 @@ providers:
       - name: fake-dib-image
         min-ram: 8192
         diskimage: fake-dib-image
-
-targets:
-  - name: fake-jenkins
diff --git a/tools/fake-secure.conf b/tools/fake-secure.conf
index 7f17831b4..d29d9c094 100644
--- a/tools/fake-secure.conf
+++ b/tools/fake-secure.conf
@@ -1,8 +1,2 @@
 [database]
 dburi=mysql+pymysql://nodepool@localhost/nodepool
-
-[jenkins "fake-target"]
-user=fake
-apikey=fake
-credentials=fake
-url=http://fake-url
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 94425ce63..0d9c874dd 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -46,6 +46,3 @@ providers:
         min-ram: 8192
         name-filter: 'Fake'
         diskimage: fake-nodepool
-
-targets:
-  - name: zuul

From d7df1eb47c77df21cf79599625642a6659eabe03 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Mar 2017 11:27:23 -0400
Subject: [PATCH 111/309] Remove test_*_cleanup_on_start tests

This functionality is no longer done by nodepool, but by the
nodepool builder.

Change-Id: I4fc12ca07d610c6b69b3be59ec42ac899bee4b63
---
 nodepool/tests/test_nodepool.py | 98 ---------------------------------
 1 file changed, 98 deletions(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index c427fa060..911aff393 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -441,104 +441,6 @@ class TestNodepool(tests.DBTestCase):
         servers = manager.listServers()
         self.assertEqual(len(servers), 1)
 
-    @skip("Disabled for early v3 development")
-    def test_building_image_cleanup_on_start(self):
-        """Test that a building image is deleted on start"""
-        configfile = self.setup_config('node.yaml')
-        pool = nodepool.nodepool.NodePool(self.secure_conf, configfile,
-                                          watermark_sleep=1)
-        try:
-            pool.start()
-            self.waitForImage(pool, 'fake-provider', 'fake-image')
-            self.waitForNodes(pool)
-        finally:
-            # Stop nodepool instance so that it can be restarted.
-            pool.stop()
-
-        with pool.getDB().getSession() as session:
-            images = session.getSnapshotImages()
-            self.assertEqual(len(images), 1)
-            self.assertEqual(images[0].state, nodedb.READY)
-            images[0].state = nodedb.BUILDING
-
-        # Start nodepool instance which should delete our old image.
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        pool.start()
-        # Ensure we have a config loaded for periodic cleanup.
-        while not pool.config:
-            time.sleep(0)
-        # Wait for startup to shift state to a state that periodic cleanup
-        # will act on.
-        while True:
-            with pool.getDB().getSession() as session:
-                if session.getSnapshotImages()[0].state != nodedb.BUILDING:
-                    break
-                time.sleep(0)
-        # Necessary to force cleanup to happen within the test timeframe
-        pool.periodicCleanup()
-        self.waitForImage(pool, 'fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            images = session.getSnapshotImages()
-            self.assertEqual(len(images), 1)
-            self.assertEqual(images[0].state, nodedb.READY)
-            # should be second image built.
-            self.assertEqual(images[0].id, 2)
-
-    @skip("Disabled for early v3 development")
-    def test_building_dib_image_cleanup_on_start(self):
-        """Test that a building dib image is deleted on start"""
-        configfile = self.setup_config('node.yaml')
-        pool = nodepool.nodepool.NodePool(self.secure_conf, configfile,
-                                          watermark_sleep=1)
-        self._useBuilder(configfile)
-        try:
-            pool.start()
-            self.waitForImage(pool, 'fake-provider', 'fake-image')
-            self.waitForNodes(pool)
-        finally:
-            # Stop nodepool instance so that it can be restarted.
-            pool.stop()
-
-        with pool.getDB().getSession() as session:
-            # We delete the snapshot image too to force a new dib image
-            # to be built so that a new image can be uploaded to replace
-            # the image that was in the snapshot table.
-            images = session.getSnapshotImages()
-            self.assertEqual(len(images), 1)
-            self.assertEqual(images[0].state, nodedb.READY)
-            images[0].state = nodedb.BUILDING
-            images = session.getDibImages()
-            self.assertEqual(len(images), 1)
-            self.assertEqual(images[0].state, nodedb.READY)
-            images[0].state = nodedb.BUILDING
-
-        # Start nodepool instance which should delete our old image.
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        pool.start()
-        # Ensure we have a config loaded for periodic cleanup.
-        while not pool.config:
-            time.sleep(0)
-        # Wait for startup to shift state to a state that periodic cleanup
-        # will act on.
-        while True:
-            with pool.getDB().getSession() as session:
-                if session.getDibImages()[0].state != nodedb.BUILDING:
-                    break
-                time.sleep(0)
-        # Necessary to force cleanup to happen within the test timeframe
-        pool.periodicCleanup()
-        self.waitForImage(pool, 'fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-
-        with pool.getDB().getSession() as session:
-            images = session.getDibImages()
-            self.assertEqual(len(images), 1)
-            self.assertEqual(images[0].state, nodedb.READY)
-            # should be second image built.
-            self.assertEqual(images[0].id, 2)
-
     def test_label_provider(self):
         """Test that only providers listed in the label satisfy the request"""
         configfile = self.setup_config('node_label_provider.yaml')

From dedd4d25c19e6b1e26a7f77fbadd9ce58a314ecf Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Mar 2017 12:17:35 -0400
Subject: [PATCH 112/309] Re-enable test_node_delete_failure

We now set the state of the node to DELETING before attempting
the delete.

Change-Id: Ia3f2bd5a0cd28da5e285e0852bba2d22e8586ba5
---
 nodepool/nodepool.py            | 11 +++++---
 nodepool/tests/test_nodepool.py | 46 ++++++++++-----------------------
 2 files changed, 21 insertions(+), 36 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index e9d8cc41b..6aedcfd81 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -171,12 +171,13 @@ class InstanceDeleter(threading.Thread, StatsReporter):
         self._node = node
 
     @staticmethod
-    def delete(zk, manager, node, node_exists=True):
+    def delete(zk_conn, manager, node, node_exists=True):
         '''
         Delete a server instance and ZooKeeper node.
 
         This is a class method so we can support instantaneous deletes.
 
+        :param ZooKeeper zk_conn: A ZooKeeper object to use.
         :param ProviderManager manager: ProviderManager object to use for
             deleting the server.
         :param Node node: A locked Node object that describes the server to
@@ -186,6 +187,8 @@ class InstanceDeleter(threading.Thread, StatsReporter):
             a leaked instance.
         '''
         try:
+            node.state = zk.DELETING
+            zk_conn.storeNode(node)
             manager.cleanupServer(node.external_id)
             manager.waitForServerDeletion(node.external_id)
         except provider_manager.NotFound:
@@ -197,15 +200,15 @@ class InstanceDeleter(threading.Thread, StatsReporter):
                 node.external_id, node.provider)
             # Don't delete the ZK node in this case, but do unlock it
             if node_exists:
-                zk.unlockNode(node)
+                zk_conn.unlockNode(node)
             return
 
         if node_exists:
             InstanceDeleter.log.info(
                 "Deleting ZK node id=%s, state=%s, external_id=%s",
                 node.id, node.state, node.external_id)
-            zk.unlockNode(node)
-            zk.deleteNode(node)
+            # This also effectively releases the lock
+            zk_conn.deleteNode(node)
 
     def run(self):
         # Since leaked instances won't have an actual node in ZooKeeper,
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 911aff393..16df1d72b 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -15,12 +15,9 @@
 
 import logging
 import time
-from unittest import skip
-
 import fixtures
 
 from nodepool import tests
-from nodepool import nodedb
 from nodepool import zk
 import nodepool.fakeprovider
 import nodepool.nodepool
@@ -361,12 +358,11 @@ class TestNodepool(tests.DBTestCase):
         # retries in config is set to 2, so 2 attempts to create a server
         self.assertEqual(0, manager.createServer_fails)
 
-    @skip("Disabled for early v3 development")
     def test_node_delete_failure(self):
         def fail_delete(self, name):
             raise RuntimeError('Fake Error')
 
-        fake_delete = 'nodepool.fakeprovider.FakeJenkins.delete_node'
+        fake_delete = 'nodepool.provider_manager.FakeProviderManager.deleteServer'
         self.useFixture(fixtures.MonkeyPatch(fake_delete, fail_delete))
 
         configfile = self.setup_config('node.yaml')
@@ -374,36 +370,22 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
-        self.waitForNodes(pool)
-        node_id = -1
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            node_id = nodes[0].id
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
 
-        pool.deleteNode(node_id)
-        self.wait_for_threads()
-        self.waitForNodes(pool)
+        self.zk.lockNode(nodes[0], blocking=False)
+        nodepool.nodepool.InstanceDeleter.delete(
+            self.zk, pool.getProviderManager('fake-provider'), nodes[0])
 
-        with pool.getDB().getSession() as session:
-            ready_nodes = session.getNodes(provider_name='fake-provider',
-                                           label_name='fake-label',
-                                           target_name='fake-target',
-                                           state=nodedb.READY)
-            deleted_nodes = session.getNodes(provider_name='fake-provider',
-                                             label_name='fake-label',
-                                             target_name='fake-target',
-                                             state=nodedb.DELETE)
-            # Make sure we have one node which is a new node
-            self.assertEqual(len(ready_nodes), 1)
-            self.assertNotEqual(node_id, ready_nodes[0].id)
+        # Make sure our old node is in delete state, even though delete failed
+        deleted_node = self.zk.getNode(nodes[0].id)
+        self.assertIsNotNone(deleted_node)
+        self.assertEqual(deleted_node.state, zk.DELETING)
 
-            # Make sure our old node is in delete state
-            self.assertEqual(len(deleted_nodes), 1)
-            self.assertEqual(node_id, deleted_nodes[0].id)
+        # Make sure we have a new, READY node
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
 
     def test_leaked_node(self):
         """Test that a leaked node is deleted"""

From 4bc703883e6a17c817c07dc803cb0fef7f54a814 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Mar 2017 10:05:21 -0400
Subject: [PATCH 113/309] Remove MySQL

Even though there is nothing to read from secure.conf anymore, it
is kept around intact since we may want to use this for ZooKeeper
credentials at some point.

Change-Id: Ieb3a93b09c889f74da3463494957335aaaa9f40f
---
 README.rst                                  |  29 ---
 bindep.txt                                  |   2 -
 devstack/plugin.sh                          |  18 +-
 doc/source/configuration.rst                |  19 +-
 doc/source/installation.rst                 |   3 +-
 nodepool/cmd/config_validator.py            |   1 -
 nodepool/config.py                          |   4 +-
 nodepool/nodedb.py                          | 247 --------------------
 nodepool/tests/__init__.py                  |  50 +---
 nodepool/tests/fixtures/secure.conf         |   3 +-
 requirements.txt                            |   1 -
 tools/fake-secure.conf                      |   3 +-
 tools/test-setup.sh                         |  33 ---
 tools/zuul-nodepool-integration/secure.conf |   3 +-
 14 files changed, 10 insertions(+), 406 deletions(-)
 delete mode 100644 nodepool/nodedb.py
 delete mode 100755 tools/test-setup.sh

diff --git a/README.rst b/README.rst
index 4a99ffbc3..b4d55639e 100644
--- a/README.rst
+++ b/README.rst
@@ -47,29 +47,6 @@ If the cloud being used has no default_floating_pool defined in nova.conf,
 you will need to define a pool name using the nodepool yaml file to use
 floating ips.
 
-
-Set up database for interactive testing:
-
-.. code-block:: bash
-
-    mysql -u root
-
-    mysql> create database nodepool;
-    mysql> GRANT ALL ON nodepool.* TO 'nodepool'@'localhost';
-    mysql> flush privileges;
-
-Set up database for unit tests:
-
-.. code-block:: bash
-
-    mysql -u root
-    mysql> grant all privileges on *.* to 'openstack_citest'@'localhost' identified by 'openstack_citest' with grant option;
-    mysql> flush privileges;
-    mysql> create database openstack_citest;
-
-Note that the script tools/test-setup.sh can be used for the step
-above.
-
 Export variable for your ssh key so you can log into the created instances:
 
 .. code-block:: bash
@@ -92,9 +69,3 @@ Use the following tool to check on progress:
 .. code-block:: bash
 
     nodepool image-list
-
-After each run (the fake nova provider is only in-memory):
-
-.. code-block:: bash
-
-    mysql> delete from snapshot_image; delete from node;
diff --git a/bindep.txt b/bindep.txt
index 426c5db61..81d5723a5 100644
--- a/bindep.txt
+++ b/bindep.txt
@@ -1,8 +1,6 @@
 # This is a cross-platform list tracking distribution packages needed by tests;
 # see http://docs.openstack.org/infra/bindep/ for additional information.
 
-mysql-client [test]
-mysql-server [test]
 python-dev [platform:dpkg test]
 python-devel [platform:rpm test]
 zookeeperd [platform:dpkg test]
diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 7149208e0..0f68b1be0 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -101,7 +101,6 @@ EOF
 function nodepool_write_config {
     sudo mkdir -p $(dirname $NODEPOOL_CONFIG)
     sudo mkdir -p $(dirname $NODEPOOL_SECURE)
-    local dburi=$(database_connection_url nodepool)
 
     cat > /tmp/logging.conf <<EOF
 [formatters]
@@ -149,12 +148,7 @@ EOF
     sudo mv /tmp/logging.conf $NODEPOOL_LOGGING
 
     cat > /tmp/secure.conf << EOF
-[database]
-# The mysql password here may be different depending on your
-# devstack install, you should double check it (the devstack var
-# is MYSQL_PASSWORD and if unset devstack should prompt you for
-# the value).
-dburi: $dburi
+# Empty
 EOF
     sudo mv /tmp/secure.conf $NODEPOOL_SECURE
 
@@ -174,11 +168,6 @@ EOF
 # example element.
 elements-dir: $(dirname $NODEPOOL_CONFIG)/elements
 images-dir: $NODEPOOL_DIB_BASE_PATH/images
-# The mysql password here may be different depending on your
-# devstack install, you should double check it (the devstack var
-# is MYSQL_PASSWORD and if unset devstack should prompt you for
-# the value).
-dburi: '$dburi'
 
 zookeeper-servers:
   - host: localhost
@@ -378,7 +367,6 @@ EOF
     mkdir -p $HOME/.cache/openstack/
 }
 
-# Initialize database
 # Create configs
 # Setup custom flavor
 function configure_nodepool {
@@ -390,10 +378,6 @@ function configure_nodepool {
 
     # write the elements
     nodepool_write_elements
-
-    # builds a fresh db
-    recreate_database nodepool
-
 }
 
 function start_nodepool {
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index e41d4a80f..017d15751 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -4,23 +4,8 @@ Configuration
 =============
 
 Nodepool reads its secure configuration from ``/etc/nodepool/secure.conf``
-by default. The secure file is a standard ini config file, with
-one section for the database.
-
-  [database]
-  dburi={dburi}
-
-Following settings are available::
-
-**required**
-
-  ``dburi``
-  Indicates the URI for the database connection.  See the `SQLAlchemy
-  documentation
-  <http://docs.sqlalchemy.org/en/latest/core/engines.html#database-urls>`_
-  for the syntax.  Example::
-
-    dburi='mysql+pymysql://nodepool@localhost/nodepool'
+by default. The secure file is a standard ini config file. Note that this
+file is currently unused, but may be in the future.
 
 Nodepool reads its configuration from ``/etc/nodepool/nodepool.yaml``
 by default.  The configuration file follows the standard YAML syntax
diff --git a/doc/source/installation.rst b/doc/source/installation.rst
index fc9f25cfc..040c748d0 100644
--- a/doc/source/installation.rst
+++ b/doc/source/installation.rst
@@ -55,8 +55,7 @@ Configuration
 Nodepool has two required configuration files: secure.conf and
 nodepool.yaml, and an optional logging configuration file logging.conf.
 The secure.conf file is used to store nodepool configurations that contain
-sensitive data, such as the Nodepool database password and Jenkins
-api key. The nodepool.yaml files is used to store all other
+sensitive data. The nodepool.yaml files is used to store all other
 configurations.
 
 The logging configuration file is in the standard python logging
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index f8b463762..285ac7da2 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -105,7 +105,6 @@ class ConfigValidator:
         top_level = {
             'elements-dir': str,
             'images-dir': str,
-            'dburi': str,
             'zookeeper-servers': [{
                 'host': str,
                 'port': int,
diff --git a/nodepool/config.py b/nodepool/config.py
index aa77cc11e..ed5f1602b 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -131,12 +131,10 @@ def loadConfig(config_path):
 
     newconfig = Config()
     newconfig.db = None
-    newconfig.dburi = None
     newconfig.providers = {}
     newconfig.labels = {}
     newconfig.elementsdir = config.get('elements-dir')
     newconfig.imagesdir = config.get('images-dir')
-    newconfig.dburi = None
     newconfig.provider_managers = {}
     newconfig.zookeeper_servers = {}
     newconfig.diskimages = {}
@@ -277,7 +275,7 @@ def loadSecureConfig(config, secure_config_path):
     secure = ConfigParser.ConfigParser()
     secure.readfp(open(secure_config_path))
 
-    config.dburi = secure.get('database', 'dburi')
+    #config.dburi = secure.get('database', 'dburi')
 
 
 def _cloudKwargsFromProvider(provider):
diff --git a/nodepool/nodedb.py b/nodepool/nodedb.py
deleted file mode 100644
index d7ae959b7..000000000
--- a/nodepool/nodedb.py
+++ /dev/null
@@ -1,247 +0,0 @@
-# Copyright (C) 2011-2014 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-#
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import time
-
-# States:
-# The cloud provider is building this machine.  We have an ID, but it's
-# not ready for use.
-BUILDING = 1
-# The machine is ready for use.
-READY = 2
-# This can mean in-use, or used but complete.
-USED = 3
-# Delete this machine immediately.
-DELETE = 4
-# Keep this machine indefinitely.
-HOLD = 5
-# Acceptance testing (pre-ready)
-TEST = 6
-
-
-STATE_NAMES = {
-    BUILDING: 'building',
-    READY: 'ready',
-    USED: 'used',
-    DELETE: 'delete',
-    HOLD: 'hold',
-    TEST: 'test',
-    }
-
-from sqlalchemy import Table, Column, Integer, String, \
-    MetaData, create_engine
-from sqlalchemy.orm import scoped_session, mapper
-from sqlalchemy.orm.session import Session, sessionmaker
-
-metadata = MetaData()
-
-node_table = Table(
-    'node', metadata,
-    Column('id', Integer, primary_key=True),
-    Column('provider_name', String(255), index=True, nullable=False),
-    Column('label_name', String(255), index=True, nullable=False),
-    Column('target_name', String(255), index=True, nullable=False),
-    Column('manager_name', String(255)),
-    # Machine name
-    Column('hostname', String(255), index=True),
-    # Eg, jenkins node name
-    Column('nodename', String(255), index=True),
-    # Provider assigned id for this machine
-    Column('external_id', String(255)),
-    # Provider availability zone for this machine
-    Column('az', String(255)),
-    # Primary IP address
-    Column('ip', String(255)),
-    # Internal/fixed IP address
-    Column('ip_private', String(255)),
-    # One of the above values
-    Column('state', Integer),
-    # Time of last state change
-    Column('state_time', Integer),
-    # Comment about the state of the node - used to annotate held nodes
-    Column('comment', String(255)),
-    mysql_engine='InnoDB',
-    )
-job_table = Table(
-    'job', metadata,
-    Column('id', Integer, primary_key=True),
-    # The name of the job
-    Column('name', String(255), index=True),
-    # Automatically hold up to this number of nodes that fail this job
-    Column('hold_on_failure', Integer),
-    mysql_engine='InnoDB',
-    )
-
-
-class Node(object):
-    def __init__(self, provider_name, label_name, target_name, az,
-                 hostname=None, external_id=None, ip=None, ip_private=None,
-                 manager_name=None, state=BUILDING, comment=None):
-        self.provider_name = provider_name
-        self.label_name = label_name
-        self.target_name = target_name
-        self.manager_name = manager_name
-        self.external_id = external_id
-        self.az = az
-        self.ip = ip
-        self.ip_private = ip_private
-        self.hostname = hostname
-        self.state = state
-        self.comment = comment
-
-    def delete(self):
-        session = Session.object_session(self)
-        session.delete(self)
-        session.commit()
-
-    @property
-    def state(self):
-        return self._state
-
-    @state.setter
-    def state(self, state):
-        self._state = state
-        self.state_time = int(time.time())
-        session = Session.object_session(self)
-        if session:
-            session.commit()
-
-
-class Job(object):
-    def __init__(self, name=None, hold_on_failure=0):
-        self.name = name
-        self.hold_on_failure = hold_on_failure
-
-    def delete(self):
-        session = Session.object_session(self)
-        session.delete(self)
-        session.commit()
-
-
-mapper(Job, job_table)
-
-
-mapper(Node, node_table,
-       properties=dict(
-           _state=node_table.c.state))
-
-
-class NodeDatabase(object):
-    def __init__(self, dburi):
-        engine_kwargs = dict(echo=False, pool_recycle=3600)
-        if 'sqlite:' not in dburi:
-            engine_kwargs['max_overflow'] = -1
-
-        self.engine = create_engine(dburi, **engine_kwargs)
-        metadata.create_all(self.engine)
-        self.session_factory = sessionmaker(bind=self.engine)
-        self.session = scoped_session(self.session_factory)
-
-    def getSession(self):
-        return NodeDatabaseSession(self.session)
-
-
-class NodeDatabaseSession(object):
-    def __init__(self, session):
-        self.session = session
-
-    def __enter__(self):
-        return self
-
-    def __exit__(self, etype, value, tb):
-        if etype:
-            self.session().rollback()
-        else:
-            self.session().commit()
-        self.session().close()
-        self.session = None
-
-    def abort(self):
-        self.session().rollback()
-
-    def commit(self):
-        self.session().commit()
-
-    def delete(self, obj):
-        self.session().delete(obj)
-
-    def getNodes(self, provider_name=None, label_name=None, target_name=None,
-                 state=None):
-        exp = self.session().query(Node).order_by(
-            node_table.c.provider_name,
-            node_table.c.label_name)
-        if provider_name:
-            exp = exp.filter_by(provider_name=provider_name)
-        if label_name:
-            exp = exp.filter_by(label_name=label_name)
-        if target_name:
-            exp = exp.filter_by(target_name=target_name)
-        if state:
-            exp = exp.filter(node_table.c.state == state)
-        return exp.all()
-
-    def createNode(self, *args, **kwargs):
-        new = Node(*args, **kwargs)
-        self.session().add(new)
-        self.commit()
-        return new
-
-    def getNode(self, id):
-        nodes = self.session().query(Node).filter_by(id=id).all()
-        if not nodes:
-            return None
-        return nodes[0]
-
-    def getNodeByHostname(self, hostname):
-        nodes = self.session().query(Node).filter_by(hostname=hostname).all()
-        if not nodes:
-            return None
-        return nodes[0]
-
-    def getNodeByNodename(self, nodename):
-        nodes = self.session().query(Node).filter_by(nodename=nodename).all()
-        if not nodes:
-            return None
-        return nodes[0]
-
-    def getNodeByExternalID(self, provider_name, external_id):
-        nodes = self.session().query(Node).filter_by(
-            provider_name=provider_name,
-            external_id=external_id).all()
-        if not nodes:
-            return None
-        return nodes[0]
-
-    def getJob(self, id):
-        jobs = self.session().query(Job).filter_by(id=id).all()
-        if not jobs:
-            return None
-        return jobs[0]
-
-    def getJobByName(self, name):
-        jobs = self.session().query(Job).filter_by(name=name).all()
-        if not jobs:
-            return None
-        return jobs[0]
-
-    def getJobs(self):
-        return self.session().query(Job).all()
-
-    def createJob(self, *args, **kwargs):
-        new = Job(*args, **kwargs)
-        self.session().add(new)
-        self.commit()
-        return new
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 8317c36d5..3d8cb6d2a 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -18,17 +18,14 @@
 import glob
 import logging
 import os
-import pymysql
 import random
 import string
 import subprocess
 import threading
 import tempfile
 import time
-import uuid
 
 import fixtures
-import lockfile
 import kazoo.client
 import testtools
 
@@ -230,47 +227,6 @@ class RoundRobinTestCase(object):
                                                          self.allocations))
 
 
-class MySQLSchemaFixture(fixtures.Fixture):
-    def setUp(self):
-        super(MySQLSchemaFixture, self).setUp()
-
-        random_bits = ''.join(random.choice(string.ascii_lowercase +
-                                            string.ascii_uppercase)
-                              for x in range(8))
-        self.name = '%s_%s' % (random_bits, os.getpid())
-        self.passwd = uuid.uuid4().hex
-        lock = lockfile.LockFile('/tmp/nodepool-db-schema-lockfile')
-        with lock:
-            db = pymysql.connect(host="localhost",
-                                 user="openstack_citest",
-                                 passwd="openstack_citest",
-                                 db="openstack_citest")
-            cur = db.cursor()
-            cur.execute("create database %s" % self.name)
-            cur.execute(
-                "grant all on %s.* to '%s'@'localhost' identified by '%s'" %
-                (self.name, self.name, self.passwd))
-            cur.execute("flush privileges")
-
-        self.dburi = 'mysql+pymysql://%s:%s@localhost/%s' % (self.name,
-                                                             self.passwd,
-                                                             self.name)
-        self.addDetail('dburi', testtools.content.text_content(self.dburi))
-        self.addCleanup(self.cleanup)
-
-    def cleanup(self):
-        lock = lockfile.LockFile('/tmp/nodepool-db-schema-lockfile')
-        with lock:
-            db = pymysql.connect(host="localhost",
-                                 user="openstack_citest",
-                                 passwd="openstack_citest",
-                                 db="openstack_citest")
-            cur = db.cursor()
-            cur.execute("drop database %s" % self.name)
-            cur.execute("drop user '%s'@'localhost'" % self.name)
-            cur.execute("flush privileges")
-
-
 class BuilderFixture(fixtures.Fixture):
     def __init__(self, configfile, cleanup_interval):
         super(BuilderFixture, self).__init__()
@@ -296,9 +252,6 @@ class DBTestCase(BaseTestCase):
     def setUp(self):
         super(DBTestCase, self).setUp()
         self.log = logging.getLogger("tests")
-        f = MySQLSchemaFixture()
-        self.useFixture(f)
-        self.dburi = f.dburi
         self.secure_conf = self._setup_secure()
         self.setupZK()
 
@@ -333,7 +286,8 @@ class DBTestCase(BaseTestCase):
         (fd, path) = tempfile.mkstemp()
         with open(configfile) as conf_fd:
             config = conf_fd.read()
-            os.write(fd, config.format(dburi=self.dburi))
+            os.write(fd, config)
+            #os.write(fd, config.format(dburi=self.dburi))
         os.close(fd)
         return path
 
diff --git a/nodepool/tests/fixtures/secure.conf b/nodepool/tests/fixtures/secure.conf
index 08f7d8909..b7db25411 100644
--- a/nodepool/tests/fixtures/secure.conf
+++ b/nodepool/tests/fixtures/secure.conf
@@ -1,2 +1 @@
-[database]
-dburi={dburi}
+# Empty
diff --git a/requirements.txt b/requirements.txt
index a11843862..53ebc2e75 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -6,7 +6,6 @@ python-daemon>=2.0.4,<2.1.0
 extras
 statsd>=3.0
 sqlalchemy>=0.8.2,<1.1.0
-PyMySQL
 PrettyTable>=0.6,<0.8
 # shade has a looser requirement on six than nodepool, so install six first
 six>=1.7.0
diff --git a/tools/fake-secure.conf b/tools/fake-secure.conf
index d29d9c094..b7db25411 100644
--- a/tools/fake-secure.conf
+++ b/tools/fake-secure.conf
@@ -1,2 +1 @@
-[database]
-dburi=mysql+pymysql://nodepool@localhost/nodepool
+# Empty
diff --git a/tools/test-setup.sh b/tools/test-setup.sh
deleted file mode 100755
index f4a045869..000000000
--- a/tools/test-setup.sh
+++ /dev/null
@@ -1,33 +0,0 @@
-#!/bin/bash -xe
-
-# This script will be run by OpenStack CI before unit tests are run,
-# it sets up the test system as needed.
-# Developers should setup their test systems in a similar way.
-
-# This setup needs to be run as a user that can run sudo.
-
-# The root password for the MySQL database; pass it in via
-# MYSQL_ROOT_PW.
-DB_ROOT_PW=${MYSQL_ROOT_PW:-insecure_slave}
-
-# This user and its password are used by the tests, if you change it,
-# your tests might fail.
-DB_USER=openstack_citest
-DB_PW=openstack_citest
-
-sudo -H mysqladmin -u root password $DB_ROOT_PW
-
-# It's best practice to remove anonymous users from the database.  If
-# a anonymous user exists, then it matches first for connections and
-# other connections from that host will not work.
-sudo -H mysql -u root -p$DB_ROOT_PW -h localhost -e "
-    DELETE FROM mysql.user WHERE User='';
-    FLUSH PRIVILEGES;
-    GRANT ALL PRIVILEGES ON *.*
-        TO '$DB_USER'@'%' identified by '$DB_PW' WITH GRANT OPTION;"
-
-# Now create our database.
-mysql -u $DB_USER -p$DB_PW -h 127.0.0.1 -e "
-    SET default_storage_engine=MYISAM;
-    DROP DATABASE IF EXISTS openstack_citest;
-    CREATE DATABASE openstack_citest CHARACTER SET utf8;"
diff --git a/tools/zuul-nodepool-integration/secure.conf b/tools/zuul-nodepool-integration/secure.conf
index d29d9c094..b7db25411 100644
--- a/tools/zuul-nodepool-integration/secure.conf
+++ b/tools/zuul-nodepool-integration/secure.conf
@@ -1,2 +1 @@
-[database]
-dburi=mysql+pymysql://nodepool@localhost/nodepool
+# Empty

From 88042886bedab048390cb2ee060b22a6f64ac78d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Mar 2017 15:02:44 -0400
Subject: [PATCH 114/309] Record SSH public keys for new nodes in ZK

Change-Id: I3ad63196d584d8dc93a8bcdd9b211f8f6a65bf2f
Story: 2000897
---
 nodepool/nodepool.py            | 12 ++++++++++++
 nodepool/nodeutils.py           | 32 ++++++++++++++++++++++++++++++++
 nodepool/tests/test_nodepool.py |  1 +
 nodepool/tests/test_zk.py       |  4 ++++
 nodepool/zk.py                  |  6 +++++-
 5 files changed, 54 insertions(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 6aedcfd81..b518445bf 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -69,6 +69,10 @@ class LaunchAuthException(Exception):
     statsd_key = 'error.auth'
 
 
+class LaunchKeyscanException(Exception):
+    statsd_key = 'error.keyscan'
+
+
 class StatsReporter(object):
     '''
     Class adding statsd reporting functionality.
@@ -356,6 +360,14 @@ class NodeLauncher(threading.Thread, StatsReporter):
         if not host:
             raise LaunchAuthException("Unable to connect via ssh")
 
+        # Get the SSH public keys for the new node and record in ZooKeeper
+        self.log.debug("Gathering host keys for node %s", self._node.id)
+        host_keys = utils.keyscan(preferred_ip)
+        if not host_keys:
+            raise LaunchKeyscanException("Unable to gather host keys")
+        self._node.host_keys = host_keys
+        self._zk.storeNode(self._node)
+
         self._writeNodepoolInfo(host, preferred_ip, self._node)
         if self._label.ready_script:
             self._runReadyScript(host, hostname, self._label.ready_script)
diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index 13a8384b5..ba2c6c348 100644
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -16,6 +16,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import base64
 import errno
 import time
 import socket
@@ -73,3 +74,34 @@ def ssh_connect(ip, username, connect_kwargs={}, timeout=60):
     if "access okay" in out:
         return client
     return None
+
+
+def keyscan(ip):
+    '''
+    Scan the IP address for public SSH keys.
+
+    Keys are returned formatted as: "<type> <base64_string>"
+    '''
+    if 'fake' in ip:
+        return ['ssh-rsa FAKEKEY']
+
+    keys = []
+
+    key = None
+    try:
+        t = paramiko.transport.Transport('%s:%s' % (ip, "22"))
+        t.start_client()
+        key = t.get_remote_server_key()
+        t.close()
+    except Exception as e:
+        log.exception("ssh-keyscan failure: %s", e)
+
+    # Paramiko, at this time, seems to return only the ssh-rsa key, so
+    # only the single key is placed into the list.
+    if key:
+        keys.append(
+            "%s %s" % (key.get_name(),
+                       base64.encodestring(str(key)).replace('\n', ''))
+        )
+
+    return keys
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 16df1d72b..a75e41b98 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -202,6 +202,7 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(len(nodes), 1)
         self.assertEqual(nodes[0].provider, 'fake-provider')
         self.assertEqual(nodes[0].type, 'fake-label')
+        self.assertNotEqual(nodes[0].host_keys, [])
 
     def test_disabled_label(self):
         """Test that a node is not created with min-ready=0"""
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 6168057c1..77fd0d822 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -772,6 +772,7 @@ class TestZKModel(tests.BaseTestCase):
         o.external_id = 'ABCD'
         o.hostname = 'xyz'
         o.comment = 'comment'
+        o.host_keys = ['key1', 'key2']
 
         d = o.toDict()
         self.assertNotIn('id', d)
@@ -790,6 +791,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(d['external_id'], o.external_id)
         self.assertEqual(d['hostname'], o.hostname)
         self.assertEqual(d['comment'], o.comment)
+        self.assertEqual(d['host_keys'], o.host_keys)
 
     def test_Node_fromDict(self):
         now = int(time.time())
@@ -810,6 +812,7 @@ class TestZKModel(tests.BaseTestCase):
             'external_id': 'ABCD',
             'hostname': 'xyz',
             'comment': 'comment',
+            'host_keys': ['key1', 'key2'],
         }
 
         o = zk.Node.fromDict(d, node_id)
@@ -829,3 +832,4 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.external_id, d['external_id'])
         self.assertEqual(o.hostname , d['hostname'])
         self.assertEqual(o.comment , d['comment'])
+        self.assertEqual(o.host_keys , d['host_keys'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 98e07f913..acb2326fe 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -416,6 +416,7 @@ class Node(BaseModel):
         self.external_id = None
         self.hostname = None
         self.comment = None
+        self.host_keys = []
 
     def __repr__(self):
         d = self.toDict()
@@ -440,7 +441,8 @@ class Node(BaseModel):
                     self.created_time == other.created_time and
                     self.external_id == other.external_id and
                     self.hostname == other.hostname and
-                    self.comment == other.comment)
+                    self.comment == other.comment,
+                    self.host_keys == other.host_keys)
         else:
             return False
 
@@ -462,6 +464,7 @@ class Node(BaseModel):
         d['external_id'] = self.external_id
         d['hostname'] = self.hostname
         d['comment'] = self.comment
+        d['host_keys'] = self.host_keys
         return d
 
     @staticmethod
@@ -489,6 +492,7 @@ class Node(BaseModel):
         o.external_id = d.get('external_id')
         o.hostname = d.get('hostname')
         o.comment = d.get('comment')
+        o.host_keys = d.get('host_keys', [])
         return o
 
 

From 768326400d9c270235cf009e467bc4d58f11fbb4 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Tue, 14 Mar 2017 10:42:58 +1100
Subject: [PATCH 115/309] Remove the --no-delete option from nodepool

The no-delete option is no longer connected to anything. It is confusing
for people coming from v2 as to what it does. Remove it.

Change-Id: Ie8307a91b4befd302d1dc4f010d0129236088000
---
 nodepool/cmd/nodepoold.py | 4 +---
 nodepool/nodepool.py      | 3 +--
 2 files changed, 2 insertions(+), 5 deletions(-)

diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/nodepoold.py
index 8e1337319..6a623b9ad 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/nodepoold.py
@@ -74,7 +74,6 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
         parser.add_argument('-p', dest='pidfile',
                             help='path to pid file',
                             default='/var/run/nodepool/nodepool.pid')
-        parser.add_argument('--no-deletes', action='store_true')
         parser.add_argument('--no-webapp', action='store_true')
         parser.add_argument('--version', dest='version', action='store_true',
                             help='show version')
@@ -92,8 +91,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
     def main(self):
         self.setup_logging()
         self.pool = nodepool.nodepool.NodePool(self.args.secure,
-                                               self.args.config,
-                                               self.args.no_deletes)
+                                               self.args.config)
         if not self.args.no_webapp:
             self.webapp = nodepool.webapp.WebApp(self.pool)
 
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 7c45025be..3b5439370 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1206,8 +1206,7 @@ class NodeCleanupWorker(threading.Thread):
 class NodePool(threading.Thread):
     log = logging.getLogger("nodepool.NodePool")
 
-    #TODO(Shrews): remove --no-deletes option
-    def __init__(self, securefile, configfile, no_deletes=False,
+    def __init__(self, securefile, configfile,
                  watermark_sleep=WATERMARK_SLEEP):
         threading.Thread.__init__(self, name='NodePool')
         self.securefile = securefile

From c4dcc2c8bcae5bed49fceba8d0013f8004e8280b Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Tue, 14 Mar 2017 16:18:14 +1100
Subject: [PATCH 116/309] Don't try and delete nodes with no external_id

When a node upload fails it ends up with a node in zookeeper with an
empty external_id. The cleanup thread then tries to delete the None ID
from OpenStack. If there is no external_id and the node is up for
deletion then skip the remote delete part and just remove the zookeeper
node.

Change-Id: If750f108011c04ab16d0316094b8d1133a083e9b
---
 nodepool/nodepool.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 7c45025be..9800a14f2 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -189,8 +189,9 @@ class InstanceDeleter(threading.Thread, StatsReporter):
         try:
             node.state = zk.DELETING
             zk_conn.storeNode(node)
-            manager.cleanupServer(node.external_id)
-            manager.waitForServerDeletion(node.external_id)
+            if node.external_id:
+                manager.cleanupServer(node.external_id)
+                manager.waitForServerDeletion(node.external_id)
         except provider_manager.NotFound:
             InstanceDeleter.log.info("Instance %s not found in provider %s",
                                      node.external_id, node.provider)

From 691b4c95a73e11d18651afa8e49daa3f807f1d14 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 14 Mar 2017 12:08:12 -0400
Subject: [PATCH 117/309] Fix race on node state check in node cleanup

Since node states are being cached, we need to double check the
state after getting a node lock to make sure the node really needs
to be deleted.

Change-Id: Iee348b0551456c46c77b34332be043f20ca5905a
---
 nodepool/nodepool.py | 16 +++++++++++-----
 1 file changed, 11 insertions(+), 5 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index c0a8f283b..326433299 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1110,8 +1110,8 @@ class NodeCleanupWorker(threading.Thread):
 
         :param Node node: A Node object representing the instance to delete.
         '''
-        self.log.info("Deleting instance %s from %s",
-                      node.external_id, node.provider)
+        self.log.info("Deleting %s instance %s from %s",
+                      node.state, node.external_id, node.provider)
         try:
             t = InstanceDeleter(
                 self._nodepool.getZK(),
@@ -1126,7 +1126,8 @@ class NodeCleanupWorker(threading.Thread):
         '''
         Delete instances from providers and nodes entries from ZooKeeper.
         '''
-        # TODO(Shrews): Cleanup alien instances
+        cleanup_states = (zk.USED, zk.IN_USE, zk.BUILDING, zk.FAILED,
+                          zk.DELETING)
 
         zk_conn = self._nodepool.getZK()
         for node in zk_conn.nodeIterator():
@@ -1135,13 +1136,18 @@ class NodeCleanupWorker(threading.Thread):
                 continue
 
             # Any nodes in these states that are unlocked can be deleted.
-            if node.state in (zk.USED, zk.IN_USE, zk.BUILDING, zk.FAILED,
-                              zk.DELETING):
+            if node.state in cleanup_states:
                 try:
                     zk_conn.lockNode(node, blocking=False)
                 except exceptions.ZKLockException:
                     continue
 
+                # Double check the state now that we have a lock since it
+                # may have changed on us.
+                if node.state not in cleanup_states:
+                    zk_conn.unlockNode(node)
+                    continue
+
                 # The InstanceDeleter thread will unlock and remove the
                 # node from ZooKeeper if it succeeds.
                 self._deleteInstance(node)

From 1fdb050207a63d38f9fa5db1f8224aec5b7ecf53 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 14 Mar 2017 10:18:34 -0400
Subject: [PATCH 118/309] Fix min-ready/max-servers in test configs

We should never have providers in our test configs that have a
max-servers value that is LESS than the min-ready. This could
potentially cause our tests to hang (and thus fail) if such a
provider were to try and satisfy all of the min-ready requests
because that provider will pause waiting for nodes to free up.

Change-Id: I6a30cacbe97130958c2d22ff56e760549fcc6bc1
---
 nodepool/tests/fixtures/node_upload_fail.yaml   | 2 +-
 nodepool/tests/fixtures/node_vhd_and_qcow2.yaml | 4 ++--
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index 53e382b75..3c2a3f86b 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -26,7 +26,7 @@ providers:
     password: 'fake'
     auth-url: 'fake'
     project-id: 'fake'
-    max-servers: 1
+    max-servers: 2
     pool: 'fake'
     networks:
       - net-id: 'some-uuid'
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index 58989321f..5198a3d45 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -26,7 +26,7 @@ providers:
     password: 'fake'
     auth-url: 'fake'
     project-id: 'fake'
-    max-servers: 1
+    max-servers: 2
     pool: 'fake'
     image-type: vhd
     networks:
@@ -46,7 +46,7 @@ providers:
     password: 'fake'
     auth-url: 'fake'
     project-id: 'fake'
-    max-servers: 1
+    max-servers: 2
     pool: 'fake'
     image-type: qcow2
     networks:

From 6595344a4871d549d7053f0b4a9f6e6066a38e8e Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Mar 2017 16:35:28 -0400
Subject: [PATCH 119/309] Add request-list nodepool command

Command to list all node requests in ZooKeeper.

Change-Id: I2437aa69b3aacf8a0c71466af55aab539271789c
---
 nodepool/cmd/nodepoolcmd.py     | 11 ++++++++++-
 nodepool/status.py              | 11 +++++++++++
 nodepool/tests/test_commands.py | 17 +++++++++++++++++
 nodepool/tests/test_zk.py       | 10 ++++++++++
 nodepool/zk.py                  |  9 +++++++++
 5 files changed, 57 insertions(+), 1 deletion(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 197d03af3..608a9358a 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -125,6 +125,11 @@ class NodePoolCmd(NodepoolApp):
             help='Validate configuration file')
         cmd_config_validate.set_defaults(func=self.config_validate)
 
+        cmd_request_list = subparsers.add_parser(
+            'request-list',
+            help='list the current node requests')
+        cmd_request_list.set_defaults(func=self.request_list)
+
         self.args = parser.parse_args()
 
     def setup_logging(self):
@@ -306,6 +311,9 @@ class NodePoolCmd(NodepoolApp):
         log.info("Configuration validation complete")
         #TODO(asselin,yolanda): add validation of secure.conf
 
+    def request_list(self):
+        print status.request_list(self.zk)
+
     def _wait_for_threads(self, threads):
         for t in threads:
             if t:
@@ -325,7 +333,8 @@ class NodePoolCmd(NodepoolApp):
         if self.args.command in ('image-build', 'dib-image-list',
                                  'image-list', 'dib-image-delete',
                                  'image-delete', 'alien-image-list',
-                                 'alien-list', 'list', 'hold', 'delete'):
+                                 'alien-list', 'list', 'hold', 'delete',
+                                 'request-list'):
             self.zk = zk.ZooKeeper()
             self.zk.connect(config.zookeeper_servers.values())
 
diff --git a/nodepool/status.py b/nodepool/status.py
index 18846da9e..0ed5142b4 100644
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -111,3 +111,14 @@ def image_list(zk):
                                upload.state,
                                age(upload.state_time)])
     return str(t)
+
+def request_list(zk):
+    t = PrettyTable(["Request ID", "State", "Requestor", "Node Types", "Nodes",
+                     "Declined By"])
+    t.align = 'l'
+    for req in zk.nodeRequestIterator():
+        t.add_row([req.id, req.state, req.requestor,
+                   ','.join(req.node_types),
+                   ','.join(req.nodes),
+                   ','.join(req.declined_by)])
+    return str(t)
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 40a05bbda..325025fa0 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -266,3 +266,20 @@ class TestNodepoolCMD(tests.DBTestCase):
 
         self.waitForImage('fake-provider', 'fake-image', [image])
         self.assert_listed(configfile, ['dib-image-list'], 4, zk.READY, 2)
+
+    def test_request_list(self):
+        configfile = self.setup_config('node.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage( 'fake-provider', 'fake-image')
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+
+        req = zk.NodeRequest()
+        req.state = zk.PENDING   # so it will be ignored
+        req.node_types = ['fake-label']
+        req.requestor = 'test_request_list'
+        self.zk.storeNodeRequest(req)
+
+        self.assert_listed(configfile, ['request-list'], 0, req.id, 1)
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 77fd0d822..08e6cdfa4 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -613,6 +613,16 @@ class TestZooKeeper(tests.DBTestCase):
         self.zk.unlockNodeRequest(req)
         self.zk.deleteNodeRequest(req)
 
+    def test_nodeRequestIterator(self):
+        req = self._create_node_request()
+        self.zk.lockNodeRequest(req, blocking=False)
+        i = self.zk.nodeRequestIterator()
+        self.assertEqual(req, i.next())
+        with testtools.ExpectedException(StopIteration):
+            i.next()
+        self.zk.unlockNodeRequest(req)
+        self.zk.deleteNodeRequest(req)
+
     def test_deleteNodeRequestLock(self):
         req = self._create_node_request()
         self.zk.lockNodeRequest(req, blocking=False)
diff --git a/nodepool/zk.py b/nodepool/zk.py
index acb2326fe..fae26b4c7 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1577,3 +1577,12 @@ class ZooKeeper(object):
             lock = self.getNodeRequestLock(lock_id)
             if lock:
                 yield lock
+
+    def nodeRequestIterator(self):
+        '''
+        Utility generator method for iterating through all nodes requests.
+        '''
+        for req_id in self.getNodeRequests():
+            req = self.getNodeRequest(req_id)
+            if req:
+                yield req

From 44c55a52cfadeef276138ddd521a9cb39361dc2f Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 13 Mar 2017 16:44:51 -0400
Subject: [PATCH 120/309] Remove AllocatorTestCase and RoundRobinTestCase

This is dead code.

Change-Id: I3cf6d859e867dbf8c448b4ea4afe4948555a1cef
---
 nodepool/tests/__init__.py | 29 -----------------------------
 1 file changed, 29 deletions(-)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 3d8cb6d2a..ee4b2bd67 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -198,35 +198,6 @@ class BaseTestCase(testtools.TestCase):
             time.sleep(0.1)
 
 
-class AllocatorTestCase(object):
-    def setUp(self):
-        super(AllocatorTestCase, self).setUp()
-        self.agt = []
-
-    def test_allocator(self):
-        for i, amount in enumerate(self.results):
-            print self.agt[i]
-        for i, amount in enumerate(self.results):
-            self.assertEqual(self.agt[i].amount, amount,
-                             'Error at pos %d, '
-                             'expected %s and got %s' % (i, self.results,
-                                                         [x.amount
-                                                          for x in self.agt]))
-
-
-class RoundRobinTestCase(object):
-    def setUp(self):
-        super(RoundRobinTestCase, self).setUp()
-        self.allocations = []
-
-    def test_allocator(self):
-        for i, label in enumerate(self.results):
-            self.assertEqual(self.results[i], self.allocations[i],
-                             'Error at pos %d, '
-                             'expected %s and got %s' % (i, self.results,
-                                                         self.allocations))
-
-
 class BuilderFixture(fixtures.Fixture):
     def __init__(self, configfile, cleanup_interval):
         super(BuilderFixture, self).__init__()

From 89de79e730c5a45991846a0b8bcb3a75bc890698 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 14 Mar 2017 12:34:56 -0400
Subject: [PATCH 121/309] Remove ready-script support

It no longer makes sense to have nodepool execute 'ready-scripts' on a
remote node. With zuulv3, we have ansible and are able to convert our
ready-scripts into ansible-playbooks.

Change-Id: I07b63a16a668bb9a37fb3f763ac29f307f6c3a65
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 doc/source/configuration.rst                         |  6 ------
 nodepool/cmd/config_validator.py                     |  1 -
 nodepool/config.py                                   |  1 -
 nodepool/nodepool.py                                 | 12 ------------
 nodepool/tests/fixtures/config_validate/good.yaml    |  2 --
 .../tests/fixtures/config_validate/yaml_error.yaml   |  2 --
 tools/fake.yaml                                      |  1 -
 7 files changed, 25 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 017d15751..d5647325a 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -98,7 +98,6 @@ label. Example::
     - name: multi-precise
       image: precise
       min-ready: 2
-      ready-script: setup_multinode.sh
       providers:
         - name: provider1
 
@@ -121,11 +120,6 @@ label. Example::
     label considered disabled. ``min-ready`` is best-effort based on available
     capacity and is not a guaranteed allocation.
 
-  ``ready-script``
-    A script to be used to perform any last minute changes to a node after it
-    has been launched but before it is put in the READY state to receive jobs.
-    For more information, see :ref:`scripts`.
-
 .. _diskimages:
 
 diskimages
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 285ac7da2..8b39a725d 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -86,7 +86,6 @@ class ConfigValidator:
             'name': str,
             'image': str,
             'min-ready': int,
-            'ready-script': str,
             'providers': [{
                 'name': str,
             }],
diff --git a/nodepool/config.py b/nodepool/config.py
index ed5f1602b..49c1c6f09 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -261,7 +261,6 @@ def loadConfig(config_path):
         newconfig.labels[l.name] = l
         l.image = label['image']
         l.min_ready = label.get('min-ready', 2)
-        l.ready_script = label.get('ready-script')
         l.providers = {}
         for provider in label['providers']:
             p = LabelProvider()
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 326433299..9d6bfc90a 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -369,8 +369,6 @@ class NodeLauncher(threading.Thread, StatsReporter):
         self._zk.storeNode(self._node)
 
         self._writeNodepoolInfo(host, preferred_ip, self._node)
-        if self._label.ready_script:
-            self._runReadyScript(host, hostname, self._label.ready_script)
 
     def _writeNodepoolInfo(self, host, preferred_ip, node):
         key = paramiko.RSAKey.generate(2048)
@@ -409,16 +407,6 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         ftp.close()
 
-    def _runReadyScript(self, host, hostname, script):
-        env_vars = ''
-        for k, v in os.environ.items():
-            if k.startswith('NODEPOOL_'):
-                env_vars += ' %s="%s"' % (k, v)
-        host.ssh("run ready script",
-                 "cd /opt/nodepool-scripts && %s ./%s %s" %
-                 (env_vars, script, hostname),
-                 output=True)
-
     def _run(self):
         attempts = 1
         while attempts <= self._retries:
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 6dc65e98d..9680f1da5 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -13,14 +13,12 @@ zookeeper-servers:
 labels:
   - name: trusty
     image: trusty
-    ready-script: configure_mirror.sh
     min-ready: 1
     providers:
       - name: cloud1
       - name: cloud2
   - name: trusty-2-node
     image: trusty
-    ready-script: multinode_setup.sh
     min-ready: 0
     providers:
       - name: cloud1
diff --git a/nodepool/tests/fixtures/config_validate/yaml_error.yaml b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
index 0b108c12b..ee49839db 100644
--- a/nodepool/tests/fixtures/config_validate/yaml_error.yaml
+++ b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
@@ -13,14 +13,12 @@ zookeeper-servers:
 labels:
   - name: trusty
     image: trusty
-    ready-script: configure_mirror.sh
     min-ready: 1
     providers:
       - name: cloud1
       - name: cloud2
   - name: trusty-2-node
     image: trusty
-    ready-script: multinode_setup.sh
     min-ready: 0
     providers:
       - name: cloud1
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 0d9c874dd..b93c53eb5 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -27,7 +27,6 @@ labels:
       - name: fake-provider
   - name: multi-fake
     image: fake-nodepool
-    ready-script: multinode_setup.sh
     min-ready: 2
     providers:
       - name: fake-provider

From ad68eb827daddd50d45f7d32e6ef7c401160a60c Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 14 Mar 2017 12:40:44 -0400
Subject: [PATCH 122/309] Stop writing nodepool bash variable on nodes

Like the previous commit, we can move this process into zuulv3 and use
ansible.

Change-Id: I49f84c3e633a601f05977cc9dca5a5b37769ed2f
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 doc/source/index.rst   |  1 -
 doc/source/scripts.rst | 45 ------------------------------------------
 nodepool/nodepool.py   | 40 -------------------------------------
 3 files changed, 86 deletions(-)
 delete mode 100644 doc/source/scripts.rst

diff --git a/doc/source/index.rst b/doc/source/index.rst
index 9d87787a3..b6f9ee58b 100644
--- a/doc/source/index.rst
+++ b/doc/source/index.rst
@@ -13,7 +13,6 @@ Contents:
 
    installation
    configuration
-   scripts
    operation
    devguide
 
diff --git a/doc/source/scripts.rst b/doc/source/scripts.rst
deleted file mode 100644
index b9d389c68..000000000
--- a/doc/source/scripts.rst
+++ /dev/null
@@ -1,45 +0,0 @@
-.. _scripts:
-
-Node Ready Scripts
-==================
-
-Each label can specify a ready script with `ready-script`.  This script can be
-used to perform any last minute changes to a node after it has been launched
-but before it is put in the READY state to receive jobs.  In particular, it
-can read the files in /etc/nodepool to perform multi-node related setup.
-
-Those files include:
-
-**/etc/nodepool/role**
-  Either the string ``primary`` or ``sub`` indicating whether this
-  node is the primary (the node added to the target and which will run
-  the job), or a sub-node.
-**/etc/nodepool/node**
-  The IP address of this node.
-**/etc/nodepool/node_private**
-  The private IP address of this node.
-**/etc/nodepool/primary_node**
-  The IP address of the primary node, usable for external access.
-**/etc/nodepool/primary_node_private**
-  The Private IP address of the primary node, for internal communication.
-**/etc/nodepool/sub_nodes**
-  The IP addresses of the sub nodes, one on each line,
-  usable for external access.
-**/etc/nodepool/sub_nodes_private**
-  The Private IP addresses of the sub nodes, one on each line.
-**/etc/nodepool/id_rsa**
-  An OpenSSH private key generated specifically for this node group.
-**/etc/nodepool/id_rsa.pub**
-  The corresponding public key.
-**/etc/nodepool/provider**
-  Information about the provider in a shell-usable form.  This
-  includes the following information:
-
-  **NODEPOOL_PROVIDER**
-    The name of the provider
-  **NODEPOOL_CLOUD**
-    The name of the cloud
-  **NODEPOOL_REGION**
-    The name of the region
-  **NODEPOOL_AZ**
-    The name of the availability zone (if available)
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 9d6bfc90a..db8a0dd2b 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -19,7 +19,6 @@
 import logging
 import os
 import os.path
-import paramiko
 import pprint
 import random
 import socket
@@ -368,45 +367,6 @@ class NodeLauncher(threading.Thread, StatsReporter):
         self._node.host_keys = host_keys
         self._zk.storeNode(self._node)
 
-        self._writeNodepoolInfo(host, preferred_ip, self._node)
-
-    def _writeNodepoolInfo(self, host, preferred_ip, node):
-        key = paramiko.RSAKey.generate(2048)
-        public_key = key.get_name() + ' ' + key.get_base64()
-        host.ssh("test for config dir", "ls /etc/nodepool")
-
-        ftp = host.client.open_sftp()
-
-        # The IP of this node
-        f = ftp.open('/etc/nodepool/node', 'w')
-        f.write(preferred_ip + '\n')
-        f.close()
-        # The private IP of this node
-        f = ftp.open('/etc/nodepool/node_private', 'w')
-        f.write(node.private_ipv4 + '\n')
-        f.close()
-        # The SSH key for this node set
-        f = ftp.open('/etc/nodepool/id_rsa', 'w')
-        key.write_private_key(f)
-        f.close()
-        f = ftp.open('/etc/nodepool/id_rsa.pub', 'w')
-        f.write(public_key + '\n')
-        f.close()
-        # Provider information for this node set
-        f = ftp.open('/etc/nodepool/provider', 'w')
-        f.write('NODEPOOL_PROVIDER=%s\n' % self._provider.name)
-        f.write('NODEPOOL_CLOUD=%s\n' % self._provider.cloud_config.name)
-        f.write('NODEPOOL_REGION=%s\n' % (
-            self._provider.region_name or '',))
-        f.write('NODEPOOL_AZ=%s\n' % (node.az or '',))
-        f.close()
-        # The instance UUID for this node
-        f = ftp.open('/etc/nodepool/uuid', 'w')
-        f.write(node.external_id + '\n')
-        f.close()
-
-        ftp.close()
-
     def _run(self):
         attempts = 1
         while attempts <= self._retries:

From c4bcfd853811b81505cb841371e2bf8368263d3a Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 14 Mar 2017 15:41:12 -0400
Subject: [PATCH 123/309] Fix for unpaused request handlers

We've been seeing some random test failures where paused handlers
never unpause. I believe this may be the cause. When looping through
the request's node types, we never took into consideration nodes that
we've already put into our node set (if it had paused to wait for
nodes). This would cause the handler code to try to grab more nodes
than was required to satisfy the request. Since some of the tests
limit max-servers to a very low number, this could cause the test to
hang.

Change-Id: Ifb87563061de152ee2407b02845044ab06648a7c
---
 nodepool/nodepool.py | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 326433299..8793b4ba7 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -16,6 +16,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import collections
 import logging
 import os
 import os.path
@@ -677,9 +678,18 @@ class NodeRequestHandler(object):
                 self.zk, self.provider, self.labels, self.manager,
                 self.request.requestor, retries=self.provider.launch_retries)
 
-        ready_nodes = self.zk.getReadyNodesOfTypes(self.request.node_types)
+        # Since this code can be called more than once for the same request,
+        # we need to calculate the difference between our current node set
+        # and what was requested. We cannot use set operations here since a
+        # node type can appear more than once in the requested types.
+        saved_types = collections.Counter([n.type for n in self.nodeset])
+        requested_types = collections.Counter(self.request.node_types)
+        diff = requested_types - saved_types
+        needed_types = list(diff.elements())
 
-        for ntype in self.request.node_types:
+        ready_nodes = self.zk.getReadyNodesOfTypes(needed_types)
+
+        for ntype in needed_types:
             # First try to grab from the list of already available nodes.
             got_a_node = False
             if self.request.reuse and ntype in ready_nodes:

From f63cac138e046df3947a47038b46f5edeebbead4 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Wed, 15 Mar 2017 13:12:20 +1100
Subject: [PATCH 124/309] Remove remaining apscheduler variables

Remove the last unused apsched variable as it is not being used anymore.

Change-Id: I3155197de1b3e5763e05893de46eee7ed3043f93
---
 nodepool/nodepool.py       | 3 ---
 nodepool/tests/__init__.py | 4 +---
 2 files changed, 1 insertion(+), 6 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index b961c0534..9e1f554ee 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1243,7 +1243,6 @@ class NodePool(threading.Thread):
         self.cleanup_interval = 5
         self._stopped = False
         self.config = None
-        self.apsched = None
         self.zk = None
         self.statsd = stats.get_client()
         self._provider_threads = {}
@@ -1258,8 +1257,6 @@ class NodePool(threading.Thread):
         self._wake_condition.release()
         if self.config:
             provider_manager.ProviderManager.stopProviders(self.config)
-        if self.apsched and self.apsched.running:
-            self.apsched.shutdown()
 
         if self._cleanup_thread:
             self._cleanup_thread.stop()
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index ee4b2bd67..3070fce81 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -155,8 +155,7 @@ class BaseTestCase(testtools.TestCase):
             fakeprovider.fake_get_one_cloud))
 
     def wait_for_threads(self):
-        whitelist = ['APScheduler',
-                     'MainThread',
+        whitelist = ['MainThread',
                      'NodePool',
                      'NodePool Builder',
                      'NodeUpdateListener',
@@ -174,7 +173,6 @@ class BaseTestCase(testtools.TestCase):
             done = True
             for t in threading.enumerate():
                 if t.name.startswith("Thread-"):
-                    # apscheduler thread pool
                     continue
                 if t.name.startswith("worker "):
                     # paste web server

From bb8ac0bd890f6ea6e63a0c6f26b566587eee6127 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 15 Mar 2017 09:48:42 -0400
Subject: [PATCH 125/309] Remove noisy log line

This logging line is very noisy when instances without this attribute
exist in the provider. Since we don't really care about those instances,
don't bother logging this.

Change-Id: I6c4811b574e32356c755db5ecdda9e18113d6786
---
 nodepool/nodepool.py | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 9e1f554ee..fe1ae25f6 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1178,9 +1178,6 @@ class NodeCleanupWorker(threading.Thread):
                 meta = server.get('metadata', {})
 
                 if 'nodepool_provider_name' not in meta:
-                    self.log.debug(
-                        "Instance %s (%s) in %s has no nodepool_provider_name",
-                        server.name, server.id, provider.name)
                     continue
 
                 if meta['nodepool_provider_name'] != provider.name:

From 6e0a65ac4ad8062f892ac67ca1273676a62547b1 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 15 Mar 2017 09:55:39 -0400
Subject: [PATCH 126/309] Populate requestor for min-ready requests

It sometimes helps to be able to easily identify these requests.

Change-Id: I3c33c5bf7a984c95c954724443472bf9f354b474
---
 nodepool/nodepool.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index fe1ae25f6..6ca2272fc 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1377,6 +1377,7 @@ class NodePool(threading.Thread):
         def createRequest(label_name):
             req = zk.NodeRequest()
             req.state = zk.REQUESTED
+            req.requestor = "NodePool:min-ready"
             req.node_types.append(label_name)
             req.reuse = False    # force new node launches
             self.zk.storeNodeRequest(req)

From ba8f47b90179a6e092948901988c69a165f754d4 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 15 Mar 2017 07:51:24 -0700
Subject: [PATCH 127/309] Update wait_for_threads

We can remove several singleton threads from the wait_for_threads
whitelist since they no longer exist.  NodeCleanupWorker is a singleton
thread so can be removed from the pattern match section to the whitelist.

NodeLauncher-* threads are not a long-running, so we don't need to wait
for them.  In fact, that we were waiting on them was likely making the
tests racier than necessary, since the intent here is to wait for
Nodepool to stabilize as much as possible before proceeding to the next
phase of a test.

Change-Id: I760fc445404578671be7284532f222fb2cf4c991
---
 nodepool/tests/__init__.py | 13 ++++---------
 1 file changed, 4 insertions(+), 9 deletions(-)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 3070fce81..7315b8fa3 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -155,24 +155,23 @@ class BaseTestCase(testtools.TestCase):
             fakeprovider.fake_get_one_cloud))
 
     def wait_for_threads(self):
+        # Wait until all transient threads (node launches, deletions,
+        # etc.) are all complete.  Whitelist any long-running threads.
         whitelist = ['MainThread',
                      'NodePool',
                      'NodePool Builder',
-                     'NodeUpdateListener',
                      'fake-provider',
                      'fake-provider1',
                      'fake-provider2',
                      'fake-provider3',
-                     'fake-dib-provider',
-                     'fake-jenkins',
-                     'fake-target',
-                     'DiskImageBuilder queue',
+                     'NodeCleanupWorker',
                      ]
 
         while True:
             done = True
             for t in threading.enumerate():
                 if t.name.startswith("Thread-"):
+                    # Kazoo
                     continue
                 if t.name.startswith("worker "):
                     # paste web server
@@ -185,10 +184,6 @@ class BaseTestCase(testtools.TestCase):
                     continue
                 if t.name.startswith("ProviderWorker"):
                     continue
-                if t.name.startswith("NodeLauncher"):
-                    continue
-                if t.name.startswith("NodeCleanupWorker"):
-                    continue
                 if t.name not in whitelist:
                     done = False
             if done:

From 6fec0c71a01ccdd5263e77ccd6d92cd228aabf74 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 15 Mar 2017 14:04:22 -0400
Subject: [PATCH 128/309] Reset lost requests

Terminating nodepool-launcher could leave requests in the PENDING
state. We were never attempting to rehandle these, so they were
effectively lost. This adds code to reset them to REQUESTED and
allows them to be processed as new requests. Any nodes allocated
to them from the previous handling will be deallocated and will
effectively become available for any requests.

Change-Id: I977e3a695130e7d229fbd49292852ab7e2d75018
---
 nodepool/nodepool.py                          | 53 +++++++++++++++++++
 .../tests/fixtures/node_lost_requests.yaml    | 53 +++++++++++++++++++
 nodepool/tests/test_nodepool.py               | 34 ++++++++++++
 3 files changed, 140 insertions(+)
 create mode 100644 nodepool/tests/fixtures/node_lost_requests.yaml

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 6ca2272fc..57d71346f 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1090,6 +1090,58 @@ class NodeCleanupWorker(threading.Thread):
         self._interval = interval
         self._running = False
 
+    def _resetLostRequest(self, zk_conn, req):
+        '''
+        Reset the request state and unallocate nodes.
+
+        :param ZooKeeper zk_conn: A ZooKeeper connection object.
+        :param NodeRequest req: The lost NodeRequest object.
+        '''
+        # Double check the state after the lock
+        req = zk_conn.getNodeRequest(req.id)
+        if req.state != zk.PENDING:
+            return
+
+        for node in zk_conn.nodeIterator():
+            if node.allocated_to == req.id:
+                try:
+                    zk_conn.lockNode(node)
+                except exceptions.ZKLockException:
+                    self.log.warning(
+                        "Unable to unallocate node %s from request %s",
+                        node.id, req.id)
+                    return
+
+                node.allocated_to = None
+                zk_conn.storeNode(node)
+                zk_conn.unlockNode(node)
+                self.log.debug("Unallocated lost request node %s", node.id)
+
+        req.state = zk.REQUESTED
+        req.nodes = []
+        zk_conn.storeNodeRequest(req)
+        self.log.info("Reset lost request %s", req.id)
+
+    def _cleanupLostRequests(self):
+        '''
+        Look for lost requests and reset them.
+
+        A lost request is a node request that was left in the PENDING state
+        when nodepool exited. We need to look for these (they'll be unlocked)
+        and disassociate any nodes we've allocated to the request and reset
+        the request state to REQUESTED so it will be processed again.
+        '''
+        zk_conn = self._nodepool.getZK()
+        for req in zk_conn.nodeRequestIterator():
+            if req.state == zk.PENDING:
+                try:
+                    zk_conn.lockNodeRequest(req, blocking=False)
+                except exceptions.ZKLockException:
+                    continue
+
+                self._resetLostRequest(zk_conn, req)
+                zk_conn.unlockNodeRequest(req)
+
     def _cleanupNodeRequestLocks(self):
         '''
         Remove request locks where the request no longer exists.
@@ -1216,6 +1268,7 @@ class NodeCleanupWorker(threading.Thread):
                 self._cleanupNodeRequestLocks()
                 self._cleanupNodes()
                 self._cleanupLeakedInstances()
+                self._cleanupLostRequests()
             except Exception:
                 self.log.exception("Exception in NodeCleanupWorker:")
 
diff --git a/nodepool/tests/fixtures/node_lost_requests.yaml b/nodepool/tests/fixtures/node_lost_requests.yaml
new file mode 100644
index 000000000..476e474ef
--- /dev/null
+++ b/nodepool/tests/fixtures/node_lost_requests.yaml
@@ -0,0 +1,53 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+cron:
+  check: '*/15 * * * *'
+  cleanup: '*/1 * * * *'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    image: fake-image
+    min-ready: 0
+    providers:
+      - name: fake-provider
+
+providers:
+  - name: fake-provider
+    region-name: fake-region
+    availability-zones:
+      - az1
+    keypair: 'if-present-use-this-keypair'
+    username: 'fake'
+    password: 'fake'
+    auth-url: 'fake'
+    project-id: 'fake'
+    max-servers: 96
+    pool: 'fake'
+    networks:
+      - net-id: 'some-uuid'
+    rate: 0.0001
+    images:
+      - name: fake-image
+        min-ram: 8192
+        name-filter: 'Fake'
+        meta:
+          key: value
+          key2: value
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index a75e41b98..49ffdf4e5 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -435,3 +435,37 @@ class TestNodepool(tests.DBTestCase):
         nodes = self.waitForNodes('fake-label')
         self.assertEqual(len(nodes), 1)
         self.assertEqual(nodes[0].provider, 'fake-provider2')
+
+    def _create_pending_request(self):
+        req = zk.NodeRequest()
+        req.state = zk.PENDING
+        req.requestor = 'test_nodepool'
+        req.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req)
+
+        # Create a node that is allocated to the request, but not yet assigned
+        # within the NodeRequest object
+        node = zk.Node()
+        node.state = zk.READY
+        node.type = 'fake-label'
+        node.public_ipv4 = 'fake'
+        node.provider = 'fake-provider'
+        node.allocated_to = req.id
+        self.zk.storeNode(node)
+
+        return (req, node)
+
+    def test_lost_requests(self):
+        """Test a request left pending is reset and satisfied on restart"""
+        (req, node) = self._create_pending_request()
+
+        configfile = self.setup_config('node_lost_requests.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+
+        req = self.waitForNodeRequest(req, (zk.FULFILLED,))
+        # Since our config file has min-ready=0, we should be able to re-use
+        # the previously assigned node, thus making sure that the cleanup
+        # code reset the 'allocated_to' field.
+        self.assertIn(node.id, req.nodes)

From 4de321c0a579ec10553b3af7c8332fd50fe3e09f Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 15 Mar 2017 14:22:31 -0400
Subject: [PATCH 129/309] Deallocate ready nodes with no requests

Entirely possible we could end up in a situation where a node has been
allocated to a request (it's allocated_to attribute is set), but the
request has gone missing. This would leave the node as unavailable for
other requests. Add a cleanup phase that resets the allocation.

Change-Id: Ie0e1799c97f0d0e1b69d8d5d8551a831f1ca1bbc
---
 nodepool/nodepool.py            | 20 ++++++++++++++++++++
 nodepool/tests/test_nodepool.py | 20 ++++++++++++++++++++
 2 files changed, 40 insertions(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 57d71346f..3c5a73688 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1193,6 +1193,26 @@ class NodeCleanupWorker(threading.Thread):
 
         zk_conn = self._nodepool.getZK()
         for node in zk_conn.nodeIterator():
+            # If a ready node has been allocated to a request, but that
+            # request is now missing, deallocate it.
+            if (node.state == zk.READY and node.allocated_to
+                and not zk_conn.getNodeRequest(node.allocated_to)
+            ):
+                try:
+                    zk_conn.lockNode(node, blocking=False)
+                except exceptions.ZKLockException:
+                    pass
+                else:
+                    # Double check node conditions after lock
+                    if node.state == zk.READY and node.allocated_to:
+                        self.log.debug(
+                            "Unallocating node %s with missing request %s",
+                            node.id, node.allocated_to)
+                        node.allocated_to = None
+                        zk_conn.storeNode(node)
+
+                    zk_conn.unlockNode(node)
+
             # Can't do anything if we aren't configured for this provider.
             if node.provider not in self._nodepool.config.providers:
                 continue
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 49ffdf4e5..5b270bea7 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -469,3 +469,23 @@ class TestNodepool(tests.DBTestCase):
         # the previously assigned node, thus making sure that the cleanup
         # code reset the 'allocated_to' field.
         self.assertIn(node.id, req.nodes)
+
+    def test_node_deallocation(self):
+        """Test an allocated node with a missing request is deallocated"""
+        node = zk.Node()
+        node.state = zk.READY
+        node.type = 'fake-label'
+        node.public_ipv4 = 'fake'
+        node.provider = 'fake-provider'
+        node.allocated_to = "MISSING"
+        self.zk.storeNode(node)
+
+        configfile = self.setup_config('node_lost_requests.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+
+        while True:
+            node = self.zk.getNode(node.id)
+            if not node.allocated_to:
+                break

From 61e01cd2917e74613da739fd5d92a7fa41571a02 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 16 Mar 2017 13:19:27 -0400
Subject: [PATCH 130/309] Unpause when we grab a pre-ready node

We were only unpausing the paused handler if we created a new
node. We should also unpause when we grab an existing ready node.

Change-Id: Ida416a0cf50572b3f9510d74e52efef958c3af5b
---
 nodepool/nodepool.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 9b9b796cc..9da04bc04 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -655,6 +655,10 @@ class NodeRequestHandler(object):
                         # It's already locked so skip it.
                         continue
                     else:
+                        if self.paused:
+                            self.log.debug("Unpaused request %s", self.request)
+                            self.paused = False
+
                         self.log.debug(
                             "Locked existing node %s for request %s",
                             node.id, self.request.id)

From 774f38ef35c67d897c5e2b55c15e4f9edb2494ab Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 16 Mar 2017 17:46:23 -0400
Subject: [PATCH 131/309] Set node AZ after we're done waiting for it.

Since AZ may not be available immediately after the create request.
Fill it in after it becomes active.

Change-Id: Id88c23b73ef6e28872c9083e57e70f9b23064422
---
 nodepool/nodepool.py | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 9da04bc04..9e21baf1d 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -295,10 +295,6 @@ class NodeLauncher(threading.Thread, StatsReporter):
             nodepool_node_id=self._node.id,
             nodepool_image_name=config_image.name)
 
-        # If we didn't specify an AZ, set it to the one chosen by Nova.
-        if not self._node.az:
-            self._node.az = server.location.zone
-
         self._node.external_id = server.id
         self._node.hostname = hostname
         self._node.image_id = "{path}/{upload_id}".format(
@@ -321,6 +317,12 @@ class NodeLauncher(threading.Thread, StatsReporter):
                                         (server.id, self._node.id,
                                          server.status))
 
+        # If we didn't specify an AZ, set it to the one chosen by Nova.
+        # Do this after we are done waiting since AZ may not be available
+        # immediately after the create request.
+        if not self._node.az:
+            self._node.az = server.location.zone
+
         self._node.public_ipv4 = server.public_v4
         self._node.public_ipv6 = server.public_v6
 

From 03c41ccc35f5a7269e3ae73cae91a15a36176392 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Tue, 14 Mar 2017 11:35:04 +1100
Subject: [PATCH 132/309] Refactor nodepool apps into base app

There is a lot of commonality between the nodepool apps that is
replicated between each of the files. This will mean adding more again
when new apps are added.

Separate a base NodepoolApp and NodepoolDaemonApp that handle the common
parts of setting up a nodepool app and use them in the existing apps.

Change-Id: I098b0a1d749e9dc400d45355f9295ca07058768b
---
 nodepool/cmd/__init__.py    | 117 ++++++++++++++++++++++++++++++++++--
 nodepool/cmd/builder.py     |  48 +++++----------
 nodepool/cmd/nodepoolcmd.py |  41 ++++++-------
 nodepool/cmd/nodepoold.py   |  69 +++------------------
 4 files changed, 151 insertions(+), 124 deletions(-)

diff --git a/nodepool/cmd/__init__.py b/nodepool/cmd/__init__.py
index 3d388e74c..eb5f98f58 100644
--- a/nodepool/cmd/__init__.py
+++ b/nodepool/cmd/__init__.py
@@ -14,6 +14,10 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
+import argparse
+import daemon
+import errno
+import extras
 import logging
 import logging.config
 import os
@@ -22,6 +26,35 @@ import sys
 import threading
 import traceback
 
+from nodepool.version import version_info as npd_version_info
+
+
+# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
+# instead it depends on lockfile-0.9.1 which uses pidfile.
+pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
+
+
+def is_pidfile_stale(pidfile):
+    """ Determine whether a PID file is stale.
+
+        Return 'True' ("stale") if the contents of the PID file are
+        valid but do not match the PID of a currently-running process;
+        otherwise return 'False'.
+
+        """
+    result = False
+
+    pidfile_pid = pidfile.read_pid()
+    if pidfile_pid is not None:
+        try:
+            os.kill(pidfile_pid, 0)
+        except OSError as exc:
+            if exc.errno == errno.ESRCH:
+                # The specified PID does not exist
+                result = True
+
+    return result
+
 
 def stack_dump_handler(signum, frame):
     signal.signal(signal.SIGUSR2, signal.SIG_IGN)
@@ -45,17 +78,91 @@ def stack_dump_handler(signum, frame):
 
 class NodepoolApp(object):
 
+    app_name = None
+    app_description = 'Node pool.'
+
     def __init__(self):
         self.args = None
 
+    def create_parser(self):
+        parser = argparse.ArgumentParser(description=self.app_description)
+
+        parser.add_argument('-l',
+                            dest='logconfig',
+                            help='path to log config file')
+
+        parser.add_argument('--version',
+                            action='version',
+                            version=npd_version_info.version_string())
+
+        return parser
+
     def setup_logging(self):
         if self.args.logconfig:
             fp = os.path.expanduser(self.args.logconfig)
+
             if not os.path.exists(fp):
-                raise Exception("Unable to read logging config file at %s" %
-                                fp)
+                m = "Unable to read logging config file at %s" % fp
+                raise Exception(m)
+
             logging.config.fileConfig(fp)
+
         else:
-            logging.basicConfig(level=logging.DEBUG,
-                                format='%(asctime)s %(levelname)s %(name)s: '
-                                       '%(message)s')
+            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
+            logging.basicConfig(level=logging.DEBUG, format=m)
+
+    def _main(self, argv=None):
+        if argv is None:
+            argv = sys.argv[1:]
+
+        self.args = self.create_parser().parse_args()
+        self.setup_logging()
+
+        return self._do_run()
+
+    def _do_run(self):
+        return self.run()
+
+    @classmethod
+    def main(cls, argv=None):
+        return cls()._main(argv=argv)
+
+    def run(self):
+        """The app's primary function, override it with your logic."""
+        raise NotImplementedError()
+
+
+class NodepoolDaemonApp(NodepoolApp):
+
+    def create_parser(self):
+        parser = super(NodepoolDaemonApp, self).create_parser()
+
+        parser.add_argument('-p',
+                            dest='pidfile',
+                            help='path to pid file',
+                            default='/var/run/nodepool/%s.pid' % self.app_name)
+
+        parser.add_argument('-d',
+                            dest='nodaemon',
+                            action='store_true',
+                            help='do not run as a daemon')
+
+        return parser
+
+    def _do_run(self):
+        if self.args.nodaemon:
+            return super(NodepoolDaemonApp, self)._do_run()
+
+        else:
+            pid = pid_file_module.TimeoutPIDLockFile(self.args.pidfile, 10)
+
+            if is_pidfile_stale(pid):
+                pid.break_lock()
+
+            with daemon.DaemonContext(pidfile=pid):
+                return super(NodepoolDaemonApp, self)._do_run()
+
+    @classmethod
+    def main(cls, argv=None):
+        signal.signal(signal.SIGUSR2, stack_dump_handler)
+        return super(NodepoolDaemonApp, cls).main(argv)
diff --git a/nodepool/cmd/builder.py b/nodepool/cmd/builder.py
index 55d3a4370..1138cba5f 100644
--- a/nodepool/cmd/builder.py
+++ b/nodepool/cmd/builder.py
@@ -12,40 +12,28 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import argparse
-import extras
 import signal
 import sys
 
-import daemon
-
 from nodepool import builder
 import nodepool.cmd
 
 
-# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
-# instead it depends on lockfile-0.9.1 which uses pidfile.
-pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
+class NodePoolBuilderApp(nodepool.cmd.NodepoolDaemonApp):
 
-class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
+    app_name = 'nodepool-builder'
+    app_description = 'NodePool Image Builder.'
 
     def sigint_handler(self, signal, frame):
         self.nb.stop()
         sys.exit(0)
 
-    def parse_arguments(self):
-        parser = argparse.ArgumentParser(description='NodePool Image Builder.')
+    def create_parser(self):
+        parser = super(NodePoolBuilderApp, self).create_parser()
+
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
-        parser.add_argument('-l', dest='logconfig',
-                            help='path to log config file')
-        parser.add_argument('-p', dest='pidfile',
-                            help='path to pid file',
-                            default='/var/run/nodepool-builder/'
-                                    'nodepool-builder.pid')
-        parser.add_argument('-d', dest='nodaemon', action='store_true',
-                            help='do not run as a daemon')
         parser.add_argument('--build-workers', dest='build_workers',
                             default=1, help='number of build workers',
                             type=int)
@@ -55,16 +43,16 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
         parser.add_argument('--fake', action='store_true',
                             help='Do not actually run diskimage-builder '
                             '(used for testing)')
-        self.args = parser.parse_args()
+        return parser
 
-    def main(self):
-        self.setup_logging()
-        self.nb = builder.NodePoolBuilder(
-            self.args.config, self.args.build_workers,
-            self.args.upload_workers, self.args.fake)
+    def run(self):
+        self.nb = builder.NodePoolBuilder(self.args.config,
+                                          self.args.build_workers,
+                                          self.args.upload_workers,
+                                          self.args.fake)
 
         signal.signal(signal.SIGINT, self.sigint_handler)
-        signal.signal(signal.SIGUSR2, nodepool.cmd.stack_dump_handler)
+
         self.nb.start()
 
         while True:
@@ -72,15 +60,7 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
 
 
 def main():
-    app = NodePoolBuilderApp()
-    app.parse_arguments()
-
-    if app.args.nodaemon:
-        app.main()
-    else:
-        pid = pid_file_module.TimeoutPIDLockFile(app.args.pidfile, 10)
-        with daemon.DaemonContext(pidfile=pid):
-            app.main()
+    return NodePoolBuilderApp.main()
 
 
 if __name__ == "__main__":
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 608a9358a..294517f42 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -14,7 +14,6 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import argparse
 import logging.config
 import sys
 
@@ -23,7 +22,6 @@ from nodepool import nodepool
 from nodepool import status
 from nodepool import zk
 from nodepool.cmd import NodepoolApp
-from nodepool.version import version_info as npc_version_info
 from config_validator import ConfigValidator
 from prettytable import PrettyTable
 
@@ -32,19 +30,15 @@ log = logging.getLogger(__name__)
 
 class NodePoolCmd(NodepoolApp):
 
-    def parse_arguments(self):
-        parser = argparse.ArgumentParser(description='Node pool.')
+    def create_parser(self):
+        parser = super(NodePoolCmd, self).create_parser()
+
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
                             default='/etc/nodepool/secure.conf',
                             help='path to secure file')
-        parser.add_argument('-l', dest='logconfig',
-                            help='path to log config file')
-        parser.add_argument('--version', action='version',
-                            version=npc_version_info.version_string(),
-                            help='show version')
         parser.add_argument('--debug', dest='debug', action='store_true',
                             help='show DEBUG level logging')
 
@@ -89,7 +83,8 @@ class NodePoolCmd(NodepoolApp):
             help='place a node in the HOLD state')
         cmd_hold.set_defaults(func=self.hold)
         cmd_hold.add_argument('id', help='node id')
-        cmd_hold.add_argument('--reason', help='Reason this node is held',
+        cmd_hold.add_argument('--reason',
+                              help='Reason this node is held',
                               required=True)
 
         cmd_delete = subparsers.add_parser(
@@ -130,19 +125,21 @@ class NodePoolCmd(NodepoolApp):
             help='list the current node requests')
         cmd_request_list.set_defaults(func=self.request_list)
 
-        self.args = parser.parse_args()
+        return parser
 
     def setup_logging(self):
+        # NOTE(jamielennox): This should just be the same as other apps
         if self.args.debug:
-            logging.basicConfig(level=logging.DEBUG,
-                                format='%(asctime)s %(levelname)s %(name)s: '
-                                       '%(message)s')
+            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
+            logging.basicConfig(level=logging.DEBUG, format=m)
+
         elif self.args.logconfig:
-            NodepoolApp.setup_logging(self)
+            super(NodePoolCmd, self).setup_logging()
+
         else:
-            logging.basicConfig(level=logging.INFO,
-                                format='%(asctime)s %(levelname)s %(name)s: '
-                                       '%(message)s')
+            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
+            logging.basicConfig(level=logging.INFO, format=m)
+
             l = logging.getLogger('kazoo')
             l.setLevel(logging.WARNING)
 
@@ -319,7 +316,7 @@ class NodePoolCmd(NodepoolApp):
             if t:
                 t.join()
 
-    def main(self):
+    def run(self):
         self.zk = None
 
         # commands which do not need to start-up or parse config
@@ -344,11 +341,9 @@ class NodePoolCmd(NodepoolApp):
         if self.zk:
             self.zk.disconnect()
 
+
 def main():
-    npc = NodePoolCmd()
-    npc.parse_arguments()
-    npc.setup_logging()
-    return npc.main()
+    return NodePoolCmd.main()
 
 
 if __name__ == "__main__":
diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/nodepoold.py
index 6a623b9ad..00b7861bb 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/nodepoold.py
@@ -14,15 +14,6 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import argparse
-import daemon
-import errno
-import extras
-
-# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
-# instead it depends on lockfile-0.9.1 which uses pidfile.
-pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
-
 import logging
 import os
 import sys
@@ -35,49 +26,21 @@ import nodepool.webapp
 log = logging.getLogger(__name__)
 
 
-def is_pidfile_stale(pidfile):
-    """ Determine whether a PID file is stale.
+class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
 
-        Return 'True' ("stale") if the contents of the PID file are
-        valid but do not match the PID of a currently-running process;
-        otherwise return 'False'.
+    app_name = 'nodepool'
 
-        """
-    result = False
+    def create_parser(self):
+        parser = super(NodePoolDaemon, self).create_parser()
 
-    pidfile_pid = pidfile.read_pid()
-    if pidfile_pid is not None:
-        try:
-            os.kill(pidfile_pid, 0)
-        except OSError as exc:
-            if exc.errno == errno.ESRCH:
-                # The specified PID does not exist
-                result = True
-
-    return result
-
-
-class NodePoolDaemon(nodepool.cmd.NodepoolApp):
-
-    def parse_arguments(self):
-        parser = argparse.ArgumentParser(description='Node pool.')
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
                             default='/etc/nodepool/secure.conf',
                             help='path to secure file')
-        parser.add_argument('-d', dest='nodaemon', action='store_true',
-                            help='do not run as a daemon')
-        parser.add_argument('-l', dest='logconfig',
-                            help='path to log config file')
-        parser.add_argument('-p', dest='pidfile',
-                            help='path to pid file',
-                            default='/var/run/nodepool/nodepool.pid')
         parser.add_argument('--no-webapp', action='store_true')
-        parser.add_argument('--version', dest='version', action='store_true',
-                            help='show version')
-        self.args = parser.parse_args()
+        return parser
 
     def exit_handler(self, signum, frame):
         self.pool.stop()
@@ -88,8 +51,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
     def term_handler(self, signum, frame):
         os._exit(0)
 
-    def main(self):
-        self.setup_logging()
+    def run(self):
         self.pool = nodepool.nodepool.NodePool(self.args.secure,
                                                self.args.config)
         if not self.args.no_webapp:
@@ -99,7 +61,6 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
         # For back compatibility:
         signal.signal(signal.SIGUSR1, self.exit_handler)
 
-        signal.signal(signal.SIGUSR2, nodepool.cmd.stack_dump_handler)
         signal.signal(signal.SIGTERM, self.term_handler)
 
         self.pool.start()
@@ -112,23 +73,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
 
 
 def main():
-    npd = NodePoolDaemon()
-    npd.parse_arguments()
-
-    if npd.args.version:
-        from nodepool.version import version_info as npd_version_info
-        print "Nodepool version: %s" % npd_version_info.version_string()
-        return(0)
-
-    pid = pid_file_module.TimeoutPIDLockFile(npd.args.pidfile, 10)
-    if is_pidfile_stale(pid):
-        pid.break_lock()
-
-    if npd.args.nodaemon:
-        npd.main()
-    else:
-        with daemon.DaemonContext(pidfile=pid):
-            npd.main()
+    return NodePoolDaemon.main()
 
 
 if __name__ == "__main__":

From f244f23f966862cb0cc13b6874fa4e0ba9fb9339 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 16 Mar 2017 13:06:04 -0400
Subject: [PATCH 133/309] Rename NodeCleanupWorker to DeletedNodeWorker

Change-Id: I9916ffac393571da164161db6fd377b15fbc76c6
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/nodepool.py       | 28 ++++++++++++++--------------
 nodepool/tests/__init__.py |  4 ++--
 2 files changed, 16 insertions(+), 16 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 9da04bc04..4f27b2346 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -682,7 +682,7 @@ class NodeRequestHandler(object):
                     self.chosen_az = random.choice(self.provider.azs)
 
                 # If we calculate that we're at capacity, pause until nodes
-                # are released by Zuul and removed by the NodeCleanupWorker.
+                # are released by Zuul and removed by the DeletedNodeWorker.
                 if self._countNodes() >= self.provider.max_servers:
                     if not self.paused:
                         self.log.debug(
@@ -1034,10 +1034,10 @@ class ProviderWorker(threading.Thread):
         self.running = False
 
 
-class NodeCleanupWorker(threading.Thread):
+class DeletedNodeWorker(threading.Thread):
     def __init__(self, nodepool, interval):
-        threading.Thread.__init__(self, name='NodeCleanupWorker')
-        self.log = logging.getLogger("nodepool.NodeCleanupWorker")
+        threading.Thread.__init__(self, name='DeletedNodeWorker')
+        self.log = logging.getLogger("nodepool.DeletedNodeWorker")
         self._nodepool = nodepool
         self._interval = interval
         self._running = False
@@ -1242,7 +1242,7 @@ class NodeCleanupWorker(threading.Thread):
                 self._cleanupLeakedInstances()
                 self._cleanupLostRequests()
             except Exception:
-                self.log.exception("Exception in NodeCleanupWorker:")
+                self.log.exception("Exception in DeletedNodeWorker:")
 
             time.sleep(self._interval)
 
@@ -1262,13 +1262,13 @@ class NodePool(threading.Thread):
         self.securefile = securefile
         self.configfile = configfile
         self.watermark_sleep = watermark_sleep
-        self.cleanup_interval = 5
+        self.delete_interval = 5
         self._stopped = False
         self.config = None
         self.zk = None
         self.statsd = stats.get_client()
         self._provider_threads = {}
-        self._cleanup_thread = None
+        self._delete_thread = None
         self._wake_condition = threading.Condition()
         self._submittedRequests = {}
 
@@ -1280,9 +1280,9 @@ class NodePool(threading.Thread):
         if self.config:
             provider_manager.ProviderManager.stopProviders(self.config)
 
-        if self._cleanup_thread:
-            self._cleanup_thread.stop()
-            self._cleanup_thread.join()
+        if self._delete_thread:
+            self._delete_thread.stop()
+            self._delete_thread.join()
 
         # Don't let stop() return until all provider threads have been
         # terminated.
@@ -1459,10 +1459,10 @@ class NodePool(threading.Thread):
 
                 self.createMinReady()
 
-                if not self._cleanup_thread:
-                    self._cleanup_thread = NodeCleanupWorker(
-                        self, self.cleanup_interval)
-                    self._cleanup_thread.start()
+                if not self._delete_thread:
+                    self._delete_thread = DeletedNodeWorker(
+                        self, self.delete_interval)
+                    self._delete_thread.start()
 
                 # Stop any ProviderWorker threads if the provider was removed
                 # from the config.
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 7315b8fa3..5aeaace8e 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -164,7 +164,7 @@ class BaseTestCase(testtools.TestCase):
                      'fake-provider1',
                      'fake-provider2',
                      'fake-provider3',
-                     'NodeCleanupWorker',
+                     'DeletedNodeWorker',
                      ]
 
         while True:
@@ -397,7 +397,7 @@ class DBTestCase(BaseTestCase):
     def useNodepool(self, *args, **kwargs):
         args = (self.secure_conf,) + args
         pool = nodepool.NodePool(*args, **kwargs)
-        pool.cleanup_interval = .5
+        pool.delete_interval = .5
         self.addCleanup(pool.stop)
         return pool
 

From 3f8c35397f29e003f72699c96ac7ed13b9a24707 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 16 Mar 2017 13:23:05 -0400
Subject: [PATCH 134/309] Create BaseCleanupWorker class

In a follow patch, we'll be spliting DeleteNodeWorker into 2 threads,
one more agressive then another. BaseCleanupWorker allows us to share
functions between them.

Change-Id: I82016e98cb6fc1a8f024dfe30938eb0097e8ce98
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/nodepool.py | 68 +++++++++++++++++++++++++-------------------
 1 file changed, 38 insertions(+), 30 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 4f27b2346..f4396a86c 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1034,14 +1034,40 @@ class ProviderWorker(threading.Thread):
         self.running = False
 
 
-class DeletedNodeWorker(threading.Thread):
-    def __init__(self, nodepool, interval):
-        threading.Thread.__init__(self, name='DeletedNodeWorker')
-        self.log = logging.getLogger("nodepool.DeletedNodeWorker")
+class BaseCleanupWorker(threading.Thread):
+    def __init__(self, nodepool, interval, name):
+        threading.Thread.__init__(self, name=name)
         self._nodepool = nodepool
         self._interval = interval
         self._running = False
 
+    def run(self):
+        self.log.info("Starting")
+        self._running = True
+
+        while self._running:
+            # Don't do work if we've lost communication with the ZK cluster
+            zk_conn = self._nodepool.getZK()
+            while zk_conn and (zk_conn.suspended or zk_conn.lost):
+                self.log.info("ZooKeeper suspended. Waiting")
+                time.sleep(SUSPEND_WAIT_TIME)
+
+            self._run()
+            time.sleep(self._interval)
+
+        self.log.info("Stopped")
+
+    def stop(self):
+        self._running = False
+        self.join()
+
+
+class DeletedNodeWorker(BaseCleanupWorker):
+    def __init__(self, nodepool, interval):
+        super(DeletedNodeWorker, self).__init__(
+            nodepool, interval, name='DeletedNodeWorker')
+        self.log = logging.getLogger("nodepool.DeletedNodeWorker")
+
     def _resetLostRequest(self, zk_conn, req):
         '''
         Reset the request state and unallocate nodes.
@@ -1225,32 +1251,14 @@ class DeletedNodeWorker(threading.Thread):
             if provider.clean_floating_ips:
                 manager.cleanupLeakedFloaters()
 
-    def run(self):
-        self.log.info("Starting")
-        self._running = True
-
-        while self._running:
-            # Don't do work if we've lost communication with the ZK cluster
-            zk_conn = self._nodepool.getZK()
-            while zk_conn and (zk_conn.suspended or zk_conn.lost):
-                self.log.info("ZooKeeper suspended. Waiting")
-                time.sleep(SUSPEND_WAIT_TIME)
-
-            try:
-                self._cleanupNodeRequestLocks()
-                self._cleanupNodes()
-                self._cleanupLeakedInstances()
-                self._cleanupLostRequests()
-            except Exception:
-                self.log.exception("Exception in DeletedNodeWorker:")
-
-            time.sleep(self._interval)
-
-        self.log.info("Stopped")
-
-    def stop(self):
-        self._running = False
-        self.join()
+    def _run(self):
+        try:
+            self._cleanupNodeRequestLocks()
+            self._cleanupNodes()
+            self._cleanupLeakedInstances()
+            self._cleanupLostRequests()
+        except Exception:
+            self.log.exception("Exception in DeletedNodeWorker:")
 
 
 class NodePool(threading.Thread):

From 7d2c51f164b38763598cee40b422d2545554ed4d Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 16 Mar 2017 13:33:24 -0400
Subject: [PATCH 135/309] Split DeleteNodeWorker into two threads

After some discussion, it was decided to create a 2nd thread
specifically to cleanup our nodes, which could be less agressive then
our DeleteNodeWorker interval.  This will reduce the pressure we place
on clouds looking for leaked nodes.

Change-Id: I3f1a482eaa43ea7943cfa5d8b74530cd34d251b3
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/nodepool.py       | 145 +++++++++++++++++++++----------------
 nodepool/tests/__init__.py |   2 +
 2 files changed, 86 insertions(+), 61 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index f4396a86c..56c5dc333 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1041,6 +1041,27 @@ class BaseCleanupWorker(threading.Thread):
         self._interval = interval
         self._running = False
 
+    def _deleteInstance(self, node):
+        '''
+        Delete an instance from a provider.
+
+        A thread will be spawned to delete the actual instance from the
+        provider.
+
+        :param Node node: A Node object representing the instance to delete.
+        '''
+        self.log.info("Deleting %s instance %s from %s",
+                      node.state, node.external_id, node.provider)
+        try:
+            t = InstanceDeleter(
+                self._nodepool.getZK(),
+                self._nodepool.getProviderManager(node.provider),
+                node)
+            t.start()
+        except Exception:
+            self.log.exception("Could not delete instance %s on provider %s",
+                               node.external_id, node.provider)
+
     def run(self):
         self.log.info("Starting")
         self._running = True
@@ -1062,11 +1083,11 @@ class BaseCleanupWorker(threading.Thread):
         self.join()
 
 
-class DeletedNodeWorker(BaseCleanupWorker):
+class CleanupWorker(BaseCleanupWorker):
     def __init__(self, nodepool, interval):
-        super(DeletedNodeWorker, self).__init__(
-            nodepool, interval, name='DeletedNodeWorker')
-        self.log = logging.getLogger("nodepool.DeletedNodeWorker")
+        super(CleanupWorker, self).__init__(
+            nodepool, interval, name='CleanupWorker')
+        self.log = logging.getLogger("nodepool.CleanupWorker")
 
     def _resetLostRequest(self, zk_conn, req):
         '''
@@ -1141,26 +1162,59 @@ class DeletedNodeWorker(BaseCleanupWorker):
             if (now - lock.stat.mtime/1000) > LOCK_CLEANUP:
                 zk.deleteNodeRequestLock(lock.id)
 
-    def _deleteInstance(self, node):
+    def _cleanupLeakedInstances(self):
         '''
-        Delete an instance from a provider.
+        Delete any leaked server instances.
 
-        A thread will be spawned to delete the actual instance from the
-        provider.
-
-        :param Node node: A Node object representing the instance to delete.
+        Remove any servers we find in providers we know about that are not
+        recorded in the ZooKeeper data.
         '''
-        self.log.info("Deleting %s instance %s from %s",
-                      node.state, node.external_id, node.provider)
+        zk_conn = self._nodepool.getZK()
+
+        for provider in self._nodepool.config.providers.values():
+            manager = self._nodepool.getProviderManager(provider.name)
+
+            for server in manager.listServers():
+                meta = server.get('metadata', {})
+
+                if 'nodepool_provider_name' not in meta:
+                    continue
+
+                if meta['nodepool_provider_name'] != provider.name:
+                    # Another launcher, sharing this provider but configured
+                    # with a different name, owns this.
+                    continue
+
+                if not zk_conn.getNode(meta['nodepool_node_id']):
+                    self.log.warning(
+                        "Deleting leaked instance %s (%s) in %s "
+                        "(unknown node id %s)",
+                        server.name, server.id, provider.name,
+                        meta['nodepool_node_id']
+                    )
+                    # Create an artifical node to use for deleting the server.
+                    node = zk.Node()
+                    node.external_id = server.id
+                    node.provider = provider.name
+                    self._deleteInstance(node)
+
+            if provider.clean_floating_ips:
+                manager.cleanupLeakedFloaters()
+
+    def _run(self):
         try:
-            t = InstanceDeleter(
-                self._nodepool.getZK(),
-                self._nodepool.getProviderManager(node.provider),
-                node)
-            t.start()
+            self._cleanupNodeRequestLocks()
+            self._cleanupLeakedInstances()
+            self._cleanupLostRequests()
         except Exception:
-            self.log.exception("Could not delete instance %s on provider %s",
-                               node.external_id, node.provider)
+            self.log.exception("Exception in DeletedNodeWorker:")
+
+
+class DeletedNodeWorker(BaseCleanupWorker):
+    def __init__(self, nodepool, interval):
+        super(DeletedNodeWorker, self).__init__(
+            nodepool, interval, name='DeletedNodeWorker')
+        self.log = logging.getLogger("nodepool.DeletedNodeWorker")
 
     def _cleanupNodes(self):
         '''
@@ -1212,51 +1266,9 @@ class DeletedNodeWorker(BaseCleanupWorker):
                 # node from ZooKeeper if it succeeds.
                 self._deleteInstance(node)
 
-    def _cleanupLeakedInstances(self):
-        '''
-        Delete any leaked server instances.
-
-        Remove any servers we find in providers we know about that are not
-        recorded in the ZooKeeper data.
-        '''
-        zk_conn = self._nodepool.getZK()
-
-        for provider in self._nodepool.config.providers.values():
-            manager = self._nodepool.getProviderManager(provider.name)
-
-            for server in manager.listServers():
-                meta = server.get('metadata', {})
-
-                if 'nodepool_provider_name' not in meta:
-                    continue
-
-                if meta['nodepool_provider_name'] != provider.name:
-                    # Another launcher, sharing this provider but configured
-                    # with a different name, owns this.
-                    continue
-
-                if not zk_conn.getNode(meta['nodepool_node_id']):
-                    self.log.warning(
-                        "Deleting leaked instance %s (%s) in %s "
-                        "(unknown node id %s)",
-                        server.name, server.id, provider.name,
-                        meta['nodepool_node_id']
-                    )
-                    # Create an artifical node to use for deleting the server.
-                    node = zk.Node()
-                    node.external_id = server.id
-                    node.provider = provider.name
-                    self._deleteInstance(node)
-
-            if provider.clean_floating_ips:
-                manager.cleanupLeakedFloaters()
-
     def _run(self):
         try:
-            self._cleanupNodeRequestLocks()
             self._cleanupNodes()
-            self._cleanupLeakedInstances()
-            self._cleanupLostRequests()
         except Exception:
             self.log.exception("Exception in DeletedNodeWorker:")
 
@@ -1270,12 +1282,14 @@ class NodePool(threading.Thread):
         self.securefile = securefile
         self.configfile = configfile
         self.watermark_sleep = watermark_sleep
+        self.cleanup_interval = 60
         self.delete_interval = 5
         self._stopped = False
         self.config = None
         self.zk = None
         self.statsd = stats.get_client()
         self._provider_threads = {}
+        self._cleanup_thread = None
         self._delete_thread = None
         self._wake_condition = threading.Condition()
         self._submittedRequests = {}
@@ -1288,6 +1302,10 @@ class NodePool(threading.Thread):
         if self.config:
             provider_manager.ProviderManager.stopProviders(self.config)
 
+        if self._cleanup_thread:
+            self._cleanup_thread.stop()
+            self._cleanup_thread.join()
+
         if self._delete_thread:
             self._delete_thread.stop()
             self._delete_thread.join()
@@ -1467,6 +1485,11 @@ class NodePool(threading.Thread):
 
                 self.createMinReady()
 
+                if not self._cleanup_thread:
+                    self._cleanup_thread = CleanupWorker(
+                        self, self.cleanup_interval)
+                    self._cleanup_thread.start()
+
                 if not self._delete_thread:
                     self._delete_thread = DeletedNodeWorker(
                         self, self.delete_interval)
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 5aeaace8e..cf4ea90e5 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -164,6 +164,7 @@ class BaseTestCase(testtools.TestCase):
                      'fake-provider1',
                      'fake-provider2',
                      'fake-provider3',
+                     'CleanupWorker',
                      'DeletedNodeWorker',
                      ]
 
@@ -397,6 +398,7 @@ class DBTestCase(BaseTestCase):
     def useNodepool(self, *args, **kwargs):
         args = (self.secure_conf,) + args
         pool = nodepool.NodePool(*args, **kwargs)
+        pool.cleanup_interval = .5
         pool.delete_interval = .5
         self.addCleanup(pool.stop)
         return pool

From 0e9188d1b5f1aee9965a07846f9742e8c091d72d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Mar 2017 09:30:54 -0400
Subject: [PATCH 136/309] Unlock request if it disappears

Found an issue where we were not unlocking the node request if it
disappeared on us. This caused the request lock cleanup to fail b/c
it remained lock.

Also, let's catch cleanup errors individually so that each phase has
a chance to run, independent of errors from other phases.

Also add recursive=True to the request lock delete.

Change-Id: I12c79b7725460eae5a27063523f3fa2e19e6bc59
---
 nodepool/nodepool.py | 18 +++++++++++++++++-
 nodepool/zk.py       |  2 +-
 2 files changed, 18 insertions(+), 2 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 932709707..b17ea68b3 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -842,6 +842,7 @@ class NodeRequestHandler(object):
                 node.allocated_to = None
                 self.zk.storeNode(node)
             self.unlockNodeSet()
+            self.zk.unlockNodeRequest(self.request)
             return True
 
         if self.launch_manager.failed_nodes:
@@ -1205,12 +1206,27 @@ class CleanupWorker(BaseCleanupWorker):
                 manager.cleanupLeakedFloaters()
 
     def _run(self):
+        '''
+        Catch exceptions individually so that other cleanup routines may
+        have a chance.
+        '''
         try:
             self._cleanupNodeRequestLocks()
+        except Exception:
+            self.log.exception(
+                "Exception in DeletedNodeWorker (node request lock cleanup):")
+
+        try:
             self._cleanupLeakedInstances()
+        except Exception:
+            self.log.exception(
+                "Exception in DeletedNodeWorker (leaked instance cleanup):")
+
+        try:
             self._cleanupLostRequests()
         except Exception:
-            self.log.exception("Exception in DeletedNodeWorker:")
+            self.log.exception(
+                "Exception in DeletedNodeWorker (lost request cleanup):")
 
 
 class DeletedNodeWorker(BaseCleanupWorker):
diff --git a/nodepool/zk.py b/nodepool/zk.py
index fae26b4c7..a12d966bb 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1308,7 +1308,7 @@ class ZooKeeper(object):
         '''
         path = self._requestLockPath(lock)
         try:
-            self.client.delete(path)
+            self.client.delete(path, recursive=True)
         except kze.NoNodeError:
             pass
 

From 3dc2c40d8e17d02a6d07cd05158182083a51e3f4 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 20 Mar 2017 15:00:30 +0000
Subject: [PATCH 137/309] Revert "Refactor nodepool apps into base app"

Logging is currently broken due to this change. Nothing is logged.

This reverts commit 03c41ccc35f5a7269e3ae73cae91a15a36176392.

Change-Id: I7d8f1cd866b768326157f4503c1f729ebb703c0c
---
 nodepool/cmd/__init__.py    | 117 ++----------------------------------
 nodepool/cmd/builder.py     |  48 ++++++++++-----
 nodepool/cmd/nodepoolcmd.py |  41 +++++++------
 nodepool/cmd/nodepoold.py   |  69 ++++++++++++++++++---
 4 files changed, 124 insertions(+), 151 deletions(-)

diff --git a/nodepool/cmd/__init__.py b/nodepool/cmd/__init__.py
index eb5f98f58..3d388e74c 100644
--- a/nodepool/cmd/__init__.py
+++ b/nodepool/cmd/__init__.py
@@ -14,10 +14,6 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import argparse
-import daemon
-import errno
-import extras
 import logging
 import logging.config
 import os
@@ -26,35 +22,6 @@ import sys
 import threading
 import traceback
 
-from nodepool.version import version_info as npd_version_info
-
-
-# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
-# instead it depends on lockfile-0.9.1 which uses pidfile.
-pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
-
-
-def is_pidfile_stale(pidfile):
-    """ Determine whether a PID file is stale.
-
-        Return 'True' ("stale") if the contents of the PID file are
-        valid but do not match the PID of a currently-running process;
-        otherwise return 'False'.
-
-        """
-    result = False
-
-    pidfile_pid = pidfile.read_pid()
-    if pidfile_pid is not None:
-        try:
-            os.kill(pidfile_pid, 0)
-        except OSError as exc:
-            if exc.errno == errno.ESRCH:
-                # The specified PID does not exist
-                result = True
-
-    return result
-
 
 def stack_dump_handler(signum, frame):
     signal.signal(signal.SIGUSR2, signal.SIG_IGN)
@@ -78,91 +45,17 @@ def stack_dump_handler(signum, frame):
 
 class NodepoolApp(object):
 
-    app_name = None
-    app_description = 'Node pool.'
-
     def __init__(self):
         self.args = None
 
-    def create_parser(self):
-        parser = argparse.ArgumentParser(description=self.app_description)
-
-        parser.add_argument('-l',
-                            dest='logconfig',
-                            help='path to log config file')
-
-        parser.add_argument('--version',
-                            action='version',
-                            version=npd_version_info.version_string())
-
-        return parser
-
     def setup_logging(self):
         if self.args.logconfig:
             fp = os.path.expanduser(self.args.logconfig)
-
             if not os.path.exists(fp):
-                m = "Unable to read logging config file at %s" % fp
-                raise Exception(m)
-
+                raise Exception("Unable to read logging config file at %s" %
+                                fp)
             logging.config.fileConfig(fp)
-
         else:
-            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
-            logging.basicConfig(level=logging.DEBUG, format=m)
-
-    def _main(self, argv=None):
-        if argv is None:
-            argv = sys.argv[1:]
-
-        self.args = self.create_parser().parse_args()
-        self.setup_logging()
-
-        return self._do_run()
-
-    def _do_run(self):
-        return self.run()
-
-    @classmethod
-    def main(cls, argv=None):
-        return cls()._main(argv=argv)
-
-    def run(self):
-        """The app's primary function, override it with your logic."""
-        raise NotImplementedError()
-
-
-class NodepoolDaemonApp(NodepoolApp):
-
-    def create_parser(self):
-        parser = super(NodepoolDaemonApp, self).create_parser()
-
-        parser.add_argument('-p',
-                            dest='pidfile',
-                            help='path to pid file',
-                            default='/var/run/nodepool/%s.pid' % self.app_name)
-
-        parser.add_argument('-d',
-                            dest='nodaemon',
-                            action='store_true',
-                            help='do not run as a daemon')
-
-        return parser
-
-    def _do_run(self):
-        if self.args.nodaemon:
-            return super(NodepoolDaemonApp, self)._do_run()
-
-        else:
-            pid = pid_file_module.TimeoutPIDLockFile(self.args.pidfile, 10)
-
-            if is_pidfile_stale(pid):
-                pid.break_lock()
-
-            with daemon.DaemonContext(pidfile=pid):
-                return super(NodepoolDaemonApp, self)._do_run()
-
-    @classmethod
-    def main(cls, argv=None):
-        signal.signal(signal.SIGUSR2, stack_dump_handler)
-        return super(NodepoolDaemonApp, cls).main(argv)
+            logging.basicConfig(level=logging.DEBUG,
+                                format='%(asctime)s %(levelname)s %(name)s: '
+                                       '%(message)s')
diff --git a/nodepool/cmd/builder.py b/nodepool/cmd/builder.py
index 1138cba5f..55d3a4370 100644
--- a/nodepool/cmd/builder.py
+++ b/nodepool/cmd/builder.py
@@ -12,28 +12,40 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
+import argparse
+import extras
 import signal
 import sys
 
+import daemon
+
 from nodepool import builder
 import nodepool.cmd
 
 
-class NodePoolBuilderApp(nodepool.cmd.NodepoolDaemonApp):
+# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
+# instead it depends on lockfile-0.9.1 which uses pidfile.
+pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
 
-    app_name = 'nodepool-builder'
-    app_description = 'NodePool Image Builder.'
+class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
 
     def sigint_handler(self, signal, frame):
         self.nb.stop()
         sys.exit(0)
 
-    def create_parser(self):
-        parser = super(NodePoolBuilderApp, self).create_parser()
-
+    def parse_arguments(self):
+        parser = argparse.ArgumentParser(description='NodePool Image Builder.')
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
+        parser.add_argument('-l', dest='logconfig',
+                            help='path to log config file')
+        parser.add_argument('-p', dest='pidfile',
+                            help='path to pid file',
+                            default='/var/run/nodepool-builder/'
+                                    'nodepool-builder.pid')
+        parser.add_argument('-d', dest='nodaemon', action='store_true',
+                            help='do not run as a daemon')
         parser.add_argument('--build-workers', dest='build_workers',
                             default=1, help='number of build workers',
                             type=int)
@@ -43,16 +55,16 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolDaemonApp):
         parser.add_argument('--fake', action='store_true',
                             help='Do not actually run diskimage-builder '
                             '(used for testing)')
-        return parser
+        self.args = parser.parse_args()
 
-    def run(self):
-        self.nb = builder.NodePoolBuilder(self.args.config,
-                                          self.args.build_workers,
-                                          self.args.upload_workers,
-                                          self.args.fake)
+    def main(self):
+        self.setup_logging()
+        self.nb = builder.NodePoolBuilder(
+            self.args.config, self.args.build_workers,
+            self.args.upload_workers, self.args.fake)
 
         signal.signal(signal.SIGINT, self.sigint_handler)
-
+        signal.signal(signal.SIGUSR2, nodepool.cmd.stack_dump_handler)
         self.nb.start()
 
         while True:
@@ -60,7 +72,15 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolDaemonApp):
 
 
 def main():
-    return NodePoolBuilderApp.main()
+    app = NodePoolBuilderApp()
+    app.parse_arguments()
+
+    if app.args.nodaemon:
+        app.main()
+    else:
+        pid = pid_file_module.TimeoutPIDLockFile(app.args.pidfile, 10)
+        with daemon.DaemonContext(pidfile=pid):
+            app.main()
 
 
 if __name__ == "__main__":
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 294517f42..608a9358a 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -14,6 +14,7 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
+import argparse
 import logging.config
 import sys
 
@@ -22,6 +23,7 @@ from nodepool import nodepool
 from nodepool import status
 from nodepool import zk
 from nodepool.cmd import NodepoolApp
+from nodepool.version import version_info as npc_version_info
 from config_validator import ConfigValidator
 from prettytable import PrettyTable
 
@@ -30,15 +32,19 @@ log = logging.getLogger(__name__)
 
 class NodePoolCmd(NodepoolApp):
 
-    def create_parser(self):
-        parser = super(NodePoolCmd, self).create_parser()
-
+    def parse_arguments(self):
+        parser = argparse.ArgumentParser(description='Node pool.')
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
                             default='/etc/nodepool/secure.conf',
                             help='path to secure file')
+        parser.add_argument('-l', dest='logconfig',
+                            help='path to log config file')
+        parser.add_argument('--version', action='version',
+                            version=npc_version_info.version_string(),
+                            help='show version')
         parser.add_argument('--debug', dest='debug', action='store_true',
                             help='show DEBUG level logging')
 
@@ -83,8 +89,7 @@ class NodePoolCmd(NodepoolApp):
             help='place a node in the HOLD state')
         cmd_hold.set_defaults(func=self.hold)
         cmd_hold.add_argument('id', help='node id')
-        cmd_hold.add_argument('--reason',
-                              help='Reason this node is held',
+        cmd_hold.add_argument('--reason', help='Reason this node is held',
                               required=True)
 
         cmd_delete = subparsers.add_parser(
@@ -125,21 +130,19 @@ class NodePoolCmd(NodepoolApp):
             help='list the current node requests')
         cmd_request_list.set_defaults(func=self.request_list)
 
-        return parser
+        self.args = parser.parse_args()
 
     def setup_logging(self):
-        # NOTE(jamielennox): This should just be the same as other apps
         if self.args.debug:
-            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
-            logging.basicConfig(level=logging.DEBUG, format=m)
-
+            logging.basicConfig(level=logging.DEBUG,
+                                format='%(asctime)s %(levelname)s %(name)s: '
+                                       '%(message)s')
         elif self.args.logconfig:
-            super(NodePoolCmd, self).setup_logging()
-
+            NodepoolApp.setup_logging(self)
         else:
-            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
-            logging.basicConfig(level=logging.INFO, format=m)
-
+            logging.basicConfig(level=logging.INFO,
+                                format='%(asctime)s %(levelname)s %(name)s: '
+                                       '%(message)s')
             l = logging.getLogger('kazoo')
             l.setLevel(logging.WARNING)
 
@@ -316,7 +319,7 @@ class NodePoolCmd(NodepoolApp):
             if t:
                 t.join()
 
-    def run(self):
+    def main(self):
         self.zk = None
 
         # commands which do not need to start-up or parse config
@@ -341,9 +344,11 @@ class NodePoolCmd(NodepoolApp):
         if self.zk:
             self.zk.disconnect()
 
-
 def main():
-    return NodePoolCmd.main()
+    npc = NodePoolCmd()
+    npc.parse_arguments()
+    npc.setup_logging()
+    return npc.main()
 
 
 if __name__ == "__main__":
diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/nodepoold.py
index 00b7861bb..6a623b9ad 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/nodepoold.py
@@ -14,6 +14,15 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
+import argparse
+import daemon
+import errno
+import extras
+
+# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
+# instead it depends on lockfile-0.9.1 which uses pidfile.
+pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
+
 import logging
 import os
 import sys
@@ -26,21 +35,49 @@ import nodepool.webapp
 log = logging.getLogger(__name__)
 
 
-class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
+def is_pidfile_stale(pidfile):
+    """ Determine whether a PID file is stale.
 
-    app_name = 'nodepool'
+        Return 'True' ("stale") if the contents of the PID file are
+        valid but do not match the PID of a currently-running process;
+        otherwise return 'False'.
 
-    def create_parser(self):
-        parser = super(NodePoolDaemon, self).create_parser()
+        """
+    result = False
 
+    pidfile_pid = pidfile.read_pid()
+    if pidfile_pid is not None:
+        try:
+            os.kill(pidfile_pid, 0)
+        except OSError as exc:
+            if exc.errno == errno.ESRCH:
+                # The specified PID does not exist
+                result = True
+
+    return result
+
+
+class NodePoolDaemon(nodepool.cmd.NodepoolApp):
+
+    def parse_arguments(self):
+        parser = argparse.ArgumentParser(description='Node pool.')
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
                             default='/etc/nodepool/secure.conf',
                             help='path to secure file')
+        parser.add_argument('-d', dest='nodaemon', action='store_true',
+                            help='do not run as a daemon')
+        parser.add_argument('-l', dest='logconfig',
+                            help='path to log config file')
+        parser.add_argument('-p', dest='pidfile',
+                            help='path to pid file',
+                            default='/var/run/nodepool/nodepool.pid')
         parser.add_argument('--no-webapp', action='store_true')
-        return parser
+        parser.add_argument('--version', dest='version', action='store_true',
+                            help='show version')
+        self.args = parser.parse_args()
 
     def exit_handler(self, signum, frame):
         self.pool.stop()
@@ -51,7 +88,8 @@ class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
     def term_handler(self, signum, frame):
         os._exit(0)
 
-    def run(self):
+    def main(self):
+        self.setup_logging()
         self.pool = nodepool.nodepool.NodePool(self.args.secure,
                                                self.args.config)
         if not self.args.no_webapp:
@@ -61,6 +99,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
         # For back compatibility:
         signal.signal(signal.SIGUSR1, self.exit_handler)
 
+        signal.signal(signal.SIGUSR2, nodepool.cmd.stack_dump_handler)
         signal.signal(signal.SIGTERM, self.term_handler)
 
         self.pool.start()
@@ -73,7 +112,23 @@ class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
 
 
 def main():
-    return NodePoolDaemon.main()
+    npd = NodePoolDaemon()
+    npd.parse_arguments()
+
+    if npd.args.version:
+        from nodepool.version import version_info as npd_version_info
+        print "Nodepool version: %s" % npd_version_info.version_string()
+        return(0)
+
+    pid = pid_file_module.TimeoutPIDLockFile(npd.args.pidfile, 10)
+    if is_pidfile_stale(pid):
+        pid.break_lock()
+
+    if npd.args.nodaemon:
+        npd.main()
+    else:
+        with daemon.DaemonContext(pidfile=pid):
+            npd.main()
 
 
 if __name__ == "__main__":

From 34bf08fff67beb7cc4e17d7dbdda1041f150aada Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 21 Mar 2017 08:53:12 -0400
Subject: [PATCH 138/309] Add libffi development headers to bindep

Which are needed for cryptography libs.

Change-Id: If4e07b02e01f0aa9fe009626f6c60188355437d5
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 bindep.txt | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/bindep.txt b/bindep.txt
index 81d5723a5..51c1b57a4 100644
--- a/bindep.txt
+++ b/bindep.txt
@@ -1,6 +1,8 @@
 # This is a cross-platform list tracking distribution packages needed by tests;
 # see http://docs.openstack.org/infra/bindep/ for additional information.
 
+libffi-devel [platform:rpm]
+libffi-dev [platform:dpkg]
 python-dev [platform:dpkg test]
 python-devel [platform:rpm test]
 zookeeperd [platform:dpkg test]

From b48e8ad4ec258859d298e4391df06534e64ea67b Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Mon, 20 Mar 2017 11:07:20 -0700
Subject: [PATCH 139/309] Fix test_node_assignment_at_quota

There is a bug in the request handler at quota where if: the request handler
runs but must pause due to quota while still needing more than one node, and
then a single node becomes available and the handler runs again and causes
a node to be launched but then must wait for another node to become available,
the handler will never unpause.

This is because nodes that it launches are not added to the handler's nodeset
until after the entire request is handled (they are added by the poll method).
However, nodes that are allocated to the request from ready node stock are
added to the nodeset.  The current nodeset is used to determine whether more
nodes are needed.  Because the nodes from the recent launches are not part of
the nodeset, they are still counted as being "needed", and so the request
handler continues to wait for more slots to become available.

The fix is to add the newly requested node to the node set immediately
when it is requested rather than when it becomes READY in the poll()
method. This should be safe since any node failures causes the entire
request to be failed.

Co-Authored-By: David Shrewsbury <shrewsbury.dave@gmail.com>
Change-Id: I88c682807b395fc549f7c698d0c42c888dab2bc2
---
 nodepool/nodepool.py            |  4 +---
 nodepool/tests/test_nodepool.py | 31 +++++++++++++++++++++++++------
 2 files changed, 26 insertions(+), 9 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index b17ea68b3..b68866669 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -719,8 +719,7 @@ class NodeRequestHandler(object):
                 node.state = zk.BUILDING
                 self.zk.storeNode(node)
 
-                # NOTE: We append the node to nodeset if it successfully
-                # launches.
+                self.nodeset.append(node)
                 self.launch_manager.launch(node)
 
     def _run(self):
@@ -858,7 +857,6 @@ class NodeRequestHandler(object):
             else:
                 self.request.state = zk.REQUESTED
         else:
-            self.nodeset.extend(self.launch_manager.ready_nodes)
             for node in self.nodeset:
                 # Record node ID in the request
                 self.request.nodes.append(node.id)
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 5b270bea7..4c4aa329c 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -86,8 +86,8 @@ class TestNodepool(tests.DBTestCase):
 
         client = pool.getProviderManager('fake-provider')._getClient()
 
-        # One of the things we want to test is that if spawn many node
-        # launches at once, we do not deadlock while the request
+        # One of the things we want to test is that if we spawn many
+        # node launches at once, we do not deadlock while the request
         # handler pauses for quota.  To ensure we test that case,
         # pause server creation until we have accepted all of the node
         # requests we submit.  This will ensure that we hold locks on
@@ -129,11 +129,30 @@ class TestNodepool(tests.DBTestCase):
 
         # Mark the first request's nodes as USED, which will get them deleted
         # and allow the second to proceed.
+        self.log.debug("Marking first node as used %s", req1.id)
+        node = self.zk.getNode(req1.nodes[0])
+        node.state = zk.USED
+        self.zk.storeNode(node)
+        self.waitForNodeDeletion(node)
+
+        # To force the sequential nature of what we're testing, wait for
+        # the 2nd request to get a node allocated to it now that we've
+        # freed up a node.
+        self.log.debug("Waiting for node allocation for 2nd request")
+        done = False
+        while not done:
+            for n in self.zk.nodeIterator():
+                if n.allocated_to == req2.id:
+                    done = True
+                    break
+
+        self.log.debug("Marking second node as used %s", req1.id)
+        node = self.zk.getNode(req1.nodes[1])
+        node.state = zk.USED
+        self.zk.storeNode(node)
+        self.waitForNodeDeletion(node)
+
         self.log.debug("Deleting 1st request %s", req1.id)
-        for node_id in req1.nodes:
-            node = self.zk.getNode(node_id)
-            node.state = zk.USED
-            self.zk.storeNode(node)
         self.zk.deleteNodeRequest(req1)
         self.waitForNodeRequestLockDeletion(req1.id)
 

From 6e206087df06ca094e1b03fa5efd566d341a6fd6 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Tue, 14 Mar 2017 11:35:04 +1100
Subject: [PATCH 140/309] Refactor nodepool apps into base app

There is a lot of commonality between the nodepool apps that is
replicated between each of the files. This will mean adding more again
when new apps are added.

Separate a base NodepoolApp and NodepoolDaemonApp that handle the common
parts of setting up a nodepool app and use them in the existing apps.

First Proposed as: I098b0a1d749e9dc400d45355f9295ca07058768b
Then reverted: I7d8f1cd866b768326157f4503c1f729ebb703c0c

Change-Id: I81e80af8e2c18e56db8b6dca59ceb279dc9d591c
---
 nodepool/cmd/__init__.py    | 118 ++++++++++++++++++++++++++++++++++--
 nodepool/cmd/builder.py     |  48 +++++----------
 nodepool/cmd/nodepoolcmd.py |  41 ++++++-------
 nodepool/cmd/nodepoold.py   |  69 +++------------------
 4 files changed, 152 insertions(+), 124 deletions(-)

diff --git a/nodepool/cmd/__init__.py b/nodepool/cmd/__init__.py
index 3d388e74c..15e136c62 100644
--- a/nodepool/cmd/__init__.py
+++ b/nodepool/cmd/__init__.py
@@ -14,6 +14,10 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
+import argparse
+import daemon
+import errno
+import extras
 import logging
 import logging.config
 import os
@@ -22,6 +26,35 @@ import sys
 import threading
 import traceback
 
+from nodepool.version import version_info as npd_version_info
+
+
+# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
+# instead it depends on lockfile-0.9.1 which uses pidfile.
+pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
+
+
+def is_pidfile_stale(pidfile):
+    """ Determine whether a PID file is stale.
+
+        Return 'True' ("stale") if the contents of the PID file are
+        valid but do not match the PID of a currently-running process;
+        otherwise return 'False'.
+
+        """
+    result = False
+
+    pidfile_pid = pidfile.read_pid()
+    if pidfile_pid is not None:
+        try:
+            os.kill(pidfile_pid, 0)
+        except OSError as exc:
+            if exc.errno == errno.ESRCH:
+                # The specified PID does not exist
+                result = True
+
+    return result
+
 
 def stack_dump_handler(signum, frame):
     signal.signal(signal.SIGUSR2, signal.SIG_IGN)
@@ -45,17 +78,92 @@ def stack_dump_handler(signum, frame):
 
 class NodepoolApp(object):
 
+    app_name = None
+    app_description = 'Node pool.'
+
     def __init__(self):
         self.args = None
 
+    def create_parser(self):
+        parser = argparse.ArgumentParser(description=self.app_description)
+
+        parser.add_argument('-l',
+                            dest='logconfig',
+                            help='path to log config file')
+
+        parser.add_argument('--version',
+                            action='version',
+                            version=npd_version_info.version_string())
+
+        return parser
+
     def setup_logging(self):
         if self.args.logconfig:
             fp = os.path.expanduser(self.args.logconfig)
+
             if not os.path.exists(fp):
-                raise Exception("Unable to read logging config file at %s" %
-                                fp)
+                m = "Unable to read logging config file at %s" % fp
+                raise Exception(m)
+
             logging.config.fileConfig(fp)
+
         else:
-            logging.basicConfig(level=logging.DEBUG,
-                                format='%(asctime)s %(levelname)s %(name)s: '
-                                       '%(message)s')
+            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
+            logging.basicConfig(level=logging.DEBUG, format=m)
+
+    def _main(self, argv=None):
+        if argv is None:
+            argv = sys.argv[1:]
+
+        self.args = self.create_parser().parse_args()
+        return self._do_run()
+
+    def _do_run(self):
+        # NOTE(jamielennox): setup logging a bit late so it's not done until
+        # after a DaemonContext is created.
+        self.setup_logging()
+        return self.run()
+
+    @classmethod
+    def main(cls, argv=None):
+        return cls()._main(argv=argv)
+
+    def run(self):
+        """The app's primary function, override it with your logic."""
+        raise NotImplementedError()
+
+
+class NodepoolDaemonApp(NodepoolApp):
+
+    def create_parser(self):
+        parser = super(NodepoolDaemonApp, self).create_parser()
+
+        parser.add_argument('-p',
+                            dest='pidfile',
+                            help='path to pid file',
+                            default='/var/run/nodepool/%s.pid' % self.app_name)
+
+        parser.add_argument('-d',
+                            dest='nodaemon',
+                            action='store_true',
+                            help='do not run as a daemon')
+
+        return parser
+
+    def _do_run(self):
+        if self.args.nodaemon:
+            return super(NodepoolDaemonApp, self)._do_run()
+
+        else:
+            pid = pid_file_module.TimeoutPIDLockFile(self.args.pidfile, 10)
+
+            if is_pidfile_stale(pid):
+                pid.break_lock()
+
+            with daemon.DaemonContext(pidfile=pid):
+                return super(NodepoolDaemonApp, self)._do_run()
+
+    @classmethod
+    def main(cls, argv=None):
+        signal.signal(signal.SIGUSR2, stack_dump_handler)
+        return super(NodepoolDaemonApp, cls).main(argv)
diff --git a/nodepool/cmd/builder.py b/nodepool/cmd/builder.py
index 55d3a4370..1138cba5f 100644
--- a/nodepool/cmd/builder.py
+++ b/nodepool/cmd/builder.py
@@ -12,40 +12,28 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import argparse
-import extras
 import signal
 import sys
 
-import daemon
-
 from nodepool import builder
 import nodepool.cmd
 
 
-# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
-# instead it depends on lockfile-0.9.1 which uses pidfile.
-pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
+class NodePoolBuilderApp(nodepool.cmd.NodepoolDaemonApp):
 
-class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
+    app_name = 'nodepool-builder'
+    app_description = 'NodePool Image Builder.'
 
     def sigint_handler(self, signal, frame):
         self.nb.stop()
         sys.exit(0)
 
-    def parse_arguments(self):
-        parser = argparse.ArgumentParser(description='NodePool Image Builder.')
+    def create_parser(self):
+        parser = super(NodePoolBuilderApp, self).create_parser()
+
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
-        parser.add_argument('-l', dest='logconfig',
-                            help='path to log config file')
-        parser.add_argument('-p', dest='pidfile',
-                            help='path to pid file',
-                            default='/var/run/nodepool-builder/'
-                                    'nodepool-builder.pid')
-        parser.add_argument('-d', dest='nodaemon', action='store_true',
-                            help='do not run as a daemon')
         parser.add_argument('--build-workers', dest='build_workers',
                             default=1, help='number of build workers',
                             type=int)
@@ -55,16 +43,16 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
         parser.add_argument('--fake', action='store_true',
                             help='Do not actually run diskimage-builder '
                             '(used for testing)')
-        self.args = parser.parse_args()
+        return parser
 
-    def main(self):
-        self.setup_logging()
-        self.nb = builder.NodePoolBuilder(
-            self.args.config, self.args.build_workers,
-            self.args.upload_workers, self.args.fake)
+    def run(self):
+        self.nb = builder.NodePoolBuilder(self.args.config,
+                                          self.args.build_workers,
+                                          self.args.upload_workers,
+                                          self.args.fake)
 
         signal.signal(signal.SIGINT, self.sigint_handler)
-        signal.signal(signal.SIGUSR2, nodepool.cmd.stack_dump_handler)
+
         self.nb.start()
 
         while True:
@@ -72,15 +60,7 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolApp):
 
 
 def main():
-    app = NodePoolBuilderApp()
-    app.parse_arguments()
-
-    if app.args.nodaemon:
-        app.main()
-    else:
-        pid = pid_file_module.TimeoutPIDLockFile(app.args.pidfile, 10)
-        with daemon.DaemonContext(pidfile=pid):
-            app.main()
+    return NodePoolBuilderApp.main()
 
 
 if __name__ == "__main__":
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 608a9358a..294517f42 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -14,7 +14,6 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import argparse
 import logging.config
 import sys
 
@@ -23,7 +22,6 @@ from nodepool import nodepool
 from nodepool import status
 from nodepool import zk
 from nodepool.cmd import NodepoolApp
-from nodepool.version import version_info as npc_version_info
 from config_validator import ConfigValidator
 from prettytable import PrettyTable
 
@@ -32,19 +30,15 @@ log = logging.getLogger(__name__)
 
 class NodePoolCmd(NodepoolApp):
 
-    def parse_arguments(self):
-        parser = argparse.ArgumentParser(description='Node pool.')
+    def create_parser(self):
+        parser = super(NodePoolCmd, self).create_parser()
+
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
                             default='/etc/nodepool/secure.conf',
                             help='path to secure file')
-        parser.add_argument('-l', dest='logconfig',
-                            help='path to log config file')
-        parser.add_argument('--version', action='version',
-                            version=npc_version_info.version_string(),
-                            help='show version')
         parser.add_argument('--debug', dest='debug', action='store_true',
                             help='show DEBUG level logging')
 
@@ -89,7 +83,8 @@ class NodePoolCmd(NodepoolApp):
             help='place a node in the HOLD state')
         cmd_hold.set_defaults(func=self.hold)
         cmd_hold.add_argument('id', help='node id')
-        cmd_hold.add_argument('--reason', help='Reason this node is held',
+        cmd_hold.add_argument('--reason',
+                              help='Reason this node is held',
                               required=True)
 
         cmd_delete = subparsers.add_parser(
@@ -130,19 +125,21 @@ class NodePoolCmd(NodepoolApp):
             help='list the current node requests')
         cmd_request_list.set_defaults(func=self.request_list)
 
-        self.args = parser.parse_args()
+        return parser
 
     def setup_logging(self):
+        # NOTE(jamielennox): This should just be the same as other apps
         if self.args.debug:
-            logging.basicConfig(level=logging.DEBUG,
-                                format='%(asctime)s %(levelname)s %(name)s: '
-                                       '%(message)s')
+            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
+            logging.basicConfig(level=logging.DEBUG, format=m)
+
         elif self.args.logconfig:
-            NodepoolApp.setup_logging(self)
+            super(NodePoolCmd, self).setup_logging()
+
         else:
-            logging.basicConfig(level=logging.INFO,
-                                format='%(asctime)s %(levelname)s %(name)s: '
-                                       '%(message)s')
+            m = '%(asctime)s %(levelname)s %(name)s: %(message)s'
+            logging.basicConfig(level=logging.INFO, format=m)
+
             l = logging.getLogger('kazoo')
             l.setLevel(logging.WARNING)
 
@@ -319,7 +316,7 @@ class NodePoolCmd(NodepoolApp):
             if t:
                 t.join()
 
-    def main(self):
+    def run(self):
         self.zk = None
 
         # commands which do not need to start-up or parse config
@@ -344,11 +341,9 @@ class NodePoolCmd(NodepoolApp):
         if self.zk:
             self.zk.disconnect()
 
+
 def main():
-    npc = NodePoolCmd()
-    npc.parse_arguments()
-    npc.setup_logging()
-    return npc.main()
+    return NodePoolCmd.main()
 
 
 if __name__ == "__main__":
diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/nodepoold.py
index 6a623b9ad..00b7861bb 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/nodepoold.py
@@ -14,15 +14,6 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import argparse
-import daemon
-import errno
-import extras
-
-# as of python-daemon 1.6 it doesn't bundle pidlockfile anymore
-# instead it depends on lockfile-0.9.1 which uses pidfile.
-pid_file_module = extras.try_imports(['daemon.pidlockfile', 'daemon.pidfile'])
-
 import logging
 import os
 import sys
@@ -35,49 +26,21 @@ import nodepool.webapp
 log = logging.getLogger(__name__)
 
 
-def is_pidfile_stale(pidfile):
-    """ Determine whether a PID file is stale.
+class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
 
-        Return 'True' ("stale") if the contents of the PID file are
-        valid but do not match the PID of a currently-running process;
-        otherwise return 'False'.
+    app_name = 'nodepool'
 
-        """
-    result = False
+    def create_parser(self):
+        parser = super(NodePoolDaemon, self).create_parser()
 
-    pidfile_pid = pidfile.read_pid()
-    if pidfile_pid is not None:
-        try:
-            os.kill(pidfile_pid, 0)
-        except OSError as exc:
-            if exc.errno == errno.ESRCH:
-                # The specified PID does not exist
-                result = True
-
-    return result
-
-
-class NodePoolDaemon(nodepool.cmd.NodepoolApp):
-
-    def parse_arguments(self):
-        parser = argparse.ArgumentParser(description='Node pool.')
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
                             default='/etc/nodepool/secure.conf',
                             help='path to secure file')
-        parser.add_argument('-d', dest='nodaemon', action='store_true',
-                            help='do not run as a daemon')
-        parser.add_argument('-l', dest='logconfig',
-                            help='path to log config file')
-        parser.add_argument('-p', dest='pidfile',
-                            help='path to pid file',
-                            default='/var/run/nodepool/nodepool.pid')
         parser.add_argument('--no-webapp', action='store_true')
-        parser.add_argument('--version', dest='version', action='store_true',
-                            help='show version')
-        self.args = parser.parse_args()
+        return parser
 
     def exit_handler(self, signum, frame):
         self.pool.stop()
@@ -88,8 +51,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
     def term_handler(self, signum, frame):
         os._exit(0)
 
-    def main(self):
-        self.setup_logging()
+    def run(self):
         self.pool = nodepool.nodepool.NodePool(self.args.secure,
                                                self.args.config)
         if not self.args.no_webapp:
@@ -99,7 +61,6 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
         # For back compatibility:
         signal.signal(signal.SIGUSR1, self.exit_handler)
 
-        signal.signal(signal.SIGUSR2, nodepool.cmd.stack_dump_handler)
         signal.signal(signal.SIGTERM, self.term_handler)
 
         self.pool.start()
@@ -112,23 +73,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolApp):
 
 
 def main():
-    npd = NodePoolDaemon()
-    npd.parse_arguments()
-
-    if npd.args.version:
-        from nodepool.version import version_info as npd_version_info
-        print "Nodepool version: %s" % npd_version_info.version_string()
-        return(0)
-
-    pid = pid_file_module.TimeoutPIDLockFile(npd.args.pidfile, 10)
-    if is_pidfile_stale(pid):
-        pid.break_lock()
-
-    if npd.args.nodaemon:
-        npd.main()
-    else:
-        with daemon.DaemonContext(pidfile=pid):
-            npd.main()
+    return NodePoolDaemon.main()
 
 
 if __name__ == "__main__":

From e9272a8b98c81cb6173c5ed4f942a8b01e58d749 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 23 Mar 2017 08:25:09 -0400
Subject: [PATCH 141/309] Add check for valid zk attribute before disconnect

Change-Id: Iaecdd25c23d6524986adeb9a4edfffbbf2c014e5
---
 nodepool/nodepool.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index b68866669..decb0eb5c 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1338,7 +1338,8 @@ class NodePool(threading.Thread):
 
         if self.isAlive():
             self.join()
-        self.zk.disconnect()
+        if self.zk:
+            self.zk.disconnect()
         self.log.debug("Finished stopping")
 
     def loadConfig(self):

From 7c1c7ed0c6c26eb8d045b124600205d4a426c5f1 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 23 Mar 2017 08:37:06 -0400
Subject: [PATCH 142/309] Do not require secure file for nodepoold

We currently don't read anything from the secure file, so requiring
it seems pointless and confusing.

Change-Id: I1ab809d41bbfe709cd4ee34cbc9c481eed993868
---
 nodepool/cmd/nodepoold.py | 1 -
 nodepool/nodepool.py      | 3 ++-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/nodepoold.py
index 00b7861bb..ff490d1ee 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/nodepoold.py
@@ -37,7 +37,6 @@ class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
-                            default='/etc/nodepool/secure.conf',
                             help='path to secure file')
         parser.add_argument('--no-webapp', action='store_true')
         return parser
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index decb0eb5c..e67b7dd34 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1344,7 +1344,8 @@ class NodePool(threading.Thread):
 
     def loadConfig(self):
         config = nodepool_config.loadConfig(self.configfile)
-        nodepool_config.loadSecureConfig(config, self.securefile)
+        if self.securefile:
+            nodepool_config.loadSecureConfig(config, self.securefile)
         return config
 
     def reconfigureZooKeeper(self, config):

From 87e23755ee6529912843ac3783f11a8d04899adb Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 23 Mar 2017 09:02:06 -0400
Subject: [PATCH 143/309] Docs: Remove "jenkins" reference

Change-Id: I1111556bf4ce08606087fd1ae498df4d087b9f06
---
 doc/source/index.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/doc/source/index.rst b/doc/source/index.rst
index b6f9ee58b..ee9eea07e 100644
--- a/doc/source/index.rst
+++ b/doc/source/index.rst
@@ -4,7 +4,7 @@ Nodepool
 Nodepool is a system for launching single-use test nodes on demand
 based on images built with cached data.  It is designed to work with
 any OpenStack based cloud, and is part of a suite of tools that form a
-comprehensive test system including Jenkins and Zuul.
+comprehensive test system, including Zuul.
 
 Contents:
 

From 187d783620e3ff1e532383ca094922f555b4d0ae Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 23 Mar 2017 09:05:13 -0400
Subject: [PATCH 144/309] Docs: Clarify secure file usage

Making specifying the secure file optional (since it isn't used)
means we should clarify that in the docs.

Change-Id: Ie17cc08835861f3e6d4c9ca206797f2287769bd3
---
 doc/source/configuration.rst |  4 ----
 doc/source/installation.rst  | 16 +++++++++-------
 2 files changed, 9 insertions(+), 11 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index d5647325a..a3e8c0d09 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -3,10 +3,6 @@
 Configuration
 =============
 
-Nodepool reads its secure configuration from ``/etc/nodepool/secure.conf``
-by default. The secure file is a standard ini config file. Note that this
-file is currently unused, but may be in the future.
-
 Nodepool reads its configuration from ``/etc/nodepool/nodepool.yaml``
 by default.  The configuration file follows the standard YAML syntax
 with a number of sections defined with top level keys.  For example, a
diff --git a/doc/source/installation.rst b/doc/source/installation.rst
index 040c748d0..e36a79f6f 100644
--- a/doc/source/installation.rst
+++ b/doc/source/installation.rst
@@ -52,13 +52,15 @@ Or install directly from a git checkout with::
 Configuration
 -------------
 
-Nodepool has two required configuration files: secure.conf and
-nodepool.yaml, and an optional logging configuration file logging.conf.
-The secure.conf file is used to store nodepool configurations that contain
-sensitive data. The nodepool.yaml files is used to store all other
-configurations.
+Nodepool has one required configuration file, which defaults to
+``/etc/nodepool/nodepool.yaml``. This can be changed with the ``-c`` option.
+The Nodepool configuration file is described in :ref:`configuration`.
 
-The logging configuration file is in the standard python logging
+Although there is support for a secure file that is used to store nodepool
+configurations that contain sensitive data, this is currently not used, but
+may be in the future.
+
+There is an optional logging configuration file, specified with the ``-l``
+option. The logging configuration file is in the standard python logging
 `configuration file format
 <http://docs.python.org/2/library/logging.config.html#configuration-file-format>`_.
-The Nodepool configuration file is described in :ref:`configuration`.

From d0c25fc333270054699bb22b4793f659b1b7db4a Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 16 Mar 2017 14:24:14 -0400
Subject: [PATCH 145/309] Remove SSH support from nodepool

As we move forward with zuulv3, we no longer need to ability to SSH
into a node from nodepool-launcher. This means we can remove SSH
private keys from production server. Now we only keyscan the node and
pass the info to zuul to do SSH operations.

We also create out own socket now for paramiko, so we can better
control the exception handling.

Change-Id: I123631aa41fd3db374ef78cf97a8b8afde93f699
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh                            | 20 -----
 doc/source/configuration.rst                  | 20 -----
 nodepool/cmd/config_validator.py              |  3 -
 nodepool/config.py                            |  7 --
 nodepool/fakeprovider.py                      | 22 ------
 nodepool/nodepool.py                          | 16 +---
 nodepool/nodeutils.py                         | 79 +++++++++----------
 nodepool/sshclient.py                         | 73 -----------------
 .../tests/fixtures/config_validate/good.yaml  |  6 --
 .../fixtures/config_validate/yaml_error.yaml  |  4 -
 10 files changed, 39 insertions(+), 211 deletions(-)
 delete mode 100644 nodepool/sshclient.py

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 0f68b1be0..a1de6a4a8 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -14,7 +14,6 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-NODEPOOL_KEY=$HOME/.ssh/id_nodepool
 NODEPOOL_PUBKEY=$HOME/.ssh/id_nodepool.pub
 NODEPOOL_INSTALL=$HOME/nodepool-venv
 NODEPOOL_CACHE_GET_PIP=/opt/stack/cache/files/get-pip.py
@@ -74,12 +73,6 @@ function install_nodepool {
 # requires some globals from devstack, which *might* not be stable api
 # points. If things break, investigate changes in those globals first.
 
-function nodepool_create_keypairs {
-    if [[ ! -f $NODEPOOL_KEY ]]; then
-        ssh-keygen -f $NODEPOOL_KEY -P ""
-    fi
-}
-
 function nodepool_write_elements {
     sudo mkdir -p $(dirname $NODEPOOL_CONFIG)/elements/nodepool-setup/install.d
     cat > /tmp/01-nodepool-setup <<EOF
@@ -218,32 +211,22 @@ providers:
       - name: centos-7
         min-ram: 1024
         name-filter: 'nodepool'
-        username: devuser
-        private-key: $NODEPOOL_KEY
         config-drive: true
       - name: fedora-25
         min-ram: 1024
         name-filter: 'nodepool'
-        username: devuser
-        private-key: $NODEPOOL_KEY
         config-drive: true
       - name: ubuntu-precise
         min-ram: 512
         name-filter: 'nodepool'
-        username: devuser
-        private-key: $NODEPOOL_KEY
         config-drive: true
       - name: ubuntu-trusty
         min-ram: 512
         name-filter: 'nodepool'
-        username: devuser
-        private-key: $NODEPOOL_KEY
         config-drive: true
       - name: ubuntu-xenial
         min-ram: 512
         name-filter: 'nodepool'
-        username: devuser
-        private-key: $NODEPOOL_KEY
         config-drive: true
 
 diskimages:
@@ -370,9 +353,6 @@ EOF
 # Create configs
 # Setup custom flavor
 function configure_nodepool {
-    # build a dedicated keypair for nodepool to use with guests
-    nodepool_create_keypairs
-
     # write the nodepool config
     nodepool_write_config
 
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index d5647325a..dfabb4336 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -250,21 +250,13 @@ provider, the Nodepool image types are also defined (see
         - name: trusty
           min-ram: 8192
           name-filter: 'something to match'
-          username: jenkins
-          user-home: '/home/jenkins'
-          private-key: /var/lib/jenkins/.ssh/id_rsa
           meta:
               key: value
               key2: value
         - name: precise
           min-ram: 8192
-          username: jenkins
-          user-home: '/home/jenkins'
-          private-key: /var/lib/jenkins/.ssh/id_rsa
         - name: devstack-trusty
           min-ram: 30720
-          username: jenkins
-          private-key: /home/nodepool/.ssh/id_rsa
     - name: provider2
       username: 'username'
       password: 'password'
@@ -280,9 +272,6 @@ provider, the Nodepool image types are also defined (see
       images:
         - name: precise
           min-ram: 8192
-          username: jenkins
-          user-home: '/home/jenkins'
-          private-key: /var/lib/jenkins/.ssh/id_rsa
           meta:
               key: value
               key2: value
@@ -432,8 +421,6 @@ Example configuration::
       pause: False
       min-ram: 8192
       name-filter: 'something to match'
-      username: jenkins
-      private-key: /var/lib/jenkins/.ssh/id_rsa
       meta:
           key: value
           key2: value
@@ -462,13 +449,6 @@ Example configuration::
     When set to True, nodepool-builder will not upload the image to the
     provider.
 
-  ``username``
-    Nodepool expects that user to exist after running the script indicated by
-    ``setup``. Default ``jenkins``
-
-  ``private-key``
-    Default ``/var/lib/jenkins/.ssh/id_rsa``
-
   ``config-drive`` (boolean)
     Whether config drive should be used for the image.
 
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 8b39a725d..a7226ed87 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -36,9 +36,6 @@ class ConfigValidator:
             'name-filter': str,
             'diskimage': str,
             'meta': dict,
-            'username': str,
-            'user-home': str,
-            'private-key': str,
             'config-drive': bool,
         }
 
diff --git a/nodepool/config.py b/nodepool/config.py
index 49c1c6f09..1e2b2b21f 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -62,9 +62,6 @@ class Provider(ConfigValue):
         for k in new_images:
             if (new_images[k].min_ram != old_images[k].min_ram or
                 new_images[k].name_filter != old_images[k].name_filter or
-                new_images[k].username != old_images[k].username or
-                new_images[k].user_home != old_images[k].user_home or
-                new_images[k].private_key != old_images[k].private_key or
                 new_images[k].meta != old_images[k].meta or
                 new_images[k].config_drive != old_images[k].config_drive):
                 return False
@@ -207,11 +204,7 @@ def loadConfig(config_path):
             p.images[i.name] = i
             i.min_ram = image['min-ram']
             i.name_filter = image.get('name-filter', None)
-            i.username = image.get('username', 'jenkins')
-            i.user_home = image.get('user-home', '/home/jenkins')
             i.pause = bool(image.get('pause', False))
-            i.private_key = image.get('private-key',
-                                      '/var/lib/jenkins/.ssh/id_rsa')
             i.config_drive = image.get('config-drive', None)
 
             # This dict is expanded and used as custom properties when
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index 38737c93f..feae3d82b 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -271,25 +271,3 @@ class FakeFile(StringIO.StringIO):
         print "Wrote to %s:" % self.__path
         print self.getvalue()
         StringIO.StringIO.close(self)
-
-
-class FakeSFTPClient(object):
-    def open(self, path, mode):
-        return FakeFile(path)
-
-    def close(self):
-        pass
-
-
-class FakeSSHClient(object):
-    def __init__(self):
-        self.client = self
-
-    def ssh(self, description, cmd, output=False):
-        return True
-
-    def scp(self, src, dest):
-        return True
-
-    def open_sftp(self):
-        return FakeSFTPClient()
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 932709707..3a8eb1cb2 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -65,10 +65,6 @@ class LaunchNetworkException(Exception):
     statsd_key = 'error.network'
 
 
-class LaunchAuthException(Exception):
-    statsd_key = 'error.auth'
-
-
 class LaunchKeyscanException(Exception):
     statsd_key = 'error.keyscan'
 
@@ -354,18 +350,10 @@ class NodeLauncher(threading.Thread, StatsReporter):
                        (self._node.id, self._node.az, self._node.public_ipv4,
                         self._node.public_ipv6))
 
-        self.log.debug("Node %s testing ssh at ip: %s" %
-                       (self._node.id, preferred_ip))
-        host = utils.ssh_connect(
-            preferred_ip, config_image.username,
-            connect_kwargs=dict(key_filename=config_image.private_key),
-            timeout=self._provider.boot_timeout)
-        if not host:
-            raise LaunchAuthException("Unable to connect via ssh")
-
         # Get the SSH public keys for the new node and record in ZooKeeper
         self.log.debug("Gathering host keys for node %s", self._node.id)
-        host_keys = utils.keyscan(preferred_ip)
+        host_keys = utils.keyscan(
+            preferred_ip, timeout=self._provider.boot_timeout)
         if not host_keys:
             raise LaunchKeyscanException("Unable to gather host keys")
         self._node.host_keys = host_keys
diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index ba2c6c348..cd8b16bdc 100644
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -18,12 +18,11 @@
 
 import base64
 import errno
+import ipaddress
 import time
 import socket
 import logging
-from sshclient import SSHClient
 
-import fakeprovider
 import paramiko
 
 import exceptions
@@ -45,38 +44,7 @@ def iterate_timeout(max_seconds, exc, purpose):
     raise exc("Timeout waiting for %s" % purpose)
 
 
-def ssh_connect(ip, username, connect_kwargs={}, timeout=60):
-    if 'fake' in ip:
-        return fakeprovider.FakeSSHClient()
-    # HPcloud may return ECONNREFUSED or EHOSTUNREACH
-    # for about 30 seconds after adding the IP
-    for count in iterate_timeout(
-            timeout, exceptions.SSHTimeoutException, "ssh access"):
-        try:
-            client = SSHClient(ip, username, **connect_kwargs)
-            break
-        except paramiko.SSHException as e:
-            # NOTE(pabelanger): Currently paramiko only returns a string with
-            # error code. If we want finer granularity we'll need to regex the
-            # string.
-            log.exception('Failed to negotiate SSH: %s' % (e))
-        except paramiko.AuthenticationException as e:
-            # This covers the case where the cloud user is created
-            # after sshd is up (Fedora for example)
-            log.info('Auth exception for %s@%s. Try number %i...' %
-                     (username, ip, count))
-        except socket.error as e:
-            if e[0] not in [errno.ECONNREFUSED, errno.EHOSTUNREACH, None]:
-                log.exception(
-                    'Exception while testing ssh access to %s:' % ip)
-
-    out = client.ssh("test ssh access", "echo access okay", output=True)
-    if "access okay" in out:
-        return client
-    return None
-
-
-def keyscan(ip):
+def keyscan(ip, timeout=60):
     '''
     Scan the IP address for public SSH keys.
 
@@ -85,16 +53,43 @@ def keyscan(ip):
     if 'fake' in ip:
         return ['ssh-rsa FAKEKEY']
 
-    keys = []
+    if ipaddress.ip_address(unicode(ip)).version < 6:
+        family = socket.AF_INET
+        sockaddr = (ip, 22)
+    else:
+        family = socket.AF_INET6
+        sockaddr = (ip, 22, 0, 0)
 
+    keys = []
     key = None
-    try:
-        t = paramiko.transport.Transport('%s:%s' % (ip, "22"))
-        t.start_client()
-        key = t.get_remote_server_key()
-        t.close()
-    except Exception as e:
-        log.exception("ssh-keyscan failure: %s", e)
+    for count in iterate_timeout(
+            timeout, exceptions.SSHTimeoutException, "ssh access"):
+        sock = None
+        t = None
+        try:
+            sock = socket.socket(family, socket.SOCK_STREAM)
+            sock.connect(sockaddr)
+            t = paramiko.transport.Transport(sock)
+            t.start_client()
+            key = t.get_remote_server_key()
+            break
+        except socket.error as e:
+            if e[0] not in [errno.ECONNREFUSED, errno.EHOSTUNREACH, None]:
+                log.exception(
+                    'Exception with ssh access to %s:' % ip)
+        except Exception as e:
+            log.exception("ssh-keyscan failure: %s", e)
+        finally:
+            try:
+                if t:
+                    t.close()
+            except Exception as e:
+                log.exception('Exception closing paramiko: %s', e)
+            try:
+                if sock:
+                    sock.close()
+            except Exception as e:
+                log.exception('Exception closing socket: %s', e)
 
     # Paramiko, at this time, seems to return only the ssh-rsa key, so
     # only the single key is placed into the list.
diff --git a/nodepool/sshclient.py b/nodepool/sshclient.py
deleted file mode 100644
index 8be0c0089..000000000
--- a/nodepool/sshclient.py
+++ /dev/null
@@ -1,73 +0,0 @@
-#!/usr/bin/env python
-
-# Update the base image that is used for devstack VMs.
-
-# Copyright (C) 2011-2012 OpenStack LLC.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#    http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-# implied.
-#
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import paramiko
-
-
-class SSHClient(object):
-    def __init__(self, ip, username, password=None, pkey=None,
-                 key_filename=None, log=None, look_for_keys=False,
-                 allow_agent=False):
-        self.client = paramiko.SSHClient()
-        self.client.set_missing_host_key_policy(paramiko.WarningPolicy())
-        self.client.connect(ip, username=username, password=password,
-                            pkey=pkey, key_filename=key_filename,
-                            look_for_keys=look_for_keys,
-                            allow_agent=allow_agent)
-        self.log = log
-
-    def __del__(self):
-        self.client.close()
-
-    def ssh(self, action, command, get_pty=True, output=False):
-        if self.log:
-            self.log.debug("*** START to %s" % action)
-            self.log.debug("executing: %s" % command)
-        stdin, stdout, stderr = self.client.exec_command(
-            command, get_pty=get_pty)
-        out = ''
-        err = ''
-        for line in stdout:
-            if output:
-                out += line
-            if self.log:
-                self.log.info(line.rstrip())
-        for line in stderr:
-            if output:
-                err += line
-            if self.log:
-                self.log.error(line.rstrip())
-        ret = stdout.channel.recv_exit_status()
-        if ret:
-            if self.log:
-                self.log.debug("*** FAILED to %s (%s)" % (action, ret))
-            raise Exception(
-                "Unable to %s\ncommand: %s\nstdout: %s\nstderr: %s"
-                % (action, command, out, err))
-        if self.log:
-            self.log.debug("*** SUCCESSFULLY %s" % action)
-        return out
-
-    def scp(self, source, dest):
-        if self.log:
-            self.log.info("Copy %s -> %s" % (source, dest))
-        ftp = self.client.open_sftp()
-        ftp.put(source, dest)
-        ftp.close()
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 9680f1da5..4689b4a82 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -41,9 +41,6 @@ providers:
     images:
       - name: trusty
         min-ram: 8192
-        username: jenkins
-        user-home: /home/jenkins
-        private-key: /home/nodepool/.ssh/id_rsa
   - name: cloud2
     region-name: 'chocolate'
     service-type: 'compute'
@@ -59,9 +56,6 @@ providers:
       - name: trusty
         pause: False
         min-ram: 8192
-        username: jenkins
-        user-home: /home/jenkins
-        private-key: /home/nodepool/.ssh/id_rsa
 
 diskimages:
   - name: trusty
diff --git a/nodepool/tests/fixtures/config_validate/yaml_error.yaml b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
index ee49839db..c2a0c018d 100644
--- a/nodepool/tests/fixtures/config_validate/yaml_error.yaml
+++ b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
@@ -39,8 +39,6 @@ providers:
     images:
       - name: trusty
         min-ram: 8192
-        username: jenkins
-        private-key: /home/nodepool/.ssh/id_rsa
   - name: cloud2
     region-name: 'chocolate'
     service-type: 'compute'
@@ -55,8 +53,6 @@ providers:
     images:
       - name: trusty
         min-ram: 8192
-        username: jenkins
-        private-key: /home/nodepool/.ssh/id_rsa
 
 diskimages:
   - name: trusty

From f7289a5acade10529325897f636c0c42a9bcbfb9 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 20 Mar 2017 14:59:34 -0400
Subject: [PATCH 146/309] Remove legacy openstack settings from nodepool.yaml

Before os-client-config and shade, we would include cloud credentials
in nodepool.yaml. But now comes the time where we can remove these
settings in favor of using a local clouds.yaml file.

Change-Id: Ie7af6dcd56dc48787f280816de939d07800e9d11
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 doc/source/configuration.rst                  | 23 -------------------
 nodepool/cmd/config_validator.py              |  7 ------
 nodepool/config.py                            | 16 +------------
 nodepool/provider_manager.py                  |  2 +-
 nodepool/tests/__init__.py                    |  4 ++++
 nodepool/tests/fixtures/clouds.yaml           |  7 ++++++
 .../tests/fixtures/config_validate/good.yaml  | 12 ----------
 .../fixtures/config_validate/yaml_error.yaml  | 12 ----------
 nodepool/tests/fixtures/integration.yaml      |  4 ----
 nodepool/tests/fixtures/leaked_node.yaml      |  4 ----
 nodepool/tests/fixtures/node.yaml             |  5 +---
 nodepool/tests/fixtures/node_az.yaml          |  4 ----
 nodepool/tests/fixtures/node_cmd.yaml         |  8 -------
 .../tests/fixtures/node_disabled_label.yaml   |  4 ----
 .../tests/fixtures/node_diskimage_fail.yaml   |  4 ----
 .../tests/fixtures/node_diskimage_pause.yaml  |  4 ----
 .../fixtures/node_image_upload_pause.yaml     |  4 ----
 nodepool/tests/fixtures/node_ipv6.yaml        | 12 ----------
 .../tests/fixtures/node_label_provider.yaml   |  8 -------
 .../tests/fixtures/node_launch_retry.yaml     |  5 +---
 .../tests/fixtures/node_lost_requests.yaml    |  4 ----
 nodepool/tests/fixtures/node_net_name.yaml    |  4 ----
 nodepool/tests/fixtures/node_quota.yaml       |  4 ----
 nodepool/tests/fixtures/node_two_image.yaml   |  4 ----
 .../tests/fixtures/node_two_image_remove.yaml |  4 ----
 .../tests/fixtures/node_two_provider.yaml     |  8 -------
 .../fixtures/node_two_provider_remove.yaml    |  8 -------
 nodepool/tests/fixtures/node_upload_fail.yaml |  8 -------
 nodepool/tests/fixtures/node_vhd.yaml         |  4 ----
 .../tests/fixtures/node_vhd_and_qcow2.yaml    |  8 -------
 nodepool/tests/test_shade_integration.py      |  5 ----
 tools/fake-dib.yaml                           |  4 ----
 tools/fake.yaml                               |  4 ----
 tools/zuul-nodepool-integration/clouds.yaml   |  7 ++++++
 tools/zuul-nodepool-integration/nodepool.yaml |  2 +-
 tools/zuul-nodepool-integration/start.sh      |  2 ++
 36 files changed, 25 insertions(+), 204 deletions(-)
 create mode 100644 nodepool/tests/fixtures/clouds.yaml
 create mode 100644 tools/zuul-nodepool-integration/clouds.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index dfabb4336..5c641036c 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -258,12 +258,6 @@ provider, the Nodepool image types are also defined (see
         - name: devstack-trusty
           min-ram: 30720
     - name: provider2
-      username: 'username'
-      password: 'password'
-      auth-url: 'http://auth.provider2.example.com/'
-      project-name: 'project'
-      service-type: 'compute'
-      service-name: 'compute'
       region-name: 'region1'
       max-servers: 96
       rate: 1.0
@@ -295,17 +289,6 @@ provider, the Nodepool image types are also defined (see
   portions of the cloud configuration directly in ``nodepool.yaml``. Not all
   of the options settable via ``clouds.yaml`` are available.
 
-  ``username``
-
-  ``password``
-
-  ``project-id`` OR ``project-name``
-    Some clouds may refer to the ``project-id`` as ``tenant-id``.
-    Some clouds may refer to the ``project-name`` as ``tenant-name``.
-
-  ``auth-url``
-    Keystone URL.
-
   ``image-type``
     Specifies the image type supported by this provider.  The disk images built
     by diskimage-builder will output an image for each ``image-type`` specified
@@ -370,12 +353,6 @@ provider, the Nodepool image types are also defined (see
     Timeout for the OpenStack API calls client in seconds. Prefer setting
     this in `clouds.yaml`
 
-  ``service-type`` (compatability)
-    Prefer setting this in `clouds.yaml`.
-
-  ``service-name`` (compatability)
-    Prefer setting this in `clouds.yaml`.
-
   ``region-name``
 
   ``hostname-format``
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index a7226ed87..43782f260 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -52,16 +52,9 @@ class ConfigValidator:
         providers = {
             'name': str,
             'region-name': str,
-            'service-type': str,
-            'service-name': str,
             'availability-zones': [str],
             'keypair': str,
             'cloud': str,
-            'username': str,
-            'password': str,
-            'auth-url': str,
-            'project-id': str,
-            'project-name': str,
             'max-servers': int,
             'max-concurrency': int,
             'pool': str,  # Ignored, but kept for backwards compat
diff --git a/nodepool/config.py b/nodepool/config.py
index 1e2b2b21f..cf6df6b64 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -276,25 +276,11 @@ def _cloudKwargsFromProvider(provider):
         if arg in provider:
             cloud_kwargs[arg] = provider[arg]
 
-    # These are named from back when we only talked to Nova. They're
-    # actually compute service related
-    if 'service-type' in provider:
-        cloud_kwargs['compute-service-type'] = provider['service-type']
-    if 'service-name' in provider:
-        cloud_kwargs['compute-service-name'] = provider['service-name']
-
-    auth_kwargs = {}
-    for auth_key in (
-            'username', 'password', 'auth-url', 'project-id', 'project-name'):
-        if auth_key in provider:
-            auth_kwargs[auth_key] = provider[auth_key]
-
-    cloud_kwargs['auth'] = auth_kwargs
     return cloud_kwargs
 
 
 def _get_one_cloud(cloud_config, cloud_kwargs):
     '''This is a function to allow for overriding it in tests.'''
-    if cloud_kwargs.get('auth', {}).get('auth-url', '') == 'fake':
+    if cloud_kwargs.get('cloud') == 'fake':
         return fakeprovider.fake_get_one_cloud(cloud_config, cloud_kwargs)
     return cloud_config.get_one_cloud(**cloud_kwargs)
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 217d4b742..9624a6ddf 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -45,7 +45,7 @@ class NotFound(Exception):
 
 
 def get_provider_manager(provider, use_taskmanager):
-    if (provider.cloud_config.get_auth_args().get('auth_url') == 'fake'):
+    if (provider.cloud_config.name == 'fake'):
         return FakeProviderManager(provider, use_taskmanager)
     else:
         return ProviderManager(provider, use_taskmanager)
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index cf4ea90e5..ac259ee63 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -153,6 +153,10 @@ class BaseTestCase(testtools.TestCase):
         self.useFixture(fixtures.MonkeyPatch(
             'nodepool.nodepool._get_one_cloud',
             fakeprovider.fake_get_one_cloud))
+        clouds_path = os.path.join(os.path.dirname(__file__),
+                                   'fixtures', 'clouds.yaml')
+        self.useFixture(fixtures.MonkeyPatch(
+            'os_client_config.config.CONFIG_FILES', [clouds_path]))
 
     def wait_for_threads(self):
         # Wait until all transient threads (node launches, deletions,
diff --git a/nodepool/tests/fixtures/clouds.yaml b/nodepool/tests/fixtures/clouds.yaml
new file mode 100644
index 000000000..360f2686d
--- /dev/null
+++ b/nodepool/tests/fixtures/clouds.yaml
@@ -0,0 +1,7 @@
+clouds:
+  fake:
+    auth:
+      usernmae: 'fake'
+      password: 'fake'
+      project_id: 'fake'
+      auth_url: 'fake'
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 4689b4a82..6119a2b88 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -27,12 +27,6 @@ labels:
 providers:
   - name: cloud1
     region-name: 'vanilla'
-    service-type: 'compute'
-    service-name: 'cloudServersOpenStack'
-    username: '<%= username %>'
-    password: '<%= password %>'
-    project-id: '<%= project %>'
-    auth-url: 'https://identity.example.com/v2.0/'
     boot-timeout: 120
     max-servers: 184
     max-concurrency: 10
@@ -43,12 +37,6 @@ providers:
         min-ram: 8192
   - name: cloud2
     region-name: 'chocolate'
-    service-type: 'compute'
-    service-name: 'cloudServersOpenStack'
-    username: '<%= username %>'
-    password: '<%= password %>'
-    project-id: '<%= project %>'
-    auth-url: 'https://identity.example.com/v2.0/'
     boot-timeout: 120
     max-servers: 184
     rate: 0.001
diff --git a/nodepool/tests/fixtures/config_validate/yaml_error.yaml b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
index c2a0c018d..c78b2a4c0 100644
--- a/nodepool/tests/fixtures/config_validate/yaml_error.yaml
+++ b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
@@ -27,12 +27,6 @@ labels:
 providers:
   - name: cloud1
     region-name: 'vanilla'
-    service-type: 'compute'
-    service-name: 'cloudServersOpenStack'
-    username: '<%= username %>'
-    password: '<%= password %>'
-    project-id: '<%= project %>'
-    auth-url: 'https://identity.example.com/v2.0/'
     boot-timeout: 120
     max-servers: 184
     rate: 0.001
@@ -41,12 +35,6 @@ providers:
         min-ram: 8192
   - name: cloud2
     region-name: 'chocolate'
-    service-type: 'compute'
-    service-name: 'cloudServersOpenStack'
-    username: '<%= username %>'
-    password: '<%= password %>'
-    project-id: '<%= project %>'
-    auth-url: 'https://identity.example.com/v2.0/'
     boot-timeout: 120
     max-servers: 184
     rate: 0.001
diff --git a/nodepool/tests/fixtures/integration.yaml b/nodepool/tests/fixtures/integration.yaml
index 64883457a..d28ad65b2 100644
--- a/nodepool/tests/fixtures/integration.yaml
+++ b/nodepool/tests/fixtures/integration.yaml
@@ -18,10 +18,6 @@ providers:
   - name: real-provider
     region-name: real-region
     keypair: 'if-present-use-this-keypair'
-    username: 'real'
-    password: 'real'
-    auth-url: 'real'
-    project-id: 'real'
     max-servers: 96
     pool: 'real'
     networks:
diff --git a/nodepool/tests/fixtures/leaked_node.yaml b/nodepool/tests/fixtures/leaked_node.yaml
index 9a39b048f..5a347dacd 100644
--- a/nodepool/tests/fixtures/leaked_node.yaml
+++ b/nodepool/tests/fixtures/leaked_node.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 607ec3ab9..6c47b8f89 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -19,14 +19,11 @@ labels:
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
     availability-zones:
       - az1
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index badd7da32..f8810b066 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index f22747445..e81a0615d 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -24,10 +24,6 @@ labels:
 providers:
   - name: fake-provider1
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -42,10 +38,6 @@ providers:
           key2: value
   - name: fake-provider2
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 82512f45a..6f99283b2 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index 597f767dc..36657ae25 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index fa55ba1a2..6d2119fe8 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -26,10 +26,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_image_upload_pause.yaml b/nodepool/tests/fixtures/node_image_upload_pause.yaml
index 8b6d35d16..0787e705c 100644
--- a/nodepool/tests/fixtures/node_image_upload_pause.yaml
+++ b/nodepool/tests/fixtures/node_image_upload_pause.yaml
@@ -26,10 +26,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index 94c6fb780..367812cbf 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -33,10 +33,6 @@ providers:
   - name: fake-provider1
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -54,10 +50,6 @@ providers:
   - name: fake-provider2
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -74,10 +66,6 @@ providers:
   - name: fake-provider3
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_label_provider.yaml b/nodepool/tests/fixtures/node_label_provider.yaml
index a94e46b46..d04a13d10 100644
--- a/nodepool/tests/fixtures/node_label_provider.yaml
+++ b/nodepool/tests/fixtures/node_label_provider.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -40,10 +36,6 @@ providers:
   - name: fake-provider2
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
index 56ea49bbf..914d9f080 100644
--- a/nodepool/tests/fixtures/node_launch_retry.yaml
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -19,12 +19,9 @@ labels:
 
 providers:
   - name: fake-provider
+    cloud: 'fake'
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     launch-retries: 2
diff --git a/nodepool/tests/fixtures/node_lost_requests.yaml b/nodepool/tests/fixtures/node_lost_requests.yaml
index 476e474ef..5f78e8a6b 100644
--- a/nodepool/tests/fixtures/node_lost_requests.yaml
+++ b/nodepool/tests/fixtures/node_lost_requests.yaml
@@ -23,10 +23,6 @@ providers:
     availability-zones:
       - az1
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index b00e3ebd5..7b5625796 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota.yaml
index d984c061b..a9cc4b1d0 100644
--- a/nodepool/tests/fixtures/node_quota.yaml
+++ b/nodepool/tests/fixtures/node_quota.yaml
@@ -23,10 +23,6 @@ providers:
     availability-zones:
       - az1
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 2
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_image.yaml b/nodepool/tests/fixtures/node_two_image.yaml
index 3c2ccb458..7cf86080d 100644
--- a/nodepool/tests/fixtures/node_two_image.yaml
+++ b/nodepool/tests/fixtures/node_two_image.yaml
@@ -26,10 +26,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_image_remove.yaml b/nodepool/tests/fixtures/node_two_image_remove.yaml
index 18dbf7cbc..5c7900f7c 100644
--- a/nodepool/tests/fixtures/node_two_image_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_image_remove.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_provider.yaml b/nodepool/tests/fixtures/node_two_provider.yaml
index b8a7a4d42..296f42e8c 100644
--- a/nodepool/tests/fixtures/node_two_provider.yaml
+++ b/nodepool/tests/fixtures/node_two_provider.yaml
@@ -22,10 +22,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -41,10 +37,6 @@ providers:
   - name: fake-provider2
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_provider_remove.yaml b/nodepool/tests/fixtures/node_two_provider_remove.yaml
index f4d96cdd4..d599e189b 100644
--- a/nodepool/tests/fixtures/node_two_provider_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_provider_remove.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -40,10 +36,6 @@ providers:
   - name: fake-provider2
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index 3c2a3f86b..c862ddd4b 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -22,10 +22,6 @@ providers:
   - name: fake-provider1
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 2
     pool: 'fake'
     networks:
@@ -42,10 +38,6 @@ providers:
   - name: fake-provider2
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 2
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index 3a3c6f1b8..d6fd50b84 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -21,10 +21,6 @@ providers:
   - name: fake-provider
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     pool: 'fake'
     image-type: vhd
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index 5198a3d45..c6e59f4a4 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -22,10 +22,6 @@ providers:
   - name: fake-provider1
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 2
     pool: 'fake'
     image-type: vhd
@@ -42,10 +38,6 @@ providers:
   - name: fake-provider2
     region-name: fake-region
     keypair: 'if-present-use-this-keypair'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 2
     pool: 'fake'
     image-type: qcow2
diff --git a/nodepool/tests/test_shade_integration.py b/nodepool/tests/test_shade_integration.py
index d6bf7bae5..d8840d9d9 100644
--- a/nodepool/tests/test_shade_integration.py
+++ b/nodepool/tests/test_shade_integration.py
@@ -50,11 +50,6 @@ class TestShadeIntegration(tests.IntegrationTestCase):
         pm = provider_manager.ProviderManager(
             config.providers['real-provider'], use_taskmanager=False)
         pm.start()
-        auth_data = {'username': 'real',
-                     'project_id': 'real',
-                     'password': 'real',
-                     'auth_url': 'real'}
-        self.assertEqual(pm._client.auth, auth_data)
         self.assertEqual(pm._client.region_name, 'real-region')
 
     def test_nodepool_occ_config(self):
diff --git a/tools/fake-dib.yaml b/tools/fake-dib.yaml
index eb36c426e..17ac858a0 100644
--- a/tools/fake-dib.yaml
+++ b/tools/fake-dib.yaml
@@ -27,10 +27,6 @@ providers:
   - name: fake-provider
     keypair: 'if-present-use-this-keypair'
     region-name: 'fake-region'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     images:
       - name: fake-dib-image
diff --git a/tools/fake.yaml b/tools/fake.yaml
index b93c53eb5..568f29f8a 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -35,10 +35,6 @@ providers:
   - name: fake-provider
     keypair: 'if-present-use-this-keypair'
     region-name: 'fake-region'
-    username: 'fake'
-    password: 'fake'
-    auth-url: 'fake'
-    project-id: 'fake'
     max-servers: 96
     images:
       - name: fake-nodepool
diff --git a/tools/zuul-nodepool-integration/clouds.yaml b/tools/zuul-nodepool-integration/clouds.yaml
new file mode 100644
index 000000000..360f2686d
--- /dev/null
+++ b/tools/zuul-nodepool-integration/clouds.yaml
@@ -0,0 +1,7 @@
+clouds:
+  fake:
+    auth:
+      usernmae: 'fake'
+      password: 'fake'
+      project_id: 'fake'
+      auth_url: 'fake'
diff --git a/tools/zuul-nodepool-integration/nodepool.yaml b/tools/zuul-nodepool-integration/nodepool.yaml
index 7e34f3b6b..362b066a4 100644
--- a/tools/zuul-nodepool-integration/nodepool.yaml
+++ b/tools/zuul-nodepool-integration/nodepool.yaml
@@ -24,8 +24,8 @@ labels:
 
 providers:
   - name: fake-provider
+    cloud: fake
     max-servers: 96
-    auth-url: 'fake'
     images:
       - name: fake-nodepool
         min-ram: 8192
diff --git a/tools/zuul-nodepool-integration/start.sh b/tools/zuul-nodepool-integration/start.sh
index c5db64e6c..0f5e6bedf 100755
--- a/tools/zuul-nodepool-integration/start.sh
+++ b/tools/zuul-nodepool-integration/start.sh
@@ -5,5 +5,7 @@ cd "$(dirname "$0")"
 mkdir -p /tmp/nodepool/images
 mkdir -p /tmp/nodepool/log
 
+export OS_CLIENT_CONFIG_FILE=`pwd`/clouds.yaml
+
 nodepool-builder -c `pwd`/nodepool.yaml -l `pwd`/builder-logging.conf -p /tmp/nodepool/builder.pid --fake
 nodepoold -c `pwd`/nodepool.yaml -s `pwd`/secure.conf -l `pwd`/launcher-logging.conf -p /tmp/nodepool/launcher.pid

From c5c5be30f9f4f67ab391ae439dc127f735c6e370 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 20 Mar 2017 16:08:27 -0400
Subject: [PATCH 147/309] Remove keypair from provider section

This was an unused setting which was left over from when we supported
snapshots.

Change-Id: I940eaa57f5dad8761752d767c0dfa80f2a25c787
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 doc/source/configuration.rst                  |  3 ---
 nodepool/cmd/config_validator.py              |  1 -
 nodepool/config.py                            |  1 -
 nodepool/fakeprovider.py                      | 13 -----------
 nodepool/provider_manager.py                  | 22 -------------------
 nodepool/tests/fixtures/integration.yaml      |  1 -
 nodepool/tests/fixtures/integration_occ.yaml  |  1 -
 nodepool/tests/fixtures/leaked_node.yaml      |  1 -
 nodepool/tests/fixtures/node.yaml             |  1 -
 nodepool/tests/fixtures/node_az.yaml          |  1 -
 nodepool/tests/fixtures/node_cmd.yaml         |  2 --
 .../tests/fixtures/node_disabled_label.yaml   |  1 -
 .../tests/fixtures/node_diskimage_fail.yaml   |  1 -
 .../tests/fixtures/node_diskimage_pause.yaml  |  1 -
 .../fixtures/node_image_upload_pause.yaml     |  1 -
 nodepool/tests/fixtures/node_ipv6.yaml        |  3 ---
 .../tests/fixtures/node_label_provider.yaml   |  2 --
 .../tests/fixtures/node_launch_retry.yaml     |  1 -
 .../tests/fixtures/node_lost_requests.yaml    |  1 -
 nodepool/tests/fixtures/node_net_name.yaml    |  1 -
 nodepool/tests/fixtures/node_quota.yaml       |  1 -
 nodepool/tests/fixtures/node_two_image.yaml   |  1 -
 .../tests/fixtures/node_two_image_remove.yaml |  1 -
 .../tests/fixtures/node_two_provider.yaml     |  2 --
 .../fixtures/node_two_provider_remove.yaml    |  2 --
 nodepool/tests/fixtures/node_upload_fail.yaml |  2 --
 nodepool/tests/fixtures/node_vhd.yaml         |  1 -
 .../tests/fixtures/node_vhd_and_qcow2.yaml    |  2 --
 tools/fake-dib.yaml                           |  1 -
 tools/fake.yaml                               |  1 -
 30 files changed, 73 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 5c641036c..fb9bbde7b 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -337,9 +337,6 @@ provider, the Nodepool image types are also defined (see
 
     Default 3.
 
-  ``keypair``
-    Default None
-
   ``networks`` (dict)
     Specify custom Neutron networks that get attached to each
     node. Specify the ``name`` of the network (a string).
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 43782f260..f9cb9c565 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -53,7 +53,6 @@ class ConfigValidator:
             'name': str,
             'region-name': str,
             'availability-zones': [str],
-            'keypair': str,
             'cloud': str,
             'max-servers': int,
             'max-concurrency': int,
diff --git a/nodepool/config.py b/nodepool/config.py
index cf6df6b64..6abf49765 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -164,7 +164,6 @@ def loadConfig(config_path):
         p.region_name = provider.get('region-name')
         p.max_servers = provider['max-servers']
         p.max_concurrency = provider.get('max-concurrency', -1)
-        p.keypair = provider.get('keypair', None)
         p.pool = provider.get('pool', None)
         p.rate = provider.get('rate', 1.0)
         p.api_timeout = provider.get('api-timeout')
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index feae3d82b..8dda1b2d8 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -29,7 +29,6 @@ class Dummy(object):
     IMAGE = 'Image'
     INSTANCE = 'Instance'
     FLAVOR = 'Flavor'
-    KEYPAIR = 'Keypair'
     LOCATION = 'Server.Location'
 
     def __init__(self, kind, **kw):
@@ -96,7 +95,6 @@ class FakeOpenStackCloud(object):
             Dummy(Dummy.FLAVOR, id='f2', ram=8192, name='Unreal Flavor'),
         ]
         self._server_list = []
-        self._keypair_list = []
 
     def _get(self, name_or_id, instance_list):
         self.log.debug("Get %s in %s" % (name_or_id, repr(instance_list)))
@@ -205,17 +203,6 @@ class FakeOpenStackCloud(object):
     def list_flavors(self, get_extra=False):
         return self._flavor_list
 
-    def create_keypair(self, name, public_key):
-        return self._create(
-            self._image_list, instance_type=Dummy.KEYPAIR,
-            name=name, public_key=public_key)
-
-    def list_keypairs(self):
-        return self._keypair_list
-
-    def delete_keypair(self, name):
-        self._delete(name, self._keypair_list)
-
     def get_openstack_vars(self, server):
         server.public_v4 = 'fake'
         server.public_v6 = 'fake'
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 9624a6ddf..7cc3aab5a 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -17,7 +17,6 @@
 # limitations under the License.
 
 import logging
-import paramiko
 from contextlib import contextmanager
 
 import shade
@@ -166,22 +165,6 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             return self._client.delete_image(name)
 
-    def addKeypair(self, name):
-        key = paramiko.RSAKey.generate(2048)
-        public_key = key.get_name() + ' ' + key.get_base64()
-        with shade_inner_exceptions():
-            self._client.create_keypair(name=name, public_key=public_key)
-        return key
-
-    def listKeypairs(self):
-        with shade_inner_exceptions():
-            keypairs = self._client.list_keypairs()
-        return keypairs
-
-    def deleteKeypair(self, name):
-        with shade_inner_exceptions():
-            return self._client.delete_keypair(name=name)
-
     def createServer(self, name, min_ram, image_id=None, image_name=None,
                      az=None, key_name=None, name_filter=None,
                      config_drive=None, nodepool_node_id=None,
@@ -344,11 +327,6 @@ class ProviderManager(object):
         if not server:
             raise NotFound()
 
-        key_name = server.get('key_name')
-        if key_name and key_name != self.provider.keypair:
-            with shade_inner_exceptions():
-                self._client.delete_keypair(name=server['key_name'])
-
         self.log.debug('Deleting server %s' % server_id)
         self.deleteServer(server_id)
 
diff --git a/nodepool/tests/fixtures/integration.yaml b/nodepool/tests/fixtures/integration.yaml
index d28ad65b2..1b4e1ae76 100644
--- a/nodepool/tests/fixtures/integration.yaml
+++ b/nodepool/tests/fixtures/integration.yaml
@@ -17,7 +17,6 @@ labels:
 providers:
   - name: real-provider
     region-name: real-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'real'
     networks:
diff --git a/nodepool/tests/fixtures/integration_occ.yaml b/nodepool/tests/fixtures/integration_occ.yaml
index d73abf51e..7076859d3 100644
--- a/nodepool/tests/fixtures/integration_occ.yaml
+++ b/nodepool/tests/fixtures/integration_occ.yaml
@@ -17,7 +17,6 @@ labels:
 providers:
   - name: real-provider
     cloud: real-cloud
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'real'
     networks:
diff --git a/nodepool/tests/fixtures/leaked_node.yaml b/nodepool/tests/fixtures/leaked_node.yaml
index 5a347dacd..c1a438a11 100644
--- a/nodepool/tests/fixtures/leaked_node.yaml
+++ b/nodepool/tests/fixtures/leaked_node.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 6c47b8f89..4d9c2ff21 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -23,7 +23,6 @@ providers:
     region-name: fake-region
     availability-zones:
       - az1
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index f8810b066..a128b4e66 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index e81a0615d..c8d0b4f36 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -23,7 +23,6 @@ labels:
 
 providers:
   - name: fake-provider1
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -37,7 +36,6 @@ providers:
           key: value
           key2: value
   - name: fake-provider2
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 6f99283b2..38a1bdc81 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index 36657ae25..fefe56c0b 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index 6d2119fe8..735780cf6 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -25,7 +25,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_image_upload_pause.yaml b/nodepool/tests/fixtures/node_image_upload_pause.yaml
index 0787e705c..6a4b710f3 100644
--- a/nodepool/tests/fixtures/node_image_upload_pause.yaml
+++ b/nodepool/tests/fixtures/node_image_upload_pause.yaml
@@ -25,7 +25,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index 367812cbf..e6756d607 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -32,7 +32,6 @@ labels:
 providers:
   - name: fake-provider1
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -49,7 +48,6 @@ providers:
 
   - name: fake-provider2
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -65,7 +63,6 @@ providers:
 
   - name: fake-provider3
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_label_provider.yaml b/nodepool/tests/fixtures/node_label_provider.yaml
index d04a13d10..45816373e 100644
--- a/nodepool/tests/fixtures/node_label_provider.yaml
+++ b/nodepool/tests/fixtures/node_label_provider.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -35,7 +34,6 @@ providers:
           key2: value
   - name: fake-provider2
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
index 914d9f080..c475f2647 100644
--- a/nodepool/tests/fixtures/node_launch_retry.yaml
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -21,7 +21,6 @@ providers:
   - name: fake-provider
     cloud: 'fake'
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     launch-retries: 2
diff --git a/nodepool/tests/fixtures/node_lost_requests.yaml b/nodepool/tests/fixtures/node_lost_requests.yaml
index 5f78e8a6b..27e04ad8f 100644
--- a/nodepool/tests/fixtures/node_lost_requests.yaml
+++ b/nodepool/tests/fixtures/node_lost_requests.yaml
@@ -22,7 +22,6 @@ providers:
     region-name: fake-region
     availability-zones:
       - az1
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index 7b5625796..fc92874ba 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota.yaml
index a9cc4b1d0..3f1e5455d 100644
--- a/nodepool/tests/fixtures/node_quota.yaml
+++ b/nodepool/tests/fixtures/node_quota.yaml
@@ -22,7 +22,6 @@ providers:
     region-name: fake-region
     availability-zones:
       - az1
-    keypair: 'if-present-use-this-keypair'
     max-servers: 2
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_image.yaml b/nodepool/tests/fixtures/node_two_image.yaml
index 7cf86080d..08ceebc11 100644
--- a/nodepool/tests/fixtures/node_two_image.yaml
+++ b/nodepool/tests/fixtures/node_two_image.yaml
@@ -25,7 +25,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_image_remove.yaml b/nodepool/tests/fixtures/node_two_image_remove.yaml
index 5c7900f7c..cc0af550e 100644
--- a/nodepool/tests/fixtures/node_two_image_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_image_remove.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_provider.yaml b/nodepool/tests/fixtures/node_two_provider.yaml
index 296f42e8c..f3284a937 100644
--- a/nodepool/tests/fixtures/node_two_provider.yaml
+++ b/nodepool/tests/fixtures/node_two_provider.yaml
@@ -21,7 +21,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -36,7 +35,6 @@ providers:
           key2: value
   - name: fake-provider2
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_two_provider_remove.yaml b/nodepool/tests/fixtures/node_two_provider_remove.yaml
index d599e189b..8ad25fabe 100644
--- a/nodepool/tests/fixtures/node_two_provider_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_provider_remove.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
@@ -35,7 +34,6 @@ providers:
           key2: value
   - name: fake-provider2
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index c862ddd4b..87cae944b 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -21,7 +21,6 @@ labels:
 providers:
   - name: fake-provider1
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 2
     pool: 'fake'
     networks:
@@ -37,7 +36,6 @@ providers:
           SHOULD_FAIL: 'true'
   - name: fake-provider2
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 2
     pool: 'fake'
     networks:
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index d6fd50b84..896cca82b 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -20,7 +20,6 @@ labels:
 providers:
   - name: fake-provider
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 96
     pool: 'fake'
     image-type: vhd
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index c6e59f4a4..0a4687f0b 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -21,7 +21,6 @@ labels:
 providers:
   - name: fake-provider1
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 2
     pool: 'fake'
     image-type: vhd
@@ -37,7 +36,6 @@ providers:
           key2: value
   - name: fake-provider2
     region-name: fake-region
-    keypair: 'if-present-use-this-keypair'
     max-servers: 2
     pool: 'fake'
     image-type: qcow2
diff --git a/tools/fake-dib.yaml b/tools/fake-dib.yaml
index 17ac858a0..0611cd126 100644
--- a/tools/fake-dib.yaml
+++ b/tools/fake-dib.yaml
@@ -25,7 +25,6 @@ labels:
 
 providers:
   - name: fake-provider
-    keypair: 'if-present-use-this-keypair'
     region-name: 'fake-region'
     max-servers: 96
     images:
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 568f29f8a..41e998494 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -33,7 +33,6 @@ labels:
 
 providers:
   - name: fake-provider
-    keypair: 'if-present-use-this-keypair'
     region-name: 'fake-region'
     max-servers: 96
     images:

From dcc3b5e07153afc84a03310e3cd3e80381479a1d Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 22 Mar 2017 15:53:54 -0700
Subject: [PATCH 148/309] Update nodepool config syntax

This implements the changes described in:

http://lists.openstack.org/pipermail/openstack-infra/2017-January/005018.html

It also removes some, but not all, extraneous keys from test config files.

Change-Id: Iebc941b4505d6ad46c882799b6230eb23545e5c0
---
 devstack/plugin.sh                            |  52 ++---
 nodepool/builder.py                           |   8 +-
 nodepool/cmd/config_validator.py              |  64 +++---
 nodepool/cmd/nodepoolcmd.py                   |   2 +-
 nodepool/config.py                            | 195 +++++++++-------
 nodepool/fakeprovider.py                      |   3 +-
 nodepool/nodepool.py                          | 217 ++++++++++--------
 nodepool/provider_manager.py                  |   8 +-
 nodepool/tests/__init__.py                    |   5 +-
 nodepool/tests/fixtures/clouds.yaml           |   2 +-
 .../tests/fixtures/config_validate/good.yaml  |  37 +--
 nodepool/tests/fixtures/integration.yaml      |  19 +-
 nodepool/tests/fixtures/integration_occ.yaml  |  19 +-
 nodepool/tests/fixtures/leaked_node.yaml      |  22 +-
 nodepool/tests/fixtures/node.yaml             |  25 +-
 nodepool/tests/fixtures/node_az.yaml          |  26 ++-
 nodepool/tests/fixtures/node_cmd.yaml         |  44 ++--
 .../tests/fixtures/node_disabled_label.yaml   |  22 +-
 .../tests/fixtures/node_diskimage_fail.yaml   |  22 +-
 .../tests/fixtures/node_diskimage_pause.yaml  |  28 +--
 .../fixtures/node_image_upload_pause.yaml     |  26 +--
 nodepool/tests/fixtures/node_ipv6.yaml        |  72 +++---
 .../tests/fixtures/node_label_provider.yaml   |  37 ++-
 .../tests/fixtures/node_launch_retry.yaml     |  25 +-
 .../tests/fixtures/node_lost_requests.yaml    |  26 +--
 nodepool/tests/fixtures/node_net_name.yaml    |  28 ++-
 nodepool/tests/fixtures/node_quota.yaml       |  24 +-
 nodepool/tests/fixtures/node_two_image.yaml   |  29 +--
 .../tests/fixtures/node_two_image_remove.yaml |  22 +-
 .../tests/fixtures/node_two_provider.yaml     |  42 ++--
 .../fixtures/node_two_provider_remove.yaml    |  29 +--
 nodepool/tests/fixtures/node_upload_fail.yaml |  42 ++--
 nodepool/tests/fixtures/node_vhd.yaml         |  22 +-
 .../tests/fixtures/node_vhd_and_qcow2.yaml    |  43 ++--
 nodepool/tests/test_nodelaunchmanager.py      |   8 +-
 nodepool/tests/test_nodepool.py               |   1 +
 nodepool/zk.py                                |   4 +
 tools/fake.yaml                               |  24 +-
 38 files changed, 665 insertions(+), 659 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index a1de6a4a8..80c6cffa5 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -172,30 +172,15 @@ cron:
 
 labels:
   - name: centos-7
-    image: centos-7
     min-ready: 1
-    providers:
-      - name: devstack
   - name: fedora-25
-    image: fedora-25
     min-ready: 1
-    providers:
-      - name: devstack
   - name: ubuntu-precise
-    image: ubuntu-precise
     min-ready: 1
-    providers:
-      - name: devstack
   - name: ubuntu-trusty
-    image: ubuntu-trusty
     min-ready: 1
-    providers:
-      - name: devstack
   - name: ubuntu-xenial
-    image: ubuntu-xenial
     min-ready: 1
-    providers:
-      - name: devstack
 
 providers:
   - name: devstack
@@ -205,29 +190,42 @@ providers:
     # Long boot timeout to deal with potentially nested virt.
     boot-timeout: 600
     launch-timeout: 900
-    max-servers: 5
     rate: 0.25
-    images:
+    diskimages:
       - name: centos-7
-        min-ram: 1024
-        name-filter: 'nodepool'
         config-drive: true
       - name: fedora-25
-        min-ram: 1024
-        name-filter: 'nodepool'
         config-drive: true
       - name: ubuntu-precise
-        min-ram: 512
-        name-filter: 'nodepool'
         config-drive: true
       - name: ubuntu-trusty
-        min-ram: 512
-        name-filter: 'nodepool'
         config-drive: true
       - name: ubuntu-xenial
-        min-ram: 512
-        name-filter: 'nodepool'
         config-drive: true
+    pools:
+      - name: main
+        max-servers: 5
+        labels:
+          - name: centos-7
+            diskimage: centos-7
+            min-ram: 1024
+            name-filter: 'nodepool'
+          - name: fedora-25
+            diskimage: fedora-25
+            min-ram: 1024
+            name-filter: 'nodepool'
+          - name: ubuntu-precise
+            diskimage: ubuntu-precise
+            min-ram: 512
+            name-filter: 'nodepool'
+          - name: ubuntu-trusty
+            diskimage: ubuntu-trusty
+            min-ram: 512
+            name-filter: 'nodepool'
+          - name: ubuntu-xenial
+            diskimage: ubuntu-xenial
+            min-ram: 512
+            name-filter: 'nodepool'
 
 diskimages:
   - name: centos-7
diff --git a/nodepool/builder.py b/nodepool/builder.py
index a1802b4a2..4fa99a300 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -271,7 +271,7 @@ class CleanupWorker(BaseWorker):
             self._deleteUpload(upload)
 
     def _cleanupObsoleteProviderUploads(self, provider, image, build_id):
-        image_names_for_provider = provider.images.keys()
+        image_names_for_provider = provider.diskimages.keys()
         if image in image_names_for_provider:
             # This image is in use for this provider
             return
@@ -849,7 +849,7 @@ class UploadWorker(BaseWorker):
                       (build_id, filename, provider.name))
 
         manager = self._config.provider_managers[provider.name]
-        provider_image = provider.images.get(image_name)
+        provider_image = provider.diskimages.get(image_name)
         if provider_image is None:
             raise exceptions.BuilderInvalidCommandError(
                 "Could not find matching provider image for %s" % image_name
@@ -899,7 +899,7 @@ class UploadWorker(BaseWorker):
         to providers, do the upload if they are available on the local disk.
         '''
         for provider in self._config.providers.values():
-            for image in provider.images.values():
+            for image in provider.diskimages.values():
                 uploaded = False
 
                 # Check if we've been told to shutdown
@@ -931,7 +931,7 @@ class UploadWorker(BaseWorker):
         :returns: True if an upload was attempted, False otherwise.
         '''
         # Check if image uploads are paused.
-        if provider.images.get(image.name).pause:
+        if provider.diskimages.get(image.name).pause:
             return False
 
         # Search for the most recent 'ready' image build
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index f9cb9c565..c9ecfc004 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -29,16 +29,6 @@ class ConfigValidator:
             'cleanup': str,
         }
 
-        images = {
-            'name': str,
-            'pause': bool,
-            'min-ram': int,
-            'name-filter': str,
-            'diskimage': str,
-            'meta': dict,
-            'config-drive': bool,
-        }
-
         old_network = {
             'net-id': str,
             'net-label': str,
@@ -49,38 +39,53 @@ class ConfigValidator:
             'public': bool,  # Ignored, but kept for backwards compat
         }
 
-        providers = {
+        pool_label = {
+            v.Required('name'): str,
+            v.Required('diskimage'): str,
+            'min-ram': int,
+            'name-filter': str,
+        }
+
+        pool = {
+            'name': str,
+            'networks': [v.Any(old_network, network)],
+            'max-servers': int,
+            'labels': [pool_label],
+            'availability-zones': [str],
+            }
+
+        provider_diskimage = {
+            'name': str,
+            'pause': bool,
+            'meta': dict,
+            'config-drive': bool,
+        }
+
+        provider = {
             'name': str,
             'region-name': str,
-            'availability-zones': [str],
             'cloud': str,
-            'max-servers': int,
             'max-concurrency': int,
-            'pool': str,  # Ignored, but kept for backwards compat
             'image-type': str,
-            'networks': [v.Any(old_network, network)],
             'ipv6-preferred': bool,
             'boot-timeout': int,
             'api-timeout': int,
             'launch-timeout': int,
             'launch-retries': int,
             'rate': float,
-            'images': [images],
             'hostname-format': str,
             'image-name-format': str,
             'clean-floating-ips': bool,
+            'pools': [pool],
+            'diskimages': [provider_diskimage],
         }
 
-        labels = {
+        label = {
             'name': str,
-            'image': str,
             'min-ready': int,
-            'providers': [{
-                'name': str,
-            }],
         }
 
-        diskimages = {
+        diskimage = {
             'name': str,
             'pause': bool,
             'elements': [str],
@@ -99,9 +104,9 @@ class ConfigValidator:
                 'chroot': str,
             }],
             'cron': cron,
-            'providers': [providers],
-            'labels': [labels],
-            'diskimages': [diskimages],
+            'providers': [provider],
+            'labels': [label],
+            'diskimages': [diskimage],
         }
 
         log.info("validating %s" % self.config_file)
@@ -110,12 +115,3 @@ class ConfigValidator:
         # validate the overall schema
         schema = v.Schema(top_level)
         schema(config)
-
-        # labels must list valid providers
-        all_providers = [p['name'] for p in config['providers']]
-        for label in config['labels']:
-            for provider in label['providers']:
-                if not provider['name'] in all_providers:
-                    raise AssertionError('label %s requests '
-                                         'non-existent provider %s'
-                                         % (label['name'], provider['name']))
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 608a9358a..d11c8aa22 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -221,7 +221,7 @@ class NodePoolCmd(NodepoolApp):
 
             alien_ids = []
             uploads = []
-            for image in provider.images:
+            for image in provider.diskimages:
                 # Build list of provider images as recorded in ZK
                 for bnum in self.zk.getBuildNumbers(image):
                     uploads.extend(
diff --git a/nodepool/config.py b/nodepool/config.py
index 6abf49765..1c53bc0a9 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -40,31 +40,18 @@ class Config(ConfigValue):
 class Provider(ConfigValue):
     def __eq__(self, other):
         if (other.cloud_config != self.cloud_config or
-            other.max_servers != self.max_servers or
-            other.pool != self.pool or
+            other.pools != self.pools or
             other.image_type != self.image_type or
             other.rate != self.rate or
             other.api_timeout != self.api_timeout or
             other.boot_timeout != self.boot_timeout or
             other.launch_timeout != self.launch_timeout or
-            other.networks != self.networks or
             other.ipv6_preferred != self.ipv6_preferred or
             other.clean_floating_ips != self.clean_floating_ips or
             other.max_concurrency != self.max_concurrency or
-            other.azs != self.azs):
+            other.diskimages != self.diskimages):
             return False
-        new_images = other.images
-        old_images = self.images
-        # Check if images have been added or removed
-        if set(new_images.keys()) != set(old_images.keys()):
-            return False
-        # check if existing images have been updated
-        for k in new_images:
-            if (new_images[k].min_ram != old_images[k].min_ram or
-                new_images[k].name_filter != old_images[k].name_filter or
-                new_images[k].meta != old_images[k].meta or
-                new_images[k].config_drive != old_images[k].config_drive):
-                return False
+
         return True
 
     def __ne__(self, other):
@@ -74,9 +61,25 @@ class Provider(ConfigValue):
         return "<Provider %s>" % self.name
 
 
-class ProviderImage(ConfigValue):
+class ProviderPool(ConfigValue):
+    def __eq__(self, other):
+        if (other.labels != self.labels or
+            other.max_servers != self.max_servers or
+            other.azs != self.azs or
+            other.networks != self.networks):
+            return False
+        return True
+
+    def __ne__(self, other):
+        return not self.__eq__(other)
+
     def __repr__(self):
-        return "<ProviderImage %s>" % self.name
+        return "<ProviderPool %s>" % self.name
+
+
+class ProviderDiskImage(ConfigValue):
+    def __repr__(self):
+        return "<ProviderDiskImage %s>" % self.name
 
 
 class Label(ConfigValue):
@@ -84,9 +87,19 @@ class Label(ConfigValue):
         return "<Label %s>" % self.name
 
 
-class LabelProvider(ConfigValue):
+class ProviderLabel(ConfigValue):
+    def __eq__(self, other):
+        if (other.diskimage != self.diskimage or
+            other.min_ram != self.min_ram or
+            other.name_filter != self.name_filter):
+            return False
+        return True
+
+    def __ne__(self, other):
+        return not self.__eq__(other)
+
     def __repr__(self):
-        return "<LabelProvider %s>" % self.name
+        return "<ProviderLabel %s>" % self.name
 
 
 class Cron(ConfigValue):
@@ -95,6 +108,20 @@ class Cron(ConfigValue):
 
 
 class DiskImage(ConfigValue):
+    def __eq__(self, other):
+        if (other.name != self.name or
+            other.elements != self.elements or
+            other.release != self.release or
+            other.rebuild_age != self.rebuild_age or
+            other.env_vars != self.env_vars or
+            other.image_types != self.image_types or
+            other.pause != self.pause):
+            return False
+        return True
+
+    def __ne__(self, other):
+        return not self.__eq__(other)
+
     def __repr__(self):
         return "<DiskImage %s>" % self.name
 
@@ -154,6 +181,34 @@ def loadConfig(config_path):
         name = z.host + '_' + str(z.port)
         newconfig.zookeeper_servers[name] = z
 
+    for diskimage in config.get('diskimages', []):
+        d = DiskImage()
+        d.name = diskimage['name']
+        newconfig.diskimages[d.name] = d
+        if 'elements' in diskimage:
+            d.elements = u' '.join(diskimage['elements'])
+        else:
+            d.elements = ''
+        # must be a string, as it's passed as env-var to
+        # d-i-b, but might be untyped in the yaml and
+        # interpreted as a number (e.g. "21" for fedora)
+        d.release = str(diskimage.get('release', ''))
+        d.rebuild_age = int(diskimage.get('rebuild-age', 86400))
+        d.env_vars = diskimage.get('env-vars', {})
+        if not isinstance(d.env_vars, dict):
+            #self.log.error("%s: ignoring env-vars; "
+            #               "should be a dict" % d.name)
+            d.env_vars = {}
+        d.image_types = set(diskimage.get('formats', []))
+        d.pause = bool(diskimage.get('pause', False))
+
+    for label in config.get('labels', []):
+        l = Label()
+        l.name = label['name']
+        newconfig.labels[l.name] = l
+        l.min_ready = label.get('min-ready', 2)
+        l.pools = []
+
     for provider in config.get('providers', []):
         p = Provider()
         p.name = provider['name']
@@ -162,30 +217,14 @@ def loadConfig(config_path):
         cloud_kwargs = _cloudKwargsFromProvider(provider)
         p.cloud_config = _get_one_cloud(cloud_config, cloud_kwargs)
         p.region_name = provider.get('region-name')
-        p.max_servers = provider['max-servers']
         p.max_concurrency = provider.get('max-concurrency', -1)
-        p.pool = provider.get('pool', None)
         p.rate = provider.get('rate', 1.0)
         p.api_timeout = provider.get('api-timeout')
         p.boot_timeout = provider.get('boot-timeout', 60)
         p.launch_timeout = provider.get('launch-timeout', 3600)
         p.launch_retries = provider.get('launch-retries', 3)
-        p.networks = []
-        for network in provider.get('networks', []):
-            n = Network()
-            p.networks.append(n)
-            if 'net-id' in network:
-                n.id = network['net-id']
-                n.name = None
-            elif 'net-label' in network:
-                n.name = network['net-label']
-                n.id = None
-            else:
-                n.name = network.get('name')
-                n.id = None
         p.ipv6_preferred = provider.get('ipv6-preferred')
         p.clean_floating_ips = provider.get('clean-floating-ips')
-        p.azs = provider.get('availability-zones')
         p.hostname_format = provider.get(
             'hostname-format',
             '{label.name}-{provider.name}-{node.id}'
@@ -196,13 +235,15 @@ def loadConfig(config_path):
         )
         p.image_type = provider.get(
             'image-type', p.cloud_config.config['image_format'])
-        p.images = {}
-        for image in provider['images']:
-            i = ProviderImage()
+        p.diskimages = {}
+        for image in provider.get('diskimages', []):
+            i = ProviderDiskImage()
             i.name = image['name']
-            p.images[i.name] = i
-            i.min_ram = image['min-ram']
-            i.name_filter = image.get('name-filter', None)
+            p.diskimages[i.name] = i
+            diskimage = newconfig.diskimages[i.name]
+            diskimage.image_types.add(p.image_type)
+            #i.min_ram = image['min-ram']
+            #i.name_filter = image.get('name-filter', None)
             i.pause = bool(image.get('pause', False))
             i.config_drive = image.get('config-drive', None)
 
@@ -219,45 +260,39 @@ def loadConfig(config_path):
                     #self.log.error("Invalid metadata for %s; ignored"
                     #               % i.name)
                     i.meta = {}
+        p.pools = {}
+        for pool in provider.get('pools', []):
+            pp = ProviderPool()
+            pp.name = pool['name']
+            pp.provider = p
+            p.pools[pp.name] = pp
+            pp.max_servers = pool['max-servers']
+            pp.azs = pool.get('availability-zones')
+            pp.networks = []
+            for network in pool.get('networks', []):
+                n = Network()
+                pp.networks.append(n)
+                if 'net-id' in network:
+                    n.id = network['net-id']
+                    n.name = None
+                elif 'net-label' in network:
+                    n.name = network['net-label']
+                    n.id = None
+                else:
+                    n.name = network.get('name')
+                    n.id = None
+            pp.labels = {}
+            for label in pool.get('labels', []):
+                pl = ProviderLabel()
+                pl.name = label['name']
+                pl.pool = pp
+                pp.labels[pl.name] = pl
+                pl.diskimage = newconfig.diskimages[label['diskimage']]
+                pl.min_ram = label['min-ram']
+                pl.name_filter = label.get('name-filter', None)
 
-    if 'diskimages' in config:
-        for diskimage in config['diskimages']:
-            d = DiskImage()
-            d.name = diskimage['name']
-            newconfig.diskimages[d.name] = d
-            if 'elements' in diskimage:
-                d.elements = u' '.join(diskimage['elements'])
-            else:
-                d.elements = ''
-            # must be a string, as it's passed as env-var to
-            # d-i-b, but might be untyped in the yaml and
-            # interpreted as a number (e.g. "21" for fedora)
-            d.release = str(diskimage.get('release', ''))
-            d.rebuild_age = int(diskimage.get('rebuild-age', 86400))
-            d.env_vars = diskimage.get('env-vars', {})
-            if not isinstance(d.env_vars, dict):
-                #self.log.error("%s: ignoring env-vars; "
-                #               "should be a dict" % d.name)
-                d.env_vars = {}
-            d.image_types = set(diskimage.get('formats', []))
-            d.pause = bool(diskimage.get('pause', False))
-        # Do this after providers to build the image-types
-        for provider in newconfig.providers.values():
-            for image in provider.images.values():
-                diskimage = newconfig.diskimages[image.name]
-                diskimage.image_types.add(provider.image_type)
-
-    for label in config.get('labels', []):
-        l = Label()
-        l.name = label['name']
-        newconfig.labels[l.name] = l
-        l.image = label['image']
-        l.min_ready = label.get('min-ready', 2)
-        l.providers = {}
-        for provider in label['providers']:
-            p = LabelProvider()
-            p.name = provider['name']
-            l.providers[p.name] = p
+                top_label = newconfig.labels[pl.name]
+                top_label.pools.append(pp)
 
     return newconfig
 
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index 8dda1b2d8..4c768d624 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -65,7 +65,8 @@ class Dummy(object):
 
 def fake_get_one_cloud(cloud_config, cloud_kwargs):
     cloud_kwargs['validate'] = False
-    cloud_kwargs['image_format'] = 'qcow2'
+    if 'image_format' not in cloud_kwargs:
+        cloud_kwargs['image_format'] = 'qcow2'
     return cloud_config.get_one_cloud(**cloud_kwargs)
 
 
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index f2c4e0fce..8267f44ed 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -229,14 +229,13 @@ class InstanceDeleter(threading.Thread, StatsReporter):
 
 class NodeLauncher(threading.Thread, StatsReporter):
 
-    def __init__(self, zk, provider, label, provider_manager, requestor,
+    def __init__(self, zk, provider_label, provider_manager, requestor,
                  node, retries):
         '''
         Initialize the launcher.
 
         :param ZooKeeper zk: A ZooKeeper object.
-        :param Provider provider: A config Provider object.
-        :param Label label: The Label object for this node type.
+        :param ProviderLabel provider: A config ProviderLabel object.
         :param ProviderManager provider_manager: The manager object used to
             interact with the selected provider.
         :param str requestor: Identifier for the request originator.
@@ -247,26 +246,24 @@ class NodeLauncher(threading.Thread, StatsReporter):
         StatsReporter.__init__(self)
         self.log = logging.getLogger("nodepool.NodeLauncher-%s" % node.id)
         self._zk = zk
-        self._provider = provider
-        self._label = label
+        self._label = provider_label
         self._manager = provider_manager
         self._node = node
         self._retries = retries
         self._image_name = None
         self._requestor = requestor
 
+        self._pool = self._label.pool
+        self._provider = self._pool.provider
+        self._diskimage = self._provider.diskimages[self._label.diskimage.name]
+
     def _launchNode(self):
-        config_image = self._provider.images[self._label.image]
-
-        # Stored for statsd reporting
-        self._image_name = config_image.name
-
         cloud_image = self._zk.getMostRecentImageUpload(
-            config_image.name, self._provider.name)
+            self._diskimage.name, self._provider.name)
         if not cloud_image:
             raise LaunchNodepoolException(
                 "Unable to find current cloud image %s in %s" %
-                (config_image.name, self._provider.name)
+                (self._diskimage.name, self._provider.name)
             )
 
         hostname = self._provider.hostname_format.format(
@@ -275,7 +272,8 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         self.log.info("Creating server with hostname %s in %s from image %s "
                       "for node id: %s" % (hostname, self._provider.name,
-                                           config_image.name, self._node.id))
+                                           self._diskimage.name,
+                                           self._node.id))
 
         # NOTE: We store the node ID in the server metadata to use for leaked
         # instance detection. We cannot use the external server ID for this
@@ -284,13 +282,14 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         server = self._manager.createServer(
             hostname,
-            config_image.min_ram,
+            self._label.min_ram,
             cloud_image.external_id,
-            name_filter=config_image.name_filter,
+            name_filter=self._label.name_filter,
             az=self._node.az,
-            config_drive=config_image.config_drive,
+            config_drive=self._diskimage.config_drive,
             nodepool_node_id=self._node.id,
-            nodepool_image_name=config_image.name)
+            nodepool_image_name=self._diskimage.name,
+            networks=self._pool.networks)
 
         self._node.external_id = server.id
         self._node.hostname = hostname
@@ -417,14 +416,13 @@ class NodeLaunchManager(object):
     '''
     Handle launching multiple nodes in parallel.
     '''
-    def __init__(self, zk, provider, labels, provider_manager,
+    def __init__(self, zk, pool, provider_manager,
                  requestor, retries):
         '''
         Initialize the launch manager.
 
         :param ZooKeeper zk: A ZooKeeper object.
-        :param Provider provider: A config Provider object.
-        :param dict labels: A dict of config Label objects.
+        :param ProviderPool pool: A config ProviderPool object.
         :param ProviderManager provider_manager: The manager object used to
             interact with the selected provider.
         :param str requestor: Identifier for the request originator.
@@ -436,8 +434,7 @@ class NodeLaunchManager(object):
         self._ready_nodes = []
         self._threads = []
         self._zk = zk
-        self._provider = provider
-        self._labels = labels
+        self._pool = pool
         self._manager = provider_manager
         self._requestor = requestor
 
@@ -468,8 +465,8 @@ class NodeLaunchManager(object):
         :param Node node: The node object.
         '''
         self._nodes.append(node)
-        label = self._labels[node.type]
-        t = NodeLauncher(self._zk, self._provider, label, self._manager,
+        provider_label = self._pool.labels[node.type]
+        t = NodeLauncher(self._zk, provider_label, self._manager,
                          self._requestor, node, self._retries)
         t.start()
         self._threads.append(t)
@@ -508,13 +505,13 @@ class NodeRequestHandler(object):
     '''
     Class to process a single node request.
 
-    The ProviderWorker thread will instantiate a class of this type for each
+    The PoolWorker thread will instantiate a class of this type for each
     node request that it pulls from ZooKeeper.
     '''
 
     def __init__(self, pw, request):
         '''
-        :param ProviderWorker pw: The parent ProviderWorker object.
+        :param PoolWorker pw: The parent PoolWorker object.
         :param NodeRequest request: The request to handle.
         '''
         self.log = logging.getLogger("nodepool.NodeRequestHandler")
@@ -526,16 +523,16 @@ class NodeRequestHandler(object):
         self.chosen_az = None
         self.paused = False
 
-    def _setFromProviderWorker(self):
+    def _setFromPoolWorker(self):
         '''
-        Set values that we pull from the parent ProviderWorker.
+        Set values that we pull from the parent PoolWorker.
 
         We don't do this in __init__ because this class is re-entrant and we
         want the updated values.
         '''
         self.provider = self.pw.getProviderConfig()
+        self.pool = self.pw.getPoolConfig()
         self.zk = self.pw.getZK()
-        self.labels = self.pw.getLabelsConfig()
         self.manager = self.pw.getProviderManager()
         self.launcher_id = self.pw.launcher_id
 
@@ -549,11 +546,7 @@ class NodeRequestHandler(object):
         :returns: True if it is available, False otherwise.
         '''
         for label in self.request.node_types:
-            try:
-                img = self.labels[label].image
-            except KeyError:
-                 self.log.error("Node type %s not a defined label", label)
-                 return False
+            img = self.pool.labels[label].diskimage.name
 
             if not self.zk.getMostRecentImageUpload(img, self.provider.name):
                 return False
@@ -568,12 +561,8 @@ class NodeRequestHandler(object):
         '''
         invalid = []
         for ntype in self.request.node_types:
-            if ntype not in self.labels:
+            if ntype not in self.pool.labels:
                 invalid.append(ntype)
-            else:
-                label = self.labels[ntype]
-                if self.provider.name not in label.providers.keys():
-                    invalid.append(ntype)
         return invalid
 
     def _countNodes(self):
@@ -584,7 +573,8 @@ class NodeRequestHandler(object):
         '''
         count = 0
         for node in self.zk.nodeIterator():
-            if node.provider == self.provider.name:
+            if (node.provider == self.provider.name and
+                node.pool == self.pool.name):
                 count += 1
         return count
 
@@ -614,7 +604,7 @@ class NodeRequestHandler(object):
         '''
         if not self.launch_manager:
             self.launch_manager = NodeLaunchManager(
-                self.zk, self.provider, self.labels, self.manager,
+                self.zk, self.pool, self.manager,
                 self.request.requestor, retries=self.provider.launch_retries)
 
         # Since this code can be called more than once for the same request,
@@ -633,10 +623,12 @@ class NodeRequestHandler(object):
             got_a_node = False
             if self.request.reuse and ntype in ready_nodes:
                 for node in ready_nodes[ntype]:
-                    # Only interested in nodes from this provider and within
-                    # the selected AZ.
+                    # Only interested in nodes from this provider and
+                    # pool, and within the selected AZ.
                     if node.provider != self.provider.name:
                         continue
+                    if node.pool != self.pool.name:
+                        continue
                     if self.chosen_az and node.az != self.chosen_az:
                         continue
 
@@ -669,12 +661,12 @@ class NodeRequestHandler(object):
             if not got_a_node:
                 # Select grouping AZ if we didn't set AZ from a selected,
                 # pre-existing node
-                if not self.chosen_az and self.provider.azs:
-                    self.chosen_az = random.choice(self.provider.azs)
+                if not self.chosen_az and self.pool.azs:
+                    self.chosen_az = random.choice(self.pool.azs)
 
                 # If we calculate that we're at capacity, pause until nodes
                 # are released by Zuul and removed by the DeletedNodeWorker.
-                if self._countNodes() >= self.provider.max_servers:
+                if self._countNodes() >= self.pool.max_servers:
                     if not self.paused:
                         self.log.debug(
                             "Pausing request handling to satisfy request %s",
@@ -690,6 +682,7 @@ class NodeRequestHandler(object):
                 node.state = zk.INIT
                 node.type = ntype
                 node.provider = self.provider.name
+                node.pool = self.pool.name
                 node.az = self.chosen_az
                 node.launcher = self.launcher_id
                 node.allocated_to = self.request.id
@@ -714,17 +707,17 @@ class NodeRequestHandler(object):
         '''
         Main body for the NodeRequestHandler.
         '''
-        self._setFromProviderWorker()
+        self._setFromPoolWorker()
 
         declined_reasons = []
-        if not self._imagesAvailable():
-            declined_reasons.append('images are not available')
-        if len(self.request.node_types) > self.provider.max_servers:
-            declined_reasons.append('it would exceed quota')
         invalid_types = self._invalidNodeTypes()
         if invalid_types:
             declined_reasons.append('node type(s) [%s] not available' %
                                     ','.join(invalid_types))
+        elif not self._imagesAvailable():
+            declined_reasons.append('images are not available')
+        if len(self.request.node_types) > self.pool.max_servers:
+            declined_reasons.append('it would exceed quota')
 
         if declined_reasons:
             self.log.debug("Declining node request %s because %s",
@@ -753,6 +746,8 @@ class NodeRequestHandler(object):
 
     @property
     def alive_thread_count(self):
+        if not self.launch_manager:
+            return 0
         return self.launch_manager.alive_thread_count
 
     #----------------------------------------------------------------
@@ -858,23 +853,25 @@ class NodeRequestHandler(object):
         return True
 
 
-class ProviderWorker(threading.Thread):
+class PoolWorker(threading.Thread):
     '''
-    Class that manages node requests for a single provider.
+    Class that manages node requests for a single provider pool.
 
     The NodePool thread will instantiate a class of this type for each
-    provider found in the nodepool configuration file. If the provider to
-    which this thread is assigned is removed from the configuration file, then
-    that will be recognized and this thread will shut itself down.
+    provider pool found in the nodepool configuration file. If the
+    pool or provider to which this thread is assigned is removed from
+    the configuration file, then that will be recognized and this
+    thread will shut itself down.
     '''
 
-    def __init__(self, nodepool, provider_name):
+    def __init__(self, nodepool, provider_name, pool_name):
         threading.Thread.__init__(
-            self, name='ProviderWorker.%s' % provider_name
+            self, name='PoolWorker.%s-%s' % (provider_name, pool_name)
         )
         self.log = logging.getLogger("nodepool.%s" % self.name)
         self.nodepool = nodepool
         self.provider_name = provider_name
+        self.pool_name = pool_name
         self.running = False
         self.paused_handler = None
         self.request_handlers = []
@@ -888,19 +885,6 @@ class ProviderWorker(threading.Thread):
     # Private methods
     #----------------------------------------------------------------
 
-    def _activeThreads(self):
-        '''
-        Return the number of alive threads in use by this provider.
-
-        This is an approximate, top-end number for alive threads, since some
-        threads obviously may have finished by the time we finish the
-        calculation.
-        '''
-        total = 0
-        for r in self.request_handlers:
-            total += r.alive_thread_count
-        return total
-
     def _assignHandlers(self):
         '''
         For each request we can grab, create a NodeRequestHandler for it.
@@ -917,9 +901,15 @@ class ProviderWorker(threading.Thread):
             if self.paused_handler:
                 return
 
+            # Get active threads for all pools for this provider
+            active_threads = sum([
+                w.activeThreads() for
+                w in self.nodepool.getPoolWorkers(self.provider_name)
+            ])
+
             # Short-circuit for limited request handling
-            if (provider.max_concurrency > 0
-                and self._activeThreads() >= provider.max_concurrency
+            if (provider.max_concurrency > 0 and
+                active_threads >= provider.max_concurrency
             ):
                 return
 
@@ -968,18 +958,31 @@ class ProviderWorker(threading.Thread):
     # Public methods
     #----------------------------------------------------------------
 
+    def activeThreads(self):
+        '''
+        Return the number of alive threads in use by this provider.
+
+        This is an approximate, top-end number for alive threads, since some
+        threads obviously may have finished by the time we finish the
+        calculation.
+        '''
+        total = 0
+        for r in self.request_handlers:
+            total += r.alive_thread_count
+        return total
+
     def getZK(self):
         return self.nodepool.getZK()
 
     def getProviderConfig(self):
         return self.nodepool.config.providers[self.provider_name]
 
+    def getPoolConfig(self):
+        return self.getProviderConfig().pools[self.pool_name]
+
     def getProviderManager(self):
         return self.nodepool.getProviderManager(self.provider_name)
 
-    def getLabelsConfig(self):
-        return self.nodepool.config.labels
-
     def run(self):
         self.running = True
 
@@ -1005,7 +1008,7 @@ class ProviderWorker(threading.Thread):
 
                 self._removeCompletedHandlers()
             except Exception:
-                self.log.exception("Error in ProviderWorker:")
+                self.log.exception("Error in PoolWorker:")
             time.sleep(self.watermark_sleep)
 
         # Cleanup on exit
@@ -1014,7 +1017,7 @@ class ProviderWorker(threading.Thread):
 
     def stop(self):
         '''
-        Shutdown the ProviderWorker thread.
+        Shutdown the PoolWorker thread.
 
         Do not wait for the request handlers to finish. Any nodes
         that are in the process of launching will be cleaned up on a
@@ -1293,7 +1296,7 @@ class NodePool(threading.Thread):
         self.config = None
         self.zk = None
         self.statsd = stats.get_client()
-        self._provider_threads = {}
+        self._pool_threads = {}
         self._cleanup_thread = None
         self._delete_thread = None
         self._wake_condition = threading.Condition()
@@ -1315,10 +1318,10 @@ class NodePool(threading.Thread):
             self._delete_thread.stop()
             self._delete_thread.join()
 
-        # Don't let stop() return until all provider threads have been
+        # Don't let stop() return until all pool threads have been
         # terminated.
-        self.log.debug("Stopping provider threads")
-        for thd in self._provider_threads.values():
+        self.log.debug("Stopping pool threads")
+        for thd in self._pool_threads.values():
             if thd.isAlive():
                 thd.stop()
             self.log.debug("Waiting for %s" % thd.name)
@@ -1361,6 +1364,10 @@ class NodePool(threading.Thread):
     def getProviderManager(self, provider_name):
         return self.config.provider_managers[provider_name]
 
+    def getPoolWorkers(self, provider_name):
+        return [t for t in self._pool_threads.values() if
+                t.provider_name == provider_name]
+
     def updateConfig(self):
         config = self.loadConfig()
         provider_manager.ProviderManager.reconfigure(self.config, config)
@@ -1416,6 +1423,13 @@ class NodePool(threading.Thread):
         :returns: True if image associated with the label is uploaded and
             ready in at least one provider. False otherwise.
         '''
+        for pool in label.pools:
+            for pool_label in pool.labels.values():
+                if self.zk.getMostRecentImageUpload(pool_label.diskimage.name,
+                                                    pool.provider.name):
+                    return True
+        return False
+
         for provider_name in label.providers.keys():
             if self.zk.getMostRecentImageUpload(label.image, provider_name):
                 return True
@@ -1500,27 +1514,34 @@ class NodePool(threading.Thread):
                         self, self.delete_interval)
                     self._delete_thread.start()
 
-                # Stop any ProviderWorker threads if the provider was removed
+                # Stop any PoolWorker threads if the pool was removed
                 # from the config.
-                for provider_name in self._provider_threads.keys():
-                    if provider_name not in self.config.providers.keys():
-                        self._provider_threads[provider_name].stop()
+                pool_keys = set()
+                for provider in self.config.providers.values():
+                    for pool in provider.pools.values():
+                        pool_keys.add(provider.name + '-' + pool.name)
+
+                for key in self._pool_threads.keys():
+                    if key not in pool_keys:
+                        self._pool_threads[key].stop()
 
                 # Start (or restart) provider threads for each provider in
                 # the config. Removing a provider from the config and then
                 # adding it back would cause a restart.
-                for p in self.config.providers.values():
-                    if p.name not in self._provider_threads.keys():
-                        t = ProviderWorker(self, p.name)
-                        self.log.info( "Starting %s" % t.name)
-                        t.start()
-                        self._provider_threads[p.name] = t
-                    elif not self._provider_threads[p.name].isAlive():
-                        self._provider_threads[p.name].join()
-                        t = ProviderWorker(self, p.name)
-                        self.log.info( "Restarting %s" % t.name)
-                        t.start()
-                        self._provider_threads[p.name] = t
+                for provider in self.config.providers.values():
+                    for pool in provider.pools.values():
+                        key = provider.name + '-' + pool.name
+                        if key not in self._pool_threads.keys():
+                            t = PoolWorker(self, provider.name, pool.name)
+                            self.log.info( "Starting %s" % t.name)
+                            t.start()
+                            self._pool_threads[key] = t
+                        elif not self._pool_threads[key].isAlive():
+                            self._pool_threads[key].join()
+                            t = PoolWorker(self, provider.name, pool.name)
+                            self.log.info( "Restarting %s" % t.name)
+                            t.start()
+                            self._pool_threads[key] = t
             except Exception:
                 self.log.exception("Exception in main loop:")
 
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 7cc3aab5a..94b3ae277 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -44,7 +44,7 @@ class NotFound(Exception):
 
 
 def get_provider_manager(provider, use_taskmanager):
-    if (provider.cloud_config.name == 'fake'):
+    if provider.name.startswith('fake'):
         return FakeProviderManager(provider, use_taskmanager)
     else:
         return ProviderManager(provider, use_taskmanager)
@@ -168,7 +168,9 @@ class ProviderManager(object):
     def createServer(self, name, min_ram, image_id=None, image_name=None,
                      az=None, key_name=None, name_filter=None,
                      config_drive=None, nodepool_node_id=None,
-                     nodepool_image_name=None):
+                     nodepool_image_name=None, networks=None):
+        if not networks:
+            networks = []
         if image_name:
             image = self.findImage(image_name)
         else:
@@ -183,7 +185,7 @@ class ProviderManager(object):
         if az:
             create_args['availability_zone'] = az
         nics = []
-        for network in self.provider.networks:
+        for network in networks:
             if network.id:
                 nics.append({'net-id': network.id})
             elif network.name:
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index ac259ee63..29825a986 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -126,6 +126,9 @@ class BaseTestCase(testtools.TestCase):
         l = logging.getLogger('kazoo')
         l.setLevel(logging.INFO)
         l.propagate=False
+        l = logging.getLogger('stevedore')
+        l.setLevel(logging.INFO)
+        l.propagate=False
         self.useFixture(fixtures.NestedTempfile())
 
         self.subprocesses = []
@@ -187,7 +190,7 @@ class BaseTestCase(testtools.TestCase):
                     continue
                 if t.name.startswith("CleanupWorker"):
                     continue
-                if t.name.startswith("ProviderWorker"):
+                if t.name.startswith("PoolWorker"):
                     continue
                 if t.name not in whitelist:
                     done = False
diff --git a/nodepool/tests/fixtures/clouds.yaml b/nodepool/tests/fixtures/clouds.yaml
index 360f2686d..74fc9645c 100644
--- a/nodepool/tests/fixtures/clouds.yaml
+++ b/nodepool/tests/fixtures/clouds.yaml
@@ -1,7 +1,7 @@
 clouds:
   fake:
     auth:
-      usernmae: 'fake'
+      username: 'fake'
       password: 'fake'
       project_id: 'fake'
       auth_url: 'fake'
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 6119a2b88..a2c027b98 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -12,38 +12,47 @@ zookeeper-servers:
 
 labels:
   - name: trusty
-    image: trusty
     min-ready: 1
-    providers:
-      - name: cloud1
-      - name: cloud2
   - name: trusty-2-node
-    image: trusty
     min-ready: 0
-    providers:
-      - name: cloud1
-      - name: cloud2
 
 providers:
   - name: cloud1
     region-name: 'vanilla'
     boot-timeout: 120
-    max-servers: 184
     max-concurrency: 10
     launch-retries: 3
     rate: 0.001
-    images:
+    diskimages:
       - name: trusty
-        min-ram: 8192
+    pools:
+      - name: main
+        max-servers: 184
+        labels:
+          - name: trusty
+            diskimage: trusty
+            min-ram: 8192
+          - name: trusty-2-node
+            diskimage: trusty
+            min-ram: 8192
+
   - name: cloud2
     region-name: 'chocolate'
     boot-timeout: 120
-    max-servers: 184
     rate: 0.001
-    images:
+    diskimages:
       - name: trusty
         pause: False
-        min-ram: 8192
+    pools:
+      - name: main
+        max-servers: 184
+        labels:
+          - name: trusty
+            diskimage: trusty
+            min-ram: 8192
+          - name: trusty-2-node
+            diskimage: trusty
+            min-ram: 8192
 
 diskimages:
   - name: trusty
diff --git a/nodepool/tests/fixtures/integration.yaml b/nodepool/tests/fixtures/integration.yaml
index 1b4e1ae76..69ba546cf 100644
--- a/nodepool/tests/fixtures/integration.yaml
+++ b/nodepool/tests/fixtures/integration.yaml
@@ -9,26 +9,25 @@ zookeeper-servers:
 
 labels:
   - name: real-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: real-provider
 
 providers:
   - name: real-provider
     region-name: real-region
-    max-servers: 96
-    pool: 'real'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Real'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: real-label
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'Real'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/integration_occ.yaml b/nodepool/tests/fixtures/integration_occ.yaml
index 7076859d3..628c23086 100644
--- a/nodepool/tests/fixtures/integration_occ.yaml
+++ b/nodepool/tests/fixtures/integration_occ.yaml
@@ -9,26 +9,25 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: real-provider
 
 providers:
   - name: real-provider
     cloud: real-cloud
-    max-servers: 96
-    pool: 'real'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Real'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'Real'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/leaked_node.yaml b/nodepool/tests/fixtures/leaked_node.yaml
index c1a438a11..39533c35d 100644
--- a/nodepool/tests/fixtures/leaked_node.yaml
+++ b/nodepool/tests/fixtures/leaked_node.yaml
@@ -12,26 +12,22 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 4d9c2ff21..ddb7e8712 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -12,29 +12,30 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
     cloud: fake
     region-name: fake-region
-    availability-zones:
-      - az1
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        availability-zones:
+          - az1
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'Fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index a128b4e66..e8fe9aa12 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -12,28 +12,30 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
-    availability-zones:
-      - az1
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'some-uuid'
+        availability-zones:
+          - az1
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'Fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index c8d0b4f36..0facaeaec 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -11,43 +11,47 @@ zookeeper-servers:
 
 labels:
   - name: fake-label1
-    image: fake-image1
     min-ready: 1
-    providers:
-      - name: fake-provider1
   - name: fake-label2
-    image: fake-image2
     min-ready: 1
-    providers:
-      - name: fake-provider2
 
 providers:
   - name: fake-provider1
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
+    cloud: fake
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image1
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label1
+            diskimage: fake-image1
+            min-ram: 8192
+            name-filter: 'fake'
+
   - name: fake-provider2
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image2
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label2
+            diskimage: fake-image2
+            min-ram: 8192
+            name-filter: 'fake'
 
 diskimages:
   - name: fake-image1
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 38a1bdc81..0f4555a4e 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -12,26 +12,28 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 0
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index fefe56c0b..41bf600a9 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -12,26 +12,28 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index 735780cf6..4e6a6816e 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -12,33 +12,33 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
   - name: fake-label2
-    image: fake-image2
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
       - name: fake-image2
-        min-ram: 8192
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+          - name: fake-label2
+            diskimage: fake-image2
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_image_upload_pause.yaml b/nodepool/tests/fixtures/node_image_upload_pause.yaml
index 6a4b710f3..c790147a5 100644
--- a/nodepool/tests/fixtures/node_image_upload_pause.yaml
+++ b/nodepool/tests/fixtures/node_image_upload_pause.yaml
@@ -12,34 +12,32 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
   - name: fake-label2
-    image: fake-image2
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
         pause: True
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
           key: value
           key2: value
       - name: fake-image2
-        min-ram: 8192
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            min-ram: 8192
+            diskimage: fake-image
+          - name: fake-label2
+            diskimage: fake-image2
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index e6756d607..b26755754 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -12,70 +12,64 @@ zookeeper-servers:
 
 labels:
   - name: fake-label1
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider1
 
   - name: fake-label2
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider2
 
   - name: fake-label3
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider3
 
 providers:
   - name: fake-provider1
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'ipv6-uuid'
     ipv6-preferred: True
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'ipv6-uuid'
+        labels:
+          - name: fake-label1
+            diskimage: fake-image
+            min-ram: 8192
 
   - name: fake-provider2
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'ipv6-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'ipv6-uuid'
+        labels:
+          - name: fake-label2
+            diskimage: fake-image
+            min-ram: 8192
 
   - name: fake-provider3
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     ipv6-preferred: True
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label3
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_label_provider.yaml b/nodepool/tests/fixtures/node_label_provider.yaml
index 45816373e..c99653add 100644
--- a/nodepool/tests/fixtures/node_label_provider.yaml
+++ b/nodepool/tests/fixtures/node_label_provider.yaml
@@ -12,40 +12,31 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider2
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
   - name: fake-provider2
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
index c475f2647..94a2d60c0 100644
--- a/nodepool/tests/fixtures/node_launch_retry.yaml
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -12,28 +12,25 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 0
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
-    cloud: 'fake'
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
     launch-retries: 2
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        networks:
+          - net-id: 'some-uuid'
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_lost_requests.yaml b/nodepool/tests/fixtures/node_lost_requests.yaml
index 27e04ad8f..1ed4cfd3f 100644
--- a/nodepool/tests/fixtures/node_lost_requests.yaml
+++ b/nodepool/tests/fixtures/node_lost_requests.yaml
@@ -12,28 +12,24 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 0
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    availability-zones:
-      - az1
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        availability-zones:
+          - az1
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index fc92874ba..365e0b0ac 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -12,28 +12,26 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - name: 'fake-public-network-name'
-        public: true
-      - name: 'fake-private-network-name'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - name: 'fake-public-network-name'
+            public: true
+          - name: 'fake-private-network-name'
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota.yaml
index 3f1e5455d..67a474416 100644
--- a/nodepool/tests/fixtures/node_quota.yaml
+++ b/nodepool/tests/fixtures/node_quota.yaml
@@ -12,28 +12,22 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 0
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    availability-zones:
-      - az1
-    max-servers: 2
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 2
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_two_image.yaml b/nodepool/tests/fixtures/node_two_image.yaml
index 08ceebc11..8776cfe8d 100644
--- a/nodepool/tests/fixtures/node_two_image.yaml
+++ b/nodepool/tests/fixtures/node_two_image.yaml
@@ -12,33 +12,28 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
   - name: fake-label2
-    image: fake-image2
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
       - name: fake-image2
-        min-ram: 8192
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+          - name: fake-label2
+            diskimage: fake-image2
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_two_image_remove.yaml b/nodepool/tests/fixtures/node_two_image_remove.yaml
index cc0af550e..6aea5dc18 100644
--- a/nodepool/tests/fixtures/node_two_image_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_image_remove.yaml
@@ -12,26 +12,22 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_two_provider.yaml b/nodepool/tests/fixtures/node_two_provider.yaml
index f3284a937..097df7227 100644
--- a/nodepool/tests/fixtures/node_two_provider.yaml
+++ b/nodepool/tests/fixtures/node_two_provider.yaml
@@ -12,41 +12,35 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
-      - name: fake-provider2
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
   - name: fake-provider2
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_two_provider_remove.yaml b/nodepool/tests/fixtures/node_two_provider_remove.yaml
index 8ad25fabe..4a8f46600 100644
--- a/nodepool/tests/fixtures/node_two_provider_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_provider_remove.yaml
@@ -12,34 +12,27 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
   - name: fake-provider2
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images: []
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index 87cae944b..f570b1c4c 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -12,42 +12,38 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 2
-    providers:
-      - name: fake-provider1
-      - name: fake-provider2
 
 providers:
   - name: fake-provider1
+    cloud: fake
     region-name: fake-region
-    max-servers: 2
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
         meta:
-          key: value
-          key2: value
           SHOULD_FAIL: 'true'
+    pools:
+      - name: main
+        max-servers: 2
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
   - name: fake-provider2
+    cloud: fake
     region-name: fake-region
-    max-servers: 2
-    pool: 'fake'
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 2
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index 896cca82b..52f46fffa 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -12,27 +12,23 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 1
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
+    cloud: fake
     region-name: fake-region
-    max-servers: 96
-    pool: 'fake'
     image-type: vhd
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index 0a4687f0b..29672e57c 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -12,43 +12,38 @@ zookeeper-servers:
 
 labels:
   - name: fake-label
-    image: fake-image
     min-ready: 2
-    providers:
-      - name: fake-provider1
-      - name: fake-provider2
 
 providers:
   - name: fake-provider1
+    cloud: fake
     region-name: fake-region
-    max-servers: 2
-    pool: 'fake'
     image-type: vhd
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 2
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
   - name: fake-provider2
+    cloud: fake
     region-name: fake-region
-    max-servers: 2
-    pool: 'fake'
     image-type: qcow2
-    networks:
-      - net-id: 'some-uuid'
     rate: 0.0001
-    images:
+    diskimages:
       - name: fake-image
-        min-ram: 8192
-        name-filter: 'Fake'
-        meta:
-          key: value
-          key2: value
+    pools:
+      - name: main
+        max-servers: 2
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index d93715899..b933aaa81 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -40,7 +40,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         self.waitForImage('fake-provider', 'fake-image')
 
         self.provider = b._config.providers['fake-provider']
-        self.labels = b._config.labels
+        self.provider_pool = self.provider.pools['main']
 
         # The builder config does not have a provider manager, so create one.
         self.pmanager = provider_manager.ProviderManager(self.provider, False)
@@ -53,7 +53,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n1 = zk.Node()
         n1.state = zk.BUILDING
         n1.type = 'fake-label'
-        mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
+        mgr = NodeLaunchManager(self.zk, self.provider_pool,
                                 self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         while not mgr.poll():
@@ -70,7 +70,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n1 = zk.Node()
         n1.state = zk.BUILDING
         n1.type = 'fake-label'
-        mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
+        mgr = NodeLaunchManager(self.zk, self.provider_pool,
                                 self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         while not mgr.poll():
@@ -90,7 +90,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n2 = zk.Node()
         n2.state = zk.BUILDING
         n2.type = 'fake-label'
-        mgr = NodeLaunchManager(self.zk, self.provider, self.labels,
+        mgr = NodeLaunchManager(self.zk, self.provider_pool,
                                 self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         mgr.launch(n2)
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 4c4aa329c..420bb267a 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -469,6 +469,7 @@ class TestNodepool(tests.DBTestCase):
         node.type = 'fake-label'
         node.public_ipv4 = 'fake'
         node.provider = 'fake-provider'
+        node.pool = 'main'
         node.allocated_to = req.id
         self.zk.storeNode(node)
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index a12d966bb..678e9f8d5 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -404,6 +404,7 @@ class Node(BaseModel):
         super(Node, self).__init__(id)
         self.lock = None
         self.provider = None
+        self.pool = None
         self.type = None
         self.allocated_to = None
         self.az = None
@@ -430,6 +431,7 @@ class Node(BaseModel):
                     self.state == other.state and
                     self.state_time == other.state_time and
                     self.provider == other.provider and
+                    self.pool == other.pool and
                     self.type == other.type and
                     self.allocated_to == other.allocated_to and
                     self.az == other.az and
@@ -452,6 +454,7 @@ class Node(BaseModel):
         '''
         d = super(Node, self).toDict()
         d['provider'] = self.provider
+        d['pool'] = self.pool
         d['type'] = self.type
         d['allocated_to'] = self.allocated_to
         d['az'] = self.az
@@ -480,6 +483,7 @@ class Node(BaseModel):
         o = Node(o_id)
         super(Node, o).fromDict(d)
         o.provider = d.get('provider')
+        o.pool = d.get('pool')
         o.type = d.get('type')
         o.allocated_to = d.get('allocated_to')
         o.az = d.get('az')
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 41e998494..672f64c1c 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -20,23 +20,21 @@ diskimages:
       BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
 
 labels:
-  - name: single-fake
-    image: fake-nodepool
+  - name: small-fake
     min-ready: 2
-    providers:
-      - name: fake-provider
-  - name: multi-fake
-    image: fake-nodepool
+  - name: big-fake
     min-ready: 2
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
     region-name: 'fake-region'
-    max-servers: 96
-    images:
+    diskimages:
       - name: fake-nodepool
-        min-ram: 8192
-        name-filter: 'Fake'
-        diskimage: fake-nodepool
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: big-fake
+            diskimage: fake-nodepool
+            min-ram: 8192
+            name-filter: 'Fake'

From fb5e53b1d24f53f24b3d9f967ba4d07a3d352662 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 27 Mar 2017 08:06:42 -0400
Subject: [PATCH 149/309] Add a test for multiple provider pools

Test a provider with more than one pool.

Change-Id: Id06f5aa1cdb0291807ba1e9a87ac2731b8b0072f
---
 nodepool/tests/fixtures/multiple_pools.yaml | 64 +++++++++++++++++++++
 nodepool/tests/test_nodepool.py             | 22 +++++++
 2 files changed, 86 insertions(+)
 create mode 100644 nodepool/tests/fixtures/multiple_pools.yaml

diff --git a/nodepool/tests/fixtures/multiple_pools.yaml b/nodepool/tests/fixtures/multiple_pools.yaml
new file mode 100644
index 000000000..5eefb9af9
--- /dev/null
+++ b/nodepool/tests/fixtures/multiple_pools.yaml
@@ -0,0 +1,64 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+cron:
+  check: '*/15 * * * *'
+  cleanup: '*/1 * * * *'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label1
+    min-ready: 1
+  - name: fake-label2
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: pool1
+        max-servers: 1
+        availability-zones:
+          - az1
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label1
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'Fake'
+
+      - name: pool2
+        max-servers: 1
+        availability-zones:
+          - az2
+        networks:
+          - net-id: 'some-uuid'
+        labels:
+          - name: fake-label2
+            diskimage: fake-image
+            min-ram: 8192
+            name-filter: 'Fake'
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 420bb267a..7e69b98c0 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -509,3 +509,25 @@ class TestNodepool(tests.DBTestCase):
             node = self.zk.getNode(node.id)
             if not node.allocated_to:
                 break
+
+    def test_multiple_pools(self):
+        """Test that an image and node are created"""
+        configfile = self.setup_config('multiple_pools.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage('fake-provider', 'fake-image')
+        lab1 = self.waitForNodes('fake-label1')
+        lab2 = self.waitForNodes('fake-label2')
+
+        self.assertEqual(len(lab1), 1)
+        self.assertEqual(lab1[0].provider, 'fake-provider')
+        self.assertEqual(lab1[0].type, 'fake-label1')
+        self.assertEqual(lab1[0].az, 'az1')
+        self.assertEqual(lab1[0].pool, 'pool1')
+
+        self.assertEqual(len(lab2), 1)
+        self.assertEqual(lab2[0].provider, 'fake-provider')
+        self.assertEqual(lab2[0].type, 'fake-label2')
+        self.assertEqual(lab2[0].az, 'az2')
+        self.assertEqual(lab2[0].pool, 'pool2')

From 4d0940af2d23a1c87d403acaa18c018d845a7d2d Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 23 Mar 2017 15:17:45 -0700
Subject: [PATCH 150/309] Update docs for configuration syntax change

This catches the documentation up to the changes in the previous
patch.

Change-Id: I0874a3147ec481955511fc22b36ad2ba83d584f1
---
 doc/source/configuration.rst | 214 +++++++++++++++++++++++------------
 1 file changed, 141 insertions(+), 73 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index fb9bbde7b..3f774e4e6 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -83,36 +83,20 @@ the supplied root path, is also optional and has no default.
 labels
 ------
 
-Defines the types of nodes that should be created.  Maps node types to
-the images that are used to back them and the providers that are used
-to supply them.  Jobs should be written to run on nodes of a certain
-label. Example::
+Defines the types of nodes that should be created.  Jobs should be
+written to run on nodes of a certain label. Example::
 
   labels:
     - name: my-precise
-      image: precise
       min-ready: 2
-      providers:
-        - name: provider1
-        - name: provider2
     - name: multi-precise
-      image: precise
       min-ready: 2
-      providers:
-        - name: provider1
 
 **required**
 
   ``name``
     Unique name used to tie jobs to those instances.
 
-  ``image``
-    Refers to providers images, see :ref:`images`.
-
-  ``providers`` (list)
-    Required if any nodes should actually be created (e.g., the label is not
-    currently disabled, see ``min-ready`` below).
-
 **optional**
 
   ``min-ready`` (default: 2)
@@ -227,48 +211,74 @@ provider
 ---------
 
 Lists the OpenStack cloud providers Nodepool should use.  Within each
-provider, the Nodepool image types are also defined (see
-:ref:`images` for details).  Example::
+provider the available Nodepool image types are defined (see
+:ref:`provider_diskimages`.
+
+A provider's resources are partitioned into groups called "pools" (see
+:ref:`pools` for details), and within a pool, the node types which are
+to be made available are listed (see :ref:`pool_labels` for
+details).
+
+Example::
 
   providers:
     - name: provider1
       cloud: example
       region-name: 'region1'
-      max-servers: 96
       rate: 1.0
-      availability-zones:
-        - az1
       boot-timeout: 120
       launch-timeout: 900
       launch-retries: 3
       image-name-format: 'template-{image_name}-{timestamp}'
       hostname-format: '{label.name}-{provider.name}-{node.id}'
       ipv6-preferred: False
-      networks:
-        - name: 'some-network-name'
-      images:
+      diskimages:
         - name: trusty
-          min-ram: 8192
-          name-filter: 'something to match'
           meta:
               key: value
               key2: value
         - name: precise
-          min-ram: 8192
         - name: devstack-trusty
-          min-ram: 30720
+      pools:
+        - name: main
+          max-servers: 96
+          availability-zones:
+            - az1
+          networks:
+            - name: 'some-network-name'
+          labels:
+            - name: trusty
+              min-ram: 8192
+              diskimage: trusty
+            - name: precise
+              min-ram: 8192
+              diskimage: precise
+            - name: devstack-trusty
+              min-ram: 8192
+              diskimage: devstack-trusty
     - name: provider2
       region-name: 'region1'
-      max-servers: 96
       rate: 1.0
       image-name-format: 'template-{image_name}-{timestamp}'
       hostname-format: '{label.name}-{provider.name}-{node.id}'
-      images:
+      diskimages:
         - name: precise
-          min-ram: 8192
           meta:
               key: value
               key2: value
+      pools:
+        - name: main
+          max-servers: 96
+          labels:
+            - name: trusty
+              min-ram: 8192
+              diskimage: trusty
+            - name: precise
+              min-ram: 8192
+              diskimage: precise
+            - name: devstack-trusty
+              min-ram: 8192
+              diskimage: devstack-trusty
 
 **cloud configuration***
 
@@ -301,20 +311,8 @@ provider, the Nodepool image types are also defined (see
 
   ``name``
 
-  ``max-servers``
-    Maximum number of servers spawnable on this provider.
-
 **optional**
 
-  ``availability-zones`` (list)
-    Without it nodepool will rely on nova to schedule an availability zone.
-
-    If it is provided the value should be a list of availability zone names.
-    Nodepool will select one at random and provide that to nova. This should
-    give a good distribution of availability zones being used. If you need more
-    control of the distribution you can use multiple logical providers each
-    providing a different list of availabiltiy zones.
-
   ``boot-timeout``
     Once an instance is active, how long to try connecting to the
     image via SSH.  If the timeout is exceeded, the node launch is
@@ -337,15 +335,6 @@ provider, the Nodepool image types are also defined (see
 
     Default 3.
 
-  ``networks`` (dict)
-    Specify custom Neutron networks that get attached to each
-    node. Specify the ``name`` of the network (a string).
-
-  ``ipv6-preferred``
-    If it is set to True, nodepool will try to find ipv6 in public net first
-    as the ip address for the ssh connection. If ipv6 is not found or the key
-    is not specified or set to False, ipv4 address will be used.
-
   ``api-timeout`` (compatability)
     Timeout for the OpenStack API calls client in seconds. Prefer setting
     this in `clouds.yaml`
@@ -374,12 +363,64 @@ provider, the Nodepool image types are also defined (see
     each node request is handled by a separate thread, this can be useful for
     limiting the number of threads used by the nodepoold daemon.
 
-.. _images:
+.. _pools:
 
-images
-~~~~~~
+pools
+~~~~~
 
-Each entry in a provider's `images` section must correspond to an
+A pool defines a group of resources from a provider.  Each pool has a
+maximum number of nodes which can be launched from it, along with a
+number of cloud-related attributes used when launching nodes.
+
+Example::
+
+  pools:
+    - name: main
+      max-servers: 96
+      availability-zones:
+        - az1
+      networks:
+        - name: 'some-network-name'
+      labels:
+        - name: trusty
+          min-ram: 8192
+          diskimage: trusty
+        - name: precise
+          min-ram: 8192
+          diskimage: precise
+        - name: devstack-trusty
+          min-ram: 8192
+          diskimage: devstack-trusty
+
+**required**
+
+  ``name``
+
+  ``max-servers``
+    Maximum number of servers spawnable from this pool.
+
+**optional**
+
+  ``availability-zones`` (list)
+    Without it nodepool will rely on nova to schedule an availability zone.
+
+    If it is provided the value should be a list of availability zone names.
+    Nodepool will select one at random and provide that to nova. This should
+    give a good distribution of availability zones being used. If you need more
+    control of the distribution you can use multiple logical providers each
+    providing a different list of availabiltiy zones.
+
+  ``networks`` (dict)
+    Specify custom Neutron networks that get attached to each
+    node. Specify the ``name`` of the network (a string).
+
+
+.. _provider_diskimages:
+
+diskimages
+~~~~~~~~~~
+
+Each entry in a provider's `diskimages` section must correspond to an
 entry in :ref:`diskimages`.  Such an entry indicates that the
 corresponding diskimage should be uploaded for use in this provider.
 Additionally, any nodes that are created using the uploaded image will
@@ -390,11 +431,9 @@ images will be deleted from the provider.
 
 Example configuration::
 
-  images:
+  diskimages:
     - name: precise
       pause: False
-      min-ram: 8192
-      name-filter: 'something to match'
       meta:
           key: value
           key2: value
@@ -405,6 +444,47 @@ Example configuration::
     Identifier to refer this image from :ref:`labels` and :ref:`diskimages`
     sections.
 
+**optional**
+
+  ``pause`` (bool)
+    When set to True, nodepool-builder will not upload the image to the
+    provider.
+
+  ``config-drive`` (boolean)
+    Whether config drive should be used for the image.
+
+  ``meta`` (dict)
+    Arbitrary key/value metadata to store for this server using the Nova
+    metadata service. A maximum of five entries is allowed, and both keys and
+    values must be 255 characters or less.
+
+
+.. _pool_labels:
+
+labels
+~~~~~~
+
+Each entry in a pool`s `labels` section indicates that the
+corresponding label is available for use in this pool.  When creating
+nodes for a label, the flavor-related attributes in that label's
+section will be used.
+
+Example configuration::
+
+  labels:
+    - name: precise
+      min-ram: 8192
+      name-filter: 'something to match'
+
+**required**
+
+  ``name``
+    Identifier to refer this image from :ref:`labels` and :ref:`diskimages`
+    sections.
+
+  ``diskimage``
+    Refers to provider's diskimages, see :ref:`images`.
+
   ``min-ram``
     Determine the flavor to use (e.g. ``m1.medium``, ``m1.large``,
     etc).  The smallest flavor that meets the ``min-ram`` requirements
@@ -418,15 +498,3 @@ Example configuration::
     the flavor-name (e.g. Rackspace offer a "Performance" flavour; setting
     `name-filter` to ``Performance`` will ensure the chosen flavor also
     contains this string as well as meeting `min-ram` requirements).
-
-  ``pause`` (bool)
-    When set to True, nodepool-builder will not upload the image to the
-    provider.
-
-  ``config-drive`` (boolean)
-    Whether config drive should be used for the image.
-
-  ``meta`` (dict)
-    Arbitrary key/value metadata to store for this server using the Nova
-    metadata service. A maximum of five entries is allowed, and both keys and
-    values must be 255 characters or less.

From 8b2dd5f600e1b534036ba42e2ae7378dbcccec6a Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 23 Mar 2017 15:28:41 -0700
Subject: [PATCH 151/309] Remove api-timeout and provider.image-type

We defer to OCC for both of these.

Change-Id: Ic81972c3ccf2b05beaae6a89f22f8aee2dbc79d2
---
 devstack/plugin.sh                             |  1 -
 doc/source/configuration.rst                   | 18 ------------------
 nodepool/cmd/config_validator.py               |  2 --
 nodepool/config.py                             |  9 +++------
 nodepool/fakeprovider.py                       |  2 --
 nodepool/tests/fixtures/clouds.yaml            |  8 ++++++++
 nodepool/tests/fixtures/node_cmd.yaml          |  1 +
 nodepool/tests/fixtures/node_vhd.yaml          |  3 +--
 .../tests/fixtures/node_vhd_and_qcow2.yaml     |  4 +---
 9 files changed, 14 insertions(+), 34 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 80c6cffa5..41c8d7d2e 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -186,7 +186,6 @@ providers:
   - name: devstack
     region-name: '$REGION_NAME'
     cloud: devstack
-    api-timeout: 60
     # Long boot timeout to deal with potentially nested virt.
     boot-timeout: 600
     launch-timeout: 900
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 3f774e4e6..82a71cb00 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -293,20 +293,6 @@ Example::
   More information about the contents of `clouds.yaml` can be found in
   `the os-client-config documentation <http://docs.openstack.org/developer/os-client-config/>`_.
 
-**compatablity**
-
-  For backwards compatibility reasons, you can also include
-  portions of the cloud configuration directly in ``nodepool.yaml``. Not all
-  of the options settable via ``clouds.yaml`` are available.
-
-  ``image-type``
-    Specifies the image type supported by this provider.  The disk images built
-    by diskimage-builder will output an image for each ``image-type`` specified
-    by a provider using that particular diskimage.
-
-    By default, ``image-type`` is set to the value returned from
-    ``os-client-config`` and can be omitted in most cases.
-
 **required**
 
   ``name``
@@ -335,10 +321,6 @@ Example::
 
     Default 3.
 
-  ``api-timeout`` (compatability)
-    Timeout for the OpenStack API calls client in seconds. Prefer setting
-    this in `clouds.yaml`
-
   ``region-name``
 
   ``hostname-format``
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index c9ecfc004..f9a8ba454 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -66,10 +66,8 @@ class ConfigValidator:
             'region-name': str,
             'cloud': str,
             'max-concurrency': int,
-            'image-type': str,
             'ipv6-preferred': bool,
             'boot-timeout': int,
-            'api-timeout': int,
             'launch-timeout': int,
             'launch-retries': int,
             'rate': float,
diff --git a/nodepool/config.py b/nodepool/config.py
index 1c53bc0a9..708dfd572 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -43,7 +43,6 @@ class Provider(ConfigValue):
             other.pools != self.pools or
             other.image_type != self.image_type or
             other.rate != self.rate or
-            other.api_timeout != self.api_timeout or
             other.boot_timeout != self.boot_timeout or
             other.launch_timeout != self.launch_timeout or
             other.ipv6_preferred != self.ipv6_preferred or
@@ -219,7 +218,6 @@ def loadConfig(config_path):
         p.region_name = provider.get('region-name')
         p.max_concurrency = provider.get('max-concurrency', -1)
         p.rate = provider.get('rate', 1.0)
-        p.api_timeout = provider.get('api-timeout')
         p.boot_timeout = provider.get('boot-timeout', 60)
         p.launch_timeout = provider.get('launch-timeout', 3600)
         p.launch_retries = provider.get('launch-retries', 3)
@@ -233,8 +231,7 @@ def loadConfig(config_path):
             'image-name-format',
             '{image_name}-{timestamp}'
         )
-        p.image_type = provider.get(
-            'image-type', p.cloud_config.config['image_format'])
+        p.image_type = p.cloud_config.config['image_format']
         p.diskimages = {}
         for image in provider.get('diskimages', []):
             i = ProviderDiskImage()
@@ -306,7 +303,7 @@ def loadSecureConfig(config, secure_config_path):
 
 def _cloudKwargsFromProvider(provider):
     cloud_kwargs = {}
-    for arg in ['region-name', 'api-timeout', 'cloud']:
+    for arg in ['region-name', 'cloud']:
         if arg in provider:
             cloud_kwargs[arg] = provider[arg]
 
@@ -315,6 +312,6 @@ def _cloudKwargsFromProvider(provider):
 
 def _get_one_cloud(cloud_config, cloud_kwargs):
     '''This is a function to allow for overriding it in tests.'''
-    if cloud_kwargs.get('cloud') == 'fake':
+    if cloud_kwargs.get('cloud', '').startswith('fake'):
         return fakeprovider.fake_get_one_cloud(cloud_config, cloud_kwargs)
     return cloud_config.get_one_cloud(**cloud_kwargs)
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index 4c768d624..3e9c93b34 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -65,8 +65,6 @@ class Dummy(object):
 
 def fake_get_one_cloud(cloud_config, cloud_kwargs):
     cloud_kwargs['validate'] = False
-    if 'image_format' not in cloud_kwargs:
-        cloud_kwargs['image_format'] = 'qcow2'
     return cloud_config.get_one_cloud(**cloud_kwargs)
 
 
diff --git a/nodepool/tests/fixtures/clouds.yaml b/nodepool/tests/fixtures/clouds.yaml
index 74fc9645c..178f70984 100644
--- a/nodepool/tests/fixtures/clouds.yaml
+++ b/nodepool/tests/fixtures/clouds.yaml
@@ -5,3 +5,11 @@ clouds:
       password: 'fake'
       project_id: 'fake'
       auth_url: 'fake'
+
+  fake-vhd:
+    auth:
+      username: 'fake'
+      password: 'fake'
+      project_id: 'fake'
+      auth_url: 'fake'
+    image_format: 'vhd'
\ No newline at end of file
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index 0facaeaec..99552ac4f 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -36,6 +36,7 @@ providers:
             name-filter: 'fake'
 
   - name: fake-provider2
+    cloud: fake
     rate: 0.0001
     diskimages:
       - name: fake-image2
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index 52f46fffa..ff96ca116 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -16,9 +16,8 @@ labels:
 
 providers:
   - name: fake-provider
-    cloud: fake
+    cloud: fake-vhd
     region-name: fake-region
-    image-type: vhd
     rate: 0.0001
     diskimages:
       - name: fake-image
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index 29672e57c..b8058327a 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -16,9 +16,8 @@ labels:
 
 providers:
   - name: fake-provider1
-    cloud: fake
+    cloud: fake-vhd
     region-name: fake-region
-    image-type: vhd
     rate: 0.0001
     diskimages:
       - name: fake-image
@@ -33,7 +32,6 @@ providers:
   - name: fake-provider2
     cloud: fake
     region-name: fake-region
-    image-type: qcow2
     rate: 0.0001
     diskimages:
       - name: fake-image

From 440c42766292eb5473dea0ffcc3d58193fedc060 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 23 Mar 2017 16:09:56 -0700
Subject: [PATCH 152/309] Remove deprecated networks syntax

And simplify.

Change-Id: I8be53c228de9be5dc3cb39ff9d90cda6bbde9124
---
 doc/source/configuration.rst                  |  8 ++++----
 nodepool/cmd/config_validator.py              | 12 +-----------
 nodepool/config.py                            | 19 +------------------
 nodepool/fakeprovider.py                      | 15 ++++++++-------
 nodepool/provider_manager.py                  |  9 ++-------
 nodepool/tests/fixtures/multiple_pools.yaml   |  4 ----
 nodepool/tests/fixtures/node.yaml             |  2 +-
 nodepool/tests/fixtures/node_az.yaml          |  2 --
 nodepool/tests/fixtures/node_cmd.yaml         |  4 ----
 .../tests/fixtures/node_disabled_label.yaml   |  2 --
 .../tests/fixtures/node_diskimage_fail.yaml   |  2 --
 .../tests/fixtures/node_diskimage_pause.yaml  |  2 --
 nodepool/tests/fixtures/node_ipv6.yaml        | 10 +++++++---
 .../tests/fixtures/node_launch_retry.yaml     |  2 --
 nodepool/tests/fixtures/node_net_name.yaml    |  5 ++---
 15 files changed, 26 insertions(+), 72 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 82a71cb00..e9c063faf 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -245,7 +245,7 @@ Example::
           availability-zones:
             - az1
           networks:
-            - name: 'some-network-name'
+            - some-network-name
           labels:
             - name: trusty
               min-ram: 8192
@@ -362,7 +362,7 @@ Example::
       availability-zones:
         - az1
       networks:
-        - name: 'some-network-name'
+        - some-network-name
       labels:
         - name: trusty
           min-ram: 8192
@@ -392,9 +392,9 @@ Example::
     control of the distribution you can use multiple logical providers each
     providing a different list of availabiltiy zones.
 
-  ``networks`` (dict)
+  ``networks`` (list)
     Specify custom Neutron networks that get attached to each
-    node. Specify the ``name`` of the network (a string).
+    node. Specify the name or id of the network as a string.
 
 
 .. _provider_diskimages:
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index f9a8ba454..a22ae9413 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -29,16 +29,6 @@ class ConfigValidator:
             'cleanup': str,
         }
 
-        old_network = {
-            'net-id': str,
-            'net-label': str,
-        }
-
-        network = {
-            'name': v.Required(str),
-            'public': bool,  # Ignored, but kept for backwards compat
-        }
-
         pool_label = {
             v.Required('name'): str,
             v.Required('diskimage'): str,
@@ -48,7 +38,7 @@ class ConfigValidator:
 
         pool = {
             'name': str,
-            'networks': [v.Any(old_network, network)],
+            'networks': [str],
             'max-servers': int,
             'labels': [pool_label],
             'availability-zones': [str],
diff --git a/nodepool/config.py b/nodepool/config.py
index 708dfd572..c169a2871 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -125,11 +125,6 @@ class DiskImage(ConfigValue):
         return "<DiskImage %s>" % self.name
 
 
-class Network(ConfigValue):
-    def __repr__(self):
-        return "<Network name:%s id:%s>" % (self.name, self.id)
-
-
 def loadConfig(config_path):
     retry = 3
 
@@ -265,19 +260,7 @@ def loadConfig(config_path):
             p.pools[pp.name] = pp
             pp.max_servers = pool['max-servers']
             pp.azs = pool.get('availability-zones')
-            pp.networks = []
-            for network in pool.get('networks', []):
-                n = Network()
-                pp.networks.append(n)
-                if 'net-id' in network:
-                    n.id = network['net-id']
-                    n.name = None
-                elif 'net-label' in network:
-                    n.name = network['net-label']
-                    n.id = None
-                else:
-                    n.name = network.get('name')
-                    n.id = None
+            pp.networks = pool.get('networks', [])
             pp.labels = {}
             for label in pool.get('labels', []):
                 pl = ProviderLabel()
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index 3e9c93b34..ccf74259c 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -87,7 +87,9 @@ class FakeOpenStackCloud(object):
             networks = [dict(id='fake-public-network-uuid',
                              name='fake-public-network-name'),
                         dict(id='fake-private-network-uuid',
-                             name='fake-private-network-name')]
+                             name='fake-private-network-name'),
+                        dict(id='fake-ipv6-network-uuid',
+                             name='fake-ipv6-network-name')]
         self.networks = networks
         self._flavor_list = [
             Dummy(Dummy.FLAVOR, id='f1', ram=8192, name='Fake Flavor'),
@@ -103,8 +105,10 @@ class FakeOpenStackCloud(object):
         return None
 
     def get_network(self, name_or_id, filters=None):
-        return dict(id='fake-network-uuid',
-                    name='fake-network-name')
+        for net in self.networks:
+            if net['id'] == name_or_id or net['name'] == name_or_id:
+                return net
+        return self.networks[0]
 
     def _create(
             self, instance_list, instance_type=Dummy.INSTANCE,
@@ -115,7 +119,7 @@ class FakeOpenStackCloud(object):
         # if keyword 'ipv6-uuid' is found in provider config,
         # ipv6 address will be available in public addr dict.
         for nic in nics:
-            if 'ipv6-uuid' not in nic['net-id']:
+            if nic['net-id'] != 'fake-ipv6-network-uuid':
                 continue
             addresses = dict(
                 public=[dict(version=4, addr='fake'),
@@ -226,9 +230,6 @@ class FakeOpenStackCloud(object):
     def delete_server(self, name_or_id, delete_ips=True):
         self._delete(name_or_id, self._server_list)
 
-    def list_networks(self):
-        return dict(networks=self.networks)
-
 
 class FakeUploadFailCloud(FakeOpenStackCloud):
     log = logging.getLogger("nodepool.FakeUploadFailCloud")
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 94b3ae277..ca14f3063 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -186,13 +186,8 @@ class ProviderManager(object):
             create_args['availability_zone'] = az
         nics = []
         for network in networks:
-            if network.id:
-                nics.append({'net-id': network.id})
-            elif network.name:
-                net_id = self.findNetwork(network.name)['id']
-                nics.append({'net-id': net_id})
-            else:
-                raise Exception("Invalid 'networks' configuration.")
+            net_id = self.findNetwork(network)['id']
+            nics.append({'net-id': net_id})
         if nics:
             create_args['nics'] = nics
         # Put provider.name and image_name in as groups so that ansible
diff --git a/nodepool/tests/fixtures/multiple_pools.yaml b/nodepool/tests/fixtures/multiple_pools.yaml
index 5eefb9af9..3d1a77eff 100644
--- a/nodepool/tests/fixtures/multiple_pools.yaml
+++ b/nodepool/tests/fixtures/multiple_pools.yaml
@@ -31,8 +31,6 @@ providers:
         max-servers: 1
         availability-zones:
           - az1
-        networks:
-          - net-id: 'some-uuid'
         labels:
           - name: fake-label1
             diskimage: fake-image
@@ -43,8 +41,6 @@ providers:
         max-servers: 1
         availability-zones:
           - az2
-        networks:
-          - net-id: 'some-uuid'
         labels:
           - name: fake-label2
             diskimage: fake-image
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index ddb7e8712..9495ea8de 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -30,7 +30,7 @@ providers:
         availability-zones:
           - az1
         networks:
-          - net-id: 'some-uuid'
+          - net-name
         labels:
           - name: fake-label
             diskimage: fake-image
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index e8fe9aa12..38174d2bd 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -27,8 +27,6 @@ providers:
     pools:
       - name: main
         max-servers: 96
-        networks:
-          - net-id: 'some-uuid'
         availability-zones:
           - az1
         labels:
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index 99552ac4f..173e1f770 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -27,8 +27,6 @@ providers:
     pools:
       - name: main
         max-servers: 96
-        networks:
-          - net-id: 'some-uuid'
         labels:
           - name: fake-label1
             diskimage: fake-image1
@@ -46,8 +44,6 @@ providers:
     pools:
       - name: main
         max-servers: 96
-        networks:
-          - net-id: 'some-uuid'
         labels:
           - name: fake-label2
             diskimage: fake-image2
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 0f4555a4e..8f36b8921 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -27,8 +27,6 @@ providers:
     pools:
       - name: main
         max-servers: 96
-        networks:
-          - net-id: 'some-uuid'
         labels:
           - name: fake-label
             diskimage: fake-image
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index 41bf600a9..edbb3cdc8 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -27,8 +27,6 @@ providers:
     pools:
       - name: main
         max-servers: 96
-        networks:
-          - net-id: 'some-uuid'
         labels:
           - name: fake-label
             diskimage: fake-image
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index 4e6a6816e..0d1f6cf08 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -30,8 +30,6 @@ providers:
     pools:
       - name: main
         max-servers: 96
-        networks:
-          - net-id: 'some-uuid'
         labels:
           - name: fake-label
             diskimage: fake-image
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index b26755754..4bfad862e 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -32,7 +32,9 @@ providers:
       - name: main
         max-servers: 96
         networks:
-          - net-id: 'ipv6-uuid'
+          # This activates a flag in fakeprovider to give us an ipv6
+          # network
+          - 'fake-ipv6-network-name'
         labels:
           - name: fake-label1
             diskimage: fake-image
@@ -48,7 +50,9 @@ providers:
       - name: main
         max-servers: 96
         networks:
-          - net-id: 'ipv6-uuid'
+          # This activates a flag in fakeprovider to give us an ipv6
+          # network
+          - 'fake-ipv6-network-name'
         labels:
           - name: fake-label2
             diskimage: fake-image
@@ -65,7 +69,7 @@ providers:
       - name: main
         max-servers: 96
         networks:
-          - net-id: 'some-uuid'
+          - 'some-name'
         labels:
           - name: fake-label3
             diskimage: fake-image
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
index 94a2d60c0..afdf5be7f 100644
--- a/nodepool/tests/fixtures/node_launch_retry.yaml
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -24,8 +24,6 @@ providers:
       - name: fake-image
     pools:
       - name: main
-        networks:
-          - net-id: 'some-uuid'
         max-servers: 96
         labels:
           - name: fake-label
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index 365e0b0ac..72a5a101c 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -25,9 +25,8 @@ providers:
       - name: main
         max-servers: 96
         networks:
-          - name: 'fake-public-network-name'
-            public: true
-          - name: 'fake-private-network-name'
+          - 'fake-public-network-name'
+          - 'fake-private-network-name'
         labels:
           - name: fake-label
             diskimage: fake-image

From 1a1521b489b61d37c7ff67ddc3c58d10b5ae8a77 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 24 Mar 2017 10:17:14 -0700
Subject: [PATCH 153/309] Exercise statsd in tests and fix

We weren't doing anything with statsd in tests.  Port over the
fake statsd from Zuul and use it to verify that we exit some
stats.

Fix parts of the stats emission that were broken.

Change-Id: I027e67b928bd28372bef8ab147c7ed5841009caf
---
 nodepool/nodepool.py            | 11 ++++--
 nodepool/tests/__init__.py      | 61 +++++++++++++++++++++++++++++++++
 nodepool/tests/test_nodepool.py |  2 ++
 3 files changed, 71 insertions(+), 3 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 8267f44ed..931686198 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -103,8 +103,12 @@ class StatsReporter(object):
                         (provider_name, node_az, subkey))
 
         if requestor:
-           keys.append('nodepool.launch.requestor.%s.%s' %
-                       (requestor, subkey))
+            # Replace '.' which is a graphite hierarchy, and ':' which is
+            # a statsd delimeter.
+            requestor = requestor.replace('.', '_')
+            requestor = requestor.replace(':', '_')
+            keys.append('nodepool.launch.requestor.%s.%s' %
+                        (requestor, subkey))
 
         for key in keys:
             self._statsd.timing(key, dt)
@@ -156,7 +160,8 @@ class StatsReporter(object):
 
         #nodepool.provider.PROVIDER.max_servers
         key = 'nodepool.provider.%s.max_servers' % provider.name
-        self._statsd.gauge(key, provider.max_servers)
+        max_servers = sum([p.max_servers for p in provider.pools.values()])
+        self._statsd.gauge(key, max_servers)
 
 
 class InstanceDeleter(threading.Thread, StatsReporter):
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 29825a986..05c920e10 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -19,7 +19,9 @@ import glob
 import logging
 import os
 import random
+import select
 import string
+import socket
 import subprocess
 import threading
 import tempfile
@@ -97,6 +99,39 @@ class ChrootedKazooFixture(fixtures.Fixture):
         _tmp_client.close()
 
 
+class StatsdFixture(fixtures.Fixture):
+    def _setUp(self):
+        self.running = True
+        self.thread = threading.Thread(target=self.run)
+        self.thread.daemon = True
+        self.sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
+        self.sock.bind(('', 0))
+        self.port = self.sock.getsockname()[1]
+        self.wake_read, self.wake_write = os.pipe()
+        self.stats = []
+        self.thread.start()
+
+    def run(self):
+        while self.running:
+            poll = select.poll()
+            poll.register(self.sock, select.POLLIN)
+            poll.register(self.wake_read, select.POLLIN)
+            ret = poll.poll()
+            for (fd, event) in ret:
+                if fd == self.sock.fileno():
+                    data = self.sock.recvfrom(1024)
+                    if not data:
+                        return
+                    self.stats.append(data[0])
+                if fd == self.wake_read:
+                    return
+
+    def _cleanup(self):
+        self.running = False
+        os.write(self.wake_write, '1\n')
+        self.thread.join()
+
+
 class BaseTestCase(testtools.TestCase):
     def setUp(self):
         super(BaseTestCase, self).setUp()
@@ -138,6 +173,14 @@ class BaseTestCase(testtools.TestCase):
             self.subprocesses.append(p)
             return p
 
+        self.statsd = StatsdFixture()
+        self.useFixture(self.statsd)
+
+        # note, use 127.0.0.1 rather than localhost to avoid getting ipv6
+        # see: https://github.com/jsocol/pystatsd/issues/61
+        os.environ['STATSD_HOST'] = '127.0.0.1'
+        os.environ['STATSD_PORT'] = str(self.statsd.port)
+
         self.useFixture(fixtures.MonkeyPatch('subprocess.Popen',
                                              LoggingPopenFactory))
         self.setUpFakes()
@@ -198,6 +241,24 @@ class BaseTestCase(testtools.TestCase):
                 return
             time.sleep(0.1)
 
+    def assertReportedStat(self, key, value=None, kind=None):
+        start = time.time()
+        while time.time() < (start + 5):
+            for stat in self.statsd.stats:
+                k, v = stat.split(':')
+                if key == k:
+                    if value is None and kind is None:
+                        return
+                    elif value:
+                        if value == v:
+                            return
+                    elif kind:
+                        if v.endswith('|' + kind):
+                            return
+            time.sleep(0.1)
+
+        raise Exception("Key %s not found in reported stats" % key)
+
 
 class BuilderFixture(fixtures.Fixture):
     def __init__(self, configfile, cleanup_interval):
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 7e69b98c0..5e74b5112 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -69,6 +69,8 @@ class TestNodepool(tests.DBTestCase):
         )
         self.zk.deleteNodeRequest(req)
         self.waitForNodeRequestLockDeletion(req.id)
+        self.assertReportedStat('nodepool.nodes.ready', '1|g')
+        self.assertReportedStat('nodepool.nodes.building', '0|g')
 
     def test_node_assignment_at_quota(self):
         '''

From 34cabe207a4419263bbe41b8a3727ec33a94f7bd Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Fri, 24 Mar 2017 11:14:13 -0500
Subject: [PATCH 154/309] Remove ipv6-preferred and rely on interface_ip

shade/occ have a force-ipv4 setting which can be used to change
autodetected behavior, but also have detection for ipv6 viability.
This makes us aggressively use IPv6 and only us v4 if v6 is not
available or has been explicitly disabled. Yay us.

Incidentally, this should also help people use zuul in places that are
completely non-public - as a zuul running in a cloud with a private
network on it and spinning up nodes that only have private networks
means public_v4 won't really have anything in it - but clouds.yaml
supports a private=True setting which will cause the private ip to be
listed as the ip that is desired.

Change-Id: I2b4d992e3b21c00cefe98023267347c02dd961dc
---
 doc/source/configuration.rst           |  1 -
 nodepool/cmd/config_validator.py       |  1 -
 nodepool/config.py                     |  2 --
 nodepool/fakeprovider.py               |  4 ++++
 nodepool/nodepool.py                   | 26 +++++++++++---------------
 nodepool/tests/fixtures/clouds.yaml    |  2 +-
 nodepool/tests/fixtures/node_ipv6.yaml | 25 +------------------------
 nodepool/tests/test_nodepool.py        | 18 ++++++------------
 nodepool/zk.py                         |  4 ++++
 9 files changed, 27 insertions(+), 56 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index e9c063faf..78186d187 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -231,7 +231,6 @@ Example::
       launch-retries: 3
       image-name-format: 'template-{image_name}-{timestamp}'
       hostname-format: '{label.name}-{provider.name}-{node.id}'
-      ipv6-preferred: False
       diskimages:
         - name: trusty
           meta:
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index a22ae9413..15d6250f4 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -56,7 +56,6 @@ class ConfigValidator:
             'region-name': str,
             'cloud': str,
             'max-concurrency': int,
-            'ipv6-preferred': bool,
             'boot-timeout': int,
             'launch-timeout': int,
             'launch-retries': int,
diff --git a/nodepool/config.py b/nodepool/config.py
index c169a2871..1e140b74d 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -45,7 +45,6 @@ class Provider(ConfigValue):
             other.rate != self.rate or
             other.boot_timeout != self.boot_timeout or
             other.launch_timeout != self.launch_timeout or
-            other.ipv6_preferred != self.ipv6_preferred or
             other.clean_floating_ips != self.clean_floating_ips or
             other.max_concurrency != self.max_concurrency or
             other.diskimages != self.diskimages):
@@ -216,7 +215,6 @@ def loadConfig(config_path):
         p.boot_timeout = provider.get('boot-timeout', 60)
         p.launch_timeout = provider.get('launch-timeout', 3600)
         p.launch_retries = provider.get('launch-retries', 3)
-        p.ipv6_preferred = provider.get('ipv6-preferred')
         p.clean_floating_ips = provider.get('clean-floating-ips')
         p.hostname_format = provider.get(
             'hostname-format',
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index ccf74259c..404dd2c5a 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -129,6 +129,7 @@ class FakeOpenStackCloud(object):
             public_v6 = 'fake_v6'
             public_v4 = 'fake'
             private_v4 = 'fake'
+            interface_ip = 'fake_v6'
             break
         if not addresses:
             addresses = dict(
@@ -138,6 +139,7 @@ class FakeOpenStackCloud(object):
             public_v6 = ''
             public_v4 = 'fake'
             private_v4 = 'fake'
+            interface_ip = 'fake'
 
         s = Dummy(instance_type,
                   id=uuid.uuid4().hex,
@@ -148,6 +150,7 @@ class FakeOpenStackCloud(object):
                   public_v4=public_v4,
                   public_v6=public_v6,
                   private_v4=private_v4,
+                  interface_ip=interface_ip,
                   location=Dummy(Dummy.LOCATION, zone=kw.get('az')),
                   metadata=kw.get('meta', {}),
                   manager=self,
@@ -210,6 +213,7 @@ class FakeOpenStackCloud(object):
         server.public_v4 = 'fake'
         server.public_v6 = 'fake'
         server.private_v4 = 'fake'
+        server.interface_ip = 'fake'
         return server
 
     def create_server(self, **kw):
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 931686198..113c18672 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -324,22 +324,16 @@ class NodeLauncher(threading.Thread, StatsReporter):
         if not self._node.az:
             self._node.az = server.location.zone
 
-        self._node.public_ipv4 = server.public_v4
-        self._node.public_ipv6 = server.public_v6
-
-        preferred_ip = server.public_v4
-        if self._provider.ipv6_preferred:
-            if server.public_v6:
-                preferred_ip = server.public_v6
-            else:
-                self.log.warning('Preferred ipv6 not available, '
-                                 'falling back to ipv4.')
-        if not preferred_ip:
+        interface_ip = server.interface_ip
+        if not interface_ip:
             self.log.debug(
                 "Server data for failed IP: %s" % pprint.pformat(
                     server))
             raise LaunchNetworkException("Unable to find public IP of server")
 
+        self._node.interface_ip = interface_ip
+        self._node.public_ipv4 = server.public_v4
+        self._node.public_ipv6 = server.public_v6
         self._node.private_ipv4 = server.private_v4
         # devstack-gate multi-node depends on private_v4 being populated
         # with something. On clouds that don't have a private address, use
@@ -350,14 +344,15 @@ class NodeLauncher(threading.Thread, StatsReporter):
         # Checkpoint save the updated node info
         self._zk.storeNode(self._node)
 
-        self.log.debug("Node %s is running [az: %s, ipv4: %s, ipv6: %s]" %
-                       (self._node.id, self._node.az, self._node.public_ipv4,
-                        self._node.public_ipv6))
+        self.log.debug(
+            "Node %s is running [az: %s, ip: %s ipv4: %s, ipv6: %s]" %
+            (self._node.id, self._node.az, self._node.interface_ip,
+             self._node.public_ipv4, self._node.public_ipv6))
 
         # Get the SSH public keys for the new node and record in ZooKeeper
         self.log.debug("Gathering host keys for node %s", self._node.id)
         host_keys = utils.keyscan(
-            preferred_ip, timeout=self._provider.boot_timeout)
+            interface_ip, timeout=self._provider.boot_timeout)
         if not host_keys:
             raise LaunchKeyscanException("Unable to gather host keys")
         self._node.host_keys = host_keys
@@ -381,6 +376,7 @@ class NodeLauncher(threading.Thread, StatsReporter):
                     self._node.external_id = None
                     self._node.public_ipv4 = None
                     self._node.public_ipv6 = None
+                    self._node.inerface_ip = None
                     self._zk.storeNode(self._node)
                 if attempts == self._retries:
                     raise
diff --git a/nodepool/tests/fixtures/clouds.yaml b/nodepool/tests/fixtures/clouds.yaml
index 178f70984..faebc88d8 100644
--- a/nodepool/tests/fixtures/clouds.yaml
+++ b/nodepool/tests/fixtures/clouds.yaml
@@ -12,4 +12,4 @@ clouds:
       password: 'fake'
       project_id: 'fake'
       auth_url: 'fake'
-    image_format: 'vhd'
\ No newline at end of file
+    image_format: 'vhd'
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index 4bfad862e..ef7bb9f4f 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -17,14 +17,10 @@ labels:
   - name: fake-label2
     min-ready: 1
 
-  - name: fake-label3
-    min-ready: 1
-
 providers:
   - name: fake-provider1
     cloud: fake
     region-name: fake-region
-    ipv6-preferred: True
     rate: 0.0001
     diskimages:
       - name: fake-image
@@ -44,25 +40,6 @@ providers:
     cloud: fake
     region-name: fake-region
     rate: 0.0001
-    diskimages:
-      - name: fake-image
-    pools:
-      - name: main
-        max-servers: 96
-        networks:
-          # This activates a flag in fakeprovider to give us an ipv6
-          # network
-          - 'fake-ipv6-network-name'
-        labels:
-          - name: fake-label2
-            diskimage: fake-image
-            min-ram: 8192
-
-  - name: fake-provider3
-    cloud: fake
-    region-name: fake-region
-    ipv6-preferred: True
-    rate: 0.0001
     diskimages:
       - name: fake-image
     pools:
@@ -71,7 +48,7 @@ providers:
         networks:
           - 'some-name'
         labels:
-          - name: fake-label3
+          - name: fake-label2
             diskimage: fake-image
             min-ram: 8192
 
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 5e74b5112..32cd4ba32 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -305,36 +305,30 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(nodes[0].az, 'az1')
 
     def test_node_ipv6(self):
-        """Test that a node is created w/ or w/o ipv6 preferred flag"""
+        """Test that ipv6 existence either way works fine."""
         configfile = self.setup_config('node_ipv6.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider1', 'fake-image')
         self.waitForImage('fake-provider2', 'fake-image')
-        self.waitForImage('fake-provider3', 'fake-image')
         label1_nodes = self.waitForNodes('fake-label1')
         label2_nodes = self.waitForNodes('fake-label2')
-        label3_nodes = self.waitForNodes('fake-label3')
 
         self.assertEqual(len(label1_nodes), 1)
         self.assertEqual(len(label2_nodes), 1)
-        self.assertEqual(len(label3_nodes), 1)
 
-        # ipv6 preferred set to true and ipv6 address available
+        # ipv6 address available
         self.assertEqual(label1_nodes[0].provider, 'fake-provider1')
         self.assertEqual(label1_nodes[0].public_ipv4, 'fake')
         self.assertEqual(label1_nodes[0].public_ipv6, 'fake_v6')
+        self.assertEqual(label1_nodes[0].interface_ip, 'fake_v6')
 
-        # ipv6 preferred unspecified and ipv6 address available
+        # ipv6 address unavailable
         self.assertEqual(label2_nodes[0].provider, 'fake-provider2')
         self.assertEqual(label2_nodes[0].public_ipv4, 'fake')
-        self.assertEqual(label2_nodes[0].public_ipv6, 'fake_v6')
-
-        # ipv6 preferred set to true but ipv6 address unavailable
-        self.assertEqual(label3_nodes[0].provider, 'fake-provider3')
-        self.assertEqual(label3_nodes[0].public_ipv4, 'fake')
-        self.assertEqual(label3_nodes[0].public_ipv6, '')
+        self.assertEqual(label2_nodes[0].public_ipv6, '')
+        self.assertEqual(label2_nodes[0].interface_ip, 'fake')
 
     def test_node_delete_success(self):
         configfile = self.setup_config('node.yaml')
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 678e9f8d5..a72dd7cb9 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -411,6 +411,7 @@ class Node(BaseModel):
         self.public_ipv4 = None
         self.private_ipv4 = None
         self.public_ipv6 = None
+        self.interface_ip = None
         self.image_id = None
         self.launcher = None
         self.created_time = None
@@ -438,6 +439,7 @@ class Node(BaseModel):
                     self.public_ipv4 == other.public_ipv4 and
                     self.private_ipv4 == other.private_ipv4 and
                     self.public_ipv6 == other.public_ipv6 and
+                    self.interface_ip == other.interface_ip and
                     self.image_id == other.image_id and
                     self.launcher == other.launcher and
                     self.created_time == other.created_time and
@@ -461,6 +463,7 @@ class Node(BaseModel):
         d['public_ipv4'] = self.public_ipv4
         d['private_ipv4'] = self.private_ipv4
         d['public_ipv6'] = self.public_ipv6
+        d['interface_ip'] = self.interface_ip
         d['image_id'] = self.image_id
         d['launcher'] = self.launcher
         d['created_time'] = self.created_time
@@ -490,6 +493,7 @@ class Node(BaseModel):
         o.public_ipv4 = d.get('public_ipv4')
         o.private_ipv4 = d.get('private_ipv4')
         o.public_ipv6 = d.get('public_ipv6')
+        o.interface_ip = d.get('interface_ip')
         o.image_id = d.get('image_id')
         o.launcher = d.get('launcher')
         o.created_time = d.get('created_time')

From 68c777f0aafd617d2a75641a08ea00bc44b12e59 Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Fri, 24 Mar 2017 14:02:56 -0500
Subject: [PATCH 155/309] Remove mention of non-clouds.yaml from docs

There was a sentence that mentioned two methods with clouds.yaml being
the preferred. Except there is no other now. Make less words.

Change-Id: Iac7dd11e083c525721e56b4497e07a2b45a8d39f
---
 doc/source/configuration.rst | 19 ++++++-------------
 1 file changed, 6 insertions(+), 13 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 78186d187..3233d864d 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -279,23 +279,16 @@ Example::
               min-ram: 8192
               diskimage: devstack-trusty
 
-**cloud configuration***
-
-**preferred**
-
-  ``cloud``
-  There are two methods supported for configuring cloud entries. The preferred
-  method is to create an ``~/.config/openstack/clouds.yaml`` file containing
-  your cloud configuration information. Then, use ``cloud`` to refer to a
-  named entry in that file.
-
-  More information about the contents of `clouds.yaml` can be found in
-  `the os-client-config documentation <http://docs.openstack.org/developer/os-client-config/>`_.
-
 **required**
 
   ``name``
 
+  ``cloud``
+  Name of a cloud configured in ``clouds.yaml``.
+
+  More information about the contents of `clouds.yaml` can be found in
+  `the os-client-config documentation <http://docs.openstack.org/developer/os-client-config/>`_.
+
 **optional**
 
   ``boot-timeout``

From 6da49fe73292505d68facc201dec9d6b713044fa Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 23 Mar 2017 09:20:45 -0400
Subject: [PATCH 156/309] Docs: Remove cron references

Cron support is gone. Remove the doc/config file references, and
config supporting code.

Change-Id: I6587c7c3122dc1eb16f2c58520e7d76de31624f3
---
 devstack/plugin.sh                               |  4 ----
 doc/source/configuration.rst                     | 15 ---------------
 nodepool/cmd/config_validator.py                 |  6 ------
 nodepool/config.py                               | 16 ----------------
 .../tests/fixtures/config_validate/good.yaml     |  4 ----
 .../fixtures/config_validate/yaml_error.yaml     |  4 ----
 nodepool/tests/fixtures/integration.yaml         |  4 ----
 nodepool/tests/fixtures/integration_occ.yaml     |  4 ----
 nodepool/tests/fixtures/leaked_node.yaml         |  4 ----
 nodepool/tests/fixtures/multiple_pools.yaml      |  4 ----
 nodepool/tests/fixtures/node.yaml                |  4 ----
 nodepool/tests/fixtures/node_az.yaml             |  4 ----
 nodepool/tests/fixtures/node_cmd.yaml            |  4 ----
 nodepool/tests/fixtures/node_disabled_label.yaml |  4 ----
 nodepool/tests/fixtures/node_diskimage_fail.yaml |  4 ----
 nodepool/tests/fixtures/node_diskimage_only.yaml |  4 ----
 .../tests/fixtures/node_diskimage_pause.yaml     |  4 ----
 .../tests/fixtures/node_image_upload_pause.yaml  |  4 ----
 nodepool/tests/fixtures/node_ipv6.yaml           |  4 ----
 nodepool/tests/fixtures/node_label_provider.yaml |  4 ----
 nodepool/tests/fixtures/node_launch_retry.yaml   |  4 ----
 nodepool/tests/fixtures/node_lost_requests.yaml  |  4 ----
 nodepool/tests/fixtures/node_net_name.yaml       |  4 ----
 nodepool/tests/fixtures/node_quota.yaml          |  4 ----
 nodepool/tests/fixtures/node_two_image.yaml      |  4 ----
 .../tests/fixtures/node_two_image_remove.yaml    |  4 ----
 nodepool/tests/fixtures/node_two_provider.yaml   |  4 ----
 .../tests/fixtures/node_two_provider_remove.yaml |  4 ----
 nodepool/tests/fixtures/node_upload_fail.yaml    |  4 ----
 nodepool/tests/fixtures/node_vhd.yaml            |  4 ----
 nodepool/tests/fixtures/node_vhd_and_qcow2.yaml  |  4 ----
 tools/fake-dib.yaml                              |  4 ----
 tools/fake.yaml                                  |  4 ----
 33 files changed, 157 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 41c8d7d2e..abb366f90 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -166,10 +166,6 @@ zookeeper-servers:
   - host: localhost
     port: 2181
 
-cron:
-  cleanup: '*/1 * * * *'
-  check: '*/15 * * * *'
-
 labels:
   - name: centos-7
     min-ready: 1
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 9de5c84a5..7d9049e97 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -44,21 +44,6 @@ Example::
 
   images-dir: /path/to/images/dir
 
-cron
-----
-This section is optional.
-
-Nodepool runs several periodic tasks.  The ``cleanup`` task deletes
-old images and servers which may have encountered errors during their
-initial deletion.  The ``check`` task attempts to log into each node
-that is waiting to be used to make sure that it is still operational.
-The following illustrates how to change the schedule for these tasks
-and also indicates their default values::
-
-  cron:
-    cleanup: '27 */6 * * *'
-    check: '*/15 * * * *'
-
 zookeeper-servers
 -----------------
 Lists the ZooKeeper servers uses for coordinating information between
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index a22ae9413..3c8136776 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -24,11 +24,6 @@ class ConfigValidator:
         self.config_file = config_file
 
     def validate(self):
-        cron = {
-            'check': str,
-            'cleanup': str,
-        }
-
         pool_label = {
             v.Required('name'): str,
             v.Required('diskimage'): str,
@@ -91,7 +86,6 @@ class ConfigValidator:
                 'port': int,
                 'chroot': str,
             }],
-            'cron': cron,
             'providers': [provider],
             'labels': [label],
             'diskimages': [diskimage],
diff --git a/nodepool/config.py b/nodepool/config.py
index c169a2871..3f729143a 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -101,11 +101,6 @@ class ProviderLabel(ConfigValue):
         return "<ProviderLabel %s>" % self.name
 
 
-class Cron(ConfigValue):
-    def __repr__(self):
-        return "<Cron %s>" % self.name
-
-
 class DiskImage(ConfigValue):
     def __eq__(self, other):
         if (other.name != self.name or
@@ -156,17 +151,6 @@ def loadConfig(config_path):
     newconfig.provider_managers = {}
     newconfig.zookeeper_servers = {}
     newconfig.diskimages = {}
-    newconfig.crons = {}
-
-    for name, default in [
-        ('cleanup', '* * * * *'),
-        ('check', '*/15 * * * *'),
-        ]:
-        c = Cron()
-        c.name = name
-        newconfig.crons[c.name] = c
-        c.job = None
-        c.timespec = config.get('cron', {}).get(name, default)
 
     for server in config.get('zookeeper-servers', []):
         z = zk.ZooKeeperConnectionConfig(server['host'],
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index a2c027b98..c2fb89368 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -1,10 +1,6 @@
 elements-dir: /etc/nodepool/elements
 images-dir: /opt/nodepool_dib
 
-cron:
-  cleanup: '*/1 * * * *'
-  check: '*/15 * * * *'
-
 zookeeper-servers:
   - host: zk1.openstack.org
     port: 2181
diff --git a/nodepool/tests/fixtures/config_validate/yaml_error.yaml b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
index c78b2a4c0..cfbe1249c 100644
--- a/nodepool/tests/fixtures/config_validate/yaml_error.yaml
+++ b/nodepool/tests/fixtures/config_validate/yaml_error.yaml
@@ -1,10 +1,6 @@
 elements-dir: /etc/nodepool/elements
 images-dir: /opt/nodepool_dib
 
-cron:
-  cleanup: '*/1 * * * *'
-  check: '*/15 * * * *'
-
 zookeeper-servers:
   - host: zk1.openstack.org
     port: 2181
diff --git a/nodepool/tests/fixtures/integration.yaml b/nodepool/tests/fixtures/integration.yaml
index 69ba546cf..ab4392d49 100644
--- a/nodepool/tests/fixtures/integration.yaml
+++ b/nodepool/tests/fixtures/integration.yaml
@@ -1,9 +1,5 @@
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: localhost
 
diff --git a/nodepool/tests/fixtures/integration_occ.yaml b/nodepool/tests/fixtures/integration_occ.yaml
index 628c23086..a4f711fe8 100644
--- a/nodepool/tests/fixtures/integration_occ.yaml
+++ b/nodepool/tests/fixtures/integration_occ.yaml
@@ -1,9 +1,5 @@
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: localhost
 
diff --git a/nodepool/tests/fixtures/leaked_node.yaml b/nodepool/tests/fixtures/leaked_node.yaml
index 39533c35d..40d166b85 100644
--- a/nodepool/tests/fixtures/leaked_node.yaml
+++ b/nodepool/tests/fixtures/leaked_node.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '* * * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/multiple_pools.yaml b/nodepool/tests/fixtures/multiple_pools.yaml
index 3d1a77eff..50c23a188 100644
--- a/nodepool/tests/fixtures/multiple_pools.yaml
+++ b/nodepool/tests/fixtures/multiple_pools.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 9495ea8de..6691e9c92 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index 38174d2bd..7162e910e 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index 173e1f770..8e48874f2 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -1,9 +1,5 @@
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 8f36b8921..93c2c4d07 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index edbb3cdc8..f0f5b86f3 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_diskimage_only.yaml b/nodepool/tests/fixtures/node_diskimage_only.yaml
index 0484b4fda..c3d43ab2e 100644
--- a/nodepool/tests/fixtures/node_diskimage_only.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_only.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index 0d1f6cf08..1b07eee5a 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_image_upload_pause.yaml b/nodepool/tests/fixtures/node_image_upload_pause.yaml
index c790147a5..eb97fe833 100644
--- a/nodepool/tests/fixtures/node_image_upload_pause.yaml
+++ b/nodepool/tests/fixtures/node_image_upload_pause.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index 4bfad862e..bc1c286bb 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_label_provider.yaml b/nodepool/tests/fixtures/node_label_provider.yaml
index c99653add..0bf4db88d 100644
--- a/nodepool/tests/fixtures/node_label_provider.yaml
+++ b/nodepool/tests/fixtures/node_label_provider.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
index afdf5be7f..5ada506c4 100644
--- a/nodepool/tests/fixtures/node_launch_retry.yaml
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_lost_requests.yaml b/nodepool/tests/fixtures/node_lost_requests.yaml
index 1ed4cfd3f..8bb874143 100644
--- a/nodepool/tests/fixtures/node_lost_requests.yaml
+++ b/nodepool/tests/fixtures/node_lost_requests.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index 72a5a101c..9b832ea19 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota.yaml
index 67a474416..8968695d4 100644
--- a/nodepool/tests/fixtures/node_quota.yaml
+++ b/nodepool/tests/fixtures/node_quota.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_image.yaml b/nodepool/tests/fixtures/node_two_image.yaml
index 8776cfe8d..43ef5265c 100644
--- a/nodepool/tests/fixtures/node_two_image.yaml
+++ b/nodepool/tests/fixtures/node_two_image.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_image_remove.yaml b/nodepool/tests/fixtures/node_two_image_remove.yaml
index 6aea5dc18..40d166b85 100644
--- a/nodepool/tests/fixtures/node_two_image_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_image_remove.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_provider.yaml b/nodepool/tests/fixtures/node_two_provider.yaml
index 097df7227..0225cf12d 100644
--- a/nodepool/tests/fixtures/node_two_provider.yaml
+++ b/nodepool/tests/fixtures/node_two_provider.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_two_provider_remove.yaml b/nodepool/tests/fixtures/node_two_provider_remove.yaml
index 4a8f46600..5d5728dd4 100644
--- a/nodepool/tests/fixtures/node_two_provider_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_provider_remove.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index f570b1c4c..b29a34910 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index ff96ca116..dd75c5f46 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index b8058327a..044e8ca1f 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: '{images_dir}'
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: {zookeeper_host}
     port: {zookeeper_port}
diff --git a/tools/fake-dib.yaml b/tools/fake-dib.yaml
index 0611cd126..8d95162c2 100644
--- a/tools/fake-dib.yaml
+++ b/tools/fake-dib.yaml
@@ -1,10 +1,6 @@
 elements-dir: .
 images-dir: /tmp/nodepool_dib
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 diskimages:
   - name: fake-dib-image
     elements:
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 672f64c1c..52815f5f1 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -1,9 +1,5 @@
 images-dir: tools/images
 
-cron:
-  check: '*/15 * * * *'
-  cleanup: '*/1 * * * *'
-
 zookeeper-servers:
   - host: localhost
 

From 9fcee45482796074ff0a88392b5d9f0938efcf70 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 23 Mar 2017 09:29:45 -0400
Subject: [PATCH 157/309] Docs: Correct availability-zones documentation.

Change-Id: I0395087d66acb3541d6ea24d89cb50583e14ce34
---
 doc/source/configuration.rst | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 7d9049e97..db0d20ad6 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -367,11 +367,12 @@ Example::
   ``availability-zones`` (list)
     Without it nodepool will rely on nova to schedule an availability zone.
 
-    If it is provided the value should be a list of availability zone names.
-    Nodepool will select one at random and provide that to nova. This should
-    give a good distribution of availability zones being used. If you need more
-    control of the distribution you can use multiple logical providers each
-    providing a different list of availabiltiy zones.
+    If it is provided, the value should be a list of availability zone names.
+    If you have more than one availability zone, you should specify them all
+    here, rather than letting one get selected by nova. By doing so, you allow
+    nodepool to group all nodes allocated for a node request into the same
+    zone, which will be selected at random from the list. If you do not list
+    your zones here, this grouping cannot be guaranteed.
 
   ``networks`` (list)
     Specify custom Neutron networks that get attached to each

From 1b52af2c248f0cd53fd085ed903d9b2068539595 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 23 Mar 2017 09:38:47 -0400
Subject: [PATCH 158/309] Docs: Remove refs to removed nodepool commands

The job-* commands were removed from the nodepool client a while back.

Change-Id: I77fd6215e4fa53be5d4c0010292ea50fb6179a40
---
 doc/source/operation.rst | 22 ----------------------
 1 file changed, 22 deletions(-)

diff --git a/doc/source/operation.rst b/doc/source/operation.rst
index a821798a3..d228bbdd4 100644
--- a/doc/source/operation.rst
+++ b/doc/source/operation.rst
@@ -158,28 +158,6 @@ alien-image-list
 .. program-output:: nodepool alien-image-list --help
    :nostderr:
 
-In the case that a job is randomly failing for an unknown cause, it
-may be necessary to instruct nodepool to automatically hold a node on
-which that job has failed.  To do so, use the the ``job-create``
-command to specify the job name and how many failed nodes should be
-held.  When debugging is complete, use ''job-delete'' to disable the
-feature.
-
-job-create
-^^^^^^^^^^
-.. program-output:: nodepool job-create --help
-   :nostderr:
-
-job-list
-^^^^^^^^
-.. program-output:: nodepool job-list --help
-   :nostderr:
-
-job-delete
-^^^^^^^^^^
-.. program-output:: nodepool job-delete --help
-   :nostderr:
-
 Removing a Provider
 -------------------
 

From 8d572b28bd98c1fe1de984b75b62fa0f9d566202 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw-carit.de>
Date: Tue, 28 Mar 2017 14:59:27 +0200
Subject: [PATCH 159/309] Remove unused timing constants

Change-Id: I83b846a15e1f680409af1966a86a75b6cde4e0db
---
 nodepool/nodepool.py | 10 ----------
 1 file changed, 10 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 2fd17d168..d63d3abe6 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -38,17 +38,7 @@ MINS = 60
 HOURS = 60 * MINS
 
 WATERMARK_SLEEP = 10         # Interval between checking if new servers needed
-IMAGE_TIMEOUT = 6 * HOURS    # How long to wait for an image save
-CONNECT_TIMEOUT = 10 * MINS  # How long to try to connect after a server
-                             # is ACTIVE
 LOCK_CLEANUP = 8 * HOURS     # When to delete node request lock znodes
-NODE_CLEANUP = 8 * HOURS     # When to start deleting a node that is not
-                             # READY or HOLD
-TEST_CLEANUP = 5 * MINS      # When to start deleting a node that is in TEST
-IMAGE_CLEANUP = 8 * HOURS    # When to start deleting an image that is not
-                             # READY or is not the current or previous image
-DELETE_DELAY = 1 * MINS      # Delay before deleting a node that has completed
-                             # its job.
 SUSPEND_WAIT_TIME = 30       # How long to wait between checks for ZooKeeper
                              # connectivity if it disappears.
 

From aaccd11e48f15c08b36fdc1ff0ee82d6468ade8f Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw-carit.de>
Date: Mon, 6 Feb 2017 14:47:17 +0100
Subject: [PATCH 160/309] Log return code on failed dib build

Having the return code also in the log helps debugging in case of
problems when the image log suddenly stops without any visible error
(like out of memory in my case).

Change-Id: Ie7e511d7ae28d6267e8be48acc6a80a3ffee841c
---
 nodepool/builder.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 4fa99a300..78b9f33a0 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -733,7 +733,7 @@ class BuildWorker(BaseWorker):
             self._zk.resetLostFlag()
             build_data.state = zk.FAILED
         elif p.returncode:
-            self.log.info("DIB failed creating %s" % diskimage.name)
+            self.log.info("DIB failed creating %s (%s)" % (diskimage.name, p.returncode))
             build_data.state = zk.FAILED
         else:
             self.log.info("DIB image %s is built" % diskimage.name)

From 2669e085e9a1d55cf44156d9f0bc692a91f2dee4 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 28 Mar 2017 20:00:17 -0400
Subject: [PATCH 161/309] Add waitForNodes() for test_node_assignment

Before continuing to do validation, wait for a node to be online. This
will help with bouncing tests.

Change-Id: I7f6343ba78469c95193751ad48fd536fa21288e1
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_nodepool.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 32cd4ba32..db8497563 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -38,6 +38,8 @@ class TestNodepool(tests.DBTestCase):
         nodepool.nodepool.LOCK_CLEANUP = 1
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
 
         req = zk.NodeRequest()
         req.state = zk.REQUESTED

From e7590f11f669dd70e7f049665158ef279efb75a2 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 28 Mar 2017 17:14:30 -0400
Subject: [PATCH 162/309] Force os-client-config to use ipv4

After we removed ipv6-preferred support it nodepool, we started to
default to ipv6 for testing. However, because the current state of
ipv6 in nova / neutron / glean, ipv6 is not working properly for
glean.

Revert to ipv4 testing only, until we are ready to dive down the
rabbit hole of ipv6.

Change-Id: I7dece93671fbff5a1260fe1721f2d1b4bf337e72
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index abb366f90..2ea31f955 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -338,6 +338,9 @@ cache:
     floating-ip: 5
     server: 5
     port: 5
+# TODO(pabelanger): Remove once glean fully supports IPv6.
+client:
+  force_ipv4: True
 EOF
     sudo mv /tmp/clouds.yaml /etc/openstack/clouds.yaml
     mkdir -p $HOME/.cache/openstack/

From fbe932e14fa4c9594cc590fdc98d32b8d6d2c148 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 28 Mar 2017 12:25:35 -0400
Subject: [PATCH 163/309] Rename nodepoold to nodepool-launcher

The day has come to rename nodepoold to nodepool-launcher.

Change-Id: Ic04e3cf2dbdaf914bf8f92d073acb972380708f1
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 README.rst                                 |  2 +-
 devstack/plugin.sh                         |  4 ++--
 devstack/settings                          |  2 +-
 doc/source/configuration.rst               |  2 +-
 doc/source/operation.rst                   | 18 +++++++++---------
 nodepool/cmd/{nodepoold.py => launcher.py} |  6 +++---
 setup.cfg                                  |  2 +-
 tools/zuul-nodepool-integration/start.sh   |  2 +-
 8 files changed, 19 insertions(+), 19 deletions(-)
 rename nodepool/cmd/{nodepoold.py => launcher.py} (92%)

diff --git a/README.rst b/README.rst
index b4d55639e..73a12e9dd 100644
--- a/README.rst
+++ b/README.rst
@@ -60,7 +60,7 @@ to contain your data):
 
     export STATSD_HOST=127.0.0.1
     export STATSD_PORT=8125
-    nodepoold -d -c tools/fake.yaml
+    nodepool-launcher -d -c tools/fake.yaml
 
 All logging ends up in stdout.
 
diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 2ea31f955..72246412a 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -382,7 +382,7 @@ function start_nodepool {
     export STATSD_PORT=8125
     run_process statsd "socat -u udp-recv:$STATSD_PORT -"
 
-    run_process nodepool "$NODEPOOL_INSTALL/bin/nodepoold -c $NODEPOOL_CONFIG -s $NODEPOOL_SECURE -l $NODEPOOL_LOGGING -d"
+    run_process nodepool-launcher "$NODEPOOL_INSTALL/bin/nodepool-launcher -c $NODEPOOL_CONFIG -s $NODEPOOL_SECURE -l $NODEPOOL_LOGGING -d"
     run_process nodepool-builder "$NODEPOOL_INSTALL/bin/nodepool-builder -c $NODEPOOL_CONFIG -l $NODEPOOL_LOGGING -d"
     :
 }
@@ -397,7 +397,7 @@ function cleanup_nodepool {
 }
 
 # check for service enabled
-if is_service_enabled nodepool; then
+if is_service_enabled nodepool-launcher; then
 
     if [[ "$1" == "stack" && "$2" == "install" ]]; then
         # Perform installation of service source
diff --git a/devstack/settings b/devstack/settings
index 888dcc22a..e7e5a6564 100644
--- a/devstack/settings
+++ b/devstack/settings
@@ -24,5 +24,5 @@ GLEAN_REPO_REF=${GLEAN_REPO_REF:-master}
 enable_service zookeeper
 enable_service geard
 enable_service statsd
-enable_service nodepool
+enable_service nodepool-launcher
 enable_service nodepool-builder
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 43568305f..7c4e6d841 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -316,7 +316,7 @@ Example::
     Maximum number of node requests that this provider is allowed to handle
     concurrently. The default, if not specified, is to have no maximum. Since
     each node request is handled by a separate thread, this can be useful for
-    limiting the number of threads used by the nodepoold daemon.
+    limiting the number of threads used by the nodepool-launcher daemon.
 
 .. _pools:
 
diff --git a/doc/source/operation.rst b/doc/source/operation.rst
index d228bbdd4..25787c878 100644
--- a/doc/source/operation.rst
+++ b/doc/source/operation.rst
@@ -5,7 +5,7 @@ Operation
 
 Nodepool has two components which run as daemons.  The
 ``nodepool-builder`` daemon is responsible for building diskimages and
-uploading them to providers, and the ``nodepoold`` daemon is
+uploading them to providers, and the ``nodepool-launcher`` daemon is
 responsible for launching and deleting nodes.
 
 Both daemons frequently re-read their configuration file after
@@ -31,14 +31,14 @@ safe, it is recommended to run a single instance of
 only a single build thread (the default).
 
 
-Nodepoold
----------
+Nodepool-launcher
+-----------------
 
-The main nodepool daemon is named ``nodepoold`` and is responsible for
-launching instances from the images created and uploaded by
-``nodepool-builder``.
+The main nodepool daemon is named ``nodepool-launcher`` and is
+responsible for launching instances from the images created and
+uploaded by ``nodepool-builder``.
 
-When a new image is created and uploaded, ``nodepoold`` will
+When a new image is created and uploaded, ``nodepool-launcher`` will
 immediately start using it when launching nodes (Nodepool always uses
 the most recent image for a given provider in the ``ready`` state).
 Nodepool will delete images if they are not the most recent or second
@@ -51,9 +51,9 @@ using the previous image.
 Daemon usage
 ------------
 
-To start the main Nodepool daemon, run **nodepoold**:
+To start the main Nodepool daemon, run **nodepool-launcher**:
 
-.. program-output:: nodepoold --help
+.. program-output:: nodepool-launcher --help
    :nostderr:
 
 To start the nodepool-builder daemon, run **nodepool--builder**:
diff --git a/nodepool/cmd/nodepoold.py b/nodepool/cmd/launcher.py
similarity index 92%
rename from nodepool/cmd/nodepoold.py
rename to nodepool/cmd/launcher.py
index ff490d1ee..2e7472238 100644
--- a/nodepool/cmd/nodepoold.py
+++ b/nodepool/cmd/launcher.py
@@ -26,12 +26,12 @@ import nodepool.webapp
 log = logging.getLogger(__name__)
 
 
-class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
+class NodePoolLauncherApp(nodepool.cmd.NodepoolDaemonApp):
 
     app_name = 'nodepool'
 
     def create_parser(self):
-        parser = super(NodePoolDaemon, self).create_parser()
+        parser = super(NodePoolLauncherApp, self).create_parser()
 
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
@@ -72,7 +72,7 @@ class NodePoolDaemon(nodepool.cmd.NodepoolDaemonApp):
 
 
 def main():
-    return NodePoolDaemon.main()
+    return NodePoolLauncherApp.main()
 
 
 if __name__ == "__main__":
diff --git a/setup.cfg b/setup.cfg
index bcf0365e7..271dd0e5b 100644
--- a/setup.cfg
+++ b/setup.cfg
@@ -23,7 +23,7 @@ warnerrors = True
 console_scripts =
     nodepool = nodepool.cmd.nodepoolcmd:main
     nodepool-builder = nodepool.cmd.builder:main
-    nodepoold = nodepool.cmd.nodepoold:main
+    nodepool-launcher = nodepool.cmd.launcher:main
 
 [build_sphinx]
 source-dir = doc/source
diff --git a/tools/zuul-nodepool-integration/start.sh b/tools/zuul-nodepool-integration/start.sh
index 0f5e6bedf..2e8c94b70 100755
--- a/tools/zuul-nodepool-integration/start.sh
+++ b/tools/zuul-nodepool-integration/start.sh
@@ -8,4 +8,4 @@ mkdir -p /tmp/nodepool/log
 export OS_CLIENT_CONFIG_FILE=`pwd`/clouds.yaml
 
 nodepool-builder -c `pwd`/nodepool.yaml -l `pwd`/builder-logging.conf -p /tmp/nodepool/builder.pid --fake
-nodepoold -c `pwd`/nodepool.yaml -s `pwd`/secure.conf -l `pwd`/launcher-logging.conf -p /tmp/nodepool/launcher.pid
+nodepool-launcher -c `pwd`/nodepool.yaml -s `pwd`/secure.conf -l `pwd`/launcher-logging.conf -p /tmp/nodepool/launcher.pid

From 19e8f2788cd76ca7b2c91d234b31a4836d031954 Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Mon, 27 Mar 2017 12:10:13 -0500
Subject: [PATCH 164/309] Fetch list of AZs from nova if it's not configured

Nova has an API call that can fetch the list of available AZs. Use it to
provide a default list so that we can provide sane choices to the
scheduler related to multi-node requests rather than just letting nova
pick on a per-request basis.

Change-Id: I1418ab8a513280318bc1fe6e59301fda5cf7b890
---
 doc/source/configuration.rst | 16 +++++++++-------
 nodepool/fakeprovider.py     |  3 +++
 nodepool/nodepool.py         |  5 +++--
 nodepool/provider_manager.py | 12 ++++++++++++
 requirements.txt             |  2 +-
 5 files changed, 28 insertions(+), 10 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index db0d20ad6..729dfba35 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -365,14 +365,16 @@ Example::
 **optional**
 
   ``availability-zones`` (list)
-    Without it nodepool will rely on nova to schedule an availability zone.
+    A list of availability zones to use.
 
-    If it is provided, the value should be a list of availability zone names.
-    If you have more than one availability zone, you should specify them all
-    here, rather than letting one get selected by nova. By doing so, you allow
-    nodepool to group all nodes allocated for a node request into the same
-    zone, which will be selected at random from the list. If you do not list
-    your zones here, this grouping cannot be guaranteed.
+    If this setting is omitted, nodepool will fetch the list of all
+    availability zones from nova.  To restrict nodepool to a subset
+    of availability zones, supply a list of availability zone names
+    in this setting.
+
+    Nodepool chooses an availability zone from the list at random
+    when creating nodes but ensures that all nodes for a given
+    request are placed in the same availability zone.
 
   ``networks`` (list)
     Specify custom Neutron networks that get attached to each
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index ccf74259c..fc32f70ba 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -230,6 +230,9 @@ class FakeOpenStackCloud(object):
     def delete_server(self, name_or_id, delete_ips=True):
         self._delete(name_or_id, self._server_list)
 
+    def list_availability_zone_names(self):
+        return ['fake-az1', 'fake-az2']
+
 
 class FakeUploadFailCloud(FakeOpenStackCloud):
     log = logging.getLogger("nodepool.FakeUploadFailCloud")
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 7cc4e4638..30ac20714 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -661,8 +661,9 @@ class NodeRequestHandler(object):
             if not got_a_node:
                 # Select grouping AZ if we didn't set AZ from a selected,
                 # pre-existing node
-                if not self.chosen_az and self.pool.azs:
-                    self.chosen_az = random.choice(self.pool.azs)
+                if not self.chosen_az:
+                    self.chosen_az = random.choice(
+                        self.pool.azs or self.manager.getAZs())
 
                 # If we calculate that we're at capacity, pause until nodes
                 # are released by Zuul and removed by the DeletedNodeWorker.
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index ca14f3063..c9d62f8e0 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -86,6 +86,7 @@ class ProviderManager(object):
         self._images = {}
         self._networks = {}
         self.__flavors = {}
+        self.__azs = None
         self._use_taskmanager = use_taskmanager
         self._taskmanager = None
 
@@ -331,6 +332,17 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             self._client.delete_unattached_floating_ips()
 
+    def getAZs(self):
+        if self.__azs is None:
+            self.__azs = self._client.list_availability_zone_names()
+            if not self.__azs:
+                # If there are no zones, return a list containing None so that
+                # random.choice can pick None and pass that to Nova. If this
+                # feels dirty, please direct your ire to policy.json and the
+                # ability to turn off random portions of the OpenStack API.
+                self.__azs = [None]
+        return self.__azs
+
 
 class FakeProviderManager(ProviderManager):
     def __init__(self, provider, use_taskmanager):
diff --git a/requirements.txt b/requirements.txt
index 53ebc2e75..865b01ae7 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -10,7 +10,7 @@ PrettyTable>=0.6,<0.8
 # shade has a looser requirement on six than nodepool, so install six first
 six>=1.7.0
 os-client-config>=1.2.0
-shade>=1.12.0
+shade>=1.18.1
 diskimage-builder>=1.21.0
 voluptuous
 kazoo

From 92f375c70b700bd761349119ddcafbd21be60deb Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 30 Mar 2017 12:08:04 -0400
Subject: [PATCH 165/309] Remove support for nodepool_id

This was a temporary measure to keep production nodepool from
deleting nodes created by v3 nodepool. We don't need to carry
it over.

This is an alternative to: https://review.openstack.org/449375

Change-Id: Ib24395e30a118c0ea57f8958a8dca4407fe1b55b
---
 nodepool/config.py              |  2 -
 nodepool/nodepool.py            |  9 ----
 nodepool/provider_manager.py    |  2 -
 nodepool/tests/test_nodepool.py | 76 +--------------------------------
 4 files changed, 1 insertion(+), 88 deletions(-)

diff --git a/nodepool/config.py b/nodepool/config.py
index cdf047804..ce91850c3 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -40,7 +40,6 @@ class Config(ConfigValue):
 class Provider(ConfigValue):
     def __eq__(self, other):
         if (other.cloud_config != self.cloud_config or
-            other.nodepool_id != self.nodepool_id or
             other.pools != self.pools or
             other.image_type != self.image_type or
             other.rate != self.rate or
@@ -194,7 +193,6 @@ def loadConfig(config_path):
 
         cloud_kwargs = _cloudKwargsFromProvider(provider)
         p.cloud_config = _get_one_cloud(cloud_config, cloud_kwargs)
-        p.nodepool_id = provider.get('nodepool-id', None)
         p.region_name = provider.get('region-name')
         p.max_concurrency = provider.get('max-concurrency', -1)
         p.rate = provider.get('rate', 1.0)
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 0b34603fd..286ddc987 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1175,15 +1175,6 @@ class CleanupWorker(BaseCleanupWorker):
                 if 'nodepool_provider_name' not in meta:
                     continue
 
-                nodepool_id = meta.get('nodepool_nodepool_id', None)
-                if provider.nodepool_id is not None and \
-                        nodepool_id != provider.nodepool_id:
-                    self.log.debug("Instance %s (%s) in %s "
-                                   "was not launched by us" % (
-                                       server['name'], server['id'],
-                                       provider.name))
-                    continue
-
                 if meta['nodepool_provider_name'] != provider.name:
                     # Another launcher, sharing this provider but configured
                     # with a different name, owns this.
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 67552a3b8..1c24eae13 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -205,8 +205,6 @@ class ProviderManager(object):
             groups=",".join(groups_list),
             nodepool_provider_name=self.provider.name,
         )
-        if self.provider.nodepool_id:
-            meta['nodepool_nodepool_id'] = self.provider.nodepool_id
         if nodepool_node_id:
             meta['nodepool_node_id'] = nodepool_node_id
         if nodepool_image_name:
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index bb0d4c822..32cd4ba32 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -16,7 +16,6 @@
 import logging
 import time
 import fixtures
-from unittest import skip
 
 from nodepool import tests
 from nodepool import zk
@@ -404,15 +403,9 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(len(nodes), 1)
         self.assertEqual(nodes[0].provider, 'fake-provider')
 
-    def test_leaked_node_with_nodepool_id(self):
-        self._test_leaked_node('leaked_node_nodepool_id.yaml')
-
     def test_leaked_node(self):
-        self._test_leaked_node('leaked_node.yaml')
-
-    def _test_leaked_node(self, cfgfile):
         """Test that a leaked node is deleted"""
-        configfile = self.setup_config(cfgfile)
+        configfile = self.setup_config('leaked_node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
@@ -446,73 +439,6 @@ class TestNodepool(tests.DBTestCase):
         servers = manager.listServers()
         self.assertEqual(len(servers), 1)
 
-    @skip("Disabled while merging master into feature/zuulv3. Needs rework.")
-    def test_leaked_node_not_deleted(self):
-        """Test that a leaked node is not deleted"""
-        # TODOv3(jhesketh): Fix this up
-        nodedb = object()
-
-        configfile = self.setup_config('leaked_node_nodepool_id.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
-        pool.start()
-        self.waitForImage('fake-provider', 'fake-image')
-        self.log.debug("Waiting for initial pool...")
-        self.waitForNodes(pool)
-        self.log.debug("...done waiting for initial pool.")
-        pool.stop()
-
-        # Make sure we have a node built and ready
-        provider = pool.config.providers['fake-provider']
-        manager = pool.getProviderManager(provider)
-        servers = manager.listServers()
-        self.assertEqual(len(servers), 1)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-            # Delete the node from the db, but leave the instance
-            # so it is leaked.
-            self.log.debug("Delete node db record so instance is leaked...")
-            for node in nodes:
-                node.delete()
-            self.log.debug("...deleted node db so instance is leaked.")
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 0)
-
-        # Wait for nodepool to replace it, which should be enough
-        # time for it to also delete the leaked node
-        configfile = self.setup_config('leaked_node.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
-        pool.start()
-        self.log.debug("Waiting for replacement pool...")
-        self.waitForNodes(pool)
-        self.log.debug("...done waiting for replacement pool.")
-
-        # Make sure we end up with only one server (the replacement)
-        provider = pool.config.providers['fake-provider']
-        manager = pool.getProviderManager(provider)
-        foobar_servers = manager.listServers()
-        self.assertEqual(len(servers), 1)
-        self.assertEqual(len(foobar_servers), 1)
-
-        with pool.getDB().getSession() as session:
-            nodes = session.getNodes(provider_name='fake-provider',
-                                     label_name='fake-label',
-                                     target_name='fake-target',
-                                     state=nodedb.READY)
-            self.assertEqual(len(nodes), 1)
-
-        # Just to be safe, ensure we have 2 nodes again.
-        self.assertEqual(len(servers), 1)
-        self.assertEqual(len(foobar_servers), 1)
-
     def test_label_provider(self):
         """Test that only providers listed in the label satisfy the request"""
         configfile = self.setup_config('node_label_provider.yaml')

From 12507116de1cec68da3f953d23faa9a40eb27155 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Sat, 1 Apr 2017 12:55:11 -0400
Subject: [PATCH 166/309] Fix debian-jessie settings for devstack

This was not correctly merged from master. Correct our syntax errors.

Change-Id: Ib02f3fe772a43c39630f1c60f107dd36cf88630c
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 6cf03d276..80633f2ce 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -229,10 +229,6 @@ providers:
       - name: centos-7
         config-drive: true
       - name: debian-jessie
-        min-ram: 512
-        name-filter: 'nodepool'
-        username: devuser
-        private-key: $NODEPOOL_KEY
         config-drive: true
       - name: fedora-25
         config-drive: true
@@ -250,6 +246,10 @@ providers:
             diskimage: centos-7
             min-ram: 1024
             name-filter: 'nodepool'
+          - name: debian-jessie
+            diskimage: debian-jessie
+            min-ram: 512
+            name-filter: 'nodepool'
           - name: fedora-25
             diskimage: fedora-25
             min-ram: 1024

From e63f67c2f755a09035b7186295e7910a82245106 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Wed, 5 Apr 2017 10:37:26 -0700
Subject: [PATCH 167/309] Fix internal doc refs to renamed section

Providers no longer have "images" they have "diskimages". Update the
refs to reflect that. Also bump sphinx version and enforce warnings as
errors to catch these problems in the future.

Change-Id: I367e36243ff928e194986cb6dc3c68e0d48bbcd0
Story: 2000790
---
 doc/source/configuration.rst | 13 +++++++------
 setup.cfg                    |  1 +
 test-requirements.txt        |  2 +-
 3 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 5d8f243ab..181cdf7a9 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -91,16 +91,16 @@ diskimages
 ----------
 
 This section lists the images to be built using diskimage-builder. The
-name of the diskimage is mapped to the :ref:`images` section of the
-provider, to determine which providers should received uploads of each
+name of the diskimage is mapped to the :ref:`provider_diskimages` section
+of the provider, to determine which providers should received uploads of each
 image.  The diskimage will be built in every format required by the
 providers with which it is associated.  Because Nodepool needs to know
 which formats to build, if the diskimage will only be built if it
 appears in at least one provider.
 
 To remove a diskimage from the system entirely, remove all associated
-entries in :ref:`images` and remove its entry from `diskimages`.  All
-uploads will be deleted as well as the files on disk.
+entries in :ref:`provider_diskimages` and remove its entry from `diskimages`.
+All uploads will be deleted as well as the files on disk.
 
 Example configuration::
 
@@ -155,7 +155,8 @@ Example configuration::
 **required**
 
   ``name``
-    Identifier to reference the disk image in :ref:`images` and :ref:`labels`.
+    Identifier to reference the disk image in :ref:`provider_diskimages`
+    and :ref:`labels`.
 
 **optional**
 
@@ -450,7 +451,7 @@ Example configuration::
     sections.
 
   ``diskimage``
-    Refers to provider's diskimages, see :ref:`images`.
+    Refers to provider's diskimages, see :ref:`provider_diskimages`.
 
   ``min-ram``
     Determine the flavor to use (e.g. ``m1.medium``, ``m1.large``,
diff --git a/setup.cfg b/setup.cfg
index 271dd0e5b..7066e40f4 100644
--- a/setup.cfg
+++ b/setup.cfg
@@ -29,3 +29,4 @@ console_scripts =
 source-dir = doc/source
 build-dir = doc/build
 all_files = 1
+warning-is-error = 1
diff --git a/test-requirements.txt b/test-requirements.txt
index 1ca7bae8d..2db0d6967 100644
--- a/test-requirements.txt
+++ b/test-requirements.txt
@@ -1,7 +1,7 @@
 # Nodepool uses hacking for its dependencies
 hacking>=0.10.2,<0.11
 coverage
-sphinx>=1.1.2,!=1.2.0,!=1.3b1,<1.3
+sphinx>=1.5.1
 sphinxcontrib-programoutput
 fixtures>=0.3.12
 mock>=1.0

From f26f502fbf26024598db792720f5c80a5c51c355 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Wed, 5 Apr 2017 10:17:21 -0700
Subject: [PATCH 168/309] Start adding operational docs to zuulv3

This tries to capture common operation tasks in the documentation. It
also clears up some related items about what is necessary to have a
functioning Nodepool installation and what the dib-image-delete command
does.

Story: 2000790
Change-Id: I397fc4879fa84ffc667ddda0aff9c107eee0d694
---
 doc/source/operation.rst    | 63 +++++++++++++++++++++++++++++++++++--
 nodepool/cmd/nodepoolcmd.py |  3 +-
 2 files changed, 63 insertions(+), 3 deletions(-)

diff --git a/doc/source/operation.rst b/doc/source/operation.rst
index 25787c878..50efb73e2 100644
--- a/doc/source/operation.rst
+++ b/doc/source/operation.rst
@@ -12,6 +12,10 @@ Both daemons frequently re-read their configuration file after
 starting to support adding or removing new images and providers, or
 otherwise altering the configuration.
 
+These daemons communicate with each other via a Zookeeper database.
+You must run Zookeeper and at least one of each of these daemons to
+have a functioning Nodepool installation.
+
 Nodepool-builder
 ----------------
 
@@ -35,8 +39,8 @@ Nodepool-launcher
 -----------------
 
 The main nodepool daemon is named ``nodepool-launcher`` and is
-responsible for launching instances from the images created and
-uploaded by ``nodepool-builder``.
+responsible for managing cloud instances launched from the images
+created and uploaded by ``nodepool-builder``.
 
 When a new image is created and uploaded, ``nodepool-launcher`` will
 immediately start using it when launching nodes (Nodepool always uses
@@ -90,6 +94,61 @@ metadata:
   nodepool_node_id
     The nodepool id of the node as an integer.
 
+Common Management Tasks
+-----------------------
+
+In the course of running a Nodepool service you will find that there are
+some common operations that will be performed. Like the services
+themselves these are split into two groups, image management and
+instance management.
+
+Image Management
+~~~~~~~~~~~~~~~~
+
+Before Nodepool can launch any cloud instances it must have images to boot
+off of. ``nodepool dib-image-list`` will show you which images are available
+locally on disk. These images on disk are then uploaded to clouds,
+``nodepool image-list`` will show you what images are bootable in your
+various clouds.
+
+If you need to force a new image to be built to pick up a new feature more
+quickly than the normal rebuild cycle (which defaults to 24 hours) you can
+manually trigger a rebuild. Using ``nodepool image-build`` you can tell
+Nodepool to begin a new image build now. Note that depending on work that
+the nodepool-builder is already performing this may queue the build. Check
+``nodepool dib-image-list`` to see the current state of the builds. Once
+the image is built it is automatically uploaded to all of the clouds
+configured to use that image.
+
+At times you may need to stop using an existing image because it is broken.
+Your two major options here are to build a new image to replace the existing
+image or to delete the existing image and have Nodepool fall back on using
+the previous image. Rebuilding and uploading can be slow so typically the
+best option is to simply ``nodepool image-delete`` the most recent image
+which will cause Nodepool to fallback on using the previous image. Howevever,
+if you do this without "pausing" the image it will be immediately reuploaded.
+You will want to pause the image if you need to further investigate why
+the image is not being built correctly. If you know the image will be built
+correctly you can simple delete the built image and remove it from all clouds
+which will cause it to be rebuilt using ``nodepool dib-image-delete``.
+
+Instance Management
+~~~~~~~~~~~~~~~~~~~
+
+With working images in providers you should see Nodepool launching instances
+in these providers using the images it built. You may find that you need to
+debug a particular job failure manually. An easy way to do this is to
+``nodepool hold`` an instance then log in to the instance and perform any
+necessary debugging steps. Note that this doesn't stop the job running there,
+what it will do is prevent Nodepool from automatically deleting this instance
+once the job is complete.
+
+In some circumstances like manually holding an instance above, or wanting to
+force a job restart you may want to delete a running instance. You can issue
+a ``nodepool delete`` to force nodepool to do this.
+
+Complete command help info is below.
+
 Command Line Tools
 ------------------
 
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 09d6cf63c..de6bb5ee4 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -111,7 +111,8 @@ class NodePoolCmd(NodepoolApp):
 
         cmd_dib_image_delete = subparsers.add_parser(
             'dib-image-delete',
-            help='delete image built with diskimage-builder')
+            help='Delete a dib built image from disk along with all cloud '
+                 'uploads of this image')
         cmd_dib_image_delete.set_defaults(func=self.dib_image_delete)
         cmd_dib_image_delete.add_argument('id', help='dib image id')
 

From 477f8e6fa1b87da0b27eda3466df7b8456fef8e5 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Thu, 6 Apr 2017 14:05:58 +1000
Subject: [PATCH 169/309] Show message if node hold not found

When using the CLI to place a hold on a node the return value of getNode
is not checked. This leads to an AttributeError on the None object.
Other commands simply return a message and hold should as well.

Change-Id: I11bdd47644c8535f99500989c63993e04215f464
---
 nodepool/cmd/nodepoolcmd.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 09d6cf63c..fb1364d8e 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -240,6 +240,10 @@ class NodePoolCmd(NodepoolApp):
 
     def hold(self):
         node = self.zk.getNode(self.args.id)
+        if not node:
+            print("Node id %s not found" % self.args.id)
+            return
+
         node.state = zk.HOLD
         node.comment = self.args.reason
         self.zk.lockNode(node, blocking=False)

From cc6e01824cbe984043db4fd6e1f5ebb55db009f2 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 6 Apr 2017 07:29:24 -0700
Subject: [PATCH 170/309] Wait for lock when performing manual hold

So that an operator can choose to hold a node while it is in use,
update the 'nodepool hold' command to wait for the lock if that
is required.  The locking algorithm is ordered, so as long as this
command is run while the node is locked while in use, this command
will be able to obtain the lock on the node before the node
deleter does.

This means it will sit in the foreground until the node is locked,
which, in some cases, may be hours.  Perhaps that's not ideal,
but processes are easy to background in those cases, or abort if
the operator changes their mind.  It does provide an avenue for
notification that the node has been unlocked by returning to the
shell when complete.

Change-Id: I89721cbe1e53b30bb0e2b5f5440870df958cf2c1
---
 nodepool/cmd/nodepoolcmd.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 09d6cf63c..0d7d77b08 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -242,7 +242,8 @@ class NodePoolCmd(NodepoolApp):
         node = self.zk.getNode(self.args.id)
         node.state = zk.HOLD
         node.comment = self.args.reason
-        self.zk.lockNode(node, blocking=False)
+        print("Waiting for lock...")
+        self.zk.lockNode(node, blocking=True)
         self.zk.storeNode(node)
         self.zk.unlockNode(node)
         self.list(node_id=self.args.id)

From 9e09d7f7766eaf8c1600825b22169d9165215280 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw-carit.de>
Date: Wed, 19 Apr 2017 13:54:45 +0200
Subject: [PATCH 171/309] Whitelist pydevd debug threads

When debugging a test case with pydevd (e.g. used by PyCharm) it
injects additional threads. These also need to be
whitelisted. Otherwise wait_for_threads will block forever.

Change-Id: I491c2fd404bddfbe17cb912557ef56ff9134ac4b
---
 nodepool/tests/__init__.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 05c920e10..ab4c4d8b5 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -216,6 +216,9 @@ class BaseTestCase(testtools.TestCase):
                      'fake-provider3',
                      'CleanupWorker',
                      'DeletedNodeWorker',
+                     'pydevd.CommandThread',
+                     'pydevd.Reader',
+                     'pydevd.Writer',
                      ]
 
         while True:

From 6b949f8abbfcd674048db0030eb6ad123cc02639 Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Wed, 26 Apr 2017 18:55:07 -0500
Subject: [PATCH 172/309] Enforce cloud as a required config value

We require clouds.yaml files now. It's just the way it is. If we don't
have one, os-client-config will become unpleased - but it will do so in
a hard to understand error message (that's the best we can do there for
$reasons) ... so make sure that we present a config validation error and
not "keystoneauth1.exceptions.auth_plugins.MissingRequiredOptions: Auth
plugin requires parameters which were not given: auth_url"

Change-Id: I84e36400f38eecd5d798b772c09d768002f535f5
---
 nodepool/cmd/config_validator.py                 |  2 +-
 .../tests/fixtures/config_validate/good.yaml     |  2 ++
 .../{integration.yaml => integration_noocc.yaml} |  0
 nodepool/tests/test_shade_integration.py         | 16 ++++++++--------
 4 files changed, 11 insertions(+), 9 deletions(-)
 rename nodepool/tests/fixtures/{integration.yaml => integration_noocc.yaml} (100%)

diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 519cfdb64..cc1743baa 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -49,7 +49,7 @@ class ConfigValidator:
         provider = {
             'name': str,
             'region-name': str,
-            'cloud': str,
+            v.Required('cloud'): str,
             'max-concurrency': int,
             'boot-timeout': int,
             'launch-timeout': int,
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index c2fb89368..90050548b 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -14,6 +14,7 @@ labels:
 
 providers:
   - name: cloud1
+    cloud: vanilla-cloud
     region-name: 'vanilla'
     boot-timeout: 120
     max-concurrency: 10
@@ -33,6 +34,7 @@ providers:
             min-ram: 8192
 
   - name: cloud2
+    cloud: chocolate-cloud
     region-name: 'chocolate'
     boot-timeout: 120
     rate: 0.001
diff --git a/nodepool/tests/fixtures/integration.yaml b/nodepool/tests/fixtures/integration_noocc.yaml
similarity index 100%
rename from nodepool/tests/fixtures/integration.yaml
rename to nodepool/tests/fixtures/integration_noocc.yaml
diff --git a/nodepool/tests/test_shade_integration.py b/nodepool/tests/test_shade_integration.py
index d8840d9d9..140097b19 100644
--- a/nodepool/tests/test_shade_integration.py
+++ b/nodepool/tests/test_shade_integration.py
@@ -18,6 +18,7 @@ import os
 import fixtures
 import shade
 import testtools
+import voluptuous
 import yaml
 
 from nodepool import config as nodepool_config
@@ -43,14 +44,13 @@ class TestShadeIntegration(tests.IntegrationTestCase):
 
         self.addCleanup(self._cleanup_cloud_config)
 
-    def test_nodepool_provider_config(self):
-        configfile = self.setup_config('integration.yaml')
-        config = nodepool_config.loadConfig(configfile)
-        self.assertIn('real-provider', config.providers)
-        pm = provider_manager.ProviderManager(
-            config.providers['real-provider'], use_taskmanager=False)
-        pm.start()
-        self.assertEqual(pm._client.region_name, 'real-region')
+    def test_nodepool_provider_config_bad(self):
+        # nodepool doesn't support clouds.yaml-less config anymore
+        # Assert that we get a nodepool error and not an os-client-config
+        # error.
+        self.assertRaises(
+            voluptuous.MultipleInvalid,
+            self.setup_config, 'integration_noocc.yaml')
 
     def test_nodepool_occ_config(self):
         configfile = self.setup_config('integration_occ.yaml')

From 17c94f398cf22fa6a25583c4c822959b0201ed98 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 26 Apr 2017 14:40:12 -0700
Subject: [PATCH 173/309] Fix zuul-nodepool integration test

The config file needs to be updated to support pools.

Change-Id: I61039b1dd7f0eea20e66c6d6dd778b6fe0c8b419
---
 tools/zuul-nodepool-integration/nodepool.yaml | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/tools/zuul-nodepool-integration/nodepool.yaml b/tools/zuul-nodepool-integration/nodepool.yaml
index 362b066a4..ecca5653f 100644
--- a/tools/zuul-nodepool-integration/nodepool.yaml
+++ b/tools/zuul-nodepool-integration/nodepool.yaml
@@ -17,16 +17,17 @@ diskimages:
 
 labels:
   - name: fake-label
-    image: fake-nodepool
     min-ready: 2
-    providers:
-      - name: fake-provider
 
 providers:
   - name: fake-provider
     cloud: fake
-    max-servers: 96
-    images:
+    diskimages:
       - name: fake-nodepool
-        min-ram: 8192
-        diskimage: fake-nodepool
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+         - name: fake-label
+           diskimage: fake-nodepool
+           min-ram: 8192

From feaa6ad51bffae978db57cd11c6085bd3d1b4fe3 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 27 Apr 2017 12:57:01 -0400
Subject: [PATCH 174/309] Protect against no matches for an upload

It's possible that one of the children for an upload znode has
been deleted by the time we request that child's znode data.
Protect against that by adding a check for None returned from
getImageUpload().

Change-Id: Ifd4e26baf480420d649e7ae85b43a57bf5338f96
---
 nodepool/zk.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/nodepool/zk.py b/nodepool/zk.py
index a72dd7cb9..35886d960 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1037,9 +1037,11 @@ class ZooKeeper(object):
             if upload == 'lock':
                 continue
             data = self.getImageUpload(image, build_number, provider, upload)
+            if not data:
+                continue
             if states is None:
                 matches.append(data)
-            elif data and data.state in states:
+            elif data.state in states:
                 matches.append(data)
 
         return matches

From 642f14c07614eba3095be1a145ae3692604c1b5e Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Fri, 24 Mar 2017 14:22:55 -0500
Subject: [PATCH 175/309] Add ability to select flavor by name or id

It's possible that it's easier for a nodepool user to just specify a
name or id of a flavor in their config instead of the combo of min-ram
and name-filter.

In order to not have two name related items, and also to not have the
pure flavor-name case use a term called "name-filter" - change
name-filter to flavor-name, and introduce the semantics that if
flavor-name is given by itself, it will look for an exact match on
flavor name or id, and if it's given with min-ram it will behave as
name-filter did already.

Change-Id: I8b98314958d03818ceca5abf4e3b537c8998f248
---
 devstack/plugin.sh                            | 12 +++---
 doc/source/configuration.rst                  | 21 +++++-----
 nodepool/cmd/config_validator.py              |  2 +-
 nodepool/config.py                            |  9 ++---
 nodepool/nodepool.py                          |  6 +--
 nodepool/provider_manager.py                  | 40 ++++++++++++++-----
 .../tests/fixtures/integration_noocc.yaml     |  2 +-
 nodepool/tests/fixtures/integration_occ.yaml  |  2 +-
 nodepool/tests/fixtures/multiple_pools.yaml   |  4 +-
 nodepool/tests/fixtures/node.yaml             |  2 +-
 nodepool/tests/fixtures/node_az.yaml          |  2 +-
 nodepool/tests/fixtures/node_cmd.yaml         |  4 +-
 .../tests/fixtures/node_disabled_label.yaml   |  2 +-
 .../tests/fixtures/node_diskimage_fail.yaml   |  2 +-
 nodepool/tests/fixtures/node_flavor_name.yaml | 38 ++++++++++++++++++
 nodepool/tests/test_nodepool.py               | 12 ++++++
 tools/fake.yaml                               |  2 +-
 17 files changed, 114 insertions(+), 48 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_flavor_name.yaml

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 80633f2ce..e5890f99b 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -245,27 +245,27 @@ providers:
           - name: centos-7
             diskimage: centos-7
             min-ram: 1024
-            name-filter: 'nodepool'
+            flavor-name: 'nodepool'
           - name: debian-jessie
             diskimage: debian-jessie
             min-ram: 512
-            name-filter: 'nodepool'
+            flavor-name: 'nodepool'
           - name: fedora-25
             diskimage: fedora-25
             min-ram: 1024
-            name-filter: 'nodepool'
+            flavor-name: 'nodepool'
           - name: ubuntu-precise
             diskimage: ubuntu-precise
             min-ram: 512
-            name-filter: 'nodepool'
+            flavor-name: 'nodepool'
           - name: ubuntu-trusty
             diskimage: ubuntu-trusty
             min-ram: 512
-            name-filter: 'nodepool'
+            flavor-name: 'nodepool'
           - name: ubuntu-xenial
             diskimage: ubuntu-xenial
             min-ram: 512
-            name-filter: 'nodepool'
+            flavor-name: 'nodepool'
 
 diskimages:
   - name: centos-7
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 181cdf7a9..5fb958b98 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -442,7 +442,7 @@ Example configuration::
   labels:
     - name: precise
       min-ram: 8192
-      name-filter: 'something to match'
+      flavor-name: 'something to match'
 
 **required**
 
@@ -453,16 +453,15 @@ Example configuration::
   ``diskimage``
     Refers to provider's diskimages, see :ref:`provider_diskimages`.
 
+**at least one of**
+
+  ``flavor-name``
+    Name or id of the flavor to use. If ``min-ram`` is omitted, it
+    must be an exact match. If ``min-ram`` is given, ``flavor-name`` will
+    be used to find flavor names that meet ``min-ram`` and also contain
+    ``flavor-name``.
+
   ``min-ram``
     Determine the flavor to use (e.g. ``m1.medium``, ``m1.large``,
     etc).  The smallest flavor that meets the ``min-ram`` requirements
-    will be chosen. To further filter by flavor name, see optional
-    ``name-filter`` below.
-
-**optional**
-
-  ``name-filter``
-    Additional filter complementing ``min-ram``, will be required to match on
-    the flavor-name (e.g. Rackspace offer a "Performance" flavour; setting
-    `name-filter` to ``Performance`` will ensure the chosen flavor also
-    contains this string as well as meeting `min-ram` requirements).
+    will be chosen.
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index cc1743baa..666824e2b 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -28,7 +28,7 @@ class ConfigValidator:
             v.Required('name'): str,
             v.Required('diskimage'): str,
             'min-ram': int,
-            'name-filter': str,
+            'flavor-name': str,
         }
 
         pool = {
diff --git a/nodepool/config.py b/nodepool/config.py
index ce91850c3..c7370549c 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -89,7 +89,7 @@ class ProviderLabel(ConfigValue):
     def __eq__(self, other):
         if (other.diskimage != self.diskimage or
             other.min_ram != self.min_ram or
-            other.name_filter != self.name_filter):
+            other.flavor_name != self.flavor_name):
             return False
         return True
 
@@ -217,7 +217,7 @@ def loadConfig(config_path):
             diskimage = newconfig.diskimages[i.name]
             diskimage.image_types.add(p.image_type)
             #i.min_ram = image['min-ram']
-            #i.name_filter = image.get('name-filter', None)
+            #i.flavor_name = image.get('flavor-name', None)
             i.pause = bool(image.get('pause', False))
             i.config_drive = image.get('config-drive', None)
 
@@ -250,9 +250,8 @@ def loadConfig(config_path):
                 pl.pool = pp
                 pp.labels[pl.name] = pl
                 pl.diskimage = newconfig.diskimages[label['diskimage']]
-                pl.min_ram = label['min-ram']
-                pl.name_filter = label.get('name-filter', None)
-
+                pl.min_ram = label.get('min-ram', 0)
+                pl.flavor_name = label.get('flavor-name', None)
                 top_label = newconfig.labels[pl.name]
                 top_label.pools.append(pp)
 
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index dc38e4f32..5354dbfd4 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -277,9 +277,9 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         server = self._manager.createServer(
             hostname,
-            self._label.min_ram,
-            cloud_image.external_id,
-            name_filter=self._label.name_filter,
+            image_id=cloud_image.external_id,
+            min_ram=self._label.min_ram,
+            flavor_name=self._label.flavor_name,
             az=self._node.az,
             config_drive=self._diskimage.config_drive,
             nodepool_node_id=self._node.id,
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 1c24eae13..b9ccef3e0 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -131,15 +131,32 @@ class ProviderManager(object):
         flavors.sort(lambda a, b: cmp(a['ram'], b['ram']))
         return flavors
 
-    def findFlavor(self, min_ram, name_filter=None):
+    # TODO(mordred): These next three methods duplicate logic that is in
+    #                shade, but we can't defer to shade until we're happy
+    #                with using shade's resource caching facility. We have
+    #                not yet proven that to our satisfaction, but if/when
+    #                we do, these should be able to go away.
+    def _findFlavorByName(self, flavor_name):
+        for f in self._flavors:
+            if flavor_name in (f['name'], f['id']):
+                return f
+        raise Exception("Unable to find flavor: %s" % flavor_name)
+
+    def _findFlavorByRam(self, min_ram, flavor_name):
+        for f in self._flavors:
+            if (f['ram'] >= min_ram
+                    and (not flavor_name or flavor_name in f['name'])):
+                return f
+        raise Exception("Unable to find flavor with min ram: %s" % min_ram)
+
+    def findFlavor(self, flavor_name, min_ram):
         # Note: this will throw an error if the provider is offline
         # but all the callers are in threads (they call in via CreateServer) so
         # the mainloop won't be affected.
-        for f in self._flavors:
-            if (f['ram'] >= min_ram
-                    and (not name_filter or name_filter in f['name'])):
-                return f
-        raise Exception("Unable to find flavor with min ram: %s" % min_ram)
+        if min_ram:
+            return self._findFlavorByRam(min_ram, flavor_name)
+        else:
+            return self._findFlavorByName(flavor_name)
 
     def findImage(self, name):
         if name in self._images:
@@ -166,17 +183,18 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             return self._client.delete_image(name)
 
-    def createServer(self, name, min_ram, image_id=None, image_name=None,
-                     az=None, key_name=None, name_filter=None,
-                     config_drive=True, nodepool_node_id=None,
-                     nodepool_image_name=None, networks=None):
+    def createServer(self, name, image_id=None, image_name=None,
+                     flavor_name=None, min_ram=None,
+                     az=None, key_name=None, config_drive=True,
+                     nodepool_node_id=None, nodepool_image_name=None,
+                     networks=None):
         if not networks:
             networks = []
         if image_name:
             image = self.findImage(image_name)
         else:
             image = {'id': image_id}
-        flavor = self.findFlavor(min_ram, name_filter)
+        flavor = self.findFlavor(flavor_name=flavor_name, min_ram=min_ram)
         create_args = dict(name=name,
                            image=image,
                            flavor=flavor,
diff --git a/nodepool/tests/fixtures/integration_noocc.yaml b/nodepool/tests/fixtures/integration_noocc.yaml
index ab4392d49..4cfcaad0c 100644
--- a/nodepool/tests/fixtures/integration_noocc.yaml
+++ b/nodepool/tests/fixtures/integration_noocc.yaml
@@ -23,7 +23,7 @@ providers:
           - name: real-label
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'Real'
+            flavor-name: 'Real'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/integration_occ.yaml b/nodepool/tests/fixtures/integration_occ.yaml
index a4f711fe8..bc0733c9d 100644
--- a/nodepool/tests/fixtures/integration_occ.yaml
+++ b/nodepool/tests/fixtures/integration_occ.yaml
@@ -23,7 +23,7 @@ providers:
           - name: fake-label
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'Real'
+            flavor-name: 'Real'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/multiple_pools.yaml b/nodepool/tests/fixtures/multiple_pools.yaml
index 50c23a188..49f667320 100644
--- a/nodepool/tests/fixtures/multiple_pools.yaml
+++ b/nodepool/tests/fixtures/multiple_pools.yaml
@@ -31,7 +31,7 @@ providers:
           - name: fake-label1
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'Fake'
+            flavor-name: 'Fake'
 
       - name: pool2
         max-servers: 1
@@ -41,7 +41,7 @@ providers:
           - name: fake-label2
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'Fake'
+            flavor-name: 'Fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index 6691e9c92..eb2cb2b07 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -31,7 +31,7 @@ providers:
           - name: fake-label
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'Fake'
+            flavor-name: 'Fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index 7162e910e..f234cab1b 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -29,7 +29,7 @@ providers:
           - name: fake-label
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'Fake'
+            flavor-name: 'Fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index 8e48874f2..08e1120cd 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -27,7 +27,7 @@ providers:
           - name: fake-label1
             diskimage: fake-image1
             min-ram: 8192
-            name-filter: 'fake'
+            flavor-name: 'fake'
 
   - name: fake-provider2
     cloud: fake
@@ -44,7 +44,7 @@ providers:
           - name: fake-label2
             diskimage: fake-image2
             min-ram: 8192
-            name-filter: 'fake'
+            flavor-name: 'fake'
 
 diskimages:
   - name: fake-image1
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index 93c2c4d07..e6e20dd3d 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -27,7 +27,7 @@ providers:
           - name: fake-label
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'fake'
+            flavor-name: 'fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index f0f5b86f3..f05be81b8 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -27,7 +27,7 @@ providers:
           - name: fake-label
             diskimage: fake-image
             min-ram: 8192
-            name-filter: 'fake'
+            flavor-name: 'fake'
 
 diskimages:
   - name: fake-image
diff --git a/nodepool/tests/fixtures/node_flavor_name.yaml b/nodepool/tests/fixtures/node_flavor_name.yaml
new file mode 100644
index 000000000..10909dd5e
--- /dev/null
+++ b/nodepool/tests/fixtures/node_flavor_name.yaml
@@ -0,0 +1,38 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            flavor-name: Fake Flavor
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index 32cd4ba32..bd4ce8b9d 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -247,6 +247,18 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(nodes[0].provider, 'fake-provider')
         self.assertEqual(nodes[0].type, 'fake-label')
 
+    def test_node_flavor_name(self):
+        """Test that a node is created with a flavor name"""
+        configfile = self.setup_config('node_flavor_name.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage('fake-provider', 'fake-image')
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
+        self.assertEqual(nodes[0].type, 'fake-label')
+
     def test_node_vhd_image(self):
         """Test that a image and node are created vhd image"""
         configfile = self.setup_config('node_vhd.yaml')
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 52815f5f1..8a9a2786b 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -33,4 +33,4 @@ providers:
           - name: big-fake
             diskimage: fake-nodepool
             min-ram: 8192
-            name-filter: 'Fake'
+            flavor-name: 'Fake'

From 9b7d8587a4d1d2e3570aed4fa3afed69998dbc9f Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 30 Mar 2017 08:33:00 -0700
Subject: [PATCH 176/309] Cleanup from config syntax change

I left some commented out old code.

Change-Id: Icd3d65f2190586c7cbf265b5b7278acfdd9ac3f6
---
 nodepool/config.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/nodepool/config.py b/nodepool/config.py
index c7370549c..49cd0ccef 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -216,8 +216,6 @@ def loadConfig(config_path):
             p.diskimages[i.name] = i
             diskimage = newconfig.diskimages[i.name]
             diskimage.image_types.add(p.image_type)
-            #i.min_ram = image['min-ram']
-            #i.flavor_name = image.get('flavor-name', None)
             i.pause = bool(image.get('pause', False))
             i.config_drive = image.get('config-drive', None)
 

From 02d137a777ec750f4cfe9846c5386bbc9f28a30d Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Thu, 30 Mar 2017 08:42:59 -0700
Subject: [PATCH 177/309] Validate flavor specification in config

Validate that at least one of min-ram or flavor-name are present.

Change-Id: I2e42b0d6176e5a15e1ceb2a77b9d557bc0704d50
---
 nodepool/cmd/config_validator.py | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 666824e2b..cff69ecd0 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -24,13 +24,21 @@ class ConfigValidator:
         self.config_file = config_file
 
     def validate(self):
-        pool_label = {
+        label_min_ram = v.Schema({v.Required('min-ram'): int}, extra=True)
+
+        label_flavor_name = v.Schema({v.Required('flavor-name'): str},
+                                     extra=True)
+
+        pool_label_main = {
             v.Required('name'): str,
             v.Required('diskimage'): str,
             'min-ram': int,
             'flavor-name': str,
         }
 
+        pool_label = v.All(pool_label_main,
+                           v.Any(label_min_ram, label_flavor_name))
+
         pool = {
             'name': str,
             'networks': [str],

From 8037855400a5b094a533560bc13b952fbb5da91c Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Mon, 10 Apr 2017 17:11:20 -0500
Subject: [PATCH 178/309] Add support for specifying key-name per label

In order to support putting less things into images via puppet in Infra,
we'd like to be able to pre-populate our clouds with keypairs for the
infra-root accounts and have nova add those at boot time.

Change-Id: I9e2c990040342de722f68de09f273005f57a699f
---
 doc/source/configuration.rst     | 6 ++++++
 nodepool/cmd/config_validator.py | 1 +
 nodepool/config.py               | 4 +++-
 nodepool/nodepool.py             | 1 +
 4 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 5fb958b98..d71b8222b 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -465,3 +465,9 @@ Example configuration::
     Determine the flavor to use (e.g. ``m1.medium``, ``m1.large``,
     etc).  The smallest flavor that meets the ``min-ram`` requirements
     will be chosen.
+
+**optional**
+
+  ``key-name``
+    If given, is the name of a keypair that will be used when booting each
+    server.
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index cff69ecd0..a12a5bd79 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -34,6 +34,7 @@ class ConfigValidator:
             v.Required('diskimage'): str,
             'min-ram': int,
             'flavor-name': str,
+            'key-name': str,
         }
 
         pool_label = v.All(pool_label_main,
diff --git a/nodepool/config.py b/nodepool/config.py
index 49cd0ccef..03fc0275e 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -89,7 +89,8 @@ class ProviderLabel(ConfigValue):
     def __eq__(self, other):
         if (other.diskimage != self.diskimage or
             other.min_ram != self.min_ram or
-            other.flavor_name != self.flavor_name):
+            other.flavor_name != self.flavor_name or
+            other.key_name != self.key_name):
             return False
         return True
 
@@ -250,6 +251,7 @@ def loadConfig(config_path):
                 pl.diskimage = newconfig.diskimages[label['diskimage']]
                 pl.min_ram = label.get('min-ram', 0)
                 pl.flavor_name = label.get('flavor-name', None)
+                pl.key_name = label.get('key-name')
                 top_label = newconfig.labels[pl.name]
                 top_label.pools.append(pp)
 
diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 5354dbfd4..61bc84549 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -280,6 +280,7 @@ class NodeLauncher(threading.Thread, StatsReporter):
             image_id=cloud_image.external_id,
             min_ram=self._label.min_ram,
             flavor_name=self._label.flavor_name,
+            key_name=self._label.key_name,
             az=self._node.az,
             config_drive=self._diskimage.config_drive,
             nodepool_node_id=self._node.id,

From 566a690e9ebc17adde102f244ae12a57a8163d92 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 28 Apr 2017 08:44:37 -0400
Subject: [PATCH 179/309] Fix CleanupWorker exception messages

Change-Id: Ia996adf642e39aa9a0ec7ee54e3a35ac8875d85b
---
 nodepool/nodepool.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/nodepool/nodepool.py b/nodepool/nodepool.py
index 5354dbfd4..af38d8a21 100644
--- a/nodepool/nodepool.py
+++ b/nodepool/nodepool.py
@@ -1195,19 +1195,19 @@ class CleanupWorker(BaseCleanupWorker):
             self._cleanupNodeRequestLocks()
         except Exception:
             self.log.exception(
-                "Exception in DeletedNodeWorker (node request lock cleanup):")
+                "Exception in CleanupWorker (node request lock cleanup):")
 
         try:
             self._cleanupLeakedInstances()
         except Exception:
             self.log.exception(
-                "Exception in DeletedNodeWorker (leaked instance cleanup):")
+                "Exception in CleanupWorker (leaked instance cleanup):")
 
         try:
             self._cleanupLostRequests()
         except Exception:
             self.log.exception(
-                "Exception in DeletedNodeWorker (lost request cleanup):")
+                "Exception in CleanupWorker (lost request cleanup):")
 
 
 class DeletedNodeWorker(BaseCleanupWorker):

From 10f1f9e2bd115aa025e081b1995a0be7caeb2ca9 Mon Sep 17 00:00:00 2001
From: Ian Wienand <iwienand@redhat.com>
Date: Tue, 2 May 2017 16:37:27 +1000
Subject: [PATCH 180/309] Use full path to socat in devstack plugin

Now devstack is systemd-ified, make sure this has full path to avoid
it complaining.

  [/etc/systemd/system/devstack@statsd.service:6] Executable path is not absolute, ignoring: socat -u udp-recv:8125 -

Change-Id: I47ebf5abb86bc202e5bf90b0cc318764cbb0d062
(cherry picked from commit 4170b3eb3b62939d16de1eacab726312c181f51c)
---
 devstack/plugin.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index e5890f99b..b65e8e81f 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -462,7 +462,7 @@ function start_nodepool {
     # run a fake statsd so we test stats sending paths
     export STATSD_HOST=localhost
     export STATSD_PORT=8125
-    run_process statsd "socat -u udp-recv:$STATSD_PORT -"
+    run_process statsd "/usr/bin/socat -u udp-recv:$STATSD_PORT -"
 
     run_process nodepool-launcher "$NODEPOOL_INSTALL/bin/nodepool-launcher -c $NODEPOOL_CONFIG -s $NODEPOOL_SECURE -l $NODEPOOL_LOGGING -d"
     run_process nodepool-builder "$NODEPOOL_INSTALL/bin/nodepool-builder -c $NODEPOOL_CONFIG -l $NODEPOOL_LOGGING -d"

From 6495f861f5877d7ffdf250b9b166f2039f8a8adf Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 11 May 2017 16:27:07 -0400
Subject: [PATCH 181/309] Add waitForImage to test_lost_request

We have a race condition in our test, so wait for our image to come
online before we start nodepool. This will allow use to validate the
lost request will be fulfilled.

Change-Id: I77a1af250412463b4307fa204fadff1a1fc3971a
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_nodepool.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_nodepool.py
index bd4ce8b9d..43ac9466c 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_nodepool.py
@@ -490,8 +490,8 @@ class TestNodepool(tests.DBTestCase):
         configfile = self.setup_config('node_lost_requests.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
         pool.start()
-
         req = self.waitForNodeRequest(req, (zk.FULFILLED,))
         # Since our config file has min-ready=0, we should be able to re-use
         # the previously assigned node, thus making sure that the cleanup

From 5d423bee9aaaebff5b04afb757597f0114c63c75 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 9 May 2017 11:00:22 -0400
Subject: [PATCH 182/309] Python 3.x incompatible use of print operator

Start working on low hanging fruit for python3 support.

Change-Id: I6d52c3a4ad4d383437925ecae6002de7528c9be0
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/cmd/nodepoolcmd.py | 12 ++++++------
 nodepool/fakeprovider.py    |  4 ++--
 tox.ini                     |  2 +-
 3 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 2b06694d2..17b96a30e 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -145,13 +145,13 @@ class NodePoolCmd(NodepoolApp):
             l.setLevel(logging.WARNING)
 
     def list(self, node_id=None):
-        print status.node_list(self.zk, node_id)
+        print(status.node_list(self.zk, node_id))
 
     def dib_image_list(self):
-        print status.dib_image_list(self.zk)
+        print(status.dib_image_list(self.zk))
 
     def image_list(self):
-        print status.image_list(self.zk)
+        print(status.image_list(self.zk))
 
     def image_build(self, diskimage=None):
         diskimage = diskimage or self.args.image
@@ -189,7 +189,7 @@ class NodePoolCmd(NodepoolApp):
             except Exception as e:
                 log.warning("Exception listing aliens for %s: %s"
                             % (provider.name, str(e.message)))
-        print t
+        print(t)
 
     def alien_image_list(self):
         self.pool.updateConfig()
@@ -237,7 +237,7 @@ class NodePoolCmd(NodepoolApp):
                 if image['id'] in alien_ids:
                     t.add_row([provider.name, image['name'], image['id']])
 
-        print t
+        print(t)
 
     def hold(self):
         node = self.zk.getNode(self.args.id)
@@ -315,7 +315,7 @@ class NodePoolCmd(NodepoolApp):
         #TODO(asselin,yolanda): add validation of secure.conf
 
     def request_list(self):
-        print status.request_list(self.zk)
+        print(status.request_list(self.zk))
 
     def _wait_for_threads(self, threads):
         for t in threads:
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index 67a12f76f..debdf974e 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -262,6 +262,6 @@ class FakeFile(StringIO.StringIO):
         self.__path = path
 
     def close(self):
-        print "Wrote to %s:" % self.__path
-        print self.getvalue()
+        print("Wrote to %s:" % self.__path)
+        print(self.getvalue())
         StringIO.StringIO.close(self)
diff --git a/tox.ini b/tox.ini
index cbaa23be1..ad0be152a 100644
--- a/tox.ini
+++ b/tox.ini
@@ -40,6 +40,6 @@ commands = {posargs}
 
 [flake8]
 ignore = E123,E125,H
-select = H231,F
+select = H231,H233,F
 show-source = True
 exclude = .venv,.tox,dist,doc,build,*.egg

From 8e1c94abc672ce577186ab16aa4d29c213e21629 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 9 May 2017 11:07:39 -0400
Subject: [PATCH 183/309] Remove FakeFile from fakeprovider.py

This class is dead code, and not python3 compat, so lets remove it.

Change-Id: I0a1a622319fc17a90984869b2a8aa46654148335
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/fakeprovider.py | 12 ------------
 1 file changed, 12 deletions(-)

diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index debdf974e..c1cbbe569 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -14,7 +14,6 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
-import StringIO
 import logging
 import threading
 import time
@@ -254,14 +253,3 @@ class FakeUploadFailCloud(FakeOpenStackCloud):
             raise exceptions.BuilderError("Test fail image upload.")
         else:
             return super(FakeUploadFailCloud, self).create_image(**kwargs)
-
-
-class FakeFile(StringIO.StringIO):
-    def __init__(self, path):
-        StringIO.StringIO.__init__(self)
-        self.__path = path
-
-    def close(self):
-        print("Wrote to %s:" % self.__path)
-        print(self.getvalue())
-        StringIO.StringIO.close(self)

From 13ad80ca3159fe6f6bb94b5ad281fafad41490c4 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 15 May 2017 13:35:31 -0400
Subject: [PATCH 184/309] Update devstack plugin for security groups

The nova client no longer supports security group actions. Use the
openstack client instead.

Change-Id: I6a7740340caa2a7607e95744de31801fa12955cf
---
 devstack/plugin.sh | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index b65e8e81f..13aef3773 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -450,11 +450,10 @@ function start_nodepool {
 
     # build sec group rules to reach the nodes, we need to do this
     # this late because nova hasn't started until this phase.
-    if [[ -z $(nova secgroup-list-rules default | grep 'tcp' | grep '65535') ]]; then
-        nova --os-project-name demo --os-username demo \
-             secgroup-add-rule default tcp 1 65535 0.0.0.0/0
-        nova --os-project-name demo --os-username demo \
-             secgroup-add-rule default udp 1 65535 0.0.0.0/0
+    if [[ -z $(openstack security group rule list --protocol tcp default | grep '65535') ]]; then
+        openstack --os-project-name demo --os-username demo security group rule create --ingress --protocol tcp --dst-port 1:65535 --remote-ip 0.0.0.0/0 default
+
+        openstack --os-project-name demo --os-username demo security group rule create --ingress --protocol udp --dst-port 1:65535 --remote-ip 0.0.0.0/0 default
     fi
 
     export PATH=$NODEPOOL_INSTALL/bin:$PATH

From 05696d2a97f65bc49d39256717b6114a797f886c Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 15 May 2017 11:17:53 -0400
Subject: [PATCH 185/309] Add check for ZK node empty data

Because we have a pattern of caching a list of node IDs and then
iterating through them, retrieving the data for each, it's possible
our cache could get stale and the node we try to retrieve is no longer
valid. In that case, we could get empty data for the node. This adds
a check for that.

Change-Id: I7c6c396520ae324fef9c6b92e8f34a42128f5737
---
 nodepool/zk.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/nodepool/zk.py b/nodepool/zk.py
index 35886d960..a58070d51 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1499,6 +1499,8 @@ class ZooKeeper(object):
             data, stat = self.client.get(path)
         except kze.NoNodeError:
             return None
+        if not data:
+            return None
 
         d = Node.fromDict(self._strToDict(data), node)
         d.id = node

From 0cc383f3d35074663144f734d60c0cd540381fe3 Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Tue, 16 May 2017 16:35:51 -0500
Subject: [PATCH 186/309] Block sphinx 1.6

Our docs jobs are broken due to a sphinx release. Issues around it are
being worked elsewhere.

Change-Id: I363865a35ba01a2f7dddce0a684b9b2f235207c8
---
 test-requirements.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/test-requirements.txt b/test-requirements.txt
index 2db0d6967..c1a641031 100644
--- a/test-requirements.txt
+++ b/test-requirements.txt
@@ -1,7 +1,7 @@
 # Nodepool uses hacking for its dependencies
 hacking>=0.10.2,<0.11
 coverage
-sphinx>=1.5.1
+sphinx>=1.5.1,<1.6
 sphinxcontrib-programoutput
 fixtures>=0.3.12
 mock>=1.0

From 28bc25c30f7fc727c1bb15a47e96fd1d9916d11f Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 9 May 2017 12:08:52 -0400
Subject: [PATCH 187/309] Use six.moves.urllib for python3 compat

The urllib2 module has been split across several modules in Python3
named urllib.request and urllib.error.

Change-Id: Ie13cfe8caebdfd236556dcb08396bf5e7e6debc7
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_webapp.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/nodepool/tests/test_webapp.py b/nodepool/tests/test_webapp.py
index 7e4787e07..25f469b1d 100644
--- a/nodepool/tests/test_webapp.py
+++ b/nodepool/tests/test_webapp.py
@@ -15,7 +15,7 @@
 
 import json
 import logging
-import urllib2
+from six.moves.urllib import request
 
 from nodepool import tests
 
@@ -35,9 +35,9 @@ class TestWebApp(tests.DBTestCase):
         self.waitForImage('fake-provider', 'fake-image')
         self.waitForNodes('fake-label')
 
-        req = urllib2.Request(
+        req = request.Request(
             "http://localhost:%s/image-list" % port)
-        f = urllib2.urlopen(req)
+        f = request.urlopen(req)
         self.assertEqual(f.info().getheader('Content-Type'),
                          'text/plain; charset=UTF-8')
         data = f.read()
@@ -55,9 +55,9 @@ class TestWebApp(tests.DBTestCase):
         self.waitForImage('fake-provider', 'fake-image')
         self.waitForNodes('fake-label')
 
-        req = urllib2.Request(
+        req = request.Request(
             "http://localhost:%s/dib-image-list.json" % port)
-        f = urllib2.urlopen(req)
+        f = request.urlopen(req)
         self.assertEqual(f.info().getheader('Content-Type'),
                          'application/json')
         data = f.read()

From 841f120ff6a05b2e95c9df6ae7a0ec2883a335e7 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Wed, 10 May 2017 11:13:53 -0400
Subject: [PATCH 188/309] Rename nodepool.py to launcher.py

Since we are working towards python3 support, lets rename nodepool.py
to launcher.py to make relative imports nicer, otherwise we'd have to
use:

  from . import foo

Change-Id: Ic38b6a8c2bf25d53625e159cb135b71d383b700c
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/cmd/launcher.py                             |  4 ++--
 nodepool/cmd/nodepoolcmd.py                          |  6 +++---
 nodepool/{nodepool.py => launcher.py}                |  0
 nodepool/tests/__init__.py                           |  9 ++++++---
 nodepool/tests/test_builder.py                       |  2 +-
 .../tests/{test_nodepool.py => test_launcher.py}     | 12 ++++++------
 nodepool/tests/test_nodelaunchmanager.py             |  6 +++---
 7 files changed, 21 insertions(+), 18 deletions(-)
 rename nodepool/{nodepool.py => launcher.py} (100%)
 rename nodepool/tests/{test_nodepool.py => test_launcher.py} (98%)

diff --git a/nodepool/cmd/launcher.py b/nodepool/cmd/launcher.py
index 2e7472238..d37571162 100644
--- a/nodepool/cmd/launcher.py
+++ b/nodepool/cmd/launcher.py
@@ -20,7 +20,7 @@ import sys
 import signal
 
 import nodepool.cmd
-import nodepool.nodepool
+import nodepool.launcher
 import nodepool.webapp
 
 log = logging.getLogger(__name__)
@@ -51,7 +51,7 @@ class NodePoolLauncherApp(nodepool.cmd.NodepoolDaemonApp):
         os._exit(0)
 
     def run(self):
-        self.pool = nodepool.nodepool.NodePool(self.args.secure,
+        self.pool = nodepool.launcher.NodePool(self.args.secure,
                                                self.args.config)
         if not self.args.no_webapp:
             self.webapp = nodepool.webapp.WebApp(self.pool)
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 17b96a30e..13313e02f 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -17,8 +17,8 @@
 import logging.config
 import sys
 
+from nodepool import launcher
 from nodepool import provider_manager
-from nodepool import nodepool
 from nodepool import status
 from nodepool import zk
 from nodepool.cmd import NodepoolApp
@@ -265,7 +265,7 @@ class NodePoolCmd(NodepoolApp):
         if self.args.now:
             manager = provider_manager.get_provider_manager(provider, True)
             manager.start()
-            nodepool.InstanceDeleter.delete(self.zk, manager, node)
+            launcher.InstanceDeleter.delete(self.zk, manager, node)
             manager.stop()
         else:
             node.state = zk.DELETING
@@ -329,7 +329,7 @@ class NodePoolCmd(NodepoolApp):
         if self.args.command in ('config-validate'):
             return self.args.func()
 
-        self.pool = nodepool.NodePool(self.args.secure, self.args.config)
+        self.pool = launcher.NodePool(self.args.secure, self.args.config)
         config = self.pool.loadConfig()
 
         # commands needing ZooKeeper
diff --git a/nodepool/nodepool.py b/nodepool/launcher.py
similarity index 100%
rename from nodepool/nodepool.py
rename to nodepool/launcher.py
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index ab4c4d8b5..72c45617a 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -31,7 +31,10 @@ import fixtures
 import kazoo.client
 import testtools
 
-from nodepool import builder, fakeprovider, nodepool, webapp
+from nodepool import builder
+from nodepool import fakeprovider
+from nodepool import launcher
+from nodepool import webapp
 from nodepool import zk
 from nodepool.cmd.config_validator import ConfigValidator
 
@@ -197,7 +200,7 @@ class BaseTestCase(testtools.TestCase):
             'nodepool.provider_manager.ProviderManager._getClient',
             get_fake_client))
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.nodepool._get_one_cloud',
+            'nodepool.launcher._get_one_cloud',
             fakeprovider.fake_get_one_cloud))
         clouds_path = os.path.join(os.path.dirname(__file__),
                                    'fixtures', 'clouds.yaml')
@@ -468,7 +471,7 @@ class DBTestCase(BaseTestCase):
 
     def useNodepool(self, *args, **kwargs):
         args = (self.secure_conf,) + args
-        pool = nodepool.NodePool(*args, **kwargs)
+        pool = launcher.NodePool(*args, **kwargs)
         pool.cleanup_interval = .5
         pool.delete_interval = .5
         self.addCleanup(pool.stop)
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 63564e6d2..14412ade6 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -108,7 +108,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
             'nodepool.provider_manager.FakeProviderManager._getClient',
             get_fake_client))
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.nodepool._get_one_cloud',
+            'nodepool.launcher._get_one_cloud',
             fakeprovider.fake_get_one_cloud))
 
         configfile = self.setup_config('node.yaml')
diff --git a/nodepool/tests/test_nodepool.py b/nodepool/tests/test_launcher.py
similarity index 98%
rename from nodepool/tests/test_nodepool.py
rename to nodepool/tests/test_launcher.py
index 43ac9466c..f9129f1cf 100644
--- a/nodepool/tests/test_nodepool.py
+++ b/nodepool/tests/test_launcher.py
@@ -20,11 +20,11 @@ import fixtures
 from nodepool import tests
 from nodepool import zk
 import nodepool.fakeprovider
-import nodepool.nodepool
+import nodepool.launcher
 
 
-class TestNodepool(tests.DBTestCase):
-    log = logging.getLogger("nodepool.TestNodepool")
+class TestLauncher(tests.DBTestCase):
+    log = logging.getLogger("nodepool.TestLauncher")
 
     def test_node_assignment(self):
         '''
@@ -35,7 +35,7 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         image = self.waitForImage('fake-provider', 'fake-image')
 
-        nodepool.nodepool.LOCK_CLEANUP = 1
+        nodepool.launcher.LOCK_CLEANUP = 1
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
 
@@ -81,7 +81,7 @@ class TestNodepool(tests.DBTestCase):
         self._useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
-        nodepool.nodepool.LOCK_CLEANUP = 1
+        nodepool.launcher.LOCK_CLEANUP = 1
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
         self.wait_for_config(pool)
@@ -402,7 +402,7 @@ class TestNodepool(tests.DBTestCase):
         self.assertEqual(len(nodes), 1)
 
         self.zk.lockNode(nodes[0], blocking=False)
-        nodepool.nodepool.InstanceDeleter.delete(
+        nodepool.launcher.InstanceDeleter.delete(
             self.zk, pool.getProviderManager('fake-provider'), nodes[0])
 
         # Make sure our old node is in delete state, even though delete failed
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index b933aaa81..c8833a9d2 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -21,7 +21,7 @@ from nodepool import builder
 from nodepool import provider_manager
 from nodepool import tests
 from nodepool import zk
-from nodepool.nodepool import NodeLaunchManager
+from nodepool.launcher import NodeLaunchManager
 
 
 class TestNodeLaunchManager(tests.DBTestCase):
@@ -61,7 +61,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         self.assertEqual(len(mgr.ready_nodes), 1)
         self.assertEqual(len(mgr.failed_nodes), 0)
 
-    @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
+    @mock.patch('nodepool.launcher.NodeLauncher._launchNode')
     def test_failed_launch(self, mock_launch):
         configfile = self.setup_config('node.yaml')
         self._setup(configfile)
@@ -78,7 +78,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         self.assertEqual(len(mgr.failed_nodes), 1)
         self.assertEqual(len(mgr.ready_nodes), 0)
 
-    @mock.patch('nodepool.nodepool.NodeLauncher._launchNode')
+    @mock.patch('nodepool.launcher.NodeLauncher._launchNode')
     def test_mixed_launch(self, mock_launch):
         configfile = self.setup_config('node.yaml')
         self._setup(configfile)

From d892837cad474eda96a7eb8be240a44e94d51808 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Wed, 10 May 2017 11:22:48 -0400
Subject: [PATCH 189/309] Fix imports for python3

The syntax for imports has changed for python3, lets use the new
syntax.

Change-Id: Ia985424bf23b44e492f51182179d2e476cdcccbb
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/builder.py          | 10 +++++-----
 nodepool/cmd/nodepoolcmd.py  |  5 +++--
 nodepool/config.py           |  4 ++--
 nodepool/fakeprovider.py     |  2 +-
 nodepool/launcher.py         | 13 ++++++-------
 nodepool/nodeutils.py        |  2 +-
 nodepool/provider_manager.py |  9 +++++----
 nodepool/task_manager.py     |  2 +-
 nodepool/webapp.py           |  2 +-
 9 files changed, 25 insertions(+), 24 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 2c0d7893e..b889f73ad 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -23,11 +23,11 @@ import time
 import shlex
 import sys
 
-import config as nodepool_config
-import exceptions
-import provider_manager
-import stats
-import zk
+from nodepool import config as nodepool_config
+from nodepool import exceptions
+from nodepool import provider_manager
+from nodepool import stats
+from nodepool import zk
 
 
 MINS = 60
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 13313e02f..7047b15ce 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -17,13 +17,14 @@
 import logging.config
 import sys
 
+from prettytable import PrettyTable
+
 from nodepool import launcher
 from nodepool import provider_manager
 from nodepool import status
 from nodepool import zk
 from nodepool.cmd import NodepoolApp
-from config_validator import ConfigValidator
-from prettytable import PrettyTable
+from nodepool.cmd.config_validator import ConfigValidator
 
 log = logging.getLogger(__name__)
 
diff --git a/nodepool/config.py b/nodepool/config.py
index 03fc0275e..ea06f6387 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -21,8 +21,8 @@ from six.moves import configparser as ConfigParser
 import time
 import yaml
 
-import fakeprovider
-import zk
+from nodepool import fakeprovider
+from nodepool import zk
 
 
 class ConfigValue(object):
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
index c1cbbe569..fa55f6953 100644
--- a/nodepool/fakeprovider.py
+++ b/nodepool/fakeprovider.py
@@ -21,7 +21,7 @@ import uuid
 
 import shade
 
-import exceptions
+from nodepool import exceptions
 
 
 class Dummy(object):
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index b2425d446..a2054cf53 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -26,13 +26,12 @@ import socket
 import threading
 import time
 
-import exceptions
-import nodeutils as utils
-import provider_manager
-import stats
-import config as nodepool_config
-
-import zk
+from nodepool import exceptions
+from nodepool import nodeutils as utils
+from nodepool import provider_manager
+from nodepool import stats
+from nodepool import config as nodepool_config
+from nodepool import zk
 
 MINS = 60
 HOURS = 60 * MINS
diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index cd8b16bdc..99960a6fa 100644
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -25,7 +25,7 @@ import logging
 
 import paramiko
 
-import exceptions
+from nodepool import exceptions
 
 log = logging.getLogger("nodepool.utils")
 
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index b9ccef3e0..97b1ec86d 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -21,10 +21,11 @@ from contextlib import contextmanager
 
 import shade
 
-import exceptions
-import fakeprovider
-from nodeutils import iterate_timeout
-from task_manager import TaskManager, ManagerStoppedException
+from nodepool import exceptions
+from nodepool import fakeprovider
+from nodepool.nodeutils import iterate_timeout
+from nodepool.task_manager import ManagerStoppedException
+from nodepool.task_manager import TaskManager
 
 
 IPS_LIST_AGE = 5      # How long to keep a cached copy of the ip list
diff --git a/nodepool/task_manager.py b/nodepool/task_manager.py
index 227129776..8a282d25c 100644
--- a/nodepool/task_manager.py
+++ b/nodepool/task_manager.py
@@ -23,7 +23,7 @@ import logging
 import time
 import requests.exceptions
 
-import stats
+from nodepool import stats
 
 class ManagerStoppedException(Exception):
     pass
diff --git a/nodepool/webapp.py b/nodepool/webapp.py
index 288235563..752489e4f 100644
--- a/nodepool/webapp.py
+++ b/nodepool/webapp.py
@@ -20,7 +20,7 @@ from paste import httpserver
 import webob
 from webob import dec
 
-import status
+from nodepool import status
 
 """Nodepool main web app.
 

From 4a611a53ce4927ef5716568af336d0fba8d1fd7c Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Wed, 10 May 2017 22:09:18 -0400
Subject: [PATCH 190/309] Ensure zookeeper_servers is a list

For python3, dict.values() no longer is a list, but a view. So, we
need to explicitly enforce a list since we expect it for kazoo.

Change-Id: Ifa8d4101995b0933fc3f7e07cc78336edff598b9
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/builder.py         | 4 ++--
 nodepool/cmd/nodepoolcmd.py | 2 +-
 nodepool/launcher.py        | 4 ++--
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index b889f73ad..82b2d22c3 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -129,7 +129,7 @@ class BaseWorker(threading.Thread):
         '''
         if self._config.zookeeper_servers != new_config.zookeeper_servers:
             self.log.debug("Detected ZooKeeper server changes")
-            self._zk.resetHosts(new_config.zookeeper_servers.values())
+            self._zk.resetHosts(list(new_config.zookeeper_servers.values()))
 
     @property
     def running(self):
@@ -1107,7 +1107,7 @@ class NodePoolBuilder(object):
 
             # All worker threads share a single ZooKeeper instance/connection.
             self.zk = zk.ZooKeeper()
-            self.zk.connect(self._config.zookeeper_servers.values())
+            self.zk.connect(list(self._config.zookeeper_servers.values()))
 
             self.log.debug('Starting listener for build jobs')
 
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 7047b15ce..29de61f8a 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -340,7 +340,7 @@ class NodePoolCmd(NodepoolApp):
                                  'alien-list', 'list', 'hold', 'delete',
                                  'request-list'):
             self.zk = zk.ZooKeeper()
-            self.zk.connect(config.zookeeper_servers.values())
+            self.zk.connect(list(config.zookeeper_servers.values()))
 
         self.pool.setConfig(config)
         self.args.func()
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index a2054cf53..612cdbfe0 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -1333,11 +1333,11 @@ class NodePool(threading.Thread):
 
     def reconfigureZooKeeper(self, config):
         if self.config:
-            running = self.config.zookeeper_servers.values()
+            running = list(self.config.zookeeper_servers.values())
         else:
             running = None
 
-        configured = config.zookeeper_servers.values()
+        configured = list(config.zookeeper_servers.values())
         if running == configured:
             return
 

From 71ff1a9bc598940685cb842f2b872692fe06f39c Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 11 May 2017 09:53:48 -0400
Subject: [PATCH 191/309] Sort flavors with operator.itemgetter('ram')

The current syntax is not python3 compatible, so we look to shade to
help accomplish our sorting syntax.

Change-Id: Iadb39f976840fd2af6e0bd7b08bd3b01169e37a1
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/provider_manager.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 97b1ec86d..4e1241dd5 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -18,6 +18,7 @@
 
 import logging
 from contextlib import contextmanager
+import operator
 
 import shade
 
@@ -129,7 +130,7 @@ class ProviderManager(object):
 
     def _getFlavors(self):
         flavors = self.listFlavors()
-        flavors.sort(lambda a, b: cmp(a['ram'], b['ram']))
+        flavors.sort(key=operator.itemgetter('ram'))
         return flavors
 
     # TODO(mordred): These next three methods duplicate logic that is in

From 009189934b481271024095336c0db301505aec54 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 11 May 2017 11:31:32 -0400
Subject: [PATCH 192/309] Replace dict.iteritems() with dict.items() for
 python3

From python3 docs:

    Remove dict.iteritems(), dict.iterkeys(), and dict.itervalues().

    Instead: use dict.items(), dict.keys(), and dict.values()
    respectively.

Change-Id: I7e0014670bd20ba16db9703a5c423b564824a986
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/config.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/config.py b/nodepool/config.py
index ea06f6387..ec468f7fd 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -228,7 +228,7 @@ def loadConfig(config_path):
             if i.meta:
                 if len(i.meta) > 5 or \
                    any([len(k) > 255 or len(v) > 255
-                        for k, v in i.meta.iteritems()]):
+                        for k, v in i.meta.items()]):
                     # soft-fail
                     #self.log.error("Invalid metadata for %s; ignored"
                     #               % i.name)

From d472628a601b5bf66d4e1eb320b722734bc061fd Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 11 May 2017 11:56:20 -0400
Subject: [PATCH 193/309] Update exception message handling for python3

str(e.message) is not valid for python3, but str(e) is.

Change-Id: Ifb3e13ee035371e0534c7bf5dd1587690f3dd6f5
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/cmd/nodepoolcmd.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 29de61f8a..1fb4d564e 100644
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -189,7 +189,7 @@ class NodePoolCmd(NodepoolApp):
                                    server.id, server.public_v4])
             except Exception as e:
                 log.warning("Exception listing aliens for %s: %s"
-                            % (provider.name, str(e.message)))
+                            % (provider.name, str(e)))
         print(t)
 
     def alien_image_list(self):
@@ -216,7 +216,7 @@ class NodePoolCmd(NodepoolApp):
                     if 'nodepool_build_id' in image['properties']]
             except Exception as e:
                 log.warning("Exception listing alien images for %s: %s"
-                            % (provider.name, str(e.message)))
+                            % (provider.name, str(e)))
 
             alien_ids = []
             uploads = []

From ac6406679e2474e6e7f1e864fd2f70aebcd9fce5 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw-carit.de>
Date: Mon, 8 May 2017 15:42:49 +0200
Subject: [PATCH 194/309] Add max-ready-age to label config

This adds the max-ready-age setting to the label config. With this one
can specify how long nodes should live unused in READY state. This
enables the following use cases:

- When switching nodepool between a 'working-hours' and a
  'non-working-hours' configuration with high or low min-ready
  settings this can trigger a (delayed) scale down of unused
  resources. this can be important when using a cloud provider with
  ondemand billing model.

- Renewing old nodes without having to run a job on it. This can be
  useful for capping the age of the cached data inside the nodes.

Change-Id: Id705f0a5e478ab658ed3a396f92d6eb6694c1c8f
---
 doc/source/configuration.rst                  |  6 +++
 nodepool/cmd/config_validator.py              |  1 +
 nodepool/config.py                            |  1 +
 nodepool/launcher.py                          | 52 +++++++++++++++++++
 .../tests/fixtures/config_validate/good.yaml  |  1 +
 .../tests/fixtures/node_max_ready_age.yaml    | 47 +++++++++++++++++
 nodepool/tests/test_launcher.py               | 15 ++++++
 7 files changed, 123 insertions(+)
 create mode 100644 nodepool/tests/fixtures/node_max_ready_age.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index d71b8222b..9c9f5ff33 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -69,6 +69,7 @@ written to run on nodes of a certain label. Example::
 
   labels:
     - name: my-precise
+      max-ready-age: 3600
       min-ready: 2
     - name: multi-precise
       min-ready: 2
@@ -80,6 +81,11 @@ written to run on nodes of a certain label. Example::
 
 **optional**
 
+  ``max-ready-age`` (int)
+    Maximum number of seconds the node shall be in ready state. If
+    this is exceeded the node will be deleted. A value of 0 disables this.
+    Defaults to 0.
+
   ``min-ready`` (default: 2)
     Minimum instances that should be in a ready state. Set to -1 to have the
     label considered disabled. ``min-ready`` is best-effort based on available
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index a12a5bd79..98f511ffb 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -75,6 +75,7 @@ class ConfigValidator:
         label = {
             'name': str,
             'min-ready': int,
+            'max-ready-age': int,
         }
 
         diskimage = {
diff --git a/nodepool/config.py b/nodepool/config.py
index 03fc0275e..4dfdeb573 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -184,6 +184,7 @@ def loadConfig(config_path):
         l = Label()
         l.name = label['name']
         newconfig.labels[l.name] = l
+        l.max_ready_age = label.get('max-ready-age', 0)
         l.min_ready = label.get('min-ready', 2)
         l.pools = []
 
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index b2425d446..262093362 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -1187,6 +1187,52 @@ class CleanupWorker(BaseCleanupWorker):
             if provider.clean_floating_ips:
                 manager.cleanupLeakedFloaters()
 
+    def _cleanupMaxReadyAge(self):
+        '''
+        Delete any server past their max-ready-age.
+
+        Remove any servers which are longer than max-ready-age in ready state.
+        '''
+
+        # first get all labels with max_ready_age > 0
+        label_names = []
+        for label_name in self._nodepool.config.labels:
+            if self._nodepool.config.labels[label_name].max_ready_age > 0:
+                label_names.append(label_name)
+
+        zk_conn = self._nodepool.getZK()
+        ready_nodes = zk_conn.getReadyNodesOfTypes(label_names)
+
+        for label_name in ready_nodes:
+            # get label from node
+            label = self._nodepool.config.labels[label_name]
+
+            for node in ready_nodes[label_name]:
+
+                # Can't do anything if we aren't configured for this provider.
+                if node.provider not in self._nodepool.config.providers:
+                    continue
+
+                # check state time against now
+                now = int(time.time())
+                if (now - node.state_time) < label.max_ready_age:
+                    continue
+
+                try:
+                    zk_conn.lockNode(node, blocking=False)
+                except exceptions.ZKLockException:
+                    continue
+
+                # Double check the state now that we have a lock since it
+                # may have changed on us.
+                if node.state != zk.READY:
+                    zk_conn.unlockNode(node)
+                    continue
+
+                # The InstanceDeleter thread will unlock and remove the
+                # node from ZooKeeper if it succeeds.
+                self._deleteInstance(node)
+
     def _run(self):
         '''
         Catch exceptions individually so that other cleanup routines may
@@ -1210,6 +1256,12 @@ class CleanupWorker(BaseCleanupWorker):
             self.log.exception(
                 "Exception in CleanupWorker (lost request cleanup):")
 
+        try:
+            self._cleanupMaxReadyAge()
+        except Exception:
+            self.log.exception(
+                "Exception in CleanupWorker (max ready age cleanup):")
+
 
 class DeletedNodeWorker(BaseCleanupWorker):
     def __init__(self, nodepool, interval):
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 90050548b..e4c444b37 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -8,6 +8,7 @@ zookeeper-servers:
 
 labels:
   - name: trusty
+    max-ready-age: 3600
     min-ready: 1
   - name: trusty-2-node
     min-ready: 0
diff --git a/nodepool/tests/fixtures/node_max_ready_age.yaml b/nodepool/tests/fixtures/node_max_ready_age.yaml
new file mode 100644
index 000000000..b144e60a6
--- /dev/null
+++ b/nodepool/tests/fixtures/node_max_ready_age.yaml
@@ -0,0 +1,47 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    max-ready-age: 2
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        availability-zones:
+          - az1
+        networks:
+          - net-name
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            flavor-name: 'Fake'
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index f9129f1cf..e9fbd33a4 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -451,6 +451,21 @@ class TestLauncher(tests.DBTestCase):
         servers = manager.listServers()
         self.assertEqual(len(servers), 1)
 
+    def test_max_ready_age(self):
+        """Test a node with exceeded max-ready-age is deleted"""
+        configfile = self.setup_config('node_max_ready_age.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage('fake-provider', 'fake-image')
+        self.log.debug("Waiting for initial pool...")
+        nodes = self.waitForNodes('fake-label')
+        self.log.debug("...done waiting for initial pool.")
+
+        # Wait for the instance to be cleaned up
+        manager = pool.getProviderManager('fake-provider')
+        self.waitForInstanceDeletion(manager, nodes[0].external_id)
+
     def test_label_provider(self):
         """Test that only providers listed in the label satisfy the request"""
         configfile = self.setup_config('node_label_provider.yaml')

From fbd45ba266889db1945fc6b06240d128d51bcfa9 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw-carit.de>
Date: Wed, 19 Apr 2017 15:13:09 +0200
Subject: [PATCH 195/309] Support externally managed images

This adds support for using images which are not built and managed by
nodepool.

Change-Id: Iabfcf2e2f0d42622c0504b16e5f10ec7dfba97ca
---
 doc/source/configuration.rst                  | 32 ++++++++
 nodepool/cmd/config_validator.py              | 16 +++-
 nodepool/config.py                            | 19 ++++-
 nodepool/launcher.py                          | 73 +++++++++++++------
 .../tests/fixtures/config_validate/good.yaml  |  8 ++
 .../tests/fixtures/node_unmanaged_image.yaml  | 26 +++++++
 nodepool/tests/test_launcher.py               | 13 ++++
 7 files changed, 162 insertions(+), 25 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_unmanaged_image.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index d71b8222b..6359aada7 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -427,6 +427,32 @@ Example configuration::
     values must be 255 characters or less.
 
 
+.. _provider_cloud_images:
+
+cloud-images
+~~~~~~~~~~~~
+
+Each cloud-image entry in :ref:`labels` refers to an entry in this section.
+This is a way for modifying launch parameters of the nodes (currently only
+config-drive).
+
+Example configuration::
+
+  cloud-images:
+    - name: trusty-external
+      config-drive: False
+
+**required**
+
+  ``name``
+    Identifier to refer this cloud-image from :ref:`labels` section.
+
+**optional**
+
+  ``config-drive`` (boolean)
+    Whether config drive should be used for the cloud image. Default ``True``
+
+
 .. _pool_labels:
 
 labels
@@ -450,9 +476,15 @@ Example configuration::
     Identifier to refer this image from :ref:`labels` and :ref:`diskimages`
     sections.
 
+**one of**
+
   ``diskimage``
     Refers to provider's diskimages, see :ref:`provider_diskimages`.
 
+  ``cloud-image``
+    Refers to an externally managed image name or id already existing on the
+    provider, see :ref:`provider_cloud_images`.
+
 **at least one of**
 
   ``flavor-name``
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index a12a5bd79..f1277fd82 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -29,16 +29,22 @@ class ConfigValidator:
         label_flavor_name = v.Schema({v.Required('flavor-name'): str},
                                      extra=True)
 
+        label_diskimage = v.Schema({v.Required('diskimage'): str}, extra=True)
+
+        label_cloud_image = v.Schema({v.Required('cloud-image'): str}, extra=True)
+
         pool_label_main = {
             v.Required('name'): str,
-            v.Required('diskimage'): str,
+            v.Exclusive('diskimage', 'label-image'): str,
+            v.Exclusive('cloud-image', 'label-image'): str,
             'min-ram': int,
             'flavor-name': str,
             'key-name': str,
         }
 
         pool_label = v.All(pool_label_main,
-                           v.Any(label_min_ram, label_flavor_name))
+                           v.Any(label_min_ram, label_flavor_name),
+                           v.Any(label_diskimage, label_cloud_image))
 
         pool = {
             'name': str,
@@ -55,6 +61,11 @@ class ConfigValidator:
             'config-drive': bool,
         }
 
+        provider_cloud_images = {
+            'name': str,
+            'config-drive': bool,
+        }
+
         provider = {
             'name': str,
             'region-name': str,
@@ -70,6 +81,7 @@ class ConfigValidator:
             'clean-floating-ips': bool,
             'pools': [pool],
             'diskimages': [provider_diskimage],
+            'cloud-images': [provider_cloud_images],
         }
 
         label = {
diff --git a/nodepool/config.py b/nodepool/config.py
index 03fc0275e..dfc29ab77 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -80,6 +80,11 @@ class ProviderDiskImage(ConfigValue):
         return "<ProviderDiskImage %s>" % self.name
 
 
+class ProviderCloudImage(ConfigValue):
+    def __repr__(self):
+        return "<ProviderCloudImage %s>" % self.name
+
+
 class Label(ConfigValue):
     def __repr__(self):
         return "<Label %s>" % self.name
@@ -88,6 +93,7 @@ class Label(ConfigValue):
 class ProviderLabel(ConfigValue):
     def __eq__(self, other):
         if (other.diskimage != self.diskimage or
+            other.cloud_image != self.cloud_image or
             other.min_ram != self.min_ram or
             other.flavor_name != self.flavor_name or
             other.key_name != self.key_name):
@@ -233,6 +239,12 @@ def loadConfig(config_path):
                     #self.log.error("Invalid metadata for %s; ignored"
                     #               % i.name)
                     i.meta = {}
+        p.cloud_images = {}
+        for image in provider.get('cloud-images', []):
+            i = ProviderCloudImage()
+            i.name = image['name']
+            i.config_drive = image.get('config-drive', None)
+            p.cloud_images[i.name] = i
         p.pools = {}
         for pool in provider.get('pools', []):
             pp = ProviderPool()
@@ -248,7 +260,12 @@ def loadConfig(config_path):
                 pl.name = label['name']
                 pl.pool = pp
                 pp.labels[pl.name] = pl
-                pl.diskimage = newconfig.diskimages[label['diskimage']]
+                diskimage = label.get('diskimage', None)
+                if diskimage:
+                    pl.diskimage = newconfig.diskimages[diskimage]
+                else:
+                    pl.diskimage = None
+                pl.cloud_image = label.get('cloud-image', None)
                 pl.min_ram = label.get('min-ram', 0)
                 pl.flavor_name = label.get('flavor-name', None)
                 pl.key_name = label.get('key-name')
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index b2425d446..355cfe4bb 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -250,16 +250,39 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         self._pool = self._label.pool
         self._provider = self._pool.provider
-        self._diskimage = self._provider.diskimages[self._label.diskimage.name]
+        if self._label.diskimage:
+            self._diskimage = self._provider.diskimages[self._label.diskimage.name]
+        else:
+            self._diskimage = None
+        self._cloud_image = self._provider.cloud_images.get(self._label.cloud_image, None)
 
     def _launchNode(self):
-        cloud_image = self._zk.getMostRecentImageUpload(
-            self._diskimage.name, self._provider.name)
-        if not cloud_image:
-            raise LaunchNodepoolException(
-                "Unable to find current cloud image %s in %s" %
-                (self._diskimage.name, self._provider.name)
-            )
+        if self._label.diskimage:
+            # launch using diskimage
+            cloud_image = self._zk.getMostRecentImageUpload(
+                self._diskimage.name, self._provider.name)
+
+            if not cloud_image:
+                raise LaunchNodepoolException(
+                    "Unable to find current cloud image %s in %s" %
+                    (self._diskimage.name, self._provider.name)
+                )
+
+            config_drive = self._diskimage.config_drive
+            image_external_id = cloud_image.external_id
+            image_id = "{path}/{upload_id}".format(
+                path=self._zk._imageUploadPath(cloud_image.image_name,
+                                               cloud_image.build_id,
+                                               cloud_image.provider_name),
+                upload_id=cloud_image.id)
+            image_name = self._diskimage.name
+
+        else:
+            # launch using unmanaged cloud image
+            config_drive = self._cloud_image.config_drive
+            image_external_id = self._label.cloud_image
+            image_id = self._label.cloud_image
+            image_name = self._cloud_image.name
 
         hostname = self._provider.hostname_format.format(
             label=self._label, provider=self._provider, node=self._node
@@ -267,7 +290,7 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         self.log.info("Creating server with hostname %s in %s from image %s "
                       "for node id: %s" % (hostname, self._provider.name,
-                                           self._diskimage.name,
+                                           image_name,
                                            self._node.id))
 
         # NOTE: We store the node ID in the server metadata to use for leaked
@@ -277,23 +300,19 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         server = self._manager.createServer(
             hostname,
-            image_id=cloud_image.external_id,
+            image_id=image_external_id,
             min_ram=self._label.min_ram,
             flavor_name=self._label.flavor_name,
             key_name=self._label.key_name,
             az=self._node.az,
-            config_drive=self._diskimage.config_drive,
+            config_drive=config_drive,
             nodepool_node_id=self._node.id,
-            nodepool_image_name=self._diskimage.name,
+            nodepool_image_name=image_name,
             networks=self._pool.networks)
 
         self._node.external_id = server.id
         self._node.hostname = hostname
-        self._node.image_id = "{path}/{upload_id}".format(
-            path=self._zk._imageUploadPath(cloud_image.image_name,
-                                           cloud_image.build_id,
-                                           cloud_image.provider_name),
-            upload_id=cloud_image.id)
+        self._node.image_id = image_id
 
         # Checkpoint save the updated node info
         self._zk.storeNode(self._node)
@@ -538,10 +557,16 @@ class NodeRequestHandler(object):
         :returns: True if it is available, False otherwise.
         '''
         for label in self.request.node_types:
-            img = self.pool.labels[label].diskimage.name
 
-            if not self.zk.getMostRecentImageUpload(img, self.provider.name):
-                return False
+            if self.pool.labels[label].cloud_image:
+                img = self.pool.labels[label].cloud_image
+                if not self.manager.getImage(img):
+                    return False
+            else:
+                img = self.pool.labels[label].diskimage.name
+
+                if not self.zk.getMostRecentImageUpload(img, self.provider.name):
+                    return False
         return True
 
     def _invalidNodeTypes(self):
@@ -1420,8 +1445,12 @@ class NodePool(threading.Thread):
         '''
         for pool in label.pools:
             for pool_label in pool.labels.values():
-                if self.zk.getMostRecentImageUpload(pool_label.diskimage.name,
-                                                    pool.provider.name):
+                if pool_label.cloud_image:
+                    manager = self.getProviderManager(pool.provider.name)
+                    if manager.getImage(pool_label.cloud_image):
+                        return True
+                elif self.zk.getMostRecentImageUpload(pool_label.diskimage.name,
+                                                      pool.provider.name):
                     return True
         return False
 
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 90050548b..172f140b8 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -11,6 +11,8 @@ labels:
     min-ready: 1
   - name: trusty-2-node
     min-ready: 0
+  - name: trusty-external
+    min-ready: 1
 
 providers:
   - name: cloud1
@@ -41,6 +43,9 @@ providers:
     diskimages:
       - name: trusty
         pause: False
+    cloud-images:
+      - name: trusty-unmanaged
+        config-drive: true
     pools:
       - name: main
         max-servers: 184
@@ -51,6 +56,9 @@ providers:
           - name: trusty-2-node
             diskimage: trusty
             min-ram: 8192
+          - name: trusty-external
+            cloud-image: trusty-unmanaged
+            min-ram: 8192
 
 diskimages:
   - name: trusty
diff --git a/nodepool/tests/fixtures/node_unmanaged_image.yaml b/nodepool/tests/fixtures/node_unmanaged_image.yaml
new file mode 100644
index 000000000..0fe55c25b
--- /dev/null
+++ b/nodepool/tests/fixtures/node_unmanaged_image.yaml
@@ -0,0 +1,26 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    region-name: fake-region
+    rate: 0.0001
+    cloud-images:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            cloud-image: fake-image
+            min-ram: 8192
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index f9129f1cf..7258127c5 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -539,3 +539,16 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(lab2[0].type, 'fake-label2')
         self.assertEqual(lab2[0].az, 'az2')
         self.assertEqual(lab2[0].pool, 'pool2')
+
+    def test_unmanaged_image(self):
+        """Test node launching using an unmanaged image"""
+        configfile = self.setup_config('node_unmanaged_image.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+
+        pool.start()
+        self.wait_for_config(pool)
+        manager = pool.getProviderManager('fake-provider')
+        manager._client.create_image(name="fake-image")
+
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)

From 42abc49f101f2ea4b8eab13f77ee3f59512d06d9 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 18 May 2017 09:14:30 -0400
Subject: [PATCH 196/309] Add missing cleanup to statsd fixture

Change-Id: I282583fbbebb5030ce9c2bfa4bb578d28081750c
---
 nodepool/tests/__init__.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 72c45617a..5044402b0 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -113,6 +113,7 @@ class StatsdFixture(fixtures.Fixture):
         self.wake_read, self.wake_write = os.pipe()
         self.stats = []
         self.thread.start()
+        self.addCleanup(self._cleanup)
 
     def run(self):
         while self.running:

From 7dca35b3a9be5356a473606f50c4b5749de8c89d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 18 May 2017 09:25:12 -0400
Subject: [PATCH 197/309] Add test config with min-ready of 0

Tests that validate statsd reporting, and that create more than one
node, have a race on what is reported to statsd. In rare cases, both
nodes can become READY before the first report to statsd, so we'd not
get an expected '1' value for 'nodepool.nodes.ready', but get a '2'
instead. This adds a config that doesn't create the min-ready node so
we can eliminate the race.

Change-Id: I4717a2ff4313dd8d21a74e085d730c5d254c12c6
---
 .../tests/fixtures/node_no_min_ready.yaml     | 46 +++++++++++++++++++
 nodepool/tests/test_launcher.py               |  2 +-
 2 files changed, 47 insertions(+), 1 deletion(-)
 create mode 100644 nodepool/tests/fixtures/node_no_min_ready.yaml

diff --git a/nodepool/tests/fixtures/node_no_min_ready.yaml b/nodepool/tests/fixtures/node_no_min_ready.yaml
new file mode 100644
index 000000000..dafbc1e93
--- /dev/null
+++ b/nodepool/tests/fixtures/node_no_min_ready.yaml
@@ -0,0 +1,46 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        availability-zones:
+          - az1
+        networks:
+          - net-name
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            flavor-name: 'Fake'
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index f9129f1cf..ab1496b03 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -31,7 +31,7 @@ class TestLauncher(tests.DBTestCase):
         Successful node launch should have unlocked nodes in READY state
         and assigned to the request.
         '''
-        configfile = self.setup_config('node.yaml')
+        configfile = self.setup_config('node_no_min_ready.yaml')
         self._useBuilder(configfile)
         image = self.waitForImage('fake-provider', 'fake-image')
 

From 230c7c5203e60789696cbe9700985a47c0371e5f Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Wed, 29 Mar 2017 11:57:07 -0400
Subject: [PATCH 198/309] Set socket timeout for SSH keyscan

When we switch from paramiko client to paramiko transport we failed to
properly setup a timeout.

Change-Id: Ia25c7f31a55d0d6e6bd42b2b266f41a4a2daf8ba
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/nodeutils.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index 99960a6fa..a6ecb1b75 100644
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -68,6 +68,7 @@ def keyscan(ip, timeout=60):
         t = None
         try:
             sock = socket.socket(family, socket.SOCK_STREAM)
+            sock.settimeout(timeout)
             sock.connect(sockaddr)
             t = paramiko.transport.Transport(sock)
             t.start_client()

From 749d87e56597d20d5b6a6adf7194588bf05a9e95 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 18 May 2017 11:00:53 -0400
Subject: [PATCH 199/309] Fix test_node_vhd_and_qcow2 to validate uploads

The test was assuming that the 2 built nodes would be evenly
satisfied across providers. We cannot guarantee that for v3
nodepool. We CAN guarantee that the images that are built are
uploaded to the provider(s) that supports the image types. In
this case, fake-provider1 supports vhd and fake-provider2
supports qcow2. This required adding a 'format' field to the
ImageUpload model so we can know which format was uploaded.

Change-Id: I7db211b511abbb82807b50c786fa19a25ae10d32
---
 nodepool/builder.py             |  1 +
 nodepool/tests/test_launcher.py | 20 ++++++++------------
 nodepool/tests/test_zk.py       |  6 ++++++
 nodepool/zk.py                  |  7 ++++++-
 4 files changed, 21 insertions(+), 13 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 243b5d4ea..6b9df28bf 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -899,6 +899,7 @@ class UploadWorker(BaseWorker):
         data.state = zk.READY
         data.external_id = external_id
         data.external_name = ext_image_name
+        data.format = image.extension
         return data
 
     def _checkForProviderUploads(self):
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index ab1496b03..c11b35df8 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -274,19 +274,15 @@ class TestLauncher(tests.DBTestCase):
     def test_node_vhd_and_qcow2(self):
         """Test label provided by vhd and qcow2 images builds"""
         configfile = self.setup_config('node_vhd_and_qcow2.yaml')
-        pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
-        self.waitForImage('fake-provider1', 'fake-image')
-        self.waitForImage('fake-provider2', 'fake-image')
-        pool.start()
-        nodes = self.waitForNodes('fake-label', 2)
-        self.assertEqual(len(nodes), 2)
-        self.assertEqual(zk.READY, nodes[0].state)
-        self.assertEqual(zk.READY, nodes[1].state)
-        if nodes[0].provider == 'fake-provider1':
-            self.assertEqual(nodes[1].provider, 'fake-provider2')
-        else:
-            self.assertEqual(nodes[1].provider, 'fake-provider1')
+        p1_image = self.waitForImage('fake-provider1', 'fake-image')
+        p2_image = self.waitForImage('fake-provider2', 'fake-image')
+
+        # We can't guarantee which provider would build the requested
+        # nodes, but that doesn't matter so much as guaranteeing that the
+        # correct image type is uploaded to the correct provider.
+        self.assertEqual(p1_image.format, "vhd")
+        self.assertEqual(p2_image.format, "qcow2")
 
     def test_dib_upload_fail(self):
         """Test that an image upload failure is contained."""
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 08e6cdfa4..497c3f23a 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -186,6 +186,7 @@ class TestZooKeeper(tests.DBTestCase):
         orig_data = zk.ImageUpload()
         orig_data.external_id = "deadbeef"
         orig_data.state = zk.READY
+        orig_data.format = "qcow2"
 
         build_number = self.zk.storeBuild(image, zk.ImageBuild())
         upload_id = self.zk.storeImageUpload(image, build_number, provider,
@@ -196,6 +197,7 @@ class TestZooKeeper(tests.DBTestCase):
         self.assertEqual(orig_data.external_id, data.external_id)
         self.assertEqual(orig_data.state, data.state)
         self.assertEqual(orig_data.state_time, data.state_time)
+        self.assertEqual(orig_data.format, data.format)
         self.assertEqual(self.zk.getBuildProviders("ubuntu-trusty",
                                                    build_number),
                          [provider])
@@ -695,6 +697,7 @@ class TestZKModel(tests.BaseTestCase):
         o.state = zk.UPLOADING
         o.external_id = 'DEADBEEF'
         o.external_name = 'trusty'
+        o.format = 'qcow2'
 
         d = o.toDict()
         self.assertNotIn('id', d)
@@ -705,6 +708,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.state_time, d['state_time'])
         self.assertEqual(o.external_id, d['external_id'])
         self.assertEqual(o.external_name, d['external_name'])
+        self.assertEqual(o.format, d['format'])
 
     def test_ImageUpload_fromDict(self):
         now = int(time.time())
@@ -713,6 +717,7 @@ class TestZKModel(tests.BaseTestCase):
         d = {
             'external_id': 'DEADBEEF',
             'external_name': 'trusty',
+            'format': 'qcow2',
             'state': zk.READY,
             'state_time': now
         }
@@ -726,6 +731,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.state_time, d['state_time'])
         self.assertEqual(o.external_id, d['external_id'])
         self.assertEqual(o.external_name, d['external_name'])
+        self.assertEqual(o.format, d['format'])
 
     def test_NodeRequest_toDict(self):
         o = zk.NodeRequest("500-123")
diff --git a/nodepool/zk.py b/nodepool/zk.py
index a58070d51..26de4c405 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -258,6 +258,7 @@ class ImageUpload(BaseModel):
         self.build_id = build_id
         self.provider_name = provider_name
         self.image_name = image_name
+        self.format = None
         self.external_id = None      # Provider ID of the image
         self.external_name = None    # Provider name of the image
 
@@ -267,6 +268,7 @@ class ImageUpload(BaseModel):
         d['build_id'] = self.build_id
         d['provider_name'] = self.provider_name
         d['image_name'] = self.image_name
+        d['format'] = self.format
         d['stat'] = self.stat
         return '<ImageUpload %s>' % d
 
@@ -275,7 +277,8 @@ class ImageUpload(BaseModel):
             return (self.id == other.id and
                     self.provider_name == other.provider_name and
                     self.build_id == other.build_id and
-                    self.image_name == other.image_name)
+                    self.image_name == other.image_name and
+                    self.format == other.format)
         else:
             return False
 
@@ -286,6 +289,7 @@ class ImageUpload(BaseModel):
         d = super(ImageUpload, self).toDict()
         d['external_id'] = self.external_id
         d['external_name'] = self.external_name
+        d['format'] = self.format
         return d
 
     @staticmethod
@@ -305,6 +309,7 @@ class ImageUpload(BaseModel):
         super(ImageUpload, o).fromDict(d)
         o.external_id = d.get('external_id')
         o.external_name = d.get('external_name')
+        o.format = d.get('format')
         return o
 
 

From f6a0e4fc4f8375a47234b3ede706584b0347889e Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 11 May 2017 12:21:34 -0400
Subject: [PATCH 200/309] Switch to next(generator) for python3

This is because generator.next() has been renamed to
generator.__next__().

Change-Id: I7d932c1ee3e259ac9cf2e0d775c047ecf059989d
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/test_zk.py | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 08e6cdfa4..957023705 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -581,9 +581,9 @@ class TestZooKeeper(tests.DBTestCase):
     def test_nodeIterator(self):
         n1 = self._create_node()
         i = self.zk.nodeIterator()
-        self.assertEqual(n1, i.next())
+        self.assertEqual(n1, next(i))
         with testtools.ExpectedException(StopIteration):
-            i.next()
+            next(i)
 
     def test_getNodeRequestLocks(self):
         req = self._create_node_request()
@@ -607,9 +607,9 @@ class TestZooKeeper(tests.DBTestCase):
         req = self._create_node_request()
         self.zk.lockNodeRequest(req, blocking=False)
         i = self.zk.nodeRequestLockIterator()
-        self.assertEqual(zk.NodeRequestLock(req.id), i.next())
+        self.assertEqual(zk.NodeRequestLock(req.id), next(i))
         with testtools.ExpectedException(StopIteration):
-            i.next()
+            next(i)
         self.zk.unlockNodeRequest(req)
         self.zk.deleteNodeRequest(req)
 
@@ -617,9 +617,9 @@ class TestZooKeeper(tests.DBTestCase):
         req = self._create_node_request()
         self.zk.lockNodeRequest(req, blocking=False)
         i = self.zk.nodeRequestIterator()
-        self.assertEqual(req, i.next())
+        self.assertEqual(req, next(i))
         with testtools.ExpectedException(StopIteration):
-            i.next()
+            next(i)
         self.zk.unlockNodeRequest(req)
         self.zk.deleteNodeRequest(req)
 

From 927c79c4a2652247806e37034900f590930d4b8e Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 9 May 2017 11:19:04 -0400
Subject: [PATCH 201/309] Use six.reraise for python3

This currently is invalid syntax in python3. Use six so we can support
both python2 and python3.

Change-Id: I7eb664908bdc14551ffac3bb3665cbc5cb84bd84
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/task_manager.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/nodepool/task_manager.py b/nodepool/task_manager.py
index 8a282d25c..7f795dd9c 100644
--- a/nodepool/task_manager.py
+++ b/nodepool/task_manager.py
@@ -18,6 +18,7 @@
 
 import sys
 import threading
+import six
 from six.moves import queue as Queue
 import logging
 import time
@@ -49,7 +50,7 @@ class Task(object):
     def wait(self):
         self._wait_event.wait()
         if self._exception:
-            raise self._exception, None, self._traceback
+            six.reraise(self._exception, None, self._traceback)
         return self._result
 
     def run(self, client):

From 7a569184a08b4c7ece949c4e7017e92ac2f67174 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 18 May 2017 14:00:03 -0400
Subject: [PATCH 202/309] Fix typos in __eq__ functions

Noticed a few places where we had some syntax errors, this was causing
some issues for python3.

Change-Id: I527de284d38911968fc261ab27d47c1a7eafc68e
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/zk.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/nodepool/zk.py b/nodepool/zk.py
index a58070d51..cf9b27e05 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -355,8 +355,8 @@ class NodeRequest(BaseModel):
             return (self.id == other.id and
                     self.declined_by == other.declined_by and
                     self.node_types == other.node_types and
-                    self.nodes == other.nodes,
-                    self.reuse == other.reuse,
+                    self.nodes == other.nodes and
+                    self.reuse == other.reuse and
                     self.requestor == other.requestor)
         else:
             return False
@@ -445,7 +445,7 @@ class Node(BaseModel):
                     self.created_time == other.created_time and
                     self.external_id == other.external_id and
                     self.hostname == other.hostname and
-                    self.comment == other.comment,
+                    self.comment == other.comment and
                     self.host_keys == other.host_keys)
         else:
             return False

From 7b30381306cda921e368fb19fb4f67dc29263469 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 18 May 2017 12:39:05 -0400
Subject: [PATCH 203/309] Python3: RuntimeError: dictionary changed size during
 iteration

Fix syntax issues with python3.

Change-Id: I080f13553b6fdc464c93ed05a0b116aa52bae870
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/builder.py  | 5 ++---
 nodepool/launcher.py | 8 ++++----
 2 files changed, 6 insertions(+), 7 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 39111155f..33e67c012 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -178,7 +178,7 @@ class CleanupWorker(BaseWorker):
                         )
 
         # Sort uploads by state_time (upload time) and keep the 2 most recent
-        for i in self._rtable.keys():
+        for i in list(self._rtable.keys()):
             for p in self._rtable[i].keys():
                 self._rtable[i][p].sort(key=lambda x: x[2], reverse=True)
                 self._rtable[i][p] = self._rtable[i][p][:2]
@@ -271,8 +271,7 @@ class CleanupWorker(BaseWorker):
             self._deleteUpload(upload)
 
     def _cleanupObsoleteProviderUploads(self, provider, image, build_id):
-        image_names_for_provider = provider.diskimages.keys()
-        if image in image_names_for_provider:
+        if image in provider.diskimages:
             # This image is in use for this provider
             return
 
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 4adf109c5..3f1b57b81 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -1534,8 +1534,8 @@ class NodePool(threading.Thread):
         # resubmit a request for a type if a request for that type is
         # still in progress.
         self.removeCompletedRequests()
-        label_names = self.config.labels.keys()
-        requested_labels = self._submittedRequests.keys()
+        label_names = list(self.config.labels.keys())
+        requested_labels = list(self._submittedRequests.keys())
         needed_labels = list(set(label_names) - set(requested_labels))
 
         ready_nodes = self.zk.getReadyNodesOfTypes(needed_labels)
@@ -1549,7 +1549,7 @@ class NodePool(threading.Thread):
 
             # Calculate how many nodes of this type we need created
             need = 0
-            if label.name not in ready_nodes.keys():
+            if label.name not in ready_nodes:
                 need = label.min_ready
             elif len(ready_nodes[label.name]) < min_ready:
                 need = min_ready - len(ready_nodes[label.name])
@@ -1606,7 +1606,7 @@ class NodePool(threading.Thread):
                 for provider in self.config.providers.values():
                     for pool in provider.pools.values():
                         key = provider.name + '-' + pool.name
-                        if key not in self._pool_threads.keys():
+                        if key not in self._pool_threads:
                             t = PoolWorker(self, provider.name, pool.name)
                             self.log.info( "Starting %s" % t.name)
                             t.start()

From ff48d5ea8f966d46c84403c114e06ba2a1970a5d Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 23 May 2017 11:13:46 -0400
Subject: [PATCH 204/309] Bump diskimage-builder dependency to 2.0.0

Recent version of diskimage-builder now include the virtualenv logic,
so we can delete our copy.

Change-Id: Ic2d99258b3bd3487e8f10c50bfa10f8215d66b14
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/builder.py | 28 ----------------------------
 requirements.txt    |  2 +-
 2 files changed, 1 insertion(+), 29 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 39111155f..f543dedb3 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -21,7 +21,6 @@ import subprocess
 import threading
 import time
 import shlex
-import sys
 
 from nodepool import config as nodepool_config
 from nodepool import exceptions
@@ -513,32 +512,6 @@ class BuildWorker(BaseWorker):
         self.name = 'BuildWorker.%s' % name
         self.dib_cmd = dib_cmd
 
-    def _running_under_virtualenv(self):
-        # NOTE: borrowed from pip:locations.py
-        if hasattr(sys, 'real_prefix'):
-            return True
-        elif sys.prefix != getattr(sys, "base_prefix", sys.prefix):
-            return True
-        return False
-
-    def _activate_virtualenv(self):
-        """Run as a pre-exec function to activate current virtualenv
-
-        If we are invoked directly as /path/ENV/nodepool-builer (as
-        done by an init script, for example) then /path/ENV/bin will
-        not be in our $PATH, meaning we can't find disk-image-create.
-        Apart from that, dib also needs to run in an activated
-        virtualenv so it can find utils like dib-run-parts.  Run this
-        before exec of dib to ensure the current virtualenv (if any)
-        is activated.
-        """
-        if self._running_under_virtualenv():
-            activate_this = os.path.join(sys.prefix, "bin", "activate_this.py")
-            if not os.path.exists(activate_this):
-                raise exceptions.BuilderError("Running in a virtualenv, but "
-                                              "cannot find: %s" % activate_this)
-            execfile(activate_this, dict(__file__=activate_this))
-
     def _checkForScheduledImageUpdates(self):
         '''
         Check every DIB image to see if it has aged out and needs rebuilt.
@@ -712,7 +685,6 @@ class BuildWorker(BaseWorker):
                 shlex.split(cmd),
                 stdout=subprocess.PIPE,
                 stderr=subprocess.STDOUT,
-                preexec_fn=self._activate_virtualenv,
                 env=env)
         except OSError as e:
             raise exceptions.BuilderError(
diff --git a/requirements.txt b/requirements.txt
index 865b01ae7..2c4b82b6d 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -11,7 +11,7 @@ PrettyTable>=0.6,<0.8
 six>=1.7.0
 os-client-config>=1.2.0
 shade>=1.18.1
-diskimage-builder>=1.21.0
+diskimage-builder>=2.0.0
 voluptuous
 kazoo
 Paste

From e4e98123d3c6b165ad55c9ce968b8b2f365c4775 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Sat, 1 Apr 2017 13:23:56 -0400
Subject: [PATCH 205/309] Fetch server console log if ssh connection fails

Currently, if the ssh connection fails, we are blind to what the
possible failures are.  As a result, attempt to fetch the server
console log to help debug the failure.

This is the continuation of I39ec1fe591d6602a3d494ac79ffa6d2203b5676b
but for the feature/zuulv3 branch. This was done to avoid merge
conflicts on the recent changes to nodepool.yaml layout.

Change-Id: I75ccb6d01956fb6052473f44cce8f097a56dd16a
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh           |  6 ++++++
 doc/source/configuration.rst |  7 +++++++
 nodepool/config.py           |  2 ++
 nodepool/launcher.py         | 24 +++++++++++++++++++-----
 nodepool/provider_manager.py |  7 +++++++
 5 files changed, 41 insertions(+), 5 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 13aef3773..2b878629b 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -246,26 +246,32 @@ providers:
             diskimage: centos-7
             min-ram: 1024
             flavor-name: 'nodepool'
+            console-log: True
           - name: debian-jessie
             diskimage: debian-jessie
             min-ram: 512
             flavor-name: 'nodepool'
+            console-log: True
           - name: fedora-25
             diskimage: fedora-25
             min-ram: 1024
             flavor-name: 'nodepool'
+            console-log: True
           - name: ubuntu-precise
             diskimage: ubuntu-precise
             min-ram: 512
             flavor-name: 'nodepool'
+            console-log: True
           - name: ubuntu-trusty
             diskimage: ubuntu-trusty
             min-ram: 512
             flavor-name: 'nodepool'
+            console-log: True
           - name: ubuntu-xenial
             diskimage: ubuntu-xenial
             min-ram: 512
             flavor-name: 'nodepool'
+            console-log: True
 
 diskimages:
   - name: centos-7
diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index a9ab6be82..6926bc286 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -237,6 +237,7 @@ Example::
             - name: trusty
               min-ram: 8192
               diskimage: trusty
+              console-log: True
             - name: precise
               min-ram: 8192
               diskimage: precise
@@ -356,6 +357,7 @@ Example::
         - name: trusty
           min-ram: 8192
           diskimage: trusty
+          console-log: True
         - name: precise
           min-ram: 8192
           diskimage: precise
@@ -475,6 +477,7 @@ Example configuration::
     - name: precise
       min-ram: 8192
       flavor-name: 'something to match'
+      console-log: True
 
 **required**
 
@@ -509,3 +512,7 @@ Example configuration::
   ``key-name``
     If given, is the name of a keypair that will be used when booting each
     server.
+
+  ``console-log`` (default: False)
+    On the failure of the ssh ready check, download the server console log to
+    aid in debuging the problem.
diff --git a/nodepool/config.py b/nodepool/config.py
index b0118a974..55d0a6d32 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -270,6 +270,8 @@ def loadConfig(config_path):
                 pl.min_ram = label.get('min-ram', 0)
                 pl.flavor_name = label.get('flavor-name', None)
                 pl.key_name = label.get('key-name')
+                pl.console_log = label.get('console-log', False)
+
                 top_label = newconfig.labels[pl.name]
                 top_label.pools.append(pp)
 
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 4adf109c5..c1ed26104 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -255,6 +255,15 @@ class NodeLauncher(threading.Thread, StatsReporter):
             self._diskimage = None
         self._cloud_image = self._provider.cloud_images.get(self._label.cloud_image, None)
 
+    def logConsole(self, server_id, hostname):
+        if not self._label.console_log:
+            return
+        console = self._manager.getServerConsole(server_id)
+        if console:
+            self.log.debug('Console log from hostname %s:' % hostname)
+            for line in console.splitlines():
+                self.log.debug(line.rstrip())
+
     def _launchNode(self):
         if self._label.diskimage:
             # launch using diskimage
@@ -359,11 +368,16 @@ class NodeLauncher(threading.Thread, StatsReporter):
              self._node.public_ipv4, self._node.public_ipv6))
 
         # Get the SSH public keys for the new node and record in ZooKeeper
-        self.log.debug("Gathering host keys for node %s", self._node.id)
-        host_keys = utils.keyscan(
-            interface_ip, timeout=self._provider.boot_timeout)
-        if not host_keys:
-            raise LaunchKeyscanException("Unable to gather host keys")
+        try:
+            self.log.debug("Gathering host keys for node %s", self._node.id)
+            host_keys = utils.keyscan(
+                interface_ip, timeout=self._provider.boot_timeout)
+            if not host_keys:
+                raise LaunchKeyscanException("Unable to gather host keys")
+        except exceptions.SSHTimeoutException:
+            self.logConsole(self._node.external_id, self._node.hostname)
+            raise
+
         self._node.host_keys = host_keys
         self._zk.storeNode(self._node)
 
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 4e1241dd5..dc57507c7 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -238,6 +238,13 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             return self._client.get_server(server_id)
 
+    def getServerConsole(self, server_id):
+        try:
+            with shade_inner_exceptions():
+                return self._client.get_server_console(server_id)
+        except shade.OpenStackCloudException:
+            return None
+
     def waitForServer(self, server, timeout=3600):
         with shade_inner_exceptions():
             return self._client.wait_for_server(

From aa741d621001e9809585a7ecc504f0989c276d9d Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 18 May 2017 14:07:16 -0400
Subject: [PATCH 206/309] Python3: encode / decode data as utf8

Because python3 is more strict about string / bytes we need to start
encoding / decoding things as utf8.

Change-Id: Id1102be142bef5eeb96de69aaa8f653bdb1903d8
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/tests/__init__.py    | 15 ++++++++-------
 nodepool/tests/test_webapp.py |  8 ++++----
 nodepool/webapp.py            |  1 +
 nodepool/zk.py                | 14 +++++++-------
 4 files changed, 20 insertions(+), 18 deletions(-)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 5044402b0..ccbc4c821 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -132,7 +132,7 @@ class StatsdFixture(fixtures.Fixture):
 
     def _cleanup(self):
         self.running = False
-        os.write(self.wake_write, '1\n')
+        os.write(self.wake_write, b'1\n')
         self.thread.join()
 
 
@@ -252,7 +252,7 @@ class BaseTestCase(testtools.TestCase):
         start = time.time()
         while time.time() < (start + 5):
             for stat in self.statsd.stats:
-                k, v = stat.split(':')
+                k, v = stat.decode('utf8').split(':')
                 if key == k:
                     if value is None and kind is None:
                         return
@@ -302,12 +302,13 @@ class DBTestCase(BaseTestCase):
         configfile = os.path.join(os.path.dirname(__file__),
                                   'fixtures', filename)
         (fd, path) = tempfile.mkstemp()
-        with open(configfile) as conf_fd:
-            config = conf_fd.read()
-            os.write(fd, config.format(images_dir=images_dir.path,
+        with open(configfile, 'rb') as conf_fd:
+            config = conf_fd.read().decode('utf8')
+            data = config.format(images_dir=images_dir.path,
                                        zookeeper_host=self.zookeeper_host,
                                        zookeeper_port=self.zookeeper_port,
-                                       zookeeper_chroot=self.zookeeper_chroot))
+                                       zookeeper_chroot=self.zookeeper_chroot)
+            os.write(fd, data.encode('utf8'))
         os.close(fd)
         self._config_images_dir = images_dir
         validator = ConfigValidator(path)
@@ -324,7 +325,7 @@ class DBTestCase(BaseTestCase):
         configfile = os.path.join(os.path.dirname(__file__),
                                   'fixtures', 'secure.conf')
         (fd, path) = tempfile.mkstemp()
-        with open(configfile) as conf_fd:
+        with open(configfile, 'rb') as conf_fd:
             config = conf_fd.read()
             os.write(fd, config)
             #os.write(fd, config.format(dburi=self.dburi))
diff --git a/nodepool/tests/test_webapp.py b/nodepool/tests/test_webapp.py
index 25f469b1d..5fd7ecd0e 100644
--- a/nodepool/tests/test_webapp.py
+++ b/nodepool/tests/test_webapp.py
@@ -38,10 +38,10 @@ class TestWebApp(tests.DBTestCase):
         req = request.Request(
             "http://localhost:%s/image-list" % port)
         f = request.urlopen(req)
-        self.assertEqual(f.info().getheader('Content-Type'),
+        self.assertEqual(f.info().get('Content-Type'),
                          'text/plain; charset=UTF-8')
         data = f.read()
-        self.assertTrue('fake-image' in data)
+        self.assertTrue('fake-image' in data.decode('utf8'))
 
     def test_dib_image_list_json(self):
         configfile = self.setup_config('node.yaml')
@@ -58,10 +58,10 @@ class TestWebApp(tests.DBTestCase):
         req = request.Request(
             "http://localhost:%s/dib-image-list.json" % port)
         f = request.urlopen(req)
-        self.assertEqual(f.info().getheader('Content-Type'),
+        self.assertEqual(f.info().get('Content-Type'),
                          'application/json')
         data = f.read()
-        objs = json.loads(data)
+        objs = json.loads(data.decode('utf8'))
         # make sure this is valid json and has some of the
         # non-changing keys
         self.assertDictContainsSubset({'id': 'fake-image-0000000001',
diff --git a/nodepool/webapp.py b/nodepool/webapp.py
index 752489e4f..c176dbeb3 100644
--- a/nodepool/webapp.py
+++ b/nodepool/webapp.py
@@ -96,6 +96,7 @@ class WebApp(threading.Thread):
             content_type = 'text/plain'
 
         response = webob.Response(body=output,
+                                  charset='UTF-8',
                                   content_type=content_type)
         response.headers['Access-Control-Allow-Origin'] = '*'
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 76adaeec4..b53800e86 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -183,7 +183,7 @@ class BaseModel(object):
 
         Used for storing the object data in ZooKeeper.
         '''
-        return json.dumps(self.toDict())
+        return json.dumps(self.toDict()).encode('utf8')
 
 
 class ImageBuild(BaseModel):
@@ -588,8 +588,8 @@ class ZooKeeper(object):
     def _requestLockPath(self, request):
         return "%s/%s" % (self.REQUEST_LOCK_ROOT, request)
 
-    def _strToDict(self, data):
-        return json.loads(data)
+    def _bytesToDict(self, data):
+        return json.loads(data.decode('utf8'))
 
     def _getImageBuildLock(self, image, blocking=True, timeout=None):
         lock_path = self._imageBuildLockPath(image)
@@ -893,7 +893,7 @@ class ZooKeeper(object):
         except kze.NoNodeError:
             return None
 
-        d = ImageBuild.fromDict(self._strToDict(data), build_number)
+        d = ImageBuild.fromDict(self._bytesToDict(data), build_number)
         d.stat = stat
         return d
 
@@ -1012,7 +1012,7 @@ class ZooKeeper(object):
             return None
 
         d = ImageUpload.fromDict(
-            self._strToDict(data), build_number, provider, image, upload_number
+            self._bytesToDict(data), build_number, provider, image, upload_number
         )
         d.stat = stat
         return d
@@ -1341,7 +1341,7 @@ class ZooKeeper(object):
         except kze.NoNodeError:
             return None
 
-        d = NodeRequest.fromDict(self._strToDict(data), request)
+        d = NodeRequest.fromDict(self._bytesToDict(data), request)
         d.stat = stat
         return d
 
@@ -1507,7 +1507,7 @@ class ZooKeeper(object):
         if not data:
             return None
 
-        d = Node.fromDict(self._strToDict(data), node)
+        d = Node.fromDict(self._bytesToDict(data), node)
         d.id = node
         d.stat = stat
         return d

From c70b50a3a5154ee7e4f41474831807990a1a819c Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 18 May 2017 14:29:00 -0400
Subject: [PATCH 207/309] Wrap map() in list() for python3

According to docs, we now need to do this for python3.

Change-Id: Ic535627075e5279181b3f15c60072d1824f0a682
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/builder.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 543cff67b..49cd330d0 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -250,7 +250,8 @@ class CleanupWorker(BaseWorker):
             if not manifest_dir:
                 path, ext = filename.rsplit('.', 1)
                 manifest_dir = path + ".d"
-            map(self._removeDibItem, [filename, f.md5_file, f.sha256_file])
+            items = [filename, f.md5_file, f.sha256_file]
+            list(map(self._removeDibItem, items))
 
         try:
             shutil.rmtree(manifest_dir)

From 6e34b65d62f8c282acc51f0bca39f54ce6635bb2 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Wed, 24 May 2017 10:35:20 -0400
Subject: [PATCH 208/309] Support both python2 and python3 virtualenv

Now that nodepool support python3, allow our dsvm job to create the
appropriate virtualenv for the version of python we'd like to test.

Change-Id: Ib573bfcfd367a983d510238f2f6456ffd710a4ab
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 13aef3773..9e0f53ea4 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -61,7 +61,12 @@ function install_glean {
 
 # Install nodepool code
 function install_nodepool {
-    virtualenv $NODEPOOL_INSTALL
+    if python3_enabled; then
+        VENV="virtualenv -p python${PYTHON3_VERSION}"
+    else
+        VENV="virtualenv -p python${PYTHON2_VERSION}"
+    fi
+    $VENV $NODEPOOL_INSTALL
     install_shade
     install_diskimage_builder
     install_glean

From 84336a4d3c666f0a499daa3b98bcd2d82aeeb7eb Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Wed, 24 May 2017 14:37:40 -0700
Subject: [PATCH 209/309] Cleanup failed upload records

Failed uploads happen when things like clouds disappearing happen. This
then results in hundreds or even thousands of upload records all failed
while we wait for the cloud to return. THis is noise that makes it hard
to debug actual problems with image uploads as you can't easily see what
is current.

Avoid this noise in output by cleaning up Failed records after they have
been recorded.

Change-Id: Ife0cf3dd0d9af6cf7a587e9906726c67271b0d5c
---
 nodepool/builder.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 49cd330d0..054ca7003 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -367,7 +367,9 @@ class CleanupWorker(BaseWorker):
         marked for deleting.
         '''
         cruft = self._zk.getUploads(image, build_id, provider,
-                                    states=[zk.UPLOADING, zk.DELETING])
+                                    states=[zk.UPLOADING,
+                                            zk.DELETING,
+                                            zk.FAILED])
         for upload in cruft:
             if (upload.state == zk.UPLOADING and
                 not self._inProgressUpload(upload)
@@ -385,6 +387,9 @@ class CleanupWorker(BaseWorker):
             elif upload.state == zk.DELETING:
                 self.log.info("Removing deleted upload and record: %s" % upload)
                 self._deleteUpload(upload)
+            elif upload.state == zk.FAILED:
+                self.log.info("Removing failed upload and record: %s" % upload)
+                self._deleteUpload(upload)
 
     def _cleanupImage(self, known_providers, image):
         '''

From 2852fd598a1050338eb26c43ee292591b9d4cec1 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Thu, 25 May 2017 16:31:53 -0700
Subject: [PATCH 210/309] Revert "Use devstack's zookeeper support"

This reverts commit e5f5840c272d75eea38367bf5eb3f8d9f42e57e5.

Devstack has removed zk support from itself in favor of etcd3. We must
manage our own zk destiny.

Change-Id: Ie68d7da0c0e075826fdba77ba59e05bddb932d7b
---
 devstack/files/debs/nodepool | 1 +
 devstack/settings            | 1 -
 2 files changed, 1 insertion(+), 1 deletion(-)

diff --git a/devstack/files/debs/nodepool b/devstack/files/debs/nodepool
index ccba43056..fe8b87512 100644
--- a/devstack/files/debs/nodepool
+++ b/devstack/files/debs/nodepool
@@ -2,3 +2,4 @@ qemu-utils
 kpartx
 debootstrap
 yum-utils
+zookeeperd
diff --git a/devstack/settings b/devstack/settings
index 20c0f7dba..2ceac4c82 100644
--- a/devstack/settings
+++ b/devstack/settings
@@ -22,7 +22,6 @@ DISKIMAGE_BUILDER_REPO_REF=${DISKIMAGE_BUILDER_REPO_REF:-master}
 GLEAN_REPO_URL=${GLEAN_REPO_URL:-https://git.openstack.org/openstack/glean}
 GLEAN_REPO_REF=${GLEAN_REPO_REF:-master}
 
-enable_service zookeeper
 enable_service geard
 enable_service statsd
 enable_service nodepool-launcher

From d1fb0d402ea88b29d481ff384ef6a6da0a03dc9d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 26 May 2017 08:43:00 -0400
Subject: [PATCH 211/309] Fix socket.error exception usage

This exception is not subscriptable in py3, but the proper way to
get to the errno in any version is to access the 'errno' attribute.

Change-Id: I9a2e23cee358ff0f573f29962ab03525bfd40974
---
 nodepool/nodeutils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index 99960a6fa..335c0af88 100644
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -74,7 +74,7 @@ def keyscan(ip, timeout=60):
             key = t.get_remote_server_key()
             break
         except socket.error as e:
-            if e[0] not in [errno.ECONNREFUSED, errno.EHOSTUNREACH, None]:
+            if e.errno not in [errno.ECONNREFUSED, errno.EHOSTUNREACH, None]:
                 log.exception(
                     'Exception with ssh access to %s:' % ip)
         except Exception as e:

From 969a838d83bbb208e79492c8fd8a8c1f4e9a7223 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 25 May 2017 14:36:33 -0400
Subject: [PATCH 212/309] Drop -e for pip install for devstack plugin.sh

Stop using -e for pip install, we shouldn't need to write anything to
the git repo.

Depends-On: Ie68d7da0c0e075826fdba77ba59e05bddb932d7b
Change-Id: Idd82eb792201a02a6645ffafd958d86583e5b010
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 9e0f53ea4..710fffdaa 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -32,7 +32,7 @@ function install_shade {
         # BUT - install shade into a virtualenv so that we don't have issues
         # with OpenStack constraints affecting the shade dependency install.
         # This particularly shows up with os-client-config
-        $NODEPOOL_INSTALL/bin/pip install -e $DEST/shade
+        $NODEPOOL_INSTALL/bin/pip install $DEST/shade
     fi
 }
 
@@ -43,7 +43,7 @@ function install_diskimage_builder {
         GITBRANCH["diskimage-builder"]=$DISKIMAGE_BUILDER_REPO_REF
         git_clone_by_name "diskimage-builder"
         setup_dev_lib "diskimage-builder"
-        $NODEPOOL_INSTALL/bin/pip install -e $DEST/diskimage-builder
+        $NODEPOOL_INSTALL/bin/pip install $DEST/diskimage-builder
     fi
 }
 
@@ -54,7 +54,7 @@ function install_glean {
         GITBRANCH["glean"]=$GLEAN_REPO_REF
         git_clone_by_name "glean"
         setup_dev_lib "glean"
-        $NODEPOOL_INSTALL/bin/pip install -e $DEST/glean
+        $NODEPOOL_INSTALL/bin/pip install $DEST/glean
     fi
 }
 
@@ -72,7 +72,7 @@ function install_nodepool {
     install_glean
 
     setup_develop $DEST/nodepool
-    $NODEPOOL_INSTALL/bin/pip install -e $DEST/nodepool
+    $NODEPOOL_INSTALL/bin/pip install $DEST/nodepool
 }
 
 # requires some globals from devstack, which *might* not be stable api

From 93b516d9785dfbf33217ee7fc200fbd7066c1926 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Thu, 25 May 2017 22:09:00 -0400
Subject: [PATCH 213/309] Update keyscan for python3 compat

Use six.text_type since unicode() doesn't exist for python3.

Change-Id: I3628759c46f44429471aa394dee5056e191e4a05
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/nodeutils.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index 335c0af88..38d1e541b 100644
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -20,6 +20,7 @@ import base64
 import errno
 import ipaddress
 import time
+import six
 import socket
 import logging
 
@@ -53,7 +54,7 @@ def keyscan(ip, timeout=60):
     if 'fake' in ip:
         return ['ssh-rsa FAKEKEY']
 
-    if ipaddress.ip_address(unicode(ip)).version < 6:
+    if ipaddress.ip_address(six.text_type(ip)).version < 6:
         family = socket.AF_INET
         sockaddr = (ip, 22)
     else:

From f74add7de554614ea5f64c44039eff53d5d37a89 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 26 May 2017 09:12:06 -0400
Subject: [PATCH 214/309] Fix removeCompletedRequests for dict iteration

Let's not iterate on a dict that we may actively modify within the
iteration.

Change-Id: I8d04df0504167ceda21aaca68a6115049dd53f01
---
 nodepool/launcher.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 3f1b57b81..2ca1fb4a0 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -1452,7 +1452,12 @@ class NodePool(threading.Thread):
         We also must reset the allocated_to attribute for each Node assigned
         to our request, since we are deleting the request.
         '''
-        for label in self._submittedRequests.keys():
+
+        # Use a copy of the labels because we modify _submittedRequests
+        # within the loop below.
+        requested_labels = list(self._submittedRequests.keys())
+
+        for label in requested_labels:
             label_requests = self._submittedRequests[label]
             active_requests = []
 

From 08926eb1de9a290c246243793ab4fc57220aded8 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 26 May 2017 11:10:35 -0400
Subject: [PATCH 215/309] Do not request nodes for which we have no images

Set the min-ready value based on whether or not we are building
images for those node labels.

Change-Id: I774d39d0147343b07a9ba653fa875d7fd5a3a416
---
 devstack/plugin.sh | 39 +++++++++++++++++++++++++++++++++------
 1 file changed, 33 insertions(+), 6 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 710fffdaa..149c3edd6 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -197,6 +197,33 @@ EOF
         DIB_DEBOOTSTRAP_EXTRA_ARGS="DIB_DEBOOTSTRAP_EXTRA_ARGS: '--no-check-gpg'"
     fi
 
+
+    NODEPOOL_CENTOS_7_MIN_READY=1
+    NODEPOOL_DEBIAN_JESSIE_MIN_READY=1
+    NODEPOOL_FEDORA_25_MIN_READY=1
+    NODEPOOL_UBUNTU_PRECISE_MIN_READY=1
+    NODEPOOL_UBUNTU_TRUSTY_MIN_READY=1
+    NODEPOOL_UBUNTU_XENIAL_MIN_READY=1
+
+    if $NODEPOOL_PAUSE_CENTOS_7_DIB ; then
+       NODEPOOL_CENTOS_7_MIN_READY=0
+    fi
+    if $NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB ; then
+       NODEPOOL_DEBIAN_JESSIE_MIN_READY=0
+    fi
+    if $NODEPOOL_PAUSE_FEDORA_25_DIB ; then
+       NODEPOOL_FEDORA_25_MIN_READY=0
+    fi
+    if $NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB ; then
+       NODEPOOL_UBUNTU_PRECISE_MIN_READY=0
+    fi
+    if $NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB ; then
+       NODEPOOL_UBUNTU_TRUSTY_MIN_READY=0
+    fi
+    if $NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB ; then
+       NODEPOOL_UBUNTU_XENIAL_MIN_READY=0
+    fi
+
     cat > /tmp/nodepool.yaml <<EOF
 # You will need to make and populate this path as necessary,
 # cloning nodepool does not do this. Further in this doc we have an
@@ -210,17 +237,17 @@ zookeeper-servers:
 
 labels:
   - name: centos-7
-    min-ready: 1
+    min-ready: $NODEPOOL_CENTOS_7_MIN_READY
   - name: debian-jessie
-    min-ready: 1
+    min-ready: $NODEPOOL_DEBIAN_JESSIE_MIN_READY
   - name: fedora-25
-    min-ready: 1
+    min-ready: $NODEPOOL_FEDORA_25_MIN_READY
   - name: ubuntu-precise
-    min-ready: 1
+    min-ready: $NODEPOOL_UBUNTU_PRECISE_MIN_READY
   - name: ubuntu-trusty
-    min-ready: 1
+    min-ready: $NODEPOOL_UBUNTU_TRUSTY_MIN_READY
   - name: ubuntu-xenial
-    min-ready: 1
+    min-ready: $NODEPOOL_UBUNTU_XENIAL_MIN_READY
 
 providers:
   - name: devstack

From da3b769e1a7d1ae7c4b35db8d8d44a3ce7f662bf Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 26 May 2017 11:41:34 -0400
Subject: [PATCH 216/309] Fix base64 encoding of server key

Change-Id: Ifc5d39f5a3d4f175ea149bcabbfa8c6c67b4df0b
---
 nodepool/nodeutils.py | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index 335c0af88..4810d6951 100644
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -16,7 +16,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import base64
 import errno
 import ipaddress
 import time
@@ -94,9 +93,6 @@ def keyscan(ip, timeout=60):
     # Paramiko, at this time, seems to return only the ssh-rsa key, so
     # only the single key is placed into the list.
     if key:
-        keys.append(
-            "%s %s" % (key.get_name(),
-                       base64.encodestring(str(key)).replace('\n', ''))
-        )
+        keys.append("%s %s" % (key.get_name(), key.get_base64()))
 
     return keys

From 8a049640685aeca21d17aefb0a47f12ab4f1c1a2 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 26 May 2017 13:26:34 -0400
Subject: [PATCH 217/309] Remove unnecessary list()

Fixing nit from https://review.openstack.org/468409

Change-Id: Id2ee011800add202cb4dda745987465c2c774d56
---
 nodepool/launcher.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 2ca1fb4a0..73d016203 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -1455,7 +1455,7 @@ class NodePool(threading.Thread):
 
         # Use a copy of the labels because we modify _submittedRequests
         # within the loop below.
-        requested_labels = list(self._submittedRequests.keys())
+        requested_labels = self._submittedRequests.keys()
 
         for label in requested_labels:
             label_requests = self._submittedRequests[label]

From 1a804c7859a7af6b0b320751baef995a9de1f8d2 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Mon, 29 May 2017 15:29:19 -0400
Subject: [PATCH 218/309] Add console-log to config-validate

Sadly, I missed this on our previous commit. Also update coverage from
nodepool dsvm job.

Change-Id: I6966957ac8162a588531c38bd69a93fb58a15258
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh                                | 3 +++
 nodepool/cmd/config_validator.py                  | 1 +
 nodepool/tests/fixtures/config_validate/good.yaml | 1 +
 3 files changed, 5 insertions(+)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 90c3f195f..863866032 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -501,6 +501,9 @@ function start_nodepool {
     export STATSD_PORT=8125
     run_process statsd "/usr/bin/socat -u udp-recv:$STATSD_PORT -"
 
+    # Ensure our configuration is valid.
+    $NODEPOOL_INSTALL/bin/nodepool -c $NODEPOOL_CONFIG config-validate
+
     run_process nodepool-launcher "$NODEPOOL_INSTALL/bin/nodepool-launcher -c $NODEPOOL_CONFIG -s $NODEPOOL_SECURE -l $NODEPOOL_LOGGING -d"
     run_process nodepool-builder "$NODEPOOL_INSTALL/bin/nodepool-builder -c $NODEPOOL_CONFIG -l $NODEPOOL_LOGGING -d"
     :
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 2d160b3cf..d4e9517ee 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -40,6 +40,7 @@ class ConfigValidator:
             'min-ram': int,
             'flavor-name': str,
             'key-name': str,
+            'console-log': bool,
         }
 
         pool_label = v.All(pool_label_main,
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 6b4c188dc..2bd502c3f 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -32,6 +32,7 @@ providers:
           - name: trusty
             diskimage: trusty
             min-ram: 8192
+            console-log: True
           - name: trusty-2-node
             diskimage: trusty
             min-ram: 8192

From 1d0990a1c1a970e67199f85b04037c4a90aff8a0 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Fri, 12 May 2017 21:57:58 -0400
Subject: [PATCH 219/309] Add boot-from-volume support for nodes

For example, a cloud may get better preformance from a cinder volume
then the local compute drive. As a result, give nodepool to option to
choose if the server should boot from volume or not.

Change-Id: I3faefe99096fef1fe28816ac0a4b28c05ff7f0ec
Depends-On: If58cd96b0b9ce4569120d60fbceb2c23b2f7641d
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 doc/source/configuration.rst                  | 11 +++++
 nodepool/cmd/config_validator.py              |  2 +
 nodepool/config.py                            |  3 ++
 nodepool/launcher.py                          |  4 +-
 nodepool/provider_manager.py                  |  7 ++-
 .../tests/fixtures/config_validate/good.yaml  |  2 +
 .../tests/fixtures/node_boot_from_volume.yaml | 47 +++++++++++++++++++
 nodepool/tests/test_launcher.py               | 13 +++++
 requirements.txt                              |  2 +-
 9 files changed, 88 insertions(+), 3 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_boot_from_volume.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 6926bc286..9e63c972c 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -509,6 +509,12 @@ Example configuration::
 
 **optional**
 
+  ``boot-from-volume`` (bool)
+    If given, the label for use in this pool will create a volume from the
+    image and boot the node from it.
+
+    Default: False
+
   ``key-name``
     If given, is the name of a keypair that will be used when booting each
     server.
@@ -516,3 +522,8 @@ Example configuration::
   ``console-log`` (default: False)
     On the failure of the ssh ready check, download the server console log to
     aid in debuging the problem.
+
+  ``volume-size``
+    When booting an image from volume, how big should the created volume be.
+
+    In gigabytes. Default 50.
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index d4e9517ee..374aafbeb 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -41,6 +41,8 @@ class ConfigValidator:
             'flavor-name': str,
             'key-name': str,
             'console-log': bool,
+            'boot-from-volume': bool,
+            'volume-size': int,
         }
 
         pool_label = v.All(pool_label_main,
diff --git a/nodepool/config.py b/nodepool/config.py
index 55d0a6d32..26b91d175 100644
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -271,6 +271,9 @@ def loadConfig(config_path):
                 pl.flavor_name = label.get('flavor-name', None)
                 pl.key_name = label.get('key-name')
                 pl.console_log = label.get('console-log', False)
+                pl.boot_from_volume = bool(label.get('boot-from-volume',
+                                                     False))
+                pl.volume_size = label.get('volume-size', 50)
 
                 top_label = newconfig.labels[pl.name]
                 top_label.pools.append(pp)
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 770c9d829..465d1accf 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -316,7 +316,9 @@ class NodeLauncher(threading.Thread, StatsReporter):
             config_drive=config_drive,
             nodepool_node_id=self._node.id,
             nodepool_image_name=image_name,
-            networks=self._pool.networks)
+            networks=self._pool.networks,
+            boot_from_volume=self._label.boot_from_volume,
+            volume_size=self._label.volume_size)
 
         self._node.external_id = server.id
         self._node.hostname = hostname
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index dc57507c7..1046fd3f7 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -189,7 +189,7 @@ class ProviderManager(object):
                      flavor_name=None, min_ram=None,
                      az=None, key_name=None, config_drive=True,
                      nodepool_node_id=None, nodepool_image_name=None,
-                     networks=None):
+                     networks=None, boot_from_volume=False, volume_size=50):
         if not networks:
             networks = []
         if image_name:
@@ -201,6 +201,11 @@ class ProviderManager(object):
                            image=image,
                            flavor=flavor,
                            config_drive=config_drive)
+        if boot_from_volume:
+            create_args['boot_from_volume'] = boot_from_volume
+            create_args['volume_size'] = volume_size
+            # NOTE(pabelanger): Always cleanup volumes when we delete a server.
+            create_args['terminate_volume'] = True
         if key_name:
             create_args['key_name'] = key_name
         if az:
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 2bd502c3f..210fcfbe7 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -36,6 +36,8 @@ providers:
           - name: trusty-2-node
             diskimage: trusty
             min-ram: 8192
+            boot-from-volume: True
+            volume-size: 100
 
   - name: cloud2
     cloud: chocolate-cloud
diff --git a/nodepool/tests/fixtures/node_boot_from_volume.yaml b/nodepool/tests/fixtures/node_boot_from_volume.yaml
new file mode 100644
index 000000000..55c950f5d
--- /dev/null
+++ b/nodepool/tests/fixtures/node_boot_from_volume.yaml
@@ -0,0 +1,47 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        availability-zones:
+          - az1
+        networks:
+          - net-name
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            flavor-name: 'Fake'
+            boot-from-volume: True
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index c404f4ce5..5c796478c 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -225,6 +225,19 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(nodes[0].type, 'fake-label')
         self.assertNotEqual(nodes[0].host_keys, [])
 
+    def test_node_boot_from_volume(self):
+        """Test that an image and node are created from a volume"""
+        configfile = self.setup_config('node_boot_from_volume.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage('fake-provider', 'fake-image')
+        nodes = self.waitForNodes('fake-label')
+
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
+        self.assertEqual(nodes[0].type, 'fake-label')
+
     def test_disabled_label(self):
         """Test that a node is not created with min-ready=0"""
         configfile = self.setup_config('node_disabled_label.yaml')
diff --git a/requirements.txt b/requirements.txt
index 2c4b82b6d..a115ebdcc 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -10,7 +10,7 @@ PrettyTable>=0.6,<0.8
 # shade has a looser requirement on six than nodepool, so install six first
 six>=1.7.0
 os-client-config>=1.2.0
-shade>=1.18.1
+shade>=1.21.0
 diskimage-builder>=2.0.0
 voluptuous
 kazoo

From 7f10787e9a9ac70295df7ba532950f5d985432e5 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Fri, 17 Feb 2017 17:21:07 +1100
Subject: [PATCH 220/309] Allow loading logging config from yaml

The newer dictConfig logging configuration allows a much more flexible
configuration and should be used in preference to the file config. For
backwards compatibility if the logging configuration has a yaml
extension then load it, otherwise fall back to the file config.

Change-Id: Ia29e294144fa057ded7b72e4475265766f855494
---
 doc/source/installation.rst | 13 ++++++++++---
 nodepool/cmd/__init__.py    |  9 ++++++++-
 2 files changed, 18 insertions(+), 4 deletions(-)

diff --git a/doc/source/installation.rst b/doc/source/installation.rst
index e36a79f6f..aa33d271f 100644
--- a/doc/source/installation.rst
+++ b/doc/source/installation.rst
@@ -61,6 +61,13 @@ configurations that contain sensitive data, this is currently not used, but
 may be in the future.
 
 There is an optional logging configuration file, specified with the ``-l``
-option. The logging configuration file is in the standard python logging
-`configuration file format
-<http://docs.python.org/2/library/logging.config.html#configuration-file-format>`_.
+option. The logging configuration file can accept either:
+
+* the traditional ini python logging `configuration file format
+  <https://docs.python.org/2/library/logging.config.html#configuration-file-format>`_.
+
+* a `.yml` or `.yaml` suffixed file that will be parsed and loaded as the newer
+  `dictConfig format
+  <https://docs.python.org/2/library/logging.config.html#configuration-dictionary-schema>`_.
+
+The Nodepool configuration file is described in :ref:`configuration`.
diff --git a/nodepool/cmd/__init__.py b/nodepool/cmd/__init__.py
index 15e136c62..2378ad41e 100644
--- a/nodepool/cmd/__init__.py
+++ b/nodepool/cmd/__init__.py
@@ -26,6 +26,8 @@ import sys
 import threading
 import traceback
 
+import yaml
+
 from nodepool.version import version_info as npd_version_info
 
 
@@ -105,7 +107,12 @@ class NodepoolApp(object):
                 m = "Unable to read logging config file at %s" % fp
                 raise Exception(m)
 
-            logging.config.fileConfig(fp)
+            if os.path.splitext(fp)[1] in ('.yml', '.yaml'):
+                with open(fp, 'r') as f:
+                    logging.config.dictConfig(yaml.safe_load(f))
+
+            else:
+                logging.config.fileConfig(fp)
 
         else:
             m = '%(asctime)s %(levelname)s %(name)s: %(message)s'

From a0159428d7e8892deb76cb1af40f7349b4428c53 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Thu, 8 Jun 2017 07:54:49 +0000
Subject: [PATCH 221/309] Add webapp port and listen_address configuration

This change adds a webapp settings to nodepool.yaml to enable custom setting
for port and listen_address.

Change-Id: I0f41a0b131bc2a09c47a448c65471e052c0a9e88
---
 doc/source/configuration.rst                      | 13 +++++++++++++
 nodepool/cmd/config_validator.py                  |  6 ++++++
 nodepool/cmd/launcher.py                          |  4 +++-
 nodepool/config.py                                |  5 +++++
 nodepool/tests/fixtures/config_validate/good.yaml |  4 ++++
 nodepool/tests/fixtures/webapp.yaml               |  3 +++
 nodepool/tests/test_webapp.py                     |  7 +++++++
 nodepool/webapp.py                                |  7 +++++--
 8 files changed, 46 insertions(+), 3 deletions(-)
 mode change 100644 => 100755 nodepool/cmd/launcher.py
 mode change 100644 => 100755 nodepool/config.py
 create mode 100644 nodepool/tests/fixtures/webapp.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 9e63c972c..f48f25a34 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -19,6 +19,19 @@ and ``providers`` sections::
 The following sections are available.  All are required unless
 otherwise indicated.
 
+.. _webapp-conf:
+
+webapp
+------
+
+Define the webapp endpoint port and listen address.
+
+Example::
+
+  webapp:
+    port: 8005
+    listen_address: '0.0.0.0'
+
 .. _elements-dir:
 
 elements-dir
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 374aafbeb..88e62a3d1 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -103,7 +103,13 @@ class ConfigValidator:
             'env-vars': {str: str},
         }
 
+        webapp = {
+            'port': int,
+            'listen_address': str,
+        }
+
         top_level = {
+            'webapp': webapp,
             'elements-dir': str,
             'images-dir': str,
             'zookeeper-servers': [{
diff --git a/nodepool/cmd/launcher.py b/nodepool/cmd/launcher.py
old mode 100644
new mode 100755
index d37571162..d5594a458
--- a/nodepool/cmd/launcher.py
+++ b/nodepool/cmd/launcher.py
@@ -54,7 +54,9 @@ class NodePoolLauncherApp(nodepool.cmd.NodepoolDaemonApp):
         self.pool = nodepool.launcher.NodePool(self.args.secure,
                                                self.args.config)
         if not self.args.no_webapp:
-            self.webapp = nodepool.webapp.WebApp(self.pool)
+            config = self.pool.loadConfig()
+            self.webapp = nodepool.webapp.WebApp(self.pool,
+                                                 **config.webapp)
 
         signal.signal(signal.SIGINT, self.exit_handler)
         # For back compatibility:
diff --git a/nodepool/config.py b/nodepool/config.py
old mode 100644
new mode 100755
index 26b91d175..8f20e79bf
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -150,6 +150,11 @@ def loadConfig(config_path):
 
     newconfig = Config()
     newconfig.db = None
+    newconfig.webapp = {
+        'port': config.get('webapp', {}).get('port', 8005),
+        'listen_address': config.get('webapp', {}).get('listen_address',
+                                                       '0.0.0.0')
+    }
     newconfig.providers = {}
     newconfig.labels = {}
     newconfig.elementsdir = config.get('elements-dir')
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 210fcfbe7..8bf464b3d 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -1,6 +1,10 @@
 elements-dir: /etc/nodepool/elements
 images-dir: /opt/nodepool_dib
 
+webapp:
+  port: 8005
+  listen_address: '0.0.0.0'
+
 zookeeper-servers:
   - host: zk1.openstack.org
     port: 2181
diff --git a/nodepool/tests/fixtures/webapp.yaml b/nodepool/tests/fixtures/webapp.yaml
new file mode 100644
index 000000000..2ec54df14
--- /dev/null
+++ b/nodepool/tests/fixtures/webapp.yaml
@@ -0,0 +1,3 @@
+webapp:
+  port: 8080
+  listen_address: '127.0.0.1'
diff --git a/nodepool/tests/test_webapp.py b/nodepool/tests/test_webapp.py
index 5fd7ecd0e..9af193218 100644
--- a/nodepool/tests/test_webapp.py
+++ b/nodepool/tests/test_webapp.py
@@ -15,6 +15,7 @@
 
 import json
 import logging
+import yaml
 from six.moves.urllib import request
 
 from nodepool import tests
@@ -67,3 +68,9 @@ class TestWebApp(tests.DBTestCase):
         self.assertDictContainsSubset({'id': 'fake-image-0000000001',
                                        'formats': ['qcow2'],
                                        'state': 'ready'}, objs[0])
+
+    def test_webapp_config(self):
+        configfile = self.setup_config('webapp.yaml')
+        config = yaml.safe_load(open(configfile))
+        self.assertEqual(config['webapp']['port'], 8080)
+        self.assertEqual(config['webapp']['listen_address'], '127.0.0.1')
diff --git a/nodepool/webapp.py b/nodepool/webapp.py
index c176dbeb3..c9f2580b3 100644
--- a/nodepool/webapp.py
+++ b/nodepool/webapp.py
@@ -54,14 +54,17 @@ class Cache(object):
 class WebApp(threading.Thread):
     log = logging.getLogger("nodepool.WebApp")
 
-    def __init__(self, nodepool, port=8005, cache_expiry=1):
+    def __init__(self, nodepool, port=8005, listen_address='0.0.0.0',
+                 cache_expiry=1):
         threading.Thread.__init__(self)
         self.nodepool = nodepool
         self.port = port
+        self.listen_address = listen_address
         self.cache = Cache(cache_expiry)
         self.cache_expiry = cache_expiry
         self.daemon = True
-        self.server = httpserver.serve(dec.wsgify(self.app), host='0.0.0.0',
+        self.server = httpserver.serve(dec.wsgify(self.app),
+                                       host=self.listen_address,
                                        port=self.port, start_loop=False)
 
     def run(self):

From 8c5936103279558ce8c09abb3e67b721168d96db Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Sat, 10 Jun 2017 08:49:43 -0500
Subject: [PATCH 222/309] Support booting cloud-images by name or id

The docs say we support this, but the code doesn't.

Also, self._cloud_image.name == self._label._cloud_image and is
essentially a foreign key. That's hard to read at the call site, so just
use self._cloud_image.

We have a cloud id if it's a disk image- so wrap that in a dict. Pass
the other one through unmodified so that we'll search for it.

We also don't have any codepaths using image_name, nor a reason to
distinguish.

Change-Id: I4aa9bd8e7c578ae63d05df453b9886c710a092c0
---
 nodepool/launcher.py         | 14 ++++++++++----
 nodepool/provider_manager.py | 10 +++++-----
 2 files changed, 15 insertions(+), 9 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 465d1accf..d6d7c1acc 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -277,7 +277,7 @@ class NodeLauncher(threading.Thread, StatsReporter):
                 )
 
             config_drive = self._diskimage.config_drive
-            image_external_id = cloud_image.external_id
+            image_external = dict(id=cloud_image.external_id)
             image_id = "{path}/{upload_id}".format(
                 path=self._zk._imageUploadPath(cloud_image.image_name,
                                                cloud_image.build_id,
@@ -288,8 +288,14 @@ class NodeLauncher(threading.Thread, StatsReporter):
         else:
             # launch using unmanaged cloud image
             config_drive = self._cloud_image.config_drive
-            image_external_id = self._label.cloud_image
-            image_id = self._label.cloud_image
+
+            # These are different values for zk, but it's all the same
+            # for cloud-images.
+            # image_external is what we use for OpenStack.
+            # image_id is what we record in the node for zk.
+            # image_name is what we log, so matches the config.
+            image_external = self._cloud_image.name
+            image_id = self._cloud_image.name
             image_name = self._cloud_image.name
 
         hostname = self._provider.hostname_format.format(
@@ -308,7 +314,7 @@ class NodeLauncher(threading.Thread, StatsReporter):
 
         server = self._manager.createServer(
             hostname,
-            image_id=image_external_id,
+            image=image_external,
             min_ram=self._label.min_ram,
             flavor_name=self._label.flavor_name,
             key_name=self._label.key_name,
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 1046fd3f7..cc7b1e682 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -185,17 +185,17 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             return self._client.delete_image(name)
 
-    def createServer(self, name, image_id=None, image_name=None,
+    def createServer(self, name, image,
                      flavor_name=None, min_ram=None,
                      az=None, key_name=None, config_drive=True,
                      nodepool_node_id=None, nodepool_image_name=None,
                      networks=None, boot_from_volume=False, volume_size=50):
         if not networks:
             networks = []
-        if image_name:
-            image = self.findImage(image_name)
-        else:
-            image = {'id': image_id}
+        if not isinstance(image, dict):
+            # if it's a dict, we already have the cloud id. If it's not,
+            # we don't know if it's name or ID so need to look it up
+            image = self.findImage(image)
         flavor = self.findFlavor(flavor_name=flavor_name, min_ram=min_ram)
         create_args = dict(name=name,
                            image=image,

From 66b89fd9579cf35da05d85dd84fbdd44ba8869d1 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 13 Jun 2017 11:48:53 -0400
Subject: [PATCH 223/309] Add region to zookeeper

We use region today as part of our mirror infrastructure in
openstack-infra. It seems we didn't add this information to zookeeper,
and eventually zuulv3 to setup ansible inventory variables.

Change-Id: Ia13e6e9e89d24ac3c9c62a0286fba0279b5408b3
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/launcher.py            | 9 ++++++---
 nodepool/tests/test_launcher.py | 1 +
 nodepool/tests/test_zk.py       | 4 ++++
 nodepool/zk.py                  | 4 ++++
 4 files changed, 15 insertions(+), 3 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index d6d7c1acc..ce17e3b45 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -371,9 +371,11 @@ class NodeLauncher(threading.Thread, StatsReporter):
         self._zk.storeNode(self._node)
 
         self.log.debug(
-            "Node %s is running [az: %s, ip: %s ipv4: %s, ipv6: %s]" %
-            (self._node.id, self._node.az, self._node.interface_ip,
-             self._node.public_ipv4, self._node.public_ipv6))
+            "Node %s is running [region: %s, az: %s, ip: %s ipv4: %s, "
+            "ipv6: %s]" %
+            (self._node.id, self._node.region, self._node.az,
+             self._node.interface_ip, self._node.public_ipv4,
+             self._node.public_ipv6))
 
         # Get the SSH public keys for the new node and record in ZooKeeper
         try:
@@ -723,6 +725,7 @@ class NodeRequestHandler(object):
                 node.provider = self.provider.name
                 node.pool = self.pool.name
                 node.az = self.chosen_az
+                node.region = self.provider.region_name
                 node.launcher = self.launcher_id
                 node.allocated_to = self.request.id
 
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 5c796478c..1a8343fe5 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -53,6 +53,7 @@ class TestLauncher(tests.DBTestCase):
             self.assertEqual(node.allocated_to, req.id)
             self.assertEqual(node.state, zk.READY)
             self.assertIsNotNone(node.launcher)
+            self.assertEqual(node.region, 'fake-region')
             self.assertEqual(node.az, "az1")
             p = "{path}/{id}".format(
                 path=self.zk._imageUploadPath(image.image_name,
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 99dc449e9..a325448b1 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -780,6 +780,7 @@ class TestZKModel(tests.BaseTestCase):
         o.type = 'trusty'
         o.allocated_to = '456-789'
         o.az = 'RegionOne'
+        o.region = 'fake-region'
         o.public_ipv4 = '<ipv4>'
         o.private_ipv4 = '<pvt-ipv4>'
         o.public_ipv6 = '<ipv6>'
@@ -799,6 +800,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(d['type'], o.type)
         self.assertEqual(d['allocated_to'], o.allocated_to)
         self.assertEqual(d['az'], o.az)
+        self.assertEqual(d['region'], o.region)
         self.assertEqual(d['public_ipv4'], o.public_ipv4)
         self.assertEqual(d['private_ipv4'], o.private_ipv4)
         self.assertEqual(d['public_ipv6'], o.public_ipv6)
@@ -820,6 +822,7 @@ class TestZKModel(tests.BaseTestCase):
             'type': 'trusty',
             'allocated_to': '456-789',
             'az': 'RegionOne',
+            'region': 'fake-region',
             'public_ipv4': '<ipv4>',
             'private_ipv4': '<pvt-ipv4>',
             'public_ipv6': '<ipv6>',
@@ -840,6 +843,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.type, d['type'])
         self.assertEqual(o.allocated_to, d['allocated_to'])
         self.assertEqual(o.az, d['az'])
+        self.assertEqual(o.region, d['region'])
         self.assertEqual(o.public_ipv4, d['public_ipv4'])
         self.assertEqual(o.private_ipv4, d['private_ipv4'])
         self.assertEqual(o.public_ipv6, d['public_ipv6'])
diff --git a/nodepool/zk.py b/nodepool/zk.py
index b53800e86..5680be887 100644
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -413,6 +413,7 @@ class Node(BaseModel):
         self.type = None
         self.allocated_to = None
         self.az = None
+        self.region = None
         self.public_ipv4 = None
         self.private_ipv4 = None
         self.public_ipv6 = None
@@ -441,6 +442,7 @@ class Node(BaseModel):
                     self.type == other.type and
                     self.allocated_to == other.allocated_to and
                     self.az == other.az and
+                    self.region == other.region and
                     self.public_ipv4 == other.public_ipv4 and
                     self.private_ipv4 == other.private_ipv4 and
                     self.public_ipv6 == other.public_ipv6 and
@@ -465,6 +467,7 @@ class Node(BaseModel):
         d['type'] = self.type
         d['allocated_to'] = self.allocated_to
         d['az'] = self.az
+        d['region'] = self.region
         d['public_ipv4'] = self.public_ipv4
         d['private_ipv4'] = self.private_ipv4
         d['public_ipv6'] = self.public_ipv6
@@ -495,6 +498,7 @@ class Node(BaseModel):
         o.type = d.get('type')
         o.allocated_to = d.get('allocated_to')
         o.az = d.get('az')
+        o.region = d.get('region')
         o.public_ipv4 = d.get('public_ipv4')
         o.private_ipv4 = d.get('private_ipv4')
         o.public_ipv6 = d.get('public_ipv6')

From 7c3263c7df08bf824a1a8a87279d4e8ca547fd63 Mon Sep 17 00:00:00 2001
From: Ricardo Carrillo Cruz <ricardo.carrillo.cruz@gmail.com>
Date: Tue, 13 Jun 2017 14:22:19 +0200
Subject: [PATCH 224/309] Create group for label type

Currently, we get OOTB groups per provider and per image.
It would be nice to have also groups per label type, for running
plays against a particular label.

Change-Id: Ib4173fc0c15184444a91dc402bb306d34f295106
---
 nodepool/launcher.py         | 1 +
 nodepool/provider_manager.py | 7 ++++++-
 2 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 465d1accf..50fccf7b0 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -315,6 +315,7 @@ class NodeLauncher(threading.Thread, StatsReporter):
             az=self._node.az,
             config_drive=config_drive,
             nodepool_node_id=self._node.id,
+            nodepool_node_label=self._node.type,
             nodepool_image_name=image_name,
             networks=self._pool.networks,
             boot_from_volume=self._label.boot_from_volume,
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 1046fd3f7..84a8b1772 100644
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -188,7 +188,8 @@ class ProviderManager(object):
     def createServer(self, name, image_id=None, image_name=None,
                      flavor_name=None, min_ram=None,
                      az=None, key_name=None, config_drive=True,
-                     nodepool_node_id=None, nodepool_image_name=None,
+                     nodepool_node_id=None, nodepool_node_label=None,
+                     nodepool_image_name=None,
                      networks=None, boot_from_volume=False, volume_size=50):
         if not networks:
             networks = []
@@ -226,6 +227,8 @@ class ProviderManager(object):
 
         if nodepool_image_name:
             groups_list.append(nodepool_image_name)
+        if nodepool_node_label:
+            groups_list.append(nodepool_node_label)
         meta = dict(
             groups=",".join(groups_list),
             nodepool_provider_name=self.provider.name,
@@ -234,6 +237,8 @@ class ProviderManager(object):
             meta['nodepool_node_id'] = nodepool_node_id
         if nodepool_image_name:
             meta['nodepool_image_name'] = nodepool_image_name
+        if nodepool_node_label:
+            meta['nodepool_node_label'] = nodepool_node_label
         create_args['meta'] = meta
 
         with shade_inner_exceptions():

From a9952312c2afdb7bae0c2d44554e0ef506ee1718 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 14 Jun 2017 15:18:07 -0700
Subject: [PATCH 225/309] Add image-id and image-name options to cloud-images

The cloud-image name is currently used both to specify the image
in the cloud, and also as a cross-referencing key within the
nodepool config.  As such, it ends up being repeated within the config
(possibly quite often in large configurations).

Separate these functions so that an image can be identified once in
a cloud provider, and referenced from multiple labels with the internal
key.  This makes for improved readability in some cases (such as long
cloud image names, or specifying images by uuid), and reduces churn
when cloud image identifiers change.

Change-Id: I83f2902be4b9b73a949461b7f14da548066b9562
---
 doc/source/configuration.rst     | 15 +++++++++++++++
 nodepool/cmd/config_validator.py |  2 ++
 nodepool/config.py               |  2 ++
 nodepool/launcher.py             |  7 ++++++-
 4 files changed, 25 insertions(+), 1 deletion(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index f48f25a34..e42582fb0 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -467,12 +467,27 @@ Example configuration::
 
   ``name``
     Identifier to refer this cloud-image from :ref:`labels` section.
+    Since this name appears elsewhere in the nodepool configuration
+    file, you may want to use your own descriptive name here and use
+    one of ``image-id`` or ``image-name`` to specify the cloud image
+    so that if the image name or id changes on the cloud, the impact
+    to your Nodepool configuration will be minimal.  However, if
+    neither of those attributes are provided, this is also assumed to
+    be the image name or ID in the cloud.
 
 **optional**
 
   ``config-drive`` (boolean)
     Whether config drive should be used for the cloud image. Default ``True``
 
+  ``image-id`` (str)
+    If this is provided, it is used to select the image from the cloud
+    provider by ID, rather than name.  Mutually exclusive with ``image-name``.
+
+  ``image-name`` (str)
+    If this is provided, it is used to select the image from the cloud
+    provider by this name or ID.  Mutually exclusive with ``image-id``.
+
 
 .. _pool_labels:
 
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 88e62a3d1..d85d3aa4a 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -67,6 +67,8 @@ class ConfigValidator:
         provider_cloud_images = {
             'name': str,
             'config-drive': bool,
+            v.Exclusive('image-id', 'cloud-image-name-or-id'): str,
+            v.Exclusive('image-name', 'cloud-image-name-or-id'): str,
         }
 
         provider = {
diff --git a/nodepool/config.py b/nodepool/config.py
index 8f20e79bf..144b8a98a 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -250,6 +250,8 @@ def loadConfig(config_path):
             i = ProviderCloudImage()
             i.name = image['name']
             i.config_drive = image.get('config-drive', None)
+            i.image_id = image.get('image-id', None)
+            i.image_name = image.get('image-name', None)
             p.cloud_images[i.name] = i
         p.pools = {}
         for pool in provider.get('pools', []):
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index ce29b13d3..4c1ad1369 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -294,7 +294,12 @@ class NodeLauncher(threading.Thread, StatsReporter):
             # image_external is what we use for OpenStack.
             # image_id is what we record in the node for zk.
             # image_name is what we log, so matches the config.
-            image_external = self._cloud_image.name
+            if self._cloud_image.image_id:
+                image_external = dict(id=self._cloud_image.image_id)
+            elif self._cloud_image.image_name:
+                image_external = self._cloud_image.image_name
+            else:
+                image_external = self._cloud_image.name
             image_id = self._cloud_image.name
             image_name = self._cloud_image.name
 

From fd7f53e21e996f92175673e065d02141167efddf Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Thu, 22 Jun 2017 12:43:52 -0700
Subject: [PATCH 226/309] Use private attribute lookup interanlly in builder.py

Builder threads have an internal _running attribute which is exposed
publicly via the running property. We were using a mix of checking
against the _running name and the running name internally. This was
somewhat confusing. Switch to using _running for all internal checks and
only using running externally.

Change-Id: Ifeda16168547cf69e91c55e937616a745c9fc50e
---
 nodepool/builder.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 054ca7003..f2be99400 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -524,7 +524,7 @@ class BuildWorker(BaseWorker):
         for diskimage in self._config.diskimages.values():
             # Check if we've been told to shutdown
             # or if ZK connection is suspended
-            if not self.running or self._zk.suspended or self._zk.lost:
+            if not self._running or self._zk.suspended or self._zk.lost:
                 return
             try:
                 self._checkImageForScheduledImageUpdates(diskimage)
@@ -591,7 +591,7 @@ class BuildWorker(BaseWorker):
         for diskimage in self._config.diskimages.values():
             # Check if we've been told to shutdown
             # or if ZK connection is suspended
-            if not self.running or self._zk.suspended or self._zk.lost:
+            if not self._running or self._zk.suspended or self._zk.lost:
                 return
             try:
                 self._checkImageForManualBuildRequest(diskimage)
@@ -892,7 +892,7 @@ class UploadWorker(BaseWorker):
 
                 # Check if we've been told to shutdown
                 # or if ZK connection is suspended
-                if not self.running or self._zk.suspended or self._zk.lost:
+                if not self._running or self._zk.suspended or self._zk.lost:
                     return
                 try:
                     uploaded = self._checkProviderImageUpload(provider, image)

From 8dbccc1d9944597cba91543c99ef71aae382f42c Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Thu, 22 Jun 2017 12:51:22 -0700
Subject: [PATCH 227/309] Don't join image upload workers on stop()

Image uploads are synchronous with their workers and because writing
logs of bytes to clouds can be slow this means that join()ing on an
image upload worker can take a significant amount of time.

When a nodepool builder receives a sigint we want it to stop in a
reasonable amount of time and gracefully close connections to the
zookeeper database so that locks are released properly and records can
be cleaned safely. The old stop() code which handles sigint joined on
the upload worker threads. This meant it couldn't happen in a reasonable
amount of time for the reason above. This then leads to killing the
process in init scripts with sigkill.

Thankfully we can just not wait for upload workers to join and let
process exit kill the upload process for us. Separately we can
gracefully close the zookeeper connection. Then any other builders
(possibly when this one restarts) can clean up the upload record in zk
and in the cloud.

Change-Id: I52425bb8e5b8f0d6e1d25674cbe590e32b629e6d
---
 nodepool/builder.py | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index f2be99400..06c82d469 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -1127,7 +1127,14 @@ class NodePoolBuilder(object):
         '''
         with self._start_lock:
             self.log.debug("Stopping. NodePoolBuilder shutting down workers")
-            workers = self._build_workers + self._upload_workers
+            # Note we do not add the upload workers to this list intentionally.
+            # The reason for this is that uploads can take many hours and there
+            # is no good way to stop the blocking writes performed by the
+            # uploads in order to join() below on a reasonable amount of time.
+            # Killing the process will stop the upload then both the record
+            # in zk and in the cloud will be deleted by any other running
+            # builders or when this builder starts again.
+            workers = self._build_workers
             if self._janitor:
                 workers += [self._janitor]
             for worker in (workers):

From 9c80edab3617934bd19586b480b8cb6b0ba4ff51 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 23 Jun 2017 08:49:19 -0400
Subject: [PATCH 228/309] Fix dict key copy operation

The dict keys() method returns an iterator in py3, so we are not
actually getting a copy of the keys on simple assignment. So when
the dict is modified, we can still get:

   RuntimeError: dictionary changed size during iteration

Explicitly create a new list using the keys to prevent this.

Change-Id: If4a8b8c65d66a162dc384104e4613e7f2f70a8b0
---
 nodepool/launcher.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index ce29b13d3..56cfa413a 100644
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -1480,8 +1480,9 @@ class NodePool(threading.Thread):
         '''
 
         # Use a copy of the labels because we modify _submittedRequests
-        # within the loop below.
-        requested_labels = self._submittedRequests.keys()
+        # within the loop below. Note that keys() returns an iterator in
+        # py3, so we need to explicitly make a new list.
+        requested_labels = list(self._submittedRequests.keys())
 
         for label in requested_labels:
             label_requests = self._submittedRequests[label]

From a5077fc344e8809d4e37115957a89bb6ca294640 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Mon, 29 May 2017 00:29:47 +0000
Subject: [PATCH 229/309] Add support for custom ssh port

This change adds 'ssh_port' to the Node class.

Change-Id: I5e6d3969ae04f90abd1a3fd908c160cda4791bad
---
 nodepool/cmd/nodepoolcmd.py     |  0
 nodepool/nodeutils.py           |  6 +++---
 nodepool/status.py              |  8 +++++---
 nodepool/tests/test_commands.py |  2 +-
 nodepool/tests/test_zk.py       | 13 +++++++++++++
 nodepool/zk.py                  |  3 +++
 6 files changed, 25 insertions(+), 7 deletions(-)
 mode change 100644 => 100755 nodepool/cmd/nodepoolcmd.py
 mode change 100644 => 100755 nodepool/nodeutils.py
 mode change 100644 => 100755 nodepool/status.py
 mode change 100644 => 100755 nodepool/zk.py

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
old mode 100644
new mode 100755
diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
old mode 100644
new mode 100755
index 4c096416a..884c6419a
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -44,7 +44,7 @@ def iterate_timeout(max_seconds, exc, purpose):
     raise exc("Timeout waiting for %s" % purpose)
 
 
-def keyscan(ip, timeout=60):
+def keyscan(ip, port=22, timeout=60):
     '''
     Scan the IP address for public SSH keys.
 
@@ -55,10 +55,10 @@ def keyscan(ip, timeout=60):
 
     if ipaddress.ip_address(six.text_type(ip)).version < 6:
         family = socket.AF_INET
-        sockaddr = (ip, 22)
+        sockaddr = (ip, port)
     else:
         family = socket.AF_INET6
-        sockaddr = (ip, 22, 0, 0)
+        sockaddr = (ip, port, 0, 0)
 
     keys = []
     key = None
diff --git a/nodepool/status.py b/nodepool/status.py
old mode 100644
new mode 100755
index 0ed5142b4..3da1374de
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -32,7 +32,7 @@ def age(timestamp):
 def node_list(zk, node_id=None):
     t = PrettyTable(["ID", "Provider", "AZ", "Label",
                      "Launcher", "Hostname", "Server ID",
-                     "Public IPv4", "Private IPv4", "IPv6",
+                     "Public IPv4", "Private IPv4", "IPv6", "SSH Port",
                      "State", "Age", "Locked", "Comment"])
     t.align = 'l'
     if node_id:
@@ -49,7 +49,8 @@ def node_list(zk, node_id=None):
             t.add_row([node.id, node.provider, node.az, node.type,
                        node.launcher, node.hostname, node.external_id,
                        node.public_ipv4, node.private_ipv4, node.public_ipv6,
-                       node.state, age(node.state_time), locked, node.comment])
+                       node.ssh_port, node.state, age(node.state_time), locked,
+                       node.comment])
     else:
         for node in zk.nodeIterator():
             locked = "unlocked"
@@ -62,7 +63,8 @@ def node_list(zk, node_id=None):
             t.add_row([node.id, node.provider, node.az, node.type,
                        node.launcher, node.hostname, node.external_id,
                        node.public_ipv4, node.private_ipv4, node.public_ipv6,
-                       node.state, age(node.state_time), locked, node.comment])
+                       node.ssh_port, node.state, age(node.state_time), locked,
+                       node.comment])
     return str(t)
 
 
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 325025fa0..b565eb8fa 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -59,7 +59,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.assert_listed(configfile, ['image-list'], 6, status, image_cnt)
 
     def assert_nodes_listed(self, configfile, node_cnt, status="ready"):
-        self.assert_listed(configfile, ['list'], 10, status, node_cnt)
+        self.assert_listed(configfile, ['list'], 11, status, node_cnt)
 
     def test_image_list_empty(self):
         self.assert_images_listed(self.setup_config("node_cmd.yaml"), 0)
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index a325448b1..97446f187 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -832,6 +832,7 @@ class TestZKModel(tests.BaseTestCase):
             'hostname': 'xyz',
             'comment': 'comment',
             'host_keys': ['key1', 'key2'],
+            'ssh_port': 22022,
         }
 
         o = zk.Node.fromDict(d, node_id)
@@ -853,3 +854,15 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.hostname , d['hostname'])
         self.assertEqual(o.comment , d['comment'])
         self.assertEqual(o.host_keys , d['host_keys'])
+        self.assertEqual(o.ssh_port , d['ssh_port'])
+
+    def test_custom_ssh_port(self):
+        n = zk.Node('0001')
+        n.state = zk.BUILDING
+        d = n.toDict()
+        self.assertEqual(d["ssh_port"], 22, "Default port not 22")
+        n = zk.Node.fromDict(d, '0001')
+        self.assertEqual(n.ssh_port, 22, "Default port not 22")
+        n.ssh_port = 22022
+        d = n.toDict()
+        self.assertEqual(d["ssh_port"], 22022, "Custom ssh port not set")
diff --git a/nodepool/zk.py b/nodepool/zk.py
old mode 100644
new mode 100755
index 5680be887..e2f408de4
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -418,6 +418,7 @@ class Node(BaseModel):
         self.private_ipv4 = None
         self.public_ipv6 = None
         self.interface_ip = None
+        self.ssh_port = 22
         self.image_id = None
         self.launcher = None
         self.created_time = None
@@ -472,6 +473,7 @@ class Node(BaseModel):
         d['private_ipv4'] = self.private_ipv4
         d['public_ipv6'] = self.public_ipv6
         d['interface_ip'] = self.interface_ip
+        d['ssh_port'] = self.ssh_port
         d['image_id'] = self.image_id
         d['launcher'] = self.launcher
         d['created_time'] = self.created_time
@@ -503,6 +505,7 @@ class Node(BaseModel):
         o.private_ipv4 = d.get('private_ipv4')
         o.public_ipv6 = d.get('public_ipv6')
         o.interface_ip = d.get('interface_ip')
+        o.ssh_port = d.get('ssh_port', 22)
         o.image_id = d.get('image_id')
         o.launcher = d.get('launcher')
         o.created_time = d.get('created_time')

From 9de3191baf378a26e870714147cf7a4eccfcf45c Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 11 Jul 2017 11:57:22 -0400
Subject: [PATCH 230/309] EOL ubuntu-precise for dsvm job

No need to build ubuntu-precise any more, it is EOL.

Change-Id: I16ef944d01c699971a136600da8e7e3c710919a3
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh             | 36 ----------------------------------
 tools/check_devstack_plugin.sh |  8 --------
 2 files changed, 44 deletions(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 863866032..9d3fe0d85 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -201,7 +201,6 @@ EOF
     NODEPOOL_CENTOS_7_MIN_READY=1
     NODEPOOL_DEBIAN_JESSIE_MIN_READY=1
     NODEPOOL_FEDORA_25_MIN_READY=1
-    NODEPOOL_UBUNTU_PRECISE_MIN_READY=1
     NODEPOOL_UBUNTU_TRUSTY_MIN_READY=1
     NODEPOOL_UBUNTU_XENIAL_MIN_READY=1
 
@@ -214,9 +213,6 @@ EOF
     if $NODEPOOL_PAUSE_FEDORA_25_DIB ; then
        NODEPOOL_FEDORA_25_MIN_READY=0
     fi
-    if $NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB ; then
-       NODEPOOL_UBUNTU_PRECISE_MIN_READY=0
-    fi
     if $NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB ; then
        NODEPOOL_UBUNTU_TRUSTY_MIN_READY=0
     fi
@@ -242,8 +238,6 @@ labels:
     min-ready: $NODEPOOL_DEBIAN_JESSIE_MIN_READY
   - name: fedora-25
     min-ready: $NODEPOOL_FEDORA_25_MIN_READY
-  - name: ubuntu-precise
-    min-ready: $NODEPOOL_UBUNTU_PRECISE_MIN_READY
   - name: ubuntu-trusty
     min-ready: $NODEPOOL_UBUNTU_TRUSTY_MIN_READY
   - name: ubuntu-xenial
@@ -264,8 +258,6 @@ providers:
         config-drive: true
       - name: fedora-25
         config-drive: true
-      - name: ubuntu-precise
-        config-drive: true
       - name: ubuntu-trusty
         config-drive: true
       - name: ubuntu-xenial
@@ -289,11 +281,6 @@ providers:
             min-ram: 1024
             flavor-name: 'nodepool'
             console-log: True
-          - name: ubuntu-precise
-            diskimage: ubuntu-precise
-            min-ram: 512
-            flavor-name: 'nodepool'
-            console-log: True
           - name: ubuntu-trusty
             diskimage: ubuntu-trusty
             min-ram: 512
@@ -371,29 +358,6 @@ diskimages:
       $DIB_GLEAN_INSTALLTYPE
       $DIB_GLEAN_REPOLOCATION
       $DIB_GLEAN_REPOREF
-  - name: ubuntu-precise
-    pause: $NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB
-    rebuild-age: 86400
-    elements:
-      - ubuntu-minimal
-      - vm
-      - simple-init
-      - devuser
-      - openssh-server
-      - nodepool-setup
-    release: precise
-    env-vars:
-      TMPDIR: $NODEPOOL_DIB_BASE_PATH/tmp
-      DIB_CHECKSUM: '1'
-      DIB_IMAGE_CACHE: $NODEPOOL_DIB_BASE_PATH/cache
-      DIB_APT_LOCAL_CACHE: '0'
-      DIB_DISABLE_APT_CLEANUP: '1'
-      DIB_DEV_USER_AUTHORIZED_KEYS: $NODEPOOL_PUBKEY
-      DIB_DEBIAN_COMPONENTS: 'main,universe'
-      $DIB_GET_PIP
-      $DIB_GLEAN_INSTALLTYPE
-      $DIB_GLEAN_REPOLOCATION
-      $DIB_GLEAN_REPOREF
   - name: ubuntu-trusty
     pause: $NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB
     rebuild-age: 86400
diff --git a/tools/check_devstack_plugin.sh b/tools/check_devstack_plugin.sh
index bd44246ab..528adaf64 100755
--- a/tools/check_devstack_plugin.sh
+++ b/tools/check_devstack_plugin.sh
@@ -11,7 +11,6 @@ NODEPOOL="$NODEPOOL_INSTALL/bin/nodepool -c $NODEPOOL_CONFIG -s $NODEPOOL_SECURE
 NODEPOOL_PAUSE_CENTOS_7_DIB=${NODEPOOL_PAUSE_CENTOS_7_DIB:-true}
 NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB=${NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB:-true}
 NODEPOOL_PAUSE_FEDORA_25_DIB=${NODEPOOL_PAUSE_FEDORA_25_DIB:-true}
-NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB=${NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB:-true}
 NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=${NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB:-false}
 NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB=${NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB:-true}
 
@@ -62,13 +61,6 @@ if [ $NODEPOOL_PAUSE_FEDORA_25_DIB = 'false' ]; then
     waitfornode fedora-25
 fi
 
-if [ $NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB = 'false' ]; then
-    # check that image built
-    waitforimage ubuntu-precise
-    # check image was bootable
-    waitfornode ubuntu-precise
-fi
-
 if [ $NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB = 'false' ]; then
     # check that image built
     waitforimage ubuntu-trusty

From 1f175a4754dcc9b858346cf43f4a069c9da9d0ef Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 11 Jul 2017 09:40:48 -0400
Subject: [PATCH 231/309] Add support to test fedora-26

Fedora 26 is now the latest version, so lets start supporting it for
nodepool devstack testing.

  https://fedoraproject.org/wiki/Releases/26/Schedule

Change-Id: I9cde430a8cda53357851ab527446f6b32919907e
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 devstack/plugin.sh             | 35 +++++++++++++++++++++++++++++++++-
 devstack/settings              |  1 +
 tools/check_devstack_plugin.sh |  8 ++++++++
 3 files changed, 43 insertions(+), 1 deletion(-)

diff --git a/devstack/plugin.sh b/devstack/plugin.sh
index 9d3fe0d85..6051589d7 100644
--- a/devstack/plugin.sh
+++ b/devstack/plugin.sh
@@ -197,10 +197,11 @@ EOF
         DIB_DEBOOTSTRAP_EXTRA_ARGS="DIB_DEBOOTSTRAP_EXTRA_ARGS: '--no-check-gpg'"
     fi
 
-
     NODEPOOL_CENTOS_7_MIN_READY=1
     NODEPOOL_DEBIAN_JESSIE_MIN_READY=1
+    # TODO(pabelanger): Remove fedora-25 after fedora-26 is online
     NODEPOOL_FEDORA_25_MIN_READY=1
+    NODEPOOL_FEDORA_26_MIN_READY=1
     NODEPOOL_UBUNTU_TRUSTY_MIN_READY=1
     NODEPOOL_UBUNTU_XENIAL_MIN_READY=1
 
@@ -213,6 +214,9 @@ EOF
     if $NODEPOOL_PAUSE_FEDORA_25_DIB ; then
        NODEPOOL_FEDORA_25_MIN_READY=0
     fi
+    if $NODEPOOL_PAUSE_FEDORA_26_DIB ; then
+       NODEPOOL_FEDORA_26_MIN_READY=0
+    fi
     if $NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB ; then
        NODEPOOL_UBUNTU_TRUSTY_MIN_READY=0
     fi
@@ -238,6 +242,8 @@ labels:
     min-ready: $NODEPOOL_DEBIAN_JESSIE_MIN_READY
   - name: fedora-25
     min-ready: $NODEPOOL_FEDORA_25_MIN_READY
+  - name: fedora-26
+    min-ready: $NODEPOOL_FEDORA_26_MIN_READY
   - name: ubuntu-trusty
     min-ready: $NODEPOOL_UBUNTU_TRUSTY_MIN_READY
   - name: ubuntu-xenial
@@ -258,6 +264,8 @@ providers:
         config-drive: true
       - name: fedora-25
         config-drive: true
+      - name: fedora-26
+        config-drive: true
       - name: ubuntu-trusty
         config-drive: true
       - name: ubuntu-xenial
@@ -281,6 +289,11 @@ providers:
             min-ram: 1024
             flavor-name: 'nodepool'
             console-log: True
+          - name: fedora-26
+            diskimage: fedora-26
+            min-ram: 1024
+            flavor-name: 'nodepool'
+            console-log: True
           - name: ubuntu-trusty
             diskimage: ubuntu-trusty
             min-ram: 512
@@ -358,6 +371,26 @@ diskimages:
       $DIB_GLEAN_INSTALLTYPE
       $DIB_GLEAN_REPOLOCATION
       $DIB_GLEAN_REPOREF
+  - name: fedora-26
+    pause: $NODEPOOL_PAUSE_FEDORA_26_DIB
+    rebuild-age: 86400
+    elements:
+      - fedora-minimal
+      - vm
+      - simple-init
+      - devuser
+      - openssh-server
+      - nodepool-setup
+    release: 26
+    env-vars:
+      TMPDIR: $NODEPOOL_DIB_BASE_PATH/tmp
+      DIB_CHECKSUM: '1'
+      DIB_IMAGE_CACHE: $NODEPOOL_DIB_BASE_PATH/cache
+      DIB_DEV_USER_AUTHORIZED_KEYS: $NODEPOOL_PUBKEY
+      $DIB_GET_PIP
+      $DIB_GLEAN_INSTALLTYPE
+      $DIB_GLEAN_REPOLOCATION
+      $DIB_GLEAN_REPOREF
   - name: ubuntu-trusty
     pause: $NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB
     rebuild-age: 86400
diff --git a/devstack/settings b/devstack/settings
index 2ceac4c82..868ad22e2 100644
--- a/devstack/settings
+++ b/devstack/settings
@@ -9,6 +9,7 @@ NODEPOOL_DIB_BASE_PATH=/opt/dib
 NODEPOOL_PAUSE_CENTOS_7_DIB=${NODEPOOL_PAUSE_CENTOS_7_DIB:-true}
 NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB=${NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB:-true}
 NODEPOOL_PAUSE_FEDORA_25_DIB=${NODEPOOL_PAUSE_FEDORA_25_DIB:-true}
+NODEPOOL_PAUSE_FEDORA_26_DIB=${NODEPOOL_PAUSE_FEDORA_26_DIB:-true}
 NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB=${NODEPOOL_PAUSE_UBUNTU_PRECISE_DIB:-true}
 NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=${NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB:-false}
 NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB=${NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB:-true}
diff --git a/tools/check_devstack_plugin.sh b/tools/check_devstack_plugin.sh
index 528adaf64..285a5ea6b 100755
--- a/tools/check_devstack_plugin.sh
+++ b/tools/check_devstack_plugin.sh
@@ -11,6 +11,7 @@ NODEPOOL="$NODEPOOL_INSTALL/bin/nodepool -c $NODEPOOL_CONFIG -s $NODEPOOL_SECURE
 NODEPOOL_PAUSE_CENTOS_7_DIB=${NODEPOOL_PAUSE_CENTOS_7_DIB:-true}
 NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB=${NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB:-true}
 NODEPOOL_PAUSE_FEDORA_25_DIB=${NODEPOOL_PAUSE_FEDORA_25_DIB:-true}
+NODEPOOL_PAUSE_FEDORA_26_DIB=${NODEPOOL_PAUSE_FEDORA_26_DIB:-true}
 NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=${NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB:-false}
 NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB=${NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB:-true}
 
@@ -61,6 +62,13 @@ if [ $NODEPOOL_PAUSE_FEDORA_25_DIB = 'false' ]; then
     waitfornode fedora-25
 fi
 
+if [ $NODEPOOL_PAUSE_FEDORA_26_DIB = 'false' ]; then
+    # check that image built
+    waitforimage fedora-26
+    # check image was bootable
+    waitfornode fedora-26
+fi
+
 if [ $NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB = 'false' ]; then
     # check that image built
     waitforimage ubuntu-trusty

From 42e15e21505b0f91fb4b0d82684fb2dcf2d823e2 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 17 Jul 2017 09:05:37 -0400
Subject: [PATCH 232/309] Simplify _deleteLocalBuild parameters

Both parameters being passed in are coming from the same object,
so just pass in the object itself.

Change-Id: Ie9d78a1d884764a25fce881282bf15bc662e15e5
---
 nodepool/builder.py | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 06c82d469..76013e77d 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -221,27 +221,26 @@ class CleanupWorker(BaseWorker):
             if e.errno != 2:    # No such file or directory
                 raise e
 
-    def _deleteLocalBuild(self, image, build_id, builder):
+    def _deleteLocalBuild(self, image, build):
         '''
         Remove expired image build from local disk.
 
         :param str image: Name of the image whose build we are deleting.
-        :param str build_id: ID of the build we want to delete.
-        :param str builder: hostname of the build.
+        :param ImageBuild build: The build we want to delete.
 
         :returns: True if files were deleted, False if none were found.
         '''
-        base = "-".join([image, build_id])
+        base = "-".join([image, build.id])
         files = DibImageFile.from_image_id(self._config.imagesdir, base)
         if not files:
             # NOTE(pabelanger): It is possible we don't have any files because
             # diskimage-builder failed. So, check to see if we have the correct
             # builder so we can removed the data from zookeeper.
-            if builder == self._hostname:
+            if build.builder == self._hostname:
                 return True
             return False
 
-        self.log.info("Doing cleanup for %s:%s" % (image, build_id))
+        self.log.info("Doing cleanup for %s:%s" % (image, build.id))
 
         manifest_dir = None
 
@@ -468,7 +467,7 @@ class CleanupWorker(BaseWorker):
                         self._zk.storeBuild(image, build, build.id)
 
                 # Release the lock here so we can delete the build znode
-                if self._deleteLocalBuild(image, build.id, build.builder):
+                if self._deleteLocalBuild(image, build):
                     if not self._zk.deleteBuild(image, build.id):
                         self.log.error("Unable to delete build %s because"
                                        " uploads still remain.", build)

From fcc68b8fd6ce12348635830df88823fd5156ceb6 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 17 Jul 2017 12:04:24 -0400
Subject: [PATCH 233/309] Support UUID as builder identifier

We currently use the hostname of the builder host as the
identifier for the owner of built images. This value is
recorded in ZooKeeper and is used to make sure that only
the owner of an image build ever deletes the entry from
ZooKeeper.

Using hostname can be problematic if it ever changes. It will
cause orphaned builds that will not get deleted. This change
allows us to use a UUID as the identifier, deprecating use of
hostname altogether (although we continue storing that info).
The UUID will be stored in a file in the images directory so
that it may persist across nodepool-builder restarts.

In order to help with transitioning existing builders to using
UUID instead of hostname, the code will always compare the UUID
value AND the hostname so that existing ZK entries will be
matched until they age away.

Change-Id: Ifafbab9fb0f41564cc1af595586fa7353ce1d0d0
---
 doc/source/configuration.rst   |  8 +++++
 nodepool/builder.py            | 56 ++++++++++++++++++++++++++--------
 nodepool/tests/test_builder.py | 13 ++++++++
 nodepool/tests/test_zk.py      |  6 ++++
 nodepool/zk.py                 | 13 +++++++-
 5 files changed, 82 insertions(+), 14 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index e42582fb0..ad20db73c 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -16,6 +16,12 @@ and ``providers`` sections::
   providers:
     ...
 
+.. note:: The builder daemon creates a UUID to uniquely identify itself and
+          to mark image builds in ZooKeeper that it owns. This file will be
+          named ``builder_id.txt`` and will live in the directory named by the
+          :ref:`images-dir` option. If this file does not exist, it will be
+          created on builder startup and a UUID will be created automatically.
+
 The following sections are available.  All are required unless
 otherwise indicated.
 
@@ -46,6 +52,8 @@ Example::
 
   elements-dir: /path/to/elements/dir
 
+.. _images-dir:
+
 images-dir
 ----------
 
diff --git a/nodepool/builder.py b/nodepool/builder.py
index 76013e77d..6deba91bf 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -21,6 +21,7 @@ import subprocess
 import threading
 import time
 import shlex
+import uuid
 
 from nodepool import config as nodepool_config
 from nodepool import exceptions
@@ -107,7 +108,7 @@ class DibImageFile(object):
 
 
 class BaseWorker(threading.Thread):
-    def __init__(self, config_path, interval, zk):
+    def __init__(self, builder_id, config_path, interval, zk):
         super(BaseWorker, self).__init__()
         self.log = logging.getLogger("nodepool.builder.BaseWorker")
         self.daemon = True
@@ -118,6 +119,7 @@ class BaseWorker(threading.Thread):
         self._hostname = socket.gethostname()
         self._statsd = stats.get_client()
         self._interval = interval
+        self._builder_id = builder_id
 
     def _checkForZooKeeperChanges(self, new_config):
         '''
@@ -144,8 +146,9 @@ class CleanupWorker(BaseWorker):
     and any local DIB builds.
     '''
 
-    def __init__(self, name, config_path, interval, zk):
-        super(CleanupWorker, self).__init__(config_path, interval, zk)
+    def __init__(self, name, builder_id, config_path, interval, zk):
+        super(CleanupWorker, self).__init__(builder_id, config_path,
+                                            interval, zk)
         self.log = logging.getLogger("nodepool.builder.CleanupWorker.%s" % name)
         self.name = 'CleanupWorker.%s' % name
 
@@ -236,7 +239,13 @@ class CleanupWorker(BaseWorker):
             # NOTE(pabelanger): It is possible we don't have any files because
             # diskimage-builder failed. So, check to see if we have the correct
             # builder so we can removed the data from zookeeper.
-            if build.builder == self._hostname:
+
+            # To maintain backward compatibility with builders that didn't
+            # use unique builder IDs before, but do now, always compare to
+            # hostname as well since some ZK data may still reference that.
+            if (build.builder_id == self._builder_id or
+                build.builder == self._hostname
+            ):
                 return True
             return False
 
@@ -510,8 +519,9 @@ class CleanupWorker(BaseWorker):
 
 
 class BuildWorker(BaseWorker):
-    def __init__(self, name, config_path, interval, zk, dib_cmd):
-        super(BuildWorker, self).__init__(config_path, interval, zk)
+    def __init__(self, name, builder_id, config_path, interval, zk, dib_cmd):
+        super(BuildWorker, self).__init__(builder_id, config_path,
+                                          interval, zk)
         self.log = logging.getLogger("nodepool.builder.BuildWorker.%s" % name)
         self.name = 'BuildWorker.%s' % name
         self.dib_cmd = dib_cmd
@@ -573,6 +583,7 @@ class BuildWorker(BaseWorker):
 
                     data = zk.ImageBuild()
                     data.state = zk.BUILDING
+                    data.builder_id = self._builder_id
                     data.builder = self._hostname
                     data.formats = list(diskimage.image_types)
 
@@ -623,6 +634,7 @@ class BuildWorker(BaseWorker):
 
                 data = zk.ImageBuild()
                 data.state = zk.BUILDING
+                data.builder_id = self._builder_id
                 data.builder = self._hostname
                 data.formats = list(diskimage.image_types)
 
@@ -712,6 +724,7 @@ class BuildWorker(BaseWorker):
             time.sleep(SUSPEND_WAIT_TIME)
 
         build_data = zk.ImageBuild()
+        build_data.builder_id = self._builder_id
         build_data.builder = self._hostname
 
         if self._zk.didLoseConnection:
@@ -778,8 +791,9 @@ class BuildWorker(BaseWorker):
 
 
 class UploadWorker(BaseWorker):
-    def __init__(self, name, config_path, interval, zk):
-        super(UploadWorker, self).__init__(config_path, interval, zk)
+    def __init__(self, name, builder_id, config_path, interval, zk):
+        super(UploadWorker, self).__init__(builder_id, config_path,
+                                           interval, zk)
         self.log = logging.getLogger("nodepool.builder.UploadWorker.%s" % name)
         self.name = 'UploadWorker.%s' % name
 
@@ -1055,6 +1069,17 @@ class NodePoolBuilder(object):
     # Private methods
     #=======================================================================
 
+    def _getBuilderID(self, id_file):
+        if not os.path.exists(id_file):
+            with open(id_file, "w") as f:
+                builder_id = str(uuid.uuid4())
+                f.write(builder_id)
+            return builder_id
+
+        with open(id_file, "r") as f:
+            builder_id = f.read()
+        return builder_id
+
     def _getAndValidateConfig(self):
         config = nodepool_config.loadConfig(self._config_path)
         if not config.zookeeper_servers.values():
@@ -1082,6 +1107,10 @@ class NodePoolBuilder(object):
             self._config = self._getAndValidateConfig()
             self._running = True
 
+            builder_id_file = os.path.join(self._config.imagesdir,
+                                           "builder_id.txt")
+            builder_id = self._getBuilderID(builder_id_file)
+
             # All worker threads share a single ZooKeeper instance/connection.
             self.zk = zk.ZooKeeper()
             self.zk.connect(list(self._config.zookeeper_servers.values()))
@@ -1090,20 +1119,21 @@ class NodePoolBuilder(object):
 
             # Create build and upload worker objects
             for i in range(self._num_builders):
-                w = BuildWorker(i, self._config_path, self.build_interval,
-                                self.zk, self.dib_cmd)
+                w = BuildWorker(i, builder_id, self._config_path,
+                                self.build_interval, self.zk, self.dib_cmd)
                 w.start()
                 self._build_workers.append(w)
 
             for i in range(self._num_uploaders):
-                w = UploadWorker(i, self._config_path, self.upload_interval,
-                                 self.zk)
+                w = UploadWorker(i, builder_id, self._config_path,
+                                 self.upload_interval, self.zk)
                 w.start()
                 self._upload_workers.append(w)
 
             if self.cleanup_interval > 0:
                 self._janitor = CleanupWorker(
-                    0, self._config_path, self.cleanup_interval, self.zk)
+                    0, builder_id, self._config_path,
+                    self.cleanup_interval, self.zk)
                 self._janitor.start()
 
             # Wait until all threads are running. Otherwise, we have a race
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 14412ade6..0f8126499 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -14,6 +14,7 @@
 # limitations under the License.
 
 import os
+import uuid
 import fixtures
 
 from nodepool import builder, exceptions, fakeprovider, tests
@@ -95,6 +96,18 @@ class TestNodePoolBuilder(tests.DBTestCase):
         nb.start()
         nb.stop()
 
+    def test_builder_id_file(self):
+        configfile = self.setup_config('node.yaml')
+        self._useBuilder(configfile)
+        path = os.path.join(self._config_images_dir.path, 'builder_id.txt')
+
+        # Validate the unique ID file exists and contents are what we expect
+        self.assertTrue(os.path.exists(path))
+        with open(path, "r") as f:
+            the_id = f.read()
+            obj = uuid.UUID(the_id, version=4)
+            self.assertEqual(the_id, str(obj))
+
     def test_image_upload_fail(self):
         """Test that image upload fails are handled properly."""
 
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 97446f187..dde66a761 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -127,12 +127,14 @@ class TestZooKeeper(tests.DBTestCase):
         image = "ubuntu-trusty"
         orig_data = zk.ImageBuild()
         orig_data.builder = 'host'
+        orig_data.builder_id = 'ABC-123'
         orig_data.state = zk.READY
         with self.zk.imageBuildLock(image, blocking=True, timeout=1):
             build_num = self.zk.storeBuild(image, orig_data)
 
         data = self.zk.getBuild(image, build_num)
         self.assertEqual(orig_data.builder, data.builder)
+        self.assertEqual(orig_data.builder_id, data.builder_id)
         self.assertEqual(orig_data.state, data.state)
         self.assertEqual(orig_data.state_time, data.state_time)
         self.assertEqual(build_num, data.id)
@@ -666,6 +668,7 @@ class TestZKModel(tests.BaseTestCase):
         o = zk.ImageBuild('0001')
         o.state = zk.BUILDING
         o.builder = 'localhost'
+        o.builder_id = 'ABC-123'
         o.formats = ['qemu', 'raw']
 
         d = o.toDict()
@@ -674,12 +677,14 @@ class TestZKModel(tests.BaseTestCase):
         self.assertIsNotNone(d['state_time'])
         self.assertEqual(','.join(o.formats), d['formats'])
         self.assertEqual(o.builder, d['builder'])
+        self.assertEqual(o.builder_id, d['builder_id'])
 
     def test_ImageBuild_fromDict(self):
         now = int(time.time())
         d_id = '0001'
         d = {
             'builder': 'localhost',
+            'builder_id': 'ABC-123',
             'formats': 'qemu,raw',
             'state': zk.BUILDING,
             'state_time': now
@@ -690,6 +695,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.state, d['state'])
         self.assertEqual(o.state_time, d['state_time'])
         self.assertEqual(o.builder, d['builder'])
+        self.assertEqual(o.builder_id, d['builder_id'])
         self.assertEqual(o.formats, d['formats'].split(','))
 
     def test_ImageUpload_toDict(self):
diff --git a/nodepool/zk.py b/nodepool/zk.py
index e2f408de4..8459f34b1 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -189,13 +189,21 @@ class BaseModel(object):
 class ImageBuild(BaseModel):
     '''
     Class representing a DIB image build within the ZooKeeper cluster.
+
+    Note that the 'builder' attribute used to be used to uniquely identify
+    the owner of an image build in ZooKeeper. Because hostname was used, if
+    it ever changed, then we would get orphaned znodes. The 'builder_id'
+    attribute was added as a replacement, keeping 'builder' to mean the
+    same thing (which is why this attribute is not called 'hostname' or
+    similar).
     '''
     VALID_STATES = set([BUILDING, READY, DELETING, FAILED])
 
     def __init__(self, build_id=None):
         super(ImageBuild, self).__init__(build_id)
         self._formats = []
-        self.builder = None          # Builder hostname
+        self.builder = None       # Hostname
+        self.builder_id = None    # Unique ID
 
     def __repr__(self):
         d = self.toDict()
@@ -223,6 +231,8 @@ class ImageBuild(BaseModel):
         d = super(ImageBuild, self).toDict()
         if self.builder is not None:
             d['builder'] = self.builder
+        if self.builder_id is not None:
+            d['builder_id'] = self.builder_id
         if len(self.formats):
             d['formats'] = ','.join(self.formats)
         return d
@@ -240,6 +250,7 @@ class ImageBuild(BaseModel):
         o = ImageBuild(o_id)
         super(ImageBuild, o).fromDict(d)
         o.builder = d.get('builder')
+        o.builder_id = d.get('builder_id')
         # Only attempt the split on non-empty string
         if d.get('formats', ''):
             o.formats = d.get('formats', '').split(',')

From 2f328d9f575c13aed82d4c778fd61225e59a8ebe Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Sun, 28 May 2017 23:21:22 +0000
Subject: [PATCH 234/309] Abstract Nodepool request handling code

This change moves the generic NodeRequestHandler code to a common
driver module to support multiple implementation.

Change-Id: I7c52e67b3133dd2ef1cc110f65ff705afe8337ca
Story: 2001044
Task: 4611
---
 nodepool/driver/__init__.py              | 251 +++++++++++++++++++++++
 nodepool/launcher.py                     | 225 ++------------------
 nodepool/tests/test_nodelaunchmanager.py |  14 +-
 3 files changed, 270 insertions(+), 220 deletions(-)
 create mode 100644 nodepool/driver/__init__.py
 mode change 100644 => 100755 nodepool/launcher.py

diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
new file mode 100644
index 000000000..210fc29ff
--- /dev/null
+++ b/nodepool/driver/__init__.py
@@ -0,0 +1,251 @@
+# Copyright (C) 2011-2014 OpenStack Foundation
+# Copyright (C) 2017 Red Hat
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
+# implied.
+#
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import abc
+
+import six
+
+from nodepool import zk
+
+
+@six.add_metaclass(abc.ABCMeta)
+class NodeRequestHandler(object):
+    '''
+    Class to process a single node request.
+
+    The PoolWorker thread will instantiate a class of this type for each
+    node request that it pulls from ZooKeeper.
+
+    Subclasses are required to implement the run_handler method and the
+    NodeLaunchManager to kick off any threads needed to satisfy the request.
+    '''
+
+    def __init__(self, pw, request):
+        '''
+        :param PoolWorker pw: The parent PoolWorker object.
+        :param NodeRequest request: The request to handle.
+        '''
+        self.pw = pw
+        self.request = request
+        self.launch_manager = None
+        self.nodeset = []
+        self.done = False
+        self.paused = False
+
+    def _setFromPoolWorker(self):
+        '''
+        Set values that we pull from the parent PoolWorker.
+
+        We don't do this in __init__ because this class is re-entrant and we
+        want the updated values.
+        '''
+        self.provider = self.pw.getProviderConfig()
+        self.pool = self.pw.getPoolConfig()
+        self.zk = self.pw.getZK()
+        self.manager = self.pw.getProviderManager()
+        self.launcher_id = self.pw.launcher_id
+
+    @property
+    def alive_thread_count(self):
+        if not self.launch_manager:
+            return 0
+        return self.launch_manager.alive_thread_count
+
+    #----------------------------------------------------------------
+    # Public methods
+    #----------------------------------------------------------------
+
+    def unlockNodeSet(self, clear_allocation=False):
+        '''
+        Attempt unlocking all Nodes in the node set.
+
+        :param bool clear_allocation: If true, clears the node allocated_to
+            attribute.
+        '''
+        for node in self.nodeset:
+            if not node.lock:
+                continue
+
+            if clear_allocation:
+                node.allocated_to = None
+                self.zk.storeNode(node)
+
+            try:
+                self.zk.unlockNode(node)
+            except Exception:
+                self.log.exception("Error unlocking node:")
+            self.log.debug("Unlocked node %s for request %s",
+                           node.id, self.request.id)
+
+        self.nodeset = []
+
+    def run(self):
+        '''
+        Execute node request handling.
+
+        This code is designed to be re-entrant. Because we can't always
+        satisfy a request immediately (due to lack of provider resources), we
+        need to be able to call run() repeatedly until the request can be
+        fulfilled. The node set is saved and added to between calls.
+        '''
+        try:
+            self.run_handler()
+        except Exception:
+            self.log.exception("Exception in NodeRequestHandler:")
+            self.unlockNodeSet(clear_allocation=True)
+            self.request.state = zk.FAILED
+            self.zk.storeNodeRequest(self.request)
+            self.zk.unlockNodeRequest(self.request)
+            self.done = True
+
+    def poll(self):
+        '''
+        Check if the request has been handled.
+
+        Once the request has been handled, the 'nodeset' attribute will be
+        filled with the list of nodes assigned to the request, or it will be
+        empty if the request could not be fulfilled.
+
+        :returns: True if we are done with the request, False otherwise.
+        '''
+        if self.paused:
+            return False
+
+        if self.done:
+            return True
+
+        if not self.launch_manager.poll():
+            return False
+
+        # If the request has been pulled, unallocate the node set so other
+        # requests can use them.
+        if not self.zk.getNodeRequest(self.request.id):
+            self.log.info("Node request %s disappeared", self.request.id)
+            for node in self.nodeset:
+                node.allocated_to = None
+                self.zk.storeNode(node)
+            self.unlockNodeSet()
+            self.zk.unlockNodeRequest(self.request)
+            return True
+
+        if self.launch_manager.failed_nodes:
+            self.log.debug("Declining node request %s because nodes failed",
+                           self.request.id)
+            self.request.declined_by.append(self.launcher_id)
+            launchers = set(self.zk.getRegisteredLaunchers())
+            if launchers.issubset(set(self.request.declined_by)):
+                # All launchers have declined it
+                self.log.debug("Failing declined node request %s",
+                               self.request.id)
+                self.request.state = zk.FAILED
+            else:
+                self.request.state = zk.REQUESTED
+        else:
+            for node in self.nodeset:
+                # Record node ID in the request
+                self.request.nodes.append(node.id)
+            self.log.debug("Fulfilled node request %s",
+                           self.request.id)
+            self.request.state = zk.FULFILLED
+
+        self.unlockNodeSet()
+        self.zk.storeNodeRequest(self.request)
+        self.zk.unlockNodeRequest(self.request)
+        return True
+
+    @abc.abstractmethod
+    def run_handler(self):
+        pass
+
+
+@six.add_metaclass(abc.ABCMeta)
+class NodeLaunchManager(object):
+    '''
+    Handle launching multiple nodes in parallel.
+
+    Subclasses are required to implement the launch method.
+    '''
+    def __init__(self, zk, pool, provider_manager,
+                 requestor, retries):
+        '''
+        Initialize the launch manager.
+
+        :param ZooKeeper zk: A ZooKeeper object.
+        :param ProviderPool pool: A config ProviderPool object.
+        :param ProviderManager provider_manager: The manager object used to
+            interact with the selected provider.
+        :param str requestor: Identifier for the request originator.
+        :param int retries: Number of times to retry failed launches.
+        '''
+        self._retries = retries
+        self._nodes = []
+        self._failed_nodes = []
+        self._ready_nodes = []
+        self._threads = []
+        self._zk = zk
+        self._pool = pool
+        self._manager = provider_manager
+        self._requestor = requestor
+
+    @property
+    def alive_thread_count(self):
+        count = 0
+        for t in self._threads:
+            if t.isAlive():
+                count += 1
+        return count
+
+    @property
+    def failed_nodes(self):
+        return self._failed_nodes
+
+    @property
+    def ready_nodes(self):
+        return self._ready_nodes
+
+    def poll(self):
+        '''
+        Check if all launch requests have completed.
+
+        When all of the Node objects have reached a final state (READY or
+        FAILED), we'll know all threads have finished the launch process.
+        '''
+        if not self._threads:
+            return True
+
+        # Give the NodeLaunch threads time to finish.
+        if self.alive_thread_count:
+            return False
+
+        node_states = [node.state for node in self._nodes]
+
+        # NOTE: It very important that NodeLauncher always sets one of
+        # these states, no matter what.
+        if not all(s in (zk.READY, zk.FAILED) for s in node_states):
+            return False
+
+        for node in self._nodes:
+            if node.state == zk.READY:
+                self._ready_nodes.append(node)
+            else:
+                self._failed_nodes.append(node)
+
+        return True
+
+    @abc.abstractmethod
+    def launch(self, node):
+        pass
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
old mode 100644
new mode 100755
index dbec1e7f8..c8a9adc80
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -32,6 +32,8 @@ from nodepool import provider_manager
 from nodepool import stats
 from nodepool import config as nodepool_config
 from nodepool import zk
+from nodepool.driver import NodeRequestHandler
+from nodepool.driver import NodeLaunchManager
 
 MINS = 60
 HOURS = 60 * MINS
@@ -452,48 +454,7 @@ class NodeLauncher(threading.Thread, StatsReporter):
             self.log.exception("Exception while reporting stats:")
 
 
-class NodeLaunchManager(object):
-    '''
-    Handle launching multiple nodes in parallel.
-    '''
-    def __init__(self, zk, pool, provider_manager,
-                 requestor, retries):
-        '''
-        Initialize the launch manager.
-
-        :param ZooKeeper zk: A ZooKeeper object.
-        :param ProviderPool pool: A config ProviderPool object.
-        :param ProviderManager provider_manager: The manager object used to
-            interact with the selected provider.
-        :param str requestor: Identifier for the request originator.
-        :param int retries: Number of times to retry failed launches.
-        '''
-        self._retries = retries
-        self._nodes = []
-        self._failed_nodes = []
-        self._ready_nodes = []
-        self._threads = []
-        self._zk = zk
-        self._pool = pool
-        self._manager = provider_manager
-        self._requestor = requestor
-
-    @property
-    def alive_thread_count(self):
-        count = 0
-        for t in self._threads:
-            if t.isAlive():
-                count += 1
-        return count
-
-    @property
-    def failed_nodes(self):
-        return self._failed_nodes
-
-    @property
-    def ready_nodes(self):
-        return self._ready_nodes
-
+class OpenStackNodeLaunchManager(NodeLaunchManager):
     def launch(self, node):
         '''
         Launch a new node as described by the supplied Node.
@@ -511,70 +472,13 @@ class NodeLaunchManager(object):
         t.start()
         self._threads.append(t)
 
-    def poll(self):
-        '''
-        Check if all launch requests have completed.
 
-        When all of the Node objects have reached a final state (READY or
-        FAILED), we'll know all threads have finished the launch process.
-        '''
-        if not self._threads:
-            return True
-
-        # Give the NodeLaunch threads time to finish.
-        if self.alive_thread_count:
-            return False
-
-        node_states = [node.state for node in self._nodes]
-
-        # NOTE: It very important that NodeLauncher always sets one of
-        # these states, no matter what.
-        if not all(s in (zk.READY, zk.FAILED) for s in node_states):
-            return False
-
-        for node in self._nodes:
-            if node.state == zk.READY:
-                self._ready_nodes.append(node)
-            else:
-                self._failed_nodes.append(node)
-
-        return True
-
-
-class NodeRequestHandler(object):
-    '''
-    Class to process a single node request.
-
-    The PoolWorker thread will instantiate a class of this type for each
-    node request that it pulls from ZooKeeper.
-    '''
+class OpenStackNodeRequestHandler(NodeRequestHandler):
+    log = logging.getLogger("nodepool.OpenStackNodeRequestHandler")
 
     def __init__(self, pw, request):
-        '''
-        :param PoolWorker pw: The parent PoolWorker object.
-        :param NodeRequest request: The request to handle.
-        '''
-        self.log = logging.getLogger("nodepool.NodeRequestHandler")
-        self.pw = pw
-        self.request = request
-        self.launch_manager = None
-        self.nodeset = []
-        self.done = False
+        super(OpenStackNodeRequestHandler, self).__init__(pw, request)
         self.chosen_az = None
-        self.paused = False
-
-    def _setFromPoolWorker(self):
-        '''
-        Set values that we pull from the parent PoolWorker.
-
-        We don't do this in __init__ because this class is re-entrant and we
-        want the updated values.
-        '''
-        self.provider = self.pw.getProviderConfig()
-        self.pool = self.pw.getPoolConfig()
-        self.zk = self.pw.getZK()
-        self.manager = self.pw.getProviderManager()
-        self.launcher_id = self.pw.launcher_id
 
     def _imagesAvailable(self):
         '''
@@ -649,7 +553,7 @@ class NodeRequestHandler(object):
             expected failure from the underlying library, which is ok for now.
         '''
         if not self.launch_manager:
-            self.launch_manager = NodeLaunchManager(
+            self.launch_manager = OpenStackNodeLaunchManager(
                 self.zk, self.pool, self.manager,
                 self.request.requestor, retries=self.provider.launch_retries)
 
@@ -751,7 +655,7 @@ class NodeRequestHandler(object):
                 self.nodeset.append(node)
                 self.launch_manager.launch(node)
 
-    def _run(self):
+    def run_handler(self):
         '''
         Main body for the NodeRequestHandler.
         '''
@@ -792,114 +696,6 @@ class NodeRequestHandler(object):
 
         self._waitForNodeSet()
 
-    @property
-    def alive_thread_count(self):
-        if not self.launch_manager:
-            return 0
-        return self.launch_manager.alive_thread_count
-
-    #----------------------------------------------------------------
-    # Public methods
-    #----------------------------------------------------------------
-
-    def unlockNodeSet(self, clear_allocation=False):
-        '''
-        Attempt unlocking all Nodes in the node set.
-
-        :param bool clear_allocation: If true, clears the node allocated_to
-            attribute.
-        '''
-        for node in self.nodeset:
-            if not node.lock:
-                continue
-
-            if clear_allocation:
-                node.allocated_to = None
-                self.zk.storeNode(node)
-
-            try:
-                self.zk.unlockNode(node)
-            except Exception:
-                self.log.exception("Error unlocking node:")
-            self.log.debug("Unlocked node %s for request %s",
-                           node.id, self.request.id)
-
-        self.nodeset = []
-
-    def run(self):
-        '''
-        Execute node request handling.
-
-        This code is designed to be re-entrant. Because we can't always
-        satisfy a request immediately (due to lack of provider resources), we
-        need to be able to call run() repeatedly until the request can be
-        fulfilled. The node set is saved and added to between calls.
-        '''
-        try:
-            self._run()
-        except Exception:
-            self.log.exception("Exception in NodeRequestHandler:")
-            self.unlockNodeSet(clear_allocation=True)
-            self.request.state = zk.FAILED
-            self.zk.storeNodeRequest(self.request)
-            self.zk.unlockNodeRequest(self.request)
-            self.done = True
-
-    def poll(self):
-        '''
-        Check if the request has been handled.
-
-        Once the request has been handled, the 'nodeset' attribute will be
-        filled with the list of nodes assigned to the request, or it will be
-        empty if the request could not be fulfilled.
-
-        :returns: True if we are done with the request, False otherwise.
-        '''
-        if self.paused:
-            return False
-
-        if self.done:
-            return True
-
-        if not self.launch_manager.poll():
-            return False
-
-        # If the request has been pulled, unallocate the node set so other
-        # requests can use them.
-        if not self.zk.getNodeRequest(self.request.id):
-            self.log.info("Node request %s disappeared", self.request.id)
-            for node in self.nodeset:
-                node.allocated_to = None
-                self.zk.storeNode(node)
-            self.unlockNodeSet()
-            self.zk.unlockNodeRequest(self.request)
-            return True
-
-        if self.launch_manager.failed_nodes:
-            self.log.debug("Declining node request %s because nodes failed",
-                           self.request.id)
-            self.request.declined_by.append(self.launcher_id)
-            launchers = set(self.zk.getRegisteredLaunchers())
-            if launchers.issubset(set(self.request.declined_by)):
-                # All launchers have declined it
-                self.log.debug("Failing declined node request %s",
-                               self.request.id)
-                self.request.state = zk.FAILED
-            else:
-                self.request.state = zk.REQUESTED
-        else:
-            for node in self.nodeset:
-                # Record node ID in the request
-                self.request.nodes.append(node.id)
-            self.log.debug("Fulfilled node request %s",
-                           self.request.id)
-            self.request.state = zk.FULFILLED
-
-        self.unlockNodeSet()
-        self.zk.storeNodeRequest(self.request)
-        self.zk.unlockNodeRequest(self.request)
-        return True
-
 
 class PoolWorker(threading.Thread):
     '''
@@ -933,6 +729,9 @@ class PoolWorker(threading.Thread):
     # Private methods
     #----------------------------------------------------------------
 
+    def _get_node_request_handler(self, request):
+        return OpenStackNodeRequestHandler(self, request)
+
     def _assignHandlers(self):
         '''
         For each request we can grab, create a NodeRequestHandler for it.
@@ -986,7 +785,7 @@ class PoolWorker(threading.Thread):
 
             # Got a lock, so assign it
             self.log.info("Assigning node request %s" % req)
-            rh = NodeRequestHandler(self, req)
+            rh = self._get_node_request_handler(req)
             rh.run()
             if rh.paused:
                 self.paused_handler = rh
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index c8833a9d2..dba358578 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -21,7 +21,7 @@ from nodepool import builder
 from nodepool import provider_manager
 from nodepool import tests
 from nodepool import zk
-from nodepool.launcher import NodeLaunchManager
+from nodepool.launcher import OpenStackNodeLaunchManager
 
 
 class TestNodeLaunchManager(tests.DBTestCase):
@@ -53,8 +53,8 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n1 = zk.Node()
         n1.state = zk.BUILDING
         n1.type = 'fake-label'
-        mgr = NodeLaunchManager(self.zk, self.provider_pool,
-                                self.pmanager, 'zuul', 1)
+        mgr = OpenStackNodeLaunchManager(self.zk, self.provider_pool,
+                                         self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         while not mgr.poll():
             time.sleep(0)
@@ -70,8 +70,8 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n1 = zk.Node()
         n1.state = zk.BUILDING
         n1.type = 'fake-label'
-        mgr = NodeLaunchManager(self.zk, self.provider_pool,
-                                self.pmanager, 'zuul', 1)
+        mgr = OpenStackNodeLaunchManager(self.zk, self.provider_pool,
+                                         self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         while not mgr.poll():
             time.sleep(0)
@@ -90,8 +90,8 @@ class TestNodeLaunchManager(tests.DBTestCase):
         n2 = zk.Node()
         n2.state = zk.BUILDING
         n2.type = 'fake-label'
-        mgr = NodeLaunchManager(self.zk, self.provider_pool,
-                                self.pmanager, 'zuul', 1)
+        mgr = OpenStackNodeLaunchManager(self.zk, self.provider_pool,
+                                         self.pmanager, 'zuul', 1)
         mgr.launch(n1)
         mgr.launch(n2)
         while not mgr.poll():

From 27b600ee2c911239d8a9d3dd05e42368d451b238 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Sat, 17 Jun 2017 06:46:07 +0000
Subject: [PATCH 235/309] Abstract Nodepool provider management code

This change adds a generic Provider meta class to the common
driver module to support multiple implementation. It also renames
some method to better match other drivers use-cases, e.g.:
* listServers into listNodes
* cleanupServer into cleanupNode

Change-Id: I6fab952db372312f12e57c6212f6ebde59a1a6b3
Story: 2001044
Task: 4612
---
 nodepool/cmd/nodepoolcmd.py              |  4 +--
 nodepool/driver/__init__.py              | 36 ++++++++++++++++++++++++
 nodepool/launcher.py                     | 14 ++++-----
 nodepool/provider_manager.py             | 28 +++++++++++-------
 nodepool/tests/__init__.py               |  4 +--
 nodepool/tests/test_builder.py           |  2 +-
 nodepool/tests/test_launcher.py          |  6 ++--
 nodepool/tests/test_nodelaunchmanager.py |  3 +-
 nodepool/tests/test_shade_integration.py |  2 +-
 9 files changed, 72 insertions(+), 27 deletions(-)
 mode change 100644 => 100755 nodepool/provider_manager.py

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 1fb4d564e..72fbdb5e5 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -180,7 +180,7 @@ class NodePoolCmd(NodepoolApp):
             manager = self.pool.getProviderManager(provider)
 
             try:
-                servers = manager.listServers()
+                servers = manager.listNodes()
                 known = set([n.external_id for n in self.zk.nodeIterator()
                              if n.provider == provider.name])
                 for server in servers:
@@ -264,7 +264,7 @@ class NodePoolCmd(NodepoolApp):
         self.zk.lockNode(node, blocking=True, timeout=5)
 
         if self.args.now:
-            manager = provider_manager.get_provider_manager(provider, True)
+            manager = provider_manager.get_provider(provider, True)
             manager.start()
             launcher.InstanceDeleter.delete(self.zk, manager, node)
             manager.stop()
diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 210fc29ff..38444edcd 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -22,6 +22,42 @@ import six
 from nodepool import zk
 
 
+@six.add_metaclass(abc.ABCMeta)
+class Provider(object):
+    """The Provider interface
+
+    The class or instance attribute **name** must be provided as a string.
+
+    """
+    @abc.abstractmethod
+    def start(self):
+        pass
+
+    @abc.abstractmethod
+    def stop(self):
+        pass
+
+    @abc.abstractmethod
+    def join(self):
+        pass
+
+    @abc.abstractmethod
+    def labelReady(self, name):
+        pass
+
+    @abc.abstractmethod
+    def cleanupNode(self, node_id):
+        pass
+
+    @abc.abstractmethod
+    def waitForNodeCleanup(self, node_id):
+        pass
+
+    @abc.abstractmethod
+    def listNodes(self):
+        pass
+
+
 @six.add_metaclass(abc.ABCMeta)
 class NodeRequestHandler(object):
     '''
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index c8a9adc80..e24b9006b 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -186,8 +186,8 @@ class InstanceDeleter(threading.Thread, StatsReporter):
             node.state = zk.DELETING
             zk_conn.storeNode(node)
             if node.external_id:
-                manager.cleanupServer(node.external_id)
-                manager.waitForServerDeletion(node.external_id)
+                manager.cleanupNode(node.external_id)
+                manager.waitForNodeCleanup(node.external_id)
         except provider_manager.NotFound:
             InstanceDeleter.log.info("Instance %s not found in provider %s",
                                      node.external_id, node.provider)
@@ -412,8 +412,8 @@ class NodeLauncher(threading.Thread, StatsReporter):
                         attempts, self._retries, self._node.id)
                 # If we created an instance, delete it.
                 if self._node.external_id:
-                    self._manager.cleanupServer(self._node.external_id)
-                    self._manager.waitForServerDeletion(self._node.external_id)
+                    self._manager.cleanupNode(self._node.external_id)
+                    self._manager.waitForNodeCleanup(self._node.external_id)
                     self._node.external_id = None
                     self._node.public_ipv4 = None
                     self._node.public_ipv6 = None
@@ -493,7 +493,7 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
 
             if self.pool.labels[label].cloud_image:
                 img = self.pool.labels[label].cloud_image
-                if not self.manager.getImage(img):
+                if not self.manager.labelReady(img):
                     return False
             else:
                 img = self.pool.labels[label].diskimage.name
@@ -1014,7 +1014,7 @@ class CleanupWorker(BaseCleanupWorker):
         for provider in self._nodepool.config.providers.values():
             manager = self._nodepool.getProviderManager(provider.name)
 
-            for server in manager.listServers():
+            for server in manager.listNodes():
                 meta = server.get('metadata', {})
 
                 if 'nodepool_provider_name' not in meta:
@@ -1334,7 +1334,7 @@ class NodePool(threading.Thread):
             for pool_label in pool.labels.values():
                 if pool_label.cloud_image:
                     manager = self.getProviderManager(pool.provider.name)
-                    if manager.getImage(pool_label.cloud_image):
+                    if manager.labelReady(pool_label.cloud_image):
                         return True
                 elif self.zk.getMostRecentImageUpload(pool_label.diskimage.name,
                                                       pool.provider.name):
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
old mode 100644
new mode 100755
index 4da982a7f..5a9c35a47
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -24,6 +24,7 @@ import shade
 
 from nodepool import exceptions
 from nodepool import fakeprovider
+from nodepool.driver import Provider
 from nodepool.nodeutils import iterate_timeout
 from nodepool.task_manager import ManagerStoppedException
 from nodepool.task_manager import TaskManager
@@ -45,11 +46,11 @@ class NotFound(Exception):
     pass
 
 
-def get_provider_manager(provider, use_taskmanager):
+def get_provider(provider, use_taskmanager):
     if provider.name.startswith('fake'):
-        return FakeProviderManager(provider, use_taskmanager)
+        return FakeProvider(provider, use_taskmanager)
     else:
-        return ProviderManager(provider, use_taskmanager)
+        return OpenStackProvider(provider, use_taskmanager)
 
 
 class ProviderManager(object):
@@ -71,7 +72,7 @@ class ProviderManager(object):
                 ProviderManager.log.debug("Creating new ProviderManager object"
                                           " for %s" % p.name)
                 new_config.provider_managers[p.name] = \
-                    get_provider_manager(p, use_taskmanager)
+                    get_provider(p, use_taskmanager)
                 new_config.provider_managers[p.name].start()
 
         for stop_manager in stop_managers:
@@ -83,6 +84,10 @@ class ProviderManager(object):
             m.stop()
             m.join()
 
+
+class OpenStackProvider(Provider):
+    log = logging.getLogger("nodepool.OpenStackProvider")
+
     def __init__(self, provider, use_taskmanager):
         self.provider = provider
         self._images = {}
@@ -261,7 +266,7 @@ class ProviderManager(object):
                 server=server, auto_ip=True, reuse=False,
                 timeout=timeout)
 
-    def waitForServerDeletion(self, server_id, timeout=600):
+    def waitForNodeCleanup(self, server_id, timeout=600):
         for count in iterate_timeout(
                 timeout, exceptions.ServerDeleteException,
                 "server %s deletion" % server_id):
@@ -314,6 +319,9 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             return self._client.get_image(image_id)
 
+    def labelReady(self, image_id):
+        return self.getImage(image_id)
+
     def uploadImage(self, image_name, filename, image_type=None, meta=None,
             md5=None, sha256=None):
         # configure glance and upload image.  Note the meta flags
@@ -349,7 +357,7 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             return self._client.list_flavors(get_extra=False)
 
-    def listServers(self):
+    def listNodes(self):
         # shade list_servers carries the nodepool server list caching logic
         with shade_inner_exceptions():
             return self._client.list_servers()
@@ -358,7 +366,7 @@ class ProviderManager(object):
         with shade_inner_exceptions():
             return self._client.delete_server(server_id, delete_ips=True)
 
-    def cleanupServer(self, server_id):
+    def cleanupNode(self, server_id):
         server = self.getServer(server_id)
         if not server:
             raise NotFound()
@@ -382,11 +390,11 @@ class ProviderManager(object):
         return self.__azs
 
 
-class FakeProviderManager(ProviderManager):
+class FakeProvider(OpenStackProvider):
     def __init__(self, provider, use_taskmanager):
         self.createServer_fails = 0
         self.__client = fakeprovider.FakeOpenStackCloud()
-        super(FakeProviderManager, self).__init__(provider, use_taskmanager)
+        super(FakeProvider, self).__init__(provider, use_taskmanager)
 
     def _getClient(self):
         return self.__client
@@ -395,4 +403,4 @@ class FakeProviderManager(ProviderManager):
         while self.createServer_fails:
             self.createServer_fails -= 1
             raise Exception("Expected createServer exception")
-        return super(FakeProviderManager, self).createServer(*args, **kwargs)
+        return super(FakeProvider, self).createServer(*args, **kwargs)
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index ccbc4c821..52ba45813 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -198,7 +198,7 @@ class BaseTestCase(testtools.TestCase):
             return fake_client
 
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.provider_manager.ProviderManager._getClient',
+            'nodepool.provider_manager.OpenStackProvider._getClient',
             get_fake_client))
         self.useFixture(fixtures.MonkeyPatch(
             'nodepool.launcher._get_one_cloud',
@@ -431,7 +431,7 @@ class DBTestCase(BaseTestCase):
 
     def waitForInstanceDeletion(self, manager, instance_id):
         while True:
-            servers = manager.listServers()
+            servers = manager.listNodes()
             if not (instance_id in [s.id for s in servers]):
                 break
             time.sleep(1)
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 14412ade6..6f5acb0bb 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -105,7 +105,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
             return fake_client
 
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.provider_manager.FakeProviderManager._getClient',
+            'nodepool.provider_manager.FakeProvider._getClient',
             get_fake_client))
         self.useFixture(fixtures.MonkeyPatch(
             'nodepool.launcher._get_one_cloud',
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 1a8343fe5..273f00bf9 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -400,7 +400,7 @@ class TestLauncher(tests.DBTestCase):
         def fail_delete(self, name):
             raise RuntimeError('Fake Error')
 
-        fake_delete = 'nodepool.provider_manager.FakeProviderManager.deleteServer'
+        fake_delete = 'nodepool.provider_manager.FakeProvider.deleteServer'
         self.useFixture(fixtures.MonkeyPatch(fake_delete, fail_delete))
 
         configfile = self.setup_config('node.yaml')
@@ -439,7 +439,7 @@ class TestLauncher(tests.DBTestCase):
         # Make sure we have a node built and ready
         self.assertEqual(len(nodes), 1)
         manager = pool.getProviderManager('fake-provider')
-        servers = manager.listServers()
+        servers = manager.listNodes()
         self.assertEqual(len(servers), 1)
 
         # Delete the node from ZooKeeper, but leave the instance
@@ -458,7 +458,7 @@ class TestLauncher(tests.DBTestCase):
         self.waitForInstanceDeletion(manager, nodes[0].external_id)
 
         # Make sure we end up with only one server (the replacement)
-        servers = manager.listServers()
+        servers = manager.listNodes()
         self.assertEqual(len(servers), 1)
 
     def test_max_ready_age(self):
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index dba358578..70513360e 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -43,7 +43,8 @@ class TestNodeLaunchManager(tests.DBTestCase):
         self.provider_pool = self.provider.pools['main']
 
         # The builder config does not have a provider manager, so create one.
-        self.pmanager = provider_manager.ProviderManager(self.provider, False)
+        self.pmanager = provider_manager.get_provider(
+            self.provider, False)
         self.pmanager.resetClient()
 
     def test_successful_launch(self):
diff --git a/nodepool/tests/test_shade_integration.py b/nodepool/tests/test_shade_integration.py
index 140097b19..66a4fbe2a 100644
--- a/nodepool/tests/test_shade_integration.py
+++ b/nodepool/tests/test_shade_integration.py
@@ -63,7 +63,7 @@ class TestShadeIntegration(tests.IntegrationTestCase):
 
         config = nodepool_config.loadConfig(configfile)
         self.assertIn('real-provider', config.providers)
-        pm = provider_manager.ProviderManager(
+        pm = provider_manager.get_provider(
             config.providers['real-provider'], use_taskmanager=False)
         pm.start()
         self.assertEqual(pm._client.auth, auth_data)

From 4d201328f5ed64536336212b3ce7bfd89035aa85 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Sat, 17 Jun 2017 07:26:47 +0000
Subject: [PATCH 236/309] Collect request handling implementation in an
 OpenStack driver

This change moves OpenStack related code to a driver. To avoid circular
import, this change also moves the StatsReporter to the stats module so that
the handlers doesn't have to import the launcher.

Change-Id: I319ce8780aa7e81b079c3f31d546b89eca6cf5f4
Story: 2001044
Task: 4614
---
 nodepool/cmd/nodepoolcmd.py              |   2 +-
 nodepool/driver/fake/__init__.py         |   0
 nodepool/driver/fake/provider.py         |  34 ++
 nodepool/driver/openstack/__init__.py    |   0
 nodepool/driver/openstack/handler.py     | 506 +++++++++++++++++++
 nodepool/driver/openstack/provider.py    | 344 +++++++++++++
 nodepool/exceptions.py                   |  20 +
 nodepool/launcher.py                     | 617 +----------------------
 nodepool/provider_manager.py             | 349 +------------
 nodepool/stats.py                        |  97 ++++
 nodepool/tests/__init__.py               |   3 +-
 nodepool/tests/test_builder.py           |   2 +-
 nodepool/tests/test_launcher.py          |   4 +-
 nodepool/tests/test_nodelaunchmanager.py |   6 +-
 nodepool/tests/test_shade_integration.py |   2 +-
 15 files changed, 1027 insertions(+), 959 deletions(-)
 create mode 100644 nodepool/driver/fake/__init__.py
 create mode 100644 nodepool/driver/fake/provider.py
 create mode 100644 nodepool/driver/openstack/__init__.py
 create mode 100644 nodepool/driver/openstack/handler.py
 create mode 100755 nodepool/driver/openstack/provider.py
 mode change 100644 => 100755 nodepool/exceptions.py
 mode change 100644 => 100755 nodepool/stats.py

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 72fbdb5e5..f38b01c23 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -266,7 +266,7 @@ class NodePoolCmd(NodepoolApp):
         if self.args.now:
             manager = provider_manager.get_provider(provider, True)
             manager.start()
-            launcher.InstanceDeleter.delete(self.zk, manager, node)
+            launcher.NodeDeleter.delete(self.zk, manager, node)
             manager.stop()
         else:
             node.state = zk.DELETING
diff --git a/nodepool/driver/fake/__init__.py b/nodepool/driver/fake/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/nodepool/driver/fake/provider.py b/nodepool/driver/fake/provider.py
new file mode 100644
index 000000000..0a11b41fb
--- /dev/null
+++ b/nodepool/driver/fake/provider.py
@@ -0,0 +1,34 @@
+# Copyright (C) 2011-2013 OpenStack Foundation
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
+# implied.
+#
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from nodepool import fakeprovider
+from nodepool.driver.openstack.provider import OpenStackProvider
+
+
+class FakeProvider(OpenStackProvider):
+    def __init__(self, provider, use_taskmanager):
+        self.createServer_fails = 0
+        self.__client = fakeprovider.FakeOpenStackCloud()
+        super(FakeProvider, self).__init__(provider, use_taskmanager)
+
+    def _getClient(self):
+        return self.__client
+
+    def createServer(self, *args, **kwargs):
+        while self.createServer_fails:
+            self.createServer_fails -= 1
+            raise Exception("Expected createServer exception")
+        return super(FakeProvider, self).createServer(*args, **kwargs)
diff --git a/nodepool/driver/openstack/__init__.py b/nodepool/driver/openstack/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
new file mode 100644
index 000000000..cdb145746
--- /dev/null
+++ b/nodepool/driver/openstack/handler.py
@@ -0,0 +1,506 @@
+# Copyright (C) 2011-2014 OpenStack Foundation
+# Copyright 2017 Red Hat
+#
+# Licensed under the Apache License, Version 2.0 (the "License"); you may
+# not use this file except in compliance with the License. You may obtain
+# a copy of the License at
+#
+#      http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
+# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
+# License for the specific language governing permissions and limitations
+# under the License.
+
+import collections
+import logging
+import pprint
+import random
+import threading
+import time
+
+from nodepool import exceptions
+from nodepool import nodeutils as utils
+from nodepool import stats
+from nodepool import zk
+from nodepool.driver import NodeLaunchManager
+from nodepool.driver import NodeRequestHandler
+
+
+class NodeLauncher(threading.Thread, stats.StatsReporter):
+    log = logging.getLogger("nodepool.driver.openstack."
+                            "NodeLauncher")
+
+    def __init__(self, zk, provider_label, provider_manager, requestor,
+                 node, retries):
+        '''
+        Initialize the launcher.
+
+        :param ZooKeeper zk: A ZooKeeper object.
+        :param ProviderLabel provider: A config ProviderLabel object.
+        :param ProviderManager provider_manager: The manager object used to
+            interact with the selected provider.
+        :param str requestor: Identifier for the request originator.
+        :param Node node: The node object.
+        :param int retries: Number of times to retry failed launches.
+        '''
+        threading.Thread.__init__(self, name="NodeLauncher-%s" % node.id)
+        stats.StatsReporter.__init__(self)
+        self.log = logging.getLogger("nodepool.NodeLauncher-%s" % node.id)
+        self._zk = zk
+        self._label = provider_label
+        self._manager = provider_manager
+        self._node = node
+        self._retries = retries
+        self._image_name = None
+        self._requestor = requestor
+
+        self._pool = self._label.pool
+        self._provider = self._pool.provider
+        if self._label.diskimage:
+            self._diskimage = self._provider.diskimages[self._label.diskimage.name]
+        else:
+            self._diskimage = None
+        self._cloud_image = self._provider.cloud_images.get(self._label.cloud_image, None)
+
+    def logConsole(self, server_id, hostname):
+        if not self._label.console_log:
+            return
+        console = self._manager.getServerConsole(server_id)
+        if console:
+            self.log.debug('Console log from hostname %s:' % hostname)
+            for line in console.splitlines():
+                self.log.debug(line.rstrip())
+
+    def _launchNode(self):
+        if self._label.diskimage:
+            # launch using diskimage
+            cloud_image = self._zk.getMostRecentImageUpload(
+                self._diskimage.name, self._provider.name)
+
+            if not cloud_image:
+                raise exceptions.LaunchNodepoolException(
+                    "Unable to find current cloud image %s in %s" %
+                    (self._diskimage.name, self._provider.name)
+                )
+
+            config_drive = self._diskimage.config_drive
+            image_external = dict(id=cloud_image.external_id)
+            image_id = "{path}/{upload_id}".format(
+                path=self._zk._imageUploadPath(cloud_image.image_name,
+                                               cloud_image.build_id,
+                                               cloud_image.provider_name),
+                upload_id=cloud_image.id)
+            image_name = self._diskimage.name
+
+        else:
+            # launch using unmanaged cloud image
+            config_drive = self._cloud_image.config_drive
+
+            # These are different values for zk, but it's all the same
+            # for cloud-images.
+            # image_external is what we use for OpenStack.
+            # image_id is what we record in the node for zk.
+            # image_name is what we log, so matches the config.
+            image_external = self._cloud_image.name
+            if self._cloud_image.image_id:
+                image_external = dict(id=self._cloud_image.image_id)
+            elif self._cloud_image.image_name:
+                image_external = self._cloud_image.image_name
+            else:
+                image_external = self._cloud_image.name
+            image_id = self._cloud_image.name
+            image_name = self._cloud_image.name
+
+        hostname = self._provider.hostname_format.format(
+            label=self._label, provider=self._provider, node=self._node
+        )
+
+        self.log.info("Creating server with hostname %s in %s from image %s "
+                      "for node id: %s" % (hostname, self._provider.name,
+                                           image_name,
+                                           self._node.id))
+
+        # NOTE: We store the node ID in the server metadata to use for leaked
+        # instance detection. We cannot use the external server ID for this
+        # because that isn't available in ZooKeeper until after the server is
+        # active, which could cause a race in leak detection.
+
+        server = self._manager.createServer(
+            hostname,
+            image=image_external,
+            min_ram=self._label.min_ram,
+            flavor_name=self._label.flavor_name,
+            key_name=self._label.key_name,
+            az=self._node.az,
+            config_drive=config_drive,
+            nodepool_node_id=self._node.id,
+            nodepool_image_name=image_name,
+            networks=self._pool.networks,
+            boot_from_volume=self._label.boot_from_volume,
+            volume_size=self._label.volume_size)
+
+        self._node.external_id = server.id
+        self._node.hostname = hostname
+        self._node.image_id = image_id
+
+        # Checkpoint save the updated node info
+        self._zk.storeNode(self._node)
+
+        self.log.debug("Waiting for server %s for node id: %s" %
+                       (server.id, self._node.id))
+        server = self._manager.waitForServer(
+            server, self._provider.launch_timeout)
+
+        if server.status != 'ACTIVE':
+            raise exceptions.LaunchStatusException("Server %s for node id: %s "
+                                                   "status: %s" %
+                                                   (server.id, self._node.id,
+                                                    server.status))
+
+        # If we didn't specify an AZ, set it to the one chosen by Nova.
+        # Do this after we are done waiting since AZ may not be available
+        # immediately after the create request.
+        if not self._node.az:
+            self._node.az = server.location.zone
+
+        interface_ip = server.interface_ip
+        if not interface_ip:
+            self.log.debug(
+                "Server data for failed IP: %s" % pprint.pformat(
+                    server))
+            raise exceptions.LaunchNetworkException(
+                "Unable to find public IP of server")
+
+        self._node.interface_ip = interface_ip
+        self._node.public_ipv4 = server.public_v4
+        self._node.public_ipv6 = server.public_v6
+        self._node.private_ipv4 = server.private_v4
+        # devstack-gate multi-node depends on private_v4 being populated
+        # with something. On clouds that don't have a private address, use
+        # the public.
+        if not self._node.private_ipv4:
+            self._node.private_ipv4 = server.public_v4
+
+        # Checkpoint save the updated node info
+        self._zk.storeNode(self._node)
+
+        self.log.debug(
+            "Node %s is running [region: %s, az: %s, ip: %s ipv4: %s, "
+            "ipv6: %s]" %
+            (self._node.id, self._node.region, self._node.az,
+             self._node.interface_ip, self._node.public_ipv4,
+             self._node.public_ipv6))
+
+        # Get the SSH public keys for the new node and record in ZooKeeper
+        try:
+            self.log.debug("Gathering host keys for node %s", self._node.id)
+            host_keys = utils.keyscan(
+                interface_ip, timeout=self._provider.boot_timeout)
+            if not host_keys:
+                raise exceptions.LaunchKeyscanException(
+                    "Unable to gather host keys")
+        except exceptions.SSHTimeoutException:
+            self.logConsole(self._node.external_id, self._node.hostname)
+            raise
+
+        self._node.host_keys = host_keys
+        self._zk.storeNode(self._node)
+
+    def _run(self):
+        attempts = 1
+        while attempts <= self._retries:
+            try:
+                self._launchNode()
+                break
+            except Exception:
+                if attempts <= self._retries:
+                    self.log.exception(
+                        "Launch attempt %d/%d failed for node %s:",
+                        attempts, self._retries, self._node.id)
+                # If we created an instance, delete it.
+                if self._node.external_id:
+                    self._manager.cleanupNode(self._node.external_id)
+                    self._manager.waitForNodeCleanup(self._node.external_id)
+                    self._node.external_id = None
+                    self._node.public_ipv4 = None
+                    self._node.public_ipv6 = None
+                    self._node.inerface_ip = None
+                    self._zk.storeNode(self._node)
+                if attempts == self._retries:
+                    raise
+                attempts += 1
+
+        self._node.state = zk.READY
+        self._zk.storeNode(self._node)
+        self.log.info("Node id %s is ready", self._node.id)
+
+    def run(self):
+        start_time = time.time()
+        statsd_key = 'ready'
+
+        try:
+            self._run()
+        except Exception as e:
+            self.log.exception("Launch failed for node %s:",
+                               self._node.id)
+            self._node.state = zk.FAILED
+            self._zk.storeNode(self._node)
+
+            if hasattr(e, 'statsd_key'):
+                statsd_key = e.statsd_key
+            else:
+                statsd_key = 'error.unknown'
+
+        try:
+            dt = int((time.time() - start_time) * 1000)
+            self.recordLaunchStats(statsd_key, dt, self._image_name,
+                                   self._node.provider, self._node.az,
+                                   self._requestor)
+            self.updateNodeStats(self._zk, self._provider)
+        except Exception:
+            self.log.exception("Exception while reporting stats:")
+
+
+class OpenStackNodeLaunchManager(NodeLaunchManager):
+    def launch(self, node):
+        '''
+        Launch a new node as described by the supplied Node.
+
+        We expect each NodeLauncher thread to directly modify the node that
+        is passed to it. The poll() method will expect to see the node.state
+        attribute to change as the node is processed.
+
+        :param Node node: The node object.
+        '''
+        self._nodes.append(node)
+        provider_label = self._pool.labels[node.type]
+        t = NodeLauncher(self._zk, provider_label, self._manager,
+                         self._requestor, node, self._retries)
+        t.start()
+        self._threads.append(t)
+
+
+class OpenStackNodeRequestHandler(NodeRequestHandler):
+    log = logging.getLogger("nodepool.driver.openstack."
+                            "OpenStackNodeRequestHandler")
+
+    def __init__(self, pw, request):
+        super(OpenStackNodeRequestHandler, self).__init__(pw, request)
+        self.chosen_az = None
+
+    def _imagesAvailable(self):
+        '''
+        Determines if the requested images are available for this provider.
+
+        ZooKeeper is queried for an image uploaded to the provider that is
+        in the READY state.
+
+        :returns: True if it is available, False otherwise.
+        '''
+        for label in self.request.node_types:
+
+            if self.pool.labels[label].cloud_image:
+                img = self.pool.labels[label].cloud_image
+                if not self.manager.labelReady(img):
+                    return False
+            else:
+                img = self.pool.labels[label].diskimage.name
+
+                if not self.zk.getMostRecentImageUpload(img, self.provider.name):
+                    return False
+        return True
+
+    def _invalidNodeTypes(self):
+        '''
+        Return any node types that are invalid for this provider.
+
+        :returns: A list of node type names that are invalid, or an empty
+            list if all are valid.
+        '''
+        invalid = []
+        for ntype in self.request.node_types:
+            if ntype not in self.pool.labels:
+                invalid.append(ntype)
+        return invalid
+
+    def _countNodes(self):
+        '''
+        Query ZooKeeper to determine the number of provider nodes launched.
+
+        :returns: An integer for the number launched for this provider.
+        '''
+        count = 0
+        for node in self.zk.nodeIterator():
+            if (node.provider == self.provider.name and
+                node.pool == self.pool.name):
+                count += 1
+        return count
+
+    def _waitForNodeSet(self):
+        '''
+        Fill node set for the request.
+
+        Obtain nodes for the request, pausing all new request handling for
+        this provider until the node set can be filled.
+
+        We attempt to group the node set within the same provider availability
+        zone. For this to work properly, the provider entry in the nodepool
+        config must list the availability zones. Otherwise, new nodes will be
+        put in random AZs at nova's whim. The exception being if there is an
+        existing node in the READY state that we can select for this node set.
+        Its AZ will then be used for new nodes, as well as any other READY
+        nodes.
+
+        note:: This code is a bit racey in its calculation of the number of
+            nodes in use for quota purposes. It is possible for multiple
+            launchers to be doing this calculation at the same time. Since we
+            currently have no locking mechanism around the "in use"
+            calculation, if we are at the edge of the quota, one of the
+            launchers could attempt to launch a new node after the other
+            launcher has already started doing so. This would cause an
+            expected failure from the underlying library, which is ok for now.
+        '''
+        if not self.launch_manager:
+            self.launch_manager = OpenStackNodeLaunchManager(
+                self.zk, self.pool, self.manager,
+                self.request.requestor, retries=self.provider.launch_retries)
+
+        # Since this code can be called more than once for the same request,
+        # we need to calculate the difference between our current node set
+        # and what was requested. We cannot use set operations here since a
+        # node type can appear more than once in the requested types.
+        saved_types = collections.Counter([n.type for n in self.nodeset])
+        requested_types = collections.Counter(self.request.node_types)
+        diff = requested_types - saved_types
+        needed_types = list(diff.elements())
+
+        ready_nodes = self.zk.getReadyNodesOfTypes(needed_types)
+
+        for ntype in needed_types:
+            # First try to grab from the list of already available nodes.
+            got_a_node = False
+            if self.request.reuse and ntype in ready_nodes:
+                for node in ready_nodes[ntype]:
+                    # Only interested in nodes from this provider and
+                    # pool, and within the selected AZ.
+                    if node.provider != self.provider.name:
+                        continue
+                    if node.pool != self.pool.name:
+                        continue
+                    if self.chosen_az and node.az != self.chosen_az:
+                        continue
+
+                    try:
+                        self.zk.lockNode(node, blocking=False)
+                    except exceptions.ZKLockException:
+                        # It's already locked so skip it.
+                        continue
+                    else:
+                        if self.paused:
+                            self.log.debug("Unpaused request %s", self.request)
+                            self.paused = False
+
+                        self.log.debug(
+                            "Locked existing node %s for request %s",
+                            node.id, self.request.id)
+                        got_a_node = True
+                        node.allocated_to = self.request.id
+                        self.zk.storeNode(node)
+                        self.nodeset.append(node)
+
+                        # If we haven't already chosen an AZ, select the
+                        # AZ from this ready node. This will cause new nodes
+                        # to share this AZ, as well.
+                        if not self.chosen_az and node.az:
+                            self.chosen_az = node.az
+                        break
+
+            # Could not grab an existing node, so launch a new one.
+            if not got_a_node:
+                # Select grouping AZ if we didn't set AZ from a selected,
+                # pre-existing node
+                if not self.chosen_az:
+                    self.chosen_az = random.choice(
+                        self.pool.azs or self.manager.getAZs())
+
+                # If we calculate that we're at capacity, pause until nodes
+                # are released by Zuul and removed by the DeletedNodeWorker.
+                if self._countNodes() >= self.pool.max_servers:
+                    if not self.paused:
+                        self.log.debug(
+                            "Pausing request handling to satisfy request %s",
+                            self.request)
+                    self.paused = True
+                    return
+
+                if self.paused:
+                    self.log.debug("Unpaused request %s", self.request)
+                    self.paused = False
+
+                node = zk.Node()
+                node.state = zk.INIT
+                node.type = ntype
+                node.provider = self.provider.name
+                node.pool = self.pool.name
+                node.az = self.chosen_az
+                node.region = self.provider.region_name
+                node.launcher = self.launcher_id
+                node.allocated_to = self.request.id
+
+                # Note: It should be safe (i.e., no race) to lock the node
+                # *after* it is stored since nodes in INIT state are not
+                # locked anywhere.
+                self.zk.storeNode(node)
+                self.zk.lockNode(node, blocking=False)
+                self.log.debug("Locked building node %s for request %s",
+                               node.id, self.request.id)
+
+                # Set state AFTER lock so sthat it isn't accidentally cleaned
+                # up (unlocked BUILDING nodes will be deleted).
+                node.state = zk.BUILDING
+                self.zk.storeNode(node)
+
+                self.nodeset.append(node)
+                self.launch_manager.launch(node)
+
+    def run_handler(self):
+        '''
+        Main body for the OpenStackNodeRequestHandler.
+        '''
+        self._setFromPoolWorker()
+        declined_reasons = []
+        invalid_types = self._invalidNodeTypes()
+        if invalid_types:
+            declined_reasons.append('node type(s) [%s] not available' %
+                                    ','.join(invalid_types))
+        elif not self._imagesAvailable():
+            declined_reasons.append('images are not available')
+        if len(self.request.node_types) > self.pool.max_servers:
+            declined_reasons.append('it would exceed quota')
+
+        if declined_reasons:
+            self.log.debug("Declining node request %s because %s",
+                           self.request.id, ', '.join(declined_reasons))
+            self.request.declined_by.append(self.launcher_id)
+            launchers = set(self.zk.getRegisteredLaunchers())
+            if launchers.issubset(set(self.request.declined_by)):
+                self.log.debug("Failing declined node request %s",
+                               self.request.id)
+                # All launchers have declined it
+                self.request.state = zk.FAILED
+            self.unlockNodeSet(clear_allocation=True)
+            self.zk.storeNodeRequest(self.request)
+            self.zk.unlockNodeRequest(self.request)
+            self.done = True
+            return
+
+        if self.paused:
+            self.log.debug("Retrying node request %s", self.request.id)
+        else:
+            self.log.debug("Accepting node request %s", self.request.id)
+            self.request.state = zk.PENDING
+            self.zk.storeNodeRequest(self.request)
+
+        self._waitForNodeSet()
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
new file mode 100755
index 000000000..f9fe1b6cf
--- /dev/null
+++ b/nodepool/driver/openstack/provider.py
@@ -0,0 +1,344 @@
+# Copyright (C) 2011-2013 OpenStack Foundation
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
+# implied.
+#
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import logging
+from contextlib import contextmanager
+import operator
+
+import shade
+
+from nodepool import exceptions
+from nodepool.driver import Provider
+from nodepool.nodeutils import iterate_timeout
+from nodepool.task_manager import ManagerStoppedException
+from nodepool.task_manager import TaskManager
+
+
+IPS_LIST_AGE = 5      # How long to keep a cached copy of the ip list
+
+
+@contextmanager
+def shade_inner_exceptions():
+    try:
+        yield
+    except shade.OpenStackCloudException as e:
+        e.log_error()
+        raise
+
+
+class OpenStackProvider(Provider):
+    log = logging.getLogger("nodepool.driver.openstack.OpenStackProvider")
+
+    def __init__(self, provider, use_taskmanager):
+        self.provider = provider
+        self._images = {}
+        self._networks = {}
+        self.__flavors = {}
+        self.__azs = None
+        self._use_taskmanager = use_taskmanager
+        self._taskmanager = None
+
+    def start(self):
+        if self._use_taskmanager:
+            self._taskmanager = TaskManager(None, self.provider.name,
+                                            self.provider.rate)
+            self._taskmanager.start()
+        self.resetClient()
+
+    def stop(self):
+        if self._taskmanager:
+            self._taskmanager.stop()
+
+    def join(self):
+        if self._taskmanager:
+            self._taskmanager.join()
+
+    @property
+    def _flavors(self):
+        if not self.__flavors:
+            self.__flavors = self._getFlavors()
+        return self.__flavors
+
+    def _getClient(self):
+        if self._use_taskmanager:
+            manager = self._taskmanager
+        else:
+            manager = None
+        return shade.OpenStackCloud(
+            cloud_config=self.provider.cloud_config,
+            manager=manager,
+            **self.provider.cloud_config.config)
+
+    def resetClient(self):
+        self._client = self._getClient()
+        if self._use_taskmanager:
+            self._taskmanager.setClient(self._client)
+
+    def _getFlavors(self):
+        flavors = self.listFlavors()
+        flavors.sort(key=operator.itemgetter('ram'))
+        return flavors
+
+    # TODO(mordred): These next three methods duplicate logic that is in
+    #                shade, but we can't defer to shade until we're happy
+    #                with using shade's resource caching facility. We have
+    #                not yet proven that to our satisfaction, but if/when
+    #                we do, these should be able to go away.
+    def _findFlavorByName(self, flavor_name):
+        for f in self._flavors:
+            if flavor_name in (f['name'], f['id']):
+                return f
+        raise Exception("Unable to find flavor: %s" % flavor_name)
+
+    def _findFlavorByRam(self, min_ram, flavor_name):
+        for f in self._flavors:
+            if (f['ram'] >= min_ram
+                    and (not flavor_name or flavor_name in f['name'])):
+                return f
+        raise Exception("Unable to find flavor with min ram: %s" % min_ram)
+
+    def findFlavor(self, flavor_name, min_ram):
+        # Note: this will throw an error if the provider is offline
+        # but all the callers are in threads (they call in via CreateServer) so
+        # the mainloop won't be affected.
+        if min_ram:
+            return self._findFlavorByRam(min_ram, flavor_name)
+        else:
+            return self._findFlavorByName(flavor_name)
+
+    def findImage(self, name):
+        if name in self._images:
+            return self._images[name]
+
+        with shade_inner_exceptions():
+            image = self._client.get_image(name)
+        self._images[name] = image
+        return image
+
+    def findNetwork(self, name):
+        if name in self._networks:
+            return self._networks[name]
+
+        with shade_inner_exceptions():
+            network = self._client.get_network(name)
+        self._networks[name] = network
+        return network
+
+    def deleteImage(self, name):
+        if name in self._images:
+            del self._images[name]
+
+        with shade_inner_exceptions():
+            return self._client.delete_image(name)
+
+    def createServer(self, name, image,
+                     flavor_name=None, min_ram=None,
+                     az=None, key_name=None, config_drive=True,
+                     nodepool_node_id=None, nodepool_node_label=None,
+                     nodepool_image_name=None,
+                     networks=None, boot_from_volume=False, volume_size=50):
+        if not networks:
+            networks = []
+        if not isinstance(image, dict):
+            # if it's a dict, we already have the cloud id. If it's not,
+            # we don't know if it's name or ID so need to look it up
+            image = self.findImage(image)
+        flavor = self.findFlavor(flavor_name=flavor_name, min_ram=min_ram)
+        create_args = dict(name=name,
+                           image=image,
+                           flavor=flavor,
+                           config_drive=config_drive)
+        if boot_from_volume:
+            create_args['boot_from_volume'] = boot_from_volume
+            create_args['volume_size'] = volume_size
+            # NOTE(pabelanger): Always cleanup volumes when we delete a server.
+            create_args['terminate_volume'] = True
+        if key_name:
+            create_args['key_name'] = key_name
+        if az:
+            create_args['availability_zone'] = az
+        nics = []
+        for network in networks:
+            net_id = self.findNetwork(network)['id']
+            nics.append({'net-id': net_id})
+        if nics:
+            create_args['nics'] = nics
+        # Put provider.name and image_name in as groups so that ansible
+        # inventory can auto-create groups for us based on each of those
+        # qualities
+        # Also list each of those values directly so that non-ansible
+        # consumption programs don't need to play a game of knowing that
+        # groups[0] is the image name or anything silly like that.
+        groups_list = [self.provider.name]
+
+        if nodepool_image_name:
+            groups_list.append(nodepool_image_name)
+        if nodepool_node_label:
+            groups_list.append(nodepool_node_label)
+        meta = dict(
+            groups=",".join(groups_list),
+            nodepool_provider_name=self.provider.name,
+        )
+        if nodepool_node_id:
+            meta['nodepool_node_id'] = nodepool_node_id
+        if nodepool_image_name:
+            meta['nodepool_image_name'] = nodepool_image_name
+        if nodepool_node_label:
+            meta['nodepool_node_label'] = nodepool_node_label
+        create_args['meta'] = meta
+
+        with shade_inner_exceptions():
+            return self._client.create_server(wait=False, **create_args)
+
+    def getServer(self, server_id):
+        with shade_inner_exceptions():
+            return self._client.get_server(server_id)
+
+    def getServerConsole(self, server_id):
+        try:
+            with shade_inner_exceptions():
+                return self._client.get_server_console(server_id)
+        except shade.OpenStackCloudException:
+            return None
+
+    def waitForServer(self, server, timeout=3600):
+        with shade_inner_exceptions():
+            return self._client.wait_for_server(
+                server=server, auto_ip=True, reuse=False,
+                timeout=timeout)
+
+    def waitForNodeCleanup(self, server_id, timeout=600):
+        for count in iterate_timeout(
+                timeout, exceptions.ServerDeleteException,
+                "server %s deletion" % server_id):
+            if not self.getServer(server_id):
+                return
+
+    def waitForImage(self, image_id, timeout=3600):
+        last_status = None
+        for count in iterate_timeout(
+                timeout, exceptions.ImageCreateException, "image creation"):
+            try:
+                image = self.getImage(image_id)
+            except exceptions.NotFound:
+                continue
+            except ManagerStoppedException:
+                raise
+            except Exception:
+                self.log.exception('Unable to list images while waiting for '
+                                   '%s will retry' % (image_id))
+                continue
+
+            # shade returns None when not found
+            if not image:
+                continue
+
+            status = image['status']
+            if (last_status != status):
+                self.log.debug(
+                    'Status of image in {provider} {id}: {status}'.format(
+                        provider=self.provider.name,
+                        id=image_id,
+                        status=status))
+                if status == 'ERROR' and 'fault' in image:
+                    self.log.debug(
+                        'ERROR in {provider} on {id}: {resason}'.format(
+                            provider=self.provider.name,
+                            id=image_id,
+                            resason=image['fault']['message']))
+            last_status = status
+            # Glance client returns lower case statuses - but let's be sure
+            if status.lower() in ['active', 'error']:
+                return image
+
+    def createImage(self, server, image_name, meta):
+        with shade_inner_exceptions():
+            return self._client.create_image_snapshot(
+                image_name, server, **meta)
+
+    def getImage(self, image_id):
+        with shade_inner_exceptions():
+            return self._client.get_image(image_id)
+
+    def labelReady(self, image_id):
+        return self.getImage(image_id)
+
+    def uploadImage(self, image_name, filename, image_type=None, meta=None,
+            md5=None, sha256=None):
+        # configure glance and upload image.  Note the meta flags
+        # are provided as custom glance properties
+        # NOTE: we have wait=True set here. This is not how we normally
+        # do things in nodepool, preferring to poll ourselves thankyouverymuch.
+        # However - two things to note:
+        #  - PUT has no aysnc mechanism, so we have to handle it anyway
+        #  - v2 w/task waiting is very strange and complex - but we have to
+        #              block for our v1 clouds anyway, so we might as well
+        #              have the interface be the same and treat faking-out
+        #              a shade-level fake-async interface later
+        if not meta:
+            meta = {}
+        if image_type:
+            meta['disk_format'] = image_type
+        with shade_inner_exceptions():
+            image = self._client.create_image(
+                name=image_name,
+                filename=filename,
+                is_public=False,
+                wait=True,
+                md5=md5,
+                sha256=sha256,
+                **meta)
+        return image.id
+
+    def listImages(self):
+        with shade_inner_exceptions():
+            return self._client.list_images()
+
+    def listFlavors(self):
+        with shade_inner_exceptions():
+            return self._client.list_flavors(get_extra=False)
+
+    def listNodes(self):
+        # shade list_servers carries the nodepool server list caching logic
+        with shade_inner_exceptions():
+            return self._client.list_servers()
+
+    def deleteServer(self, server_id):
+        with shade_inner_exceptions():
+            return self._client.delete_server(server_id, delete_ips=True)
+
+    def cleanupNode(self, server_id):
+        server = self.getServer(server_id)
+        if not server:
+            raise exceptions.NotFound()
+
+        self.log.debug('Deleting server %s' % server_id)
+        self.deleteServer(server_id)
+
+    def cleanupLeakedFloaters(self):
+        with shade_inner_exceptions():
+            self._client.delete_unattached_floating_ips()
+
+    def getAZs(self):
+        if self.__azs is None:
+            self.__azs = self._client.list_availability_zone_names()
+            if not self.__azs:
+                # If there are no zones, return a list containing None so that
+                # random.choice can pick None and pass that to Nova. If this
+                # feels dirty, please direct your ire to policy.json and the
+                # ability to turn off random portions of the OpenStack API.
+                self.__azs = [None]
+        return self.__azs
diff --git a/nodepool/exceptions.py b/nodepool/exceptions.py
old mode 100644
new mode 100755
index 93533923b..941b59b49
--- a/nodepool/exceptions.py
+++ b/nodepool/exceptions.py
@@ -13,6 +13,26 @@
 # under the License.
 
 
+class NotFound(Exception):
+    pass
+
+
+class LaunchNodepoolException(Exception):
+    statsd_key = 'error.nodepool'
+
+
+class LaunchStatusException(Exception):
+    statsd_key = 'error.status'
+
+
+class LaunchNetworkException(Exception):
+    statsd_key = 'error.network'
+
+
+class LaunchKeyscanException(Exception):
+    statsd_key = 'error.keyscan'
+
+
 class BuilderError(RuntimeError):
     pass
 
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index e24b9006b..4c7197630 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -16,24 +16,20 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import collections
 import logging
 import os
 import os.path
-import pprint
-import random
 import socket
 import threading
 import time
 
 from nodepool import exceptions
-from nodepool import nodeutils as utils
 from nodepool import provider_manager
 from nodepool import stats
 from nodepool import config as nodepool_config
 from nodepool import zk
-from nodepool.driver import NodeRequestHandler
-from nodepool.driver import NodeLaunchManager
+from nodepool.driver.openstack.handler import OpenStackNodeRequestHandler
+
 
 MINS = 60
 HOURS = 60 * MINS
@@ -44,124 +40,13 @@ SUSPEND_WAIT_TIME = 30       # How long to wait between checks for ZooKeeper
                              # connectivity if it disappears.
 
 
-class LaunchNodepoolException(Exception):
-    statsd_key = 'error.nodepool'
-
-
-class LaunchStatusException(Exception):
-    statsd_key = 'error.status'
-
-
-class LaunchNetworkException(Exception):
-    statsd_key = 'error.network'
-
-
-class LaunchKeyscanException(Exception):
-    statsd_key = 'error.keyscan'
-
-
-class StatsReporter(object):
-    '''
-    Class adding statsd reporting functionality.
-    '''
-    def __init__(self):
-        super(StatsReporter, self).__init__()
-        self._statsd = stats.get_client()
-
-    def recordLaunchStats(self, subkey, dt, image_name,
-                          provider_name, node_az, requestor):
-        '''
-        Record node launch statistics.
-
-        :param str subkey: statsd key
-        :param int dt: Time delta in milliseconds
-        :param str image_name: Name of the image used
-        :param str provider_name: Name of the provider
-        :param str node_az: AZ of the launched node
-        :param str requestor: Identifier for the request originator
-        '''
-        if not self._statsd:
-            return
-
-        keys = [
-            'nodepool.launch.provider.%s.%s' % (provider_name, subkey),
-            'nodepool.launch.image.%s.%s' % (image_name, subkey),
-            'nodepool.launch.%s' % (subkey,),
-            ]
-
-        if node_az:
-            keys.append('nodepool.launch.provider.%s.%s.%s' %
-                        (provider_name, node_az, subkey))
-
-        if requestor:
-            # Replace '.' which is a graphite hierarchy, and ':' which is
-            # a statsd delimeter.
-            requestor = requestor.replace('.', '_')
-            requestor = requestor.replace(':', '_')
-            keys.append('nodepool.launch.requestor.%s.%s' %
-                        (requestor, subkey))
-
-        for key in keys:
-            self._statsd.timing(key, dt)
-            self._statsd.incr(key)
-
-
-    def updateNodeStats(self, zk_conn, provider):
-        '''
-        Refresh statistics for all known nodes.
-
-        :param ZooKeeper zk_conn: A ZooKeeper connection object.
-        :param Provider provider: A config Provider object.
-        '''
-        if not self._statsd:
-            return
-
-        states = {}
-
-        # Initialize things we know about to zero
-        for state in zk.Node.VALID_STATES:
-            key = 'nodepool.nodes.%s' % state
-            states[key] = 0
-            key = 'nodepool.provider.%s.nodes.%s' % (provider.name, state)
-            states[key] = 0
-
-        for node in zk_conn.nodeIterator():
-            #nodepool.nodes.STATE
-            key = 'nodepool.nodes.%s' % node.state
-            states[key] += 1
-
-            #nodepool.label.LABEL.nodes.STATE
-            key = 'nodepool.label.%s.nodes.%s' % (node.type, node.state)
-            # It's possible we could see node types that aren't in our config
-            if key in states:
-                states[key] += 1
-            else:
-                states[key] = 1
-
-            #nodepool.provider.PROVIDER.nodes.STATE
-            key = 'nodepool.provider.%s.nodes.%s' % (node.provider, node.state)
-            # It's possible we could see providers that aren't in our config
-            if key in states:
-                states[key] += 1
-            else:
-                states[key] = 1
-
-        for key, count in states.items():
-            self._statsd.gauge(key, count)
-
-        #nodepool.provider.PROVIDER.max_servers
-        key = 'nodepool.provider.%s.max_servers' % provider.name
-        max_servers = sum([p.max_servers for p in provider.pools.values()])
-        self._statsd.gauge(key, max_servers)
-
-
-class InstanceDeleter(threading.Thread, StatsReporter):
-    log = logging.getLogger("nodepool.InstanceDeleter")
+class NodeDeleter(threading.Thread, stats.StatsReporter):
+    log = logging.getLogger("nodepool.NodeDeleter")
 
     def __init__(self, zk, manager, node):
-        threading.Thread.__init__(self, name='InstanceDeleter for %s %s' %
+        threading.Thread.__init__(self, name='NodeDeleter for %s %s' %
                                   (node.provider, node.external_id))
-        StatsReporter.__init__(self)
+        stats.StatsReporter.__init__(self)
         self._zk = zk
         self._manager = manager
         self._node = node
@@ -188,11 +73,11 @@ class InstanceDeleter(threading.Thread, StatsReporter):
             if node.external_id:
                 manager.cleanupNode(node.external_id)
                 manager.waitForNodeCleanup(node.external_id)
-        except provider_manager.NotFound:
-            InstanceDeleter.log.info("Instance %s not found in provider %s",
-                                     node.external_id, node.provider)
+        except exceptions.NotFound:
+            NodeDeleter.log.info("Instance %s not found in provider %s",
+                                 node.external_id, node.provider)
         except Exception:
-            InstanceDeleter.log.exception(
+            NodeDeleter.log.exception(
                 "Exception deleting instance %s from %s:",
                 node.external_id, node.provider)
             # Don't delete the ZK node in this case, but do unlock it
@@ -201,7 +86,7 @@ class InstanceDeleter(threading.Thread, StatsReporter):
             return
 
         if node_exists:
-            InstanceDeleter.log.info(
+            NodeDeleter.log.info(
                 "Deleting ZK node id=%s, state=%s, external_id=%s",
                 node.id, node.state, node.external_id)
             # This also effectively releases the lock
@@ -223,480 +108,6 @@ class InstanceDeleter(threading.Thread, StatsReporter):
             self.log.exception("Exception while reporting stats:")
 
 
-class NodeLauncher(threading.Thread, StatsReporter):
-
-    def __init__(self, zk, provider_label, provider_manager, requestor,
-                 node, retries):
-        '''
-        Initialize the launcher.
-
-        :param ZooKeeper zk: A ZooKeeper object.
-        :param ProviderLabel provider: A config ProviderLabel object.
-        :param ProviderManager provider_manager: The manager object used to
-            interact with the selected provider.
-        :param str requestor: Identifier for the request originator.
-        :param Node node: The node object.
-        :param int retries: Number of times to retry failed launches.
-        '''
-        threading.Thread.__init__(self, name="NodeLauncher-%s" % node.id)
-        StatsReporter.__init__(self)
-        self.log = logging.getLogger("nodepool.NodeLauncher-%s" % node.id)
-        self._zk = zk
-        self._label = provider_label
-        self._manager = provider_manager
-        self._node = node
-        self._retries = retries
-        self._image_name = None
-        self._requestor = requestor
-
-        self._pool = self._label.pool
-        self._provider = self._pool.provider
-        if self._label.diskimage:
-            self._diskimage = self._provider.diskimages[self._label.diskimage.name]
-        else:
-            self._diskimage = None
-        self._cloud_image = self._provider.cloud_images.get(self._label.cloud_image, None)
-
-    def logConsole(self, server_id, hostname):
-        if not self._label.console_log:
-            return
-        console = self._manager.getServerConsole(server_id)
-        if console:
-            self.log.debug('Console log from hostname %s:' % hostname)
-            for line in console.splitlines():
-                self.log.debug(line.rstrip())
-
-    def _launchNode(self):
-        if self._label.diskimage:
-            # launch using diskimage
-            cloud_image = self._zk.getMostRecentImageUpload(
-                self._diskimage.name, self._provider.name)
-
-            if not cloud_image:
-                raise LaunchNodepoolException(
-                    "Unable to find current cloud image %s in %s" %
-                    (self._diskimage.name, self._provider.name)
-                )
-
-            config_drive = self._diskimage.config_drive
-            image_external = dict(id=cloud_image.external_id)
-            image_id = "{path}/{upload_id}".format(
-                path=self._zk._imageUploadPath(cloud_image.image_name,
-                                               cloud_image.build_id,
-                                               cloud_image.provider_name),
-                upload_id=cloud_image.id)
-            image_name = self._diskimage.name
-
-        else:
-            # launch using unmanaged cloud image
-            config_drive = self._cloud_image.config_drive
-
-            # These are different values for zk, but it's all the same
-            # for cloud-images.
-            # image_external is what we use for OpenStack.
-            # image_id is what we record in the node for zk.
-            # image_name is what we log, so matches the config.
-            if self._cloud_image.image_id:
-                image_external = dict(id=self._cloud_image.image_id)
-            elif self._cloud_image.image_name:
-                image_external = self._cloud_image.image_name
-            else:
-                image_external = self._cloud_image.name
-            image_id = self._cloud_image.name
-            image_name = self._cloud_image.name
-
-        hostname = self._provider.hostname_format.format(
-            label=self._label, provider=self._provider, node=self._node
-        )
-
-        self.log.info("Creating server with hostname %s in %s from image %s "
-                      "for node id: %s" % (hostname, self._provider.name,
-                                           image_name,
-                                           self._node.id))
-
-        # NOTE: We store the node ID in the server metadata to use for leaked
-        # instance detection. We cannot use the external server ID for this
-        # because that isn't available in ZooKeeper until after the server is
-        # active, which could cause a race in leak detection.
-
-        server = self._manager.createServer(
-            hostname,
-            image=image_external,
-            min_ram=self._label.min_ram,
-            flavor_name=self._label.flavor_name,
-            key_name=self._label.key_name,
-            az=self._node.az,
-            config_drive=config_drive,
-            nodepool_node_id=self._node.id,
-            nodepool_node_label=self._node.type,
-            nodepool_image_name=image_name,
-            networks=self._pool.networks,
-            boot_from_volume=self._label.boot_from_volume,
-            volume_size=self._label.volume_size)
-
-        self._node.external_id = server.id
-        self._node.hostname = hostname
-        self._node.image_id = image_id
-
-        # Checkpoint save the updated node info
-        self._zk.storeNode(self._node)
-
-        self.log.debug("Waiting for server %s for node id: %s" %
-                       (server.id, self._node.id))
-        server = self._manager.waitForServer(
-            server, self._provider.launch_timeout)
-
-        if server.status != 'ACTIVE':
-            raise LaunchStatusException("Server %s for node id: %s "
-                                        "status: %s" %
-                                        (server.id, self._node.id,
-                                         server.status))
-
-        # If we didn't specify an AZ, set it to the one chosen by Nova.
-        # Do this after we are done waiting since AZ may not be available
-        # immediately after the create request.
-        if not self._node.az:
-            self._node.az = server.location.zone
-
-        interface_ip = server.interface_ip
-        if not interface_ip:
-            self.log.debug(
-                "Server data for failed IP: %s" % pprint.pformat(
-                    server))
-            raise LaunchNetworkException("Unable to find public IP of server")
-
-        self._node.interface_ip = interface_ip
-        self._node.public_ipv4 = server.public_v4
-        self._node.public_ipv6 = server.public_v6
-        self._node.private_ipv4 = server.private_v4
-        # devstack-gate multi-node depends on private_v4 being populated
-        # with something. On clouds that don't have a private address, use
-        # the public.
-        if not self._node.private_ipv4:
-            self._node.private_ipv4 = server.public_v4
-
-        # Checkpoint save the updated node info
-        self._zk.storeNode(self._node)
-
-        self.log.debug(
-            "Node %s is running [region: %s, az: %s, ip: %s ipv4: %s, "
-            "ipv6: %s]" %
-            (self._node.id, self._node.region, self._node.az,
-             self._node.interface_ip, self._node.public_ipv4,
-             self._node.public_ipv6))
-
-        # Get the SSH public keys for the new node and record in ZooKeeper
-        try:
-            self.log.debug("Gathering host keys for node %s", self._node.id)
-            host_keys = utils.keyscan(
-                interface_ip, timeout=self._provider.boot_timeout)
-            if not host_keys:
-                raise LaunchKeyscanException("Unable to gather host keys")
-        except exceptions.SSHTimeoutException:
-            self.logConsole(self._node.external_id, self._node.hostname)
-            raise
-
-        self._node.host_keys = host_keys
-        self._zk.storeNode(self._node)
-
-    def _run(self):
-        attempts = 1
-        while attempts <= self._retries:
-            try:
-                self._launchNode()
-                break
-            except Exception:
-                if attempts <= self._retries:
-                    self.log.exception(
-                        "Launch attempt %d/%d failed for node %s:",
-                        attempts, self._retries, self._node.id)
-                # If we created an instance, delete it.
-                if self._node.external_id:
-                    self._manager.cleanupNode(self._node.external_id)
-                    self._manager.waitForNodeCleanup(self._node.external_id)
-                    self._node.external_id = None
-                    self._node.public_ipv4 = None
-                    self._node.public_ipv6 = None
-                    self._node.inerface_ip = None
-                    self._zk.storeNode(self._node)
-                if attempts == self._retries:
-                    raise
-                attempts += 1
-
-        self._node.state = zk.READY
-        self._zk.storeNode(self._node)
-        self.log.info("Node id %s is ready", self._node.id)
-
-    def run(self):
-        start_time = time.time()
-        statsd_key = 'ready'
-
-        try:
-            self._run()
-        except Exception as e:
-            self.log.exception("Launch failed for node %s:",
-                               self._node.id)
-            self._node.state = zk.FAILED
-            self._zk.storeNode(self._node)
-
-            if hasattr(e, 'statsd_key'):
-                statsd_key = e.statsd_key
-            else:
-                statsd_key = 'error.unknown'
-
-        try:
-            dt = int((time.time() - start_time) * 1000)
-            self.recordLaunchStats(statsd_key, dt, self._image_name,
-                                   self._node.provider, self._node.az,
-                                   self._requestor)
-            self.updateNodeStats(self._zk, self._provider)
-        except Exception:
-            self.log.exception("Exception while reporting stats:")
-
-
-class OpenStackNodeLaunchManager(NodeLaunchManager):
-    def launch(self, node):
-        '''
-        Launch a new node as described by the supplied Node.
-
-        We expect each NodeLauncher thread to directly modify the node that
-        is passed to it. The poll() method will expect to see the node.state
-        attribute to change as the node is processed.
-
-        :param Node node: The node object.
-        '''
-        self._nodes.append(node)
-        provider_label = self._pool.labels[node.type]
-        t = NodeLauncher(self._zk, provider_label, self._manager,
-                         self._requestor, node, self._retries)
-        t.start()
-        self._threads.append(t)
-
-
-class OpenStackNodeRequestHandler(NodeRequestHandler):
-    log = logging.getLogger("nodepool.OpenStackNodeRequestHandler")
-
-    def __init__(self, pw, request):
-        super(OpenStackNodeRequestHandler, self).__init__(pw, request)
-        self.chosen_az = None
-
-    def _imagesAvailable(self):
-        '''
-        Determines if the requested images are available for this provider.
-
-        ZooKeeper is queried for an image uploaded to the provider that is
-        in the READY state.
-
-        :returns: True if it is available, False otherwise.
-        '''
-        for label in self.request.node_types:
-
-            if self.pool.labels[label].cloud_image:
-                img = self.pool.labels[label].cloud_image
-                if not self.manager.labelReady(img):
-                    return False
-            else:
-                img = self.pool.labels[label].diskimage.name
-
-                if not self.zk.getMostRecentImageUpload(img, self.provider.name):
-                    return False
-        return True
-
-    def _invalidNodeTypes(self):
-        '''
-        Return any node types that are invalid for this provider.
-
-        :returns: A list of node type names that are invalid, or an empty
-            list if all are valid.
-        '''
-        invalid = []
-        for ntype in self.request.node_types:
-            if ntype not in self.pool.labels:
-                invalid.append(ntype)
-        return invalid
-
-    def _countNodes(self):
-        '''
-        Query ZooKeeper to determine the number of provider nodes launched.
-
-        :returns: An integer for the number launched for this provider.
-        '''
-        count = 0
-        for node in self.zk.nodeIterator():
-            if (node.provider == self.provider.name and
-                node.pool == self.pool.name):
-                count += 1
-        return count
-
-    def _waitForNodeSet(self):
-        '''
-        Fill node set for the request.
-
-        Obtain nodes for the request, pausing all new request handling for
-        this provider until the node set can be filled.
-
-        We attempt to group the node set within the same provider availability
-        zone. For this to work properly, the provider entry in the nodepool
-        config must list the availability zones. Otherwise, new nodes will be
-        put in random AZs at nova's whim. The exception being if there is an
-        existing node in the READY state that we can select for this node set.
-        Its AZ will then be used for new nodes, as well as any other READY
-        nodes.
-
-        note:: This code is a bit racey in its calculation of the number of
-            nodes in use for quota purposes. It is possible for multiple
-            launchers to be doing this calculation at the same time. Since we
-            currently have no locking mechanism around the "in use"
-            calculation, if we are at the edge of the quota, one of the
-            launchers could attempt to launch a new node after the other
-            launcher has already started doing so. This would cause an
-            expected failure from the underlying library, which is ok for now.
-        '''
-        if not self.launch_manager:
-            self.launch_manager = OpenStackNodeLaunchManager(
-                self.zk, self.pool, self.manager,
-                self.request.requestor, retries=self.provider.launch_retries)
-
-        # Since this code can be called more than once for the same request,
-        # we need to calculate the difference between our current node set
-        # and what was requested. We cannot use set operations here since a
-        # node type can appear more than once in the requested types.
-        saved_types = collections.Counter([n.type for n in self.nodeset])
-        requested_types = collections.Counter(self.request.node_types)
-        diff = requested_types - saved_types
-        needed_types = list(diff.elements())
-
-        ready_nodes = self.zk.getReadyNodesOfTypes(needed_types)
-
-        for ntype in needed_types:
-            # First try to grab from the list of already available nodes.
-            got_a_node = False
-            if self.request.reuse and ntype in ready_nodes:
-                for node in ready_nodes[ntype]:
-                    # Only interested in nodes from this provider and
-                    # pool, and within the selected AZ.
-                    if node.provider != self.provider.name:
-                        continue
-                    if node.pool != self.pool.name:
-                        continue
-                    if self.chosen_az and node.az != self.chosen_az:
-                        continue
-
-                    try:
-                        self.zk.lockNode(node, blocking=False)
-                    except exceptions.ZKLockException:
-                        # It's already locked so skip it.
-                        continue
-                    else:
-                        if self.paused:
-                            self.log.debug("Unpaused request %s", self.request)
-                            self.paused = False
-
-                        self.log.debug(
-                            "Locked existing node %s for request %s",
-                            node.id, self.request.id)
-                        got_a_node = True
-                        node.allocated_to = self.request.id
-                        self.zk.storeNode(node)
-                        self.nodeset.append(node)
-
-                        # If we haven't already chosen an AZ, select the
-                        # AZ from this ready node. This will cause new nodes
-                        # to share this AZ, as well.
-                        if not self.chosen_az and node.az:
-                            self.chosen_az = node.az
-                        break
-
-            # Could not grab an existing node, so launch a new one.
-            if not got_a_node:
-                # Select grouping AZ if we didn't set AZ from a selected,
-                # pre-existing node
-                if not self.chosen_az:
-                    self.chosen_az = random.choice(
-                        self.pool.azs or self.manager.getAZs())
-
-                # If we calculate that we're at capacity, pause until nodes
-                # are released by Zuul and removed by the DeletedNodeWorker.
-                if self._countNodes() >= self.pool.max_servers:
-                    if not self.paused:
-                        self.log.debug(
-                            "Pausing request handling to satisfy request %s",
-                            self.request)
-                    self.paused = True
-                    return
-
-                if self.paused:
-                    self.log.debug("Unpaused request %s", self.request)
-                    self.paused = False
-
-                node = zk.Node()
-                node.state = zk.INIT
-                node.type = ntype
-                node.provider = self.provider.name
-                node.pool = self.pool.name
-                node.az = self.chosen_az
-                node.region = self.provider.region_name
-                node.launcher = self.launcher_id
-                node.allocated_to = self.request.id
-
-                # Note: It should be safe (i.e., no race) to lock the node
-                # *after* it is stored since nodes in INIT state are not
-                # locked anywhere.
-                self.zk.storeNode(node)
-                self.zk.lockNode(node, blocking=False)
-                self.log.debug("Locked building node %s for request %s",
-                               node.id, self.request.id)
-
-                # Set state AFTER lock so sthat it isn't accidentally cleaned
-                # up (unlocked BUILDING nodes will be deleted).
-                node.state = zk.BUILDING
-                self.zk.storeNode(node)
-
-                self.nodeset.append(node)
-                self.launch_manager.launch(node)
-
-    def run_handler(self):
-        '''
-        Main body for the NodeRequestHandler.
-        '''
-        self._setFromPoolWorker()
-
-        declined_reasons = []
-        invalid_types = self._invalidNodeTypes()
-        if invalid_types:
-            declined_reasons.append('node type(s) [%s] not available' %
-                                    ','.join(invalid_types))
-        elif not self._imagesAvailable():
-            declined_reasons.append('images are not available')
-        if len(self.request.node_types) > self.pool.max_servers:
-            declined_reasons.append('it would exceed quota')
-
-        if declined_reasons:
-            self.log.debug("Declining node request %s because %s",
-                           self.request.id, ', '.join(declined_reasons))
-            self.request.declined_by.append(self.launcher_id)
-            launchers = set(self.zk.getRegisteredLaunchers())
-            if launchers.issubset(set(self.request.declined_by)):
-                self.log.debug("Failing declined node request %s",
-                               self.request.id)
-                # All launchers have declined it
-                self.request.state = zk.FAILED
-            self.unlockNodeSet(clear_allocation=True)
-            self.zk.storeNodeRequest(self.request)
-            self.zk.unlockNodeRequest(self.request)
-            self.done = True
-            return
-
-        if self.paused:
-            self.log.debug("Retrying node request %s", self.request.id)
-        else:
-            self.log.debug("Accepting node request %s", self.request.id)
-            self.request.state = zk.PENDING
-            self.zk.storeNodeRequest(self.request)
-
-        self._waitForNodeSet()
-
-
 class PoolWorker(threading.Thread):
     '''
     Class that manages node requests for a single provider pool.
@@ -893,7 +304,7 @@ class BaseCleanupWorker(threading.Thread):
         self.log.info("Deleting %s instance %s from %s",
                       node.state, node.external_id, node.provider)
         try:
-            t = InstanceDeleter(
+            t = NodeDeleter(
                 self._nodepool.getZK(),
                 self._nodepool.getProviderManager(node.provider),
                 node)
@@ -1083,7 +494,7 @@ class CleanupWorker(BaseCleanupWorker):
                     zk_conn.unlockNode(node)
                     continue
 
-                # The InstanceDeleter thread will unlock and remove the
+                # The NodeDeleter thread will unlock and remove the
                 # node from ZooKeeper if it succeeds.
                 self._deleteInstance(node)
 
@@ -1169,7 +580,7 @@ class DeletedNodeWorker(BaseCleanupWorker):
                     zk_conn.unlockNode(node)
                     continue
 
-                # The InstanceDeleter thread will unlock and remove the
+                # The NodeDeleter thread will unlock and remove the
                 # node from ZooKeeper if it succeeds.
                 self._deleteInstance(node)
 
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 5a9c35a47..93f689734 100755
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -17,33 +17,9 @@
 # limitations under the License.
 
 import logging
-from contextlib import contextmanager
-import operator
 
-import shade
-
-from nodepool import exceptions
-from nodepool import fakeprovider
-from nodepool.driver import Provider
-from nodepool.nodeutils import iterate_timeout
-from nodepool.task_manager import ManagerStoppedException
-from nodepool.task_manager import TaskManager
-
-
-IPS_LIST_AGE = 5      # How long to keep a cached copy of the ip list
-
-
-@contextmanager
-def shade_inner_exceptions():
-    try:
-        yield
-    except shade.OpenStackCloudException as e:
-        e.log_error()
-        raise
-
-
-class NotFound(Exception):
-    pass
+from nodepool.driver.fake.provider import FakeProvider
+from nodepool.driver.openstack.provider import OpenStackProvider
 
 
 def get_provider(provider, use_taskmanager):
@@ -83,324 +59,3 @@ class ProviderManager(object):
         for m in config.provider_managers.values():
             m.stop()
             m.join()
-
-
-class OpenStackProvider(Provider):
-    log = logging.getLogger("nodepool.OpenStackProvider")
-
-    def __init__(self, provider, use_taskmanager):
-        self.provider = provider
-        self._images = {}
-        self._networks = {}
-        self.__flavors = {}
-        self.__azs = None
-        self._use_taskmanager = use_taskmanager
-        self._taskmanager = None
-
-    def start(self):
-        if self._use_taskmanager:
-            self._taskmanager = TaskManager(None, self.provider.name,
-                                            self.provider.rate)
-            self._taskmanager.start()
-        self.resetClient()
-
-    def stop(self):
-        if self._taskmanager:
-            self._taskmanager.stop()
-
-    def join(self):
-        if self._taskmanager:
-            self._taskmanager.join()
-
-    @property
-    def _flavors(self):
-        if not self.__flavors:
-            self.__flavors = self._getFlavors()
-        return self.__flavors
-
-    def _getClient(self):
-        if self._use_taskmanager:
-            manager = self._taskmanager
-        else:
-            manager = None
-        return shade.OpenStackCloud(
-            cloud_config=self.provider.cloud_config,
-            manager=manager,
-            **self.provider.cloud_config.config)
-
-    def resetClient(self):
-        self._client = self._getClient()
-        if self._use_taskmanager:
-            self._taskmanager.setClient(self._client)
-
-    def _getFlavors(self):
-        flavors = self.listFlavors()
-        flavors.sort(key=operator.itemgetter('ram'))
-        return flavors
-
-    # TODO(mordred): These next three methods duplicate logic that is in
-    #                shade, but we can't defer to shade until we're happy
-    #                with using shade's resource caching facility. We have
-    #                not yet proven that to our satisfaction, but if/when
-    #                we do, these should be able to go away.
-    def _findFlavorByName(self, flavor_name):
-        for f in self._flavors:
-            if flavor_name in (f['name'], f['id']):
-                return f
-        raise Exception("Unable to find flavor: %s" % flavor_name)
-
-    def _findFlavorByRam(self, min_ram, flavor_name):
-        for f in self._flavors:
-            if (f['ram'] >= min_ram
-                    and (not flavor_name or flavor_name in f['name'])):
-                return f
-        raise Exception("Unable to find flavor with min ram: %s" % min_ram)
-
-    def findFlavor(self, flavor_name, min_ram):
-        # Note: this will throw an error if the provider is offline
-        # but all the callers are in threads (they call in via CreateServer) so
-        # the mainloop won't be affected.
-        if min_ram:
-            return self._findFlavorByRam(min_ram, flavor_name)
-        else:
-            return self._findFlavorByName(flavor_name)
-
-    def findImage(self, name):
-        if name in self._images:
-            return self._images[name]
-
-        with shade_inner_exceptions():
-            image = self._client.get_image(name)
-        self._images[name] = image
-        return image
-
-    def findNetwork(self, name):
-        if name in self._networks:
-            return self._networks[name]
-
-        with shade_inner_exceptions():
-            network = self._client.get_network(name)
-        self._networks[name] = network
-        return network
-
-    def deleteImage(self, name):
-        if name in self._images:
-            del self._images[name]
-
-        with shade_inner_exceptions():
-            return self._client.delete_image(name)
-
-    def createServer(self, name, image,
-                     flavor_name=None, min_ram=None,
-                     az=None, key_name=None, config_drive=True,
-                     nodepool_node_id=None, nodepool_node_label=None,
-                     nodepool_image_name=None,
-                     networks=None, boot_from_volume=False, volume_size=50):
-        if not networks:
-            networks = []
-        if not isinstance(image, dict):
-            # if it's a dict, we already have the cloud id. If it's not,
-            # we don't know if it's name or ID so need to look it up
-            image = self.findImage(image)
-        flavor = self.findFlavor(flavor_name=flavor_name, min_ram=min_ram)
-        create_args = dict(name=name,
-                           image=image,
-                           flavor=flavor,
-                           config_drive=config_drive)
-        if boot_from_volume:
-            create_args['boot_from_volume'] = boot_from_volume
-            create_args['volume_size'] = volume_size
-            # NOTE(pabelanger): Always cleanup volumes when we delete a server.
-            create_args['terminate_volume'] = True
-        if key_name:
-            create_args['key_name'] = key_name
-        if az:
-            create_args['availability_zone'] = az
-        nics = []
-        for network in networks:
-            net_id = self.findNetwork(network)['id']
-            nics.append({'net-id': net_id})
-        if nics:
-            create_args['nics'] = nics
-        # Put provider.name and image_name in as groups so that ansible
-        # inventory can auto-create groups for us based on each of those
-        # qualities
-        # Also list each of those values directly so that non-ansible
-        # consumption programs don't need to play a game of knowing that
-        # groups[0] is the image name or anything silly like that.
-        groups_list = [self.provider.name]
-
-        if nodepool_image_name:
-            groups_list.append(nodepool_image_name)
-        if nodepool_node_label:
-            groups_list.append(nodepool_node_label)
-        meta = dict(
-            groups=",".join(groups_list),
-            nodepool_provider_name=self.provider.name,
-        )
-        if nodepool_node_id:
-            meta['nodepool_node_id'] = nodepool_node_id
-        if nodepool_image_name:
-            meta['nodepool_image_name'] = nodepool_image_name
-        if nodepool_node_label:
-            meta['nodepool_node_label'] = nodepool_node_label
-        create_args['meta'] = meta
-
-        with shade_inner_exceptions():
-            return self._client.create_server(wait=False, **create_args)
-
-    def getServer(self, server_id):
-        with shade_inner_exceptions():
-            return self._client.get_server(server_id)
-
-    def getServerConsole(self, server_id):
-        try:
-            with shade_inner_exceptions():
-                return self._client.get_server_console(server_id)
-        except shade.OpenStackCloudException:
-            return None
-
-    def waitForServer(self, server, timeout=3600):
-        with shade_inner_exceptions():
-            return self._client.wait_for_server(
-                server=server, auto_ip=True, reuse=False,
-                timeout=timeout)
-
-    def waitForNodeCleanup(self, server_id, timeout=600):
-        for count in iterate_timeout(
-                timeout, exceptions.ServerDeleteException,
-                "server %s deletion" % server_id):
-            if not self.getServer(server_id):
-                return
-
-    def waitForImage(self, image_id, timeout=3600):
-        last_status = None
-        for count in iterate_timeout(
-                timeout, exceptions.ImageCreateException, "image creation"):
-            try:
-                image = self.getImage(image_id)
-            except NotFound:
-                continue
-            except ManagerStoppedException:
-                raise
-            except Exception:
-                self.log.exception('Unable to list images while waiting for '
-                                   '%s will retry' % (image_id))
-                continue
-
-            # shade returns None when not found
-            if not image:
-                continue
-
-            status = image['status']
-            if (last_status != status):
-                self.log.debug(
-                    'Status of image in {provider} {id}: {status}'.format(
-                        provider=self.provider.name,
-                        id=image_id,
-                        status=status))
-                if status == 'ERROR' and 'fault' in image:
-                    self.log.debug(
-                        'ERROR in {provider} on {id}: {resason}'.format(
-                            provider=self.provider.name,
-                            id=image_id,
-                            resason=image['fault']['message']))
-            last_status = status
-            # Glance client returns lower case statuses - but let's be sure
-            if status.lower() in ['active', 'error']:
-                return image
-
-    def createImage(self, server, image_name, meta):
-        with shade_inner_exceptions():
-            return self._client.create_image_snapshot(
-                image_name, server, **meta)
-
-    def getImage(self, image_id):
-        with shade_inner_exceptions():
-            return self._client.get_image(image_id)
-
-    def labelReady(self, image_id):
-        return self.getImage(image_id)
-
-    def uploadImage(self, image_name, filename, image_type=None, meta=None,
-            md5=None, sha256=None):
-        # configure glance and upload image.  Note the meta flags
-        # are provided as custom glance properties
-        # NOTE: we have wait=True set here. This is not how we normally
-        # do things in nodepool, preferring to poll ourselves thankyouverymuch.
-        # However - two things to note:
-        #  - PUT has no aysnc mechanism, so we have to handle it anyway
-        #  - v2 w/task waiting is very strange and complex - but we have to
-        #              block for our v1 clouds anyway, so we might as well
-        #              have the interface be the same and treat faking-out
-        #              a shade-level fake-async interface later
-        if not meta:
-            meta = {}
-        if image_type:
-            meta['disk_format'] = image_type
-        with shade_inner_exceptions():
-            image = self._client.create_image(
-                name=image_name,
-                filename=filename,
-                is_public=False,
-                wait=True,
-                md5=md5,
-                sha256=sha256,
-                **meta)
-        return image.id
-
-    def listImages(self):
-        with shade_inner_exceptions():
-            return self._client.list_images()
-
-    def listFlavors(self):
-        with shade_inner_exceptions():
-            return self._client.list_flavors(get_extra=False)
-
-    def listNodes(self):
-        # shade list_servers carries the nodepool server list caching logic
-        with shade_inner_exceptions():
-            return self._client.list_servers()
-
-    def deleteServer(self, server_id):
-        with shade_inner_exceptions():
-            return self._client.delete_server(server_id, delete_ips=True)
-
-    def cleanupNode(self, server_id):
-        server = self.getServer(server_id)
-        if not server:
-            raise NotFound()
-
-        self.log.debug('Deleting server %s' % server_id)
-        self.deleteServer(server_id)
-
-    def cleanupLeakedFloaters(self):
-        with shade_inner_exceptions():
-            self._client.delete_unattached_floating_ips()
-
-    def getAZs(self):
-        if self.__azs is None:
-            self.__azs = self._client.list_availability_zone_names()
-            if not self.__azs:
-                # If there are no zones, return a list containing None so that
-                # random.choice can pick None and pass that to Nova. If this
-                # feels dirty, please direct your ire to policy.json and the
-                # ability to turn off random portions of the OpenStack API.
-                self.__azs = [None]
-        return self.__azs
-
-
-class FakeProvider(OpenStackProvider):
-    def __init__(self, provider, use_taskmanager):
-        self.createServer_fails = 0
-        self.__client = fakeprovider.FakeOpenStackCloud()
-        super(FakeProvider, self).__init__(provider, use_taskmanager)
-
-    def _getClient(self):
-        return self.__client
-
-    def createServer(self, *args, **kwargs):
-        while self.createServer_fails:
-            self.createServer_fails -= 1
-            raise Exception("Expected createServer exception")
-        return super(FakeProvider, self).createServer(*args, **kwargs)
diff --git a/nodepool/stats.py b/nodepool/stats.py
old mode 100644
new mode 100755
index 772281df1..675d7d21d
--- a/nodepool/stats.py
+++ b/nodepool/stats.py
@@ -20,6 +20,8 @@ import os
 import logging
 import statsd
 
+from nodepool import zk
+
 log = logging.getLogger("nodepool.stats")
 
 def get_client():
@@ -38,3 +40,98 @@ def get_client():
         return statsd.StatsClient(**statsd_args)
     else:
         return None
+
+
+class StatsReporter(object):
+    '''
+    Class adding statsd reporting functionality.
+    '''
+    def __init__(self):
+        super(StatsReporter, self).__init__()
+        self._statsd = get_client()
+
+    def recordLaunchStats(self, subkey, dt, image_name,
+                          provider_name, node_az, requestor):
+        '''
+        Record node launch statistics.
+
+        :param str subkey: statsd key
+        :param int dt: Time delta in milliseconds
+        :param str image_name: Name of the image used
+        :param str provider_name: Name of the provider
+        :param str node_az: AZ of the launched node
+        :param str requestor: Identifier for the request originator
+        '''
+        if not self._statsd:
+            return
+
+        keys = [
+            'nodepool.launch.provider.%s.%s' % (provider_name, subkey),
+            'nodepool.launch.image.%s.%s' % (image_name, subkey),
+            'nodepool.launch.%s' % (subkey,),
+            ]
+
+        if node_az:
+            keys.append('nodepool.launch.provider.%s.%s.%s' %
+                        (provider_name, node_az, subkey))
+
+        if requestor:
+            # Replace '.' which is a graphite hierarchy, and ':' which is
+            # a statsd delimeter.
+            requestor = requestor.replace('.', '_')
+            requestor = requestor.replace(':', '_')
+            keys.append('nodepool.launch.requestor.%s.%s' %
+                        (requestor, subkey))
+
+        for key in keys:
+            self._statsd.timing(key, dt)
+            self._statsd.incr(key)
+
+
+    def updateNodeStats(self, zk_conn, provider):
+        '''
+        Refresh statistics for all known nodes.
+
+        :param ZooKeeper zk_conn: A ZooKeeper connection object.
+        :param Provider provider: A config Provider object.
+        '''
+        if not self._statsd:
+            return
+
+        states = {}
+
+        # Initialize things we know about to zero
+        for state in zk.Node.VALID_STATES:
+            key = 'nodepool.nodes.%s' % state
+            states[key] = 0
+            key = 'nodepool.provider.%s.nodes.%s' % (provider.name, state)
+            states[key] = 0
+
+        for node in zk_conn.nodeIterator():
+            #nodepool.nodes.STATE
+            key = 'nodepool.nodes.%s' % node.state
+            states[key] += 1
+
+            #nodepool.label.LABEL.nodes.STATE
+            key = 'nodepool.label.%s.nodes.%s' % (node.type, node.state)
+            # It's possible we could see node types that aren't in our config
+            if key in states:
+                states[key] += 1
+            else:
+                states[key] = 1
+
+            #nodepool.provider.PROVIDER.nodes.STATE
+            key = 'nodepool.provider.%s.nodes.%s' % (node.provider, node.state)
+            # It's possible we could see providers that aren't in our config
+            if key in states:
+                states[key] += 1
+            else:
+                states[key] = 1
+
+        for key, count in states.items():
+            self._statsd.gauge(key, count)
+
+        #nodepool.provider.PROVIDER.max_servers
+        key = 'nodepool.provider.%s.max_servers' % provider.name
+        max_servers = sum([p.max_servers for p in provider.pools.values()])
+        self._statsd.gauge(key, max_servers)
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 52ba45813..a25c35cea 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -198,7 +198,8 @@ class BaseTestCase(testtools.TestCase):
             return fake_client
 
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.provider_manager.OpenStackProvider._getClient',
+            'nodepool.driver.openstack.provider.OpenStackProvider.'
+            '_getClient',
             get_fake_client))
         self.useFixture(fixtures.MonkeyPatch(
             'nodepool.launcher._get_one_cloud',
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 6f5acb0bb..4c667cb11 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -105,7 +105,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
             return fake_client
 
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.provider_manager.FakeProvider._getClient',
+            'nodepool.driver.fake.provider.FakeProvider._getClient',
             get_fake_client))
         self.useFixture(fixtures.MonkeyPatch(
             'nodepool.launcher._get_one_cloud',
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 273f00bf9..95047f882 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -400,7 +400,7 @@ class TestLauncher(tests.DBTestCase):
         def fail_delete(self, name):
             raise RuntimeError('Fake Error')
 
-        fake_delete = 'nodepool.provider_manager.FakeProvider.deleteServer'
+        fake_delete = 'nodepool.driver.fake.provider.FakeProvider.deleteServer'
         self.useFixture(fixtures.MonkeyPatch(fake_delete, fail_delete))
 
         configfile = self.setup_config('node.yaml')
@@ -412,7 +412,7 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(len(nodes), 1)
 
         self.zk.lockNode(nodes[0], blocking=False)
-        nodepool.launcher.InstanceDeleter.delete(
+        nodepool.launcher.NodeDeleter.delete(
             self.zk, pool.getProviderManager('fake-provider'), nodes[0])
 
         # Make sure our old node is in delete state, even though delete failed
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index 70513360e..0819a5659 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -21,7 +21,7 @@ from nodepool import builder
 from nodepool import provider_manager
 from nodepool import tests
 from nodepool import zk
-from nodepool.launcher import OpenStackNodeLaunchManager
+from nodepool.driver.openstack.handler import OpenStackNodeLaunchManager
 
 
 class TestNodeLaunchManager(tests.DBTestCase):
@@ -62,7 +62,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         self.assertEqual(len(mgr.ready_nodes), 1)
         self.assertEqual(len(mgr.failed_nodes), 0)
 
-    @mock.patch('nodepool.launcher.NodeLauncher._launchNode')
+    @mock.patch('nodepool.driver.openstack.handler.NodeLauncher._launchNode')
     def test_failed_launch(self, mock_launch):
         configfile = self.setup_config('node.yaml')
         self._setup(configfile)
@@ -79,7 +79,7 @@ class TestNodeLaunchManager(tests.DBTestCase):
         self.assertEqual(len(mgr.failed_nodes), 1)
         self.assertEqual(len(mgr.ready_nodes), 0)
 
-    @mock.patch('nodepool.launcher.NodeLauncher._launchNode')
+    @mock.patch('nodepool.driver.openstack.handler.NodeLauncher._launchNode')
     def test_mixed_launch(self, mock_launch):
         configfile = self.setup_config('node.yaml')
         self._setup(configfile)
diff --git a/nodepool/tests/test_shade_integration.py b/nodepool/tests/test_shade_integration.py
index 66a4fbe2a..8c947d5d0 100644
--- a/nodepool/tests/test_shade_integration.py
+++ b/nodepool/tests/test_shade_integration.py
@@ -24,7 +24,7 @@ import yaml
 from nodepool import config as nodepool_config
 from nodepool import provider_manager
 from nodepool import tests
-from nodepool.provider_manager import shade_inner_exceptions
+from nodepool.driver.openstack.provider import shade_inner_exceptions
 
 
 class TestShadeIntegration(tests.IntegrationTestCase):

From c0e6d5112ba234337f9bffde73e7b99bec99b0a0 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Tue, 20 Jun 2017 02:25:20 +0000
Subject: [PATCH 237/309] Extend Nodepool configuration syntax to support
 multiple drivers

Change-Id: I220e8e71c1205174a0a7515899c9bb6c4cc6adcb
Story: 2001044
Task: 4616
---
 nodepool/cmd/config_validator.py                  |  1 +
 nodepool/config.py                                | 15 +++++++++++++--
 nodepool/launcher.py                              | 12 +++++++++---
 nodepool/provider_manager.py                      |  4 +++-
 nodepool/tests/fixtures/config_validate/good.yaml |  2 ++
 5 files changed, 28 insertions(+), 6 deletions(-)

diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index d85d3aa4a..76b013f80 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -73,6 +73,7 @@ class ConfigValidator:
 
         provider = {
             'name': str,
+            'driver': str,
             'region-name': str,
             v.Required('cloud'): str,
             'max-concurrency': int,
diff --git a/nodepool/config.py b/nodepool/config.py
index 144b8a98a..1303027a1 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -37,6 +37,10 @@ class Config(ConfigValue):
     pass
 
 
+class Driver(ConfigValue):
+    pass
+
+
 class Provider(ConfigValue):
     def __eq__(self, other):
         if (other.cloud_config != self.cloud_config or
@@ -202,10 +206,18 @@ def loadConfig(config_path):
     for provider in config.get('providers', []):
         p = Provider()
         p.name = provider['name']
+        p.driver = Driver()
+        p.driver.name = provider.get('driver', 'openstack')
+        p.driver.manage_images = False
         newconfig.providers[p.name] = p
 
         cloud_kwargs = _cloudKwargsFromProvider(provider)
-        p.cloud_config = _get_one_cloud(cloud_config, cloud_kwargs)
+        p.cloud_config = None
+        p.image_type = None
+        if p.driver.name == 'openstack':
+            p.driver.manage_images = True
+            p.cloud_config = _get_one_cloud(cloud_config, cloud_kwargs)
+            p.image_type = p.cloud_config.config['image_format']
         p.region_name = provider.get('region-name')
         p.max_concurrency = provider.get('max-concurrency', -1)
         p.rate = provider.get('rate', 1.0)
@@ -221,7 +233,6 @@ def loadConfig(config_path):
             'image-name-format',
             '{image_name}-{timestamp}'
         )
-        p.image_type = p.cloud_config.config['image_format']
         p.diskimages = {}
         for image in provider.get('diskimages', []):
             i = ProviderDiskImage()
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 4c7197630..74266a95a 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -140,8 +140,11 @@ class PoolWorker(threading.Thread):
     # Private methods
     #----------------------------------------------------------------
 
-    def _get_node_request_handler(self, request):
-        return OpenStackNodeRequestHandler(self, request)
+    def _get_node_request_handler(self, provider, request):
+        if provider.driver.name == 'openstack':
+            return OpenStackNodeRequestHandler(self, request)
+        else:
+            raise RuntimeError("Unknown provider driver %s" % provider.driver)
 
     def _assignHandlers(self):
         '''
@@ -196,7 +199,7 @@ class PoolWorker(threading.Thread):
 
             # Got a lock, so assign it
             self.log.info("Assigning node request %s" % req)
-            rh = self._get_node_request_handler(req)
+            rh = self._get_node_request_handler(provider, req)
             rh.run()
             if rh.paused:
                 self.paused_handler = rh
@@ -742,6 +745,9 @@ class NodePool(threading.Thread):
             ready in at least one provider. False otherwise.
         '''
         for pool in label.pools:
+            if not pool.provider.driver.manage_images:
+                # Provider doesn't manage images, assuming label is ready
+                return True
             for pool_label in pool.labels.values():
                 if pool_label.cloud_image:
                     manager = self.getProviderManager(pool.provider.name)
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 93f689734..1c592ee68 100755
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -25,8 +25,10 @@ from nodepool.driver.openstack.provider import OpenStackProvider
 def get_provider(provider, use_taskmanager):
     if provider.name.startswith('fake'):
         return FakeProvider(provider, use_taskmanager)
-    else:
+    elif provider.driver.name == 'openstack':
         return OpenStackProvider(provider, use_taskmanager)
+    else:
+        raise RuntimeError("Unknown provider driver %s" % provider.driver)
 
 
 class ProviderManager(object):
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 8bf464b3d..51273d0c7 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -21,6 +21,7 @@ labels:
 
 providers:
   - name: cloud1
+    driver: openstack
     cloud: vanilla-cloud
     region-name: 'vanilla'
     boot-timeout: 120
@@ -44,6 +45,7 @@ providers:
             volume-size: 100
 
   - name: cloud2
+    driver: openstack
     cloud: chocolate-cloud
     region-name: 'chocolate'
     boot-timeout: 120

From 99e20251c1197ed94f433e6a9208b8d55f3b6ea5 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Sat, 17 Jun 2017 13:23:27 +0000
Subject: [PATCH 238/309] Remove FakeProvider getClient monkey-patch

This is actually not needed.

Change-Id: Id40d7b1d9e6e70053d22c7e8c868665922928eab
---
 nodepool/tests/__init__.py | 11 -----------
 1 file changed, 11 deletions(-)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index a25c35cea..1f27317cd 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -190,17 +190,6 @@ class BaseTestCase(testtools.TestCase):
         self.setUpFakes()
 
     def setUpFakes(self):
-        log = logging.getLogger("nodepool.test")
-        log.debug("set up fakes")
-        fake_client = fakeprovider.FakeOpenStackCloud()
-
-        def get_fake_client(*args, **kwargs):
-            return fake_client
-
-        self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.driver.openstack.provider.OpenStackProvider.'
-            '_getClient',
-            get_fake_client))
         self.useFixture(fixtures.MonkeyPatch(
             'nodepool.launcher._get_one_cloud',
             fakeprovider.fake_get_one_cloud))

From 2b00171e63e8d5404f14ee2336a2f1ffc08b76a2 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Tue, 25 Jul 2017 14:34:21 -0400
Subject: [PATCH 239/309] Add zuulv3 jobs for nodepool

This is our first commit to start running jobs until zuulv3.o.o.

Change-Id: I685b905afb365cf7a4631c802e10f48482dcd372
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 .zuul.yaml | 8 ++++++++
 1 file changed, 8 insertions(+)
 create mode 100644 .zuul.yaml

diff --git a/.zuul.yaml b/.zuul.yaml
new file mode 100644
index 000000000..435e98e5a
--- /dev/null
+++ b/.zuul.yaml
@@ -0,0 +1,8 @@
+- project:
+    name: openstack-infra/nodepool
+    check:
+      jobs:
+        - tox-docs
+        - tox-cover
+        - tox-pep8
+        - tox-py35

From b01227c9d4c1c16c6a79819c53dd9f1cee9d9e1d Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Thu, 27 Jul 2017 13:42:38 +0000
Subject: [PATCH 240/309] Move the fakeprovider module to the fake driver

This change is a follow-up to the drivers spec and it makes the fake provider
a real driver. The fakeprovider module is merged into the fake provider and
the get_one_cloud config loader is simplified.

Change-Id: I3f8ae12ea888e7c2a13f246ea5f85d4a809e8c8d
---
 nodepool/config.py                            |  21 +-
 nodepool/driver/fake/handler.py               |  19 ++
 nodepool/driver/fake/provider.py              | 237 +++++++++++++++-
 nodepool/fakeprovider.py                      | 255 ------------------
 nodepool/launcher.py                          |   5 +-
 nodepool/provider_manager.py                  |   2 +-
 nodepool/tests/__init__.py                    |   4 -
 nodepool/tests/fixtures/leaked_node.yaml      |   1 +
 .../fixtures/leaked_node_nodepool_id.yaml     |   1 +
 nodepool/tests/fixtures/multiple_pools.yaml   |   1 +
 nodepool/tests/fixtures/node.yaml             |   1 +
 nodepool/tests/fixtures/node_az.yaml          |   1 +
 .../tests/fixtures/node_boot_from_volume.yaml |   1 +
 nodepool/tests/fixtures/node_cmd.yaml         |   2 +
 .../tests/fixtures/node_disabled_label.yaml   |   1 +
 .../tests/fixtures/node_diskimage_fail.yaml   |   1 +
 .../tests/fixtures/node_diskimage_pause.yaml  |   1 +
 nodepool/tests/fixtures/node_flavor_name.yaml |   1 +
 .../fixtures/node_image_upload_pause.yaml     |   1 +
 nodepool/tests/fixtures/node_ipv6.yaml        |   2 +
 .../tests/fixtures/node_label_provider.yaml   |   2 +
 .../tests/fixtures/node_launch_retry.yaml     |   1 +
 .../tests/fixtures/node_lost_requests.yaml    |   1 +
 .../tests/fixtures/node_max_ready_age.yaml    |   1 +
 nodepool/tests/fixtures/node_net_name.yaml    |   1 +
 .../tests/fixtures/node_no_min_ready.yaml     |   1 +
 nodepool/tests/fixtures/node_quota.yaml       |   1 +
 nodepool/tests/fixtures/node_two_image.yaml   |   1 +
 .../tests/fixtures/node_two_image_remove.yaml |   1 +
 .../tests/fixtures/node_two_provider.yaml     |   2 +
 .../fixtures/node_two_provider_remove.yaml    |   2 +
 .../tests/fixtures/node_unmanaged_image.yaml  |   1 +
 nodepool/tests/fixtures/node_upload_fail.yaml |   2 +
 nodepool/tests/fixtures/node_vhd.yaml         |   1 +
 .../tests/fixtures/node_vhd_and_qcow2.yaml    |   2 +
 nodepool/tests/test_builder.py                |   6 +-
 nodepool/tests/test_commands.py               |   4 +-
 nodepool/tests/test_launcher.py               |   1 -
 tools/fake-dib.yaml                           |   1 +
 tools/fake.yaml                               |   1 +
 tools/zuul-nodepool-integration/nodepool.yaml |   1 +
 41 files changed, 310 insertions(+), 282 deletions(-)
 create mode 100644 nodepool/driver/fake/handler.py
 delete mode 100644 nodepool/fakeprovider.py

diff --git a/nodepool/config.py b/nodepool/config.py
index 1303027a1..b89a9e35c 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -21,7 +21,6 @@ from six.moves import configparser as ConfigParser
 import time
 import yaml
 
-from nodepool import fakeprovider
 from nodepool import zk
 
 
@@ -204,19 +203,23 @@ def loadConfig(config_path):
         l.pools = []
 
     for provider in config.get('providers', []):
+        provider.setdefault('driver', 'openstack')
+        # Ensure legacy configuration still works when using fake name
+        if provider.get('name', '').startswith('fake'):
+            provider['driver'] = 'fake'
         p = Provider()
         p.name = provider['name']
         p.driver = Driver()
-        p.driver.name = provider.get('driver', 'openstack')
+        p.driver.name = provider['driver']
         p.driver.manage_images = False
         newconfig.providers[p.name] = p
 
         cloud_kwargs = _cloudKwargsFromProvider(provider)
         p.cloud_config = None
         p.image_type = None
-        if p.driver.name == 'openstack':
+        if p.driver.name in ('openstack', 'fake'):
             p.driver.manage_images = True
-            p.cloud_config = _get_one_cloud(cloud_config, cloud_kwargs)
+            p.cloud_config = cloud_config.get_one_cloud(**cloud_kwargs)
             p.image_type = p.cloud_config.config['image_format']
         p.region_name = provider.get('region-name')
         p.max_concurrency = provider.get('max-concurrency', -1)
@@ -311,12 +314,6 @@ def _cloudKwargsFromProvider(provider):
     for arg in ['region-name', 'cloud']:
         if arg in provider:
             cloud_kwargs[arg] = provider[arg]
-
+    if provider['driver'] == 'fake':
+        cloud_kwargs['validate'] = False
     return cloud_kwargs
-
-
-def _get_one_cloud(cloud_config, cloud_kwargs):
-    '''This is a function to allow for overriding it in tests.'''
-    if cloud_kwargs.get('cloud', '').startswith('fake'):
-        return fakeprovider.fake_get_one_cloud(cloud_config, cloud_kwargs)
-    return cloud_config.get_one_cloud(**cloud_kwargs)
diff --git a/nodepool/driver/fake/handler.py b/nodepool/driver/fake/handler.py
new file mode 100644
index 000000000..09b14e6cd
--- /dev/null
+++ b/nodepool/driver/fake/handler.py
@@ -0,0 +1,19 @@
+# Copyright 2017 Red Hat
+#
+# Licensed under the Apache License, Version 2.0 (the "License"); you may
+# not use this file except in compliance with the License. You may obtain
+# a copy of the License at
+#
+#      http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
+# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
+# License for the specific language governing permissions and limitations
+# under the License.
+
+from nodepool.driver.openstack.handler import OpenStackNodeRequestHandler
+
+
+class FakeNodeRequestHandler(OpenStackNodeRequestHandler):
+    pass
diff --git a/nodepool/driver/fake/provider.py b/nodepool/driver/fake/provider.py
index 0a11b41fb..7e0ef6d6a 100644
--- a/nodepool/driver/fake/provider.py
+++ b/nodepool/driver/fake/provider.py
@@ -14,14 +14,247 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from nodepool import fakeprovider
+import logging
+import threading
+import time
+import uuid
+
+import shade
+
+from nodepool import exceptions
 from nodepool.driver.openstack.provider import OpenStackProvider
 
 
+class Dummy(object):
+    IMAGE = 'Image'
+    INSTANCE = 'Instance'
+    FLAVOR = 'Flavor'
+    LOCATION = 'Server.Location'
+
+    def __init__(self, kind, **kw):
+        self.__kind = kind
+        self.__kw = kw
+        for k, v in kw.items():
+            setattr(self, k, v)
+        try:
+            if self.should_fail:
+                raise shade.OpenStackCloudException('This image has '
+                                                    'SHOULD_FAIL set to True.')
+        except AttributeError:
+            pass
+
+    def __repr__(self):
+        args = []
+        for k in self.__kw.keys():
+            args.append('%s=%s' % (k, getattr(self, k)))
+        args = ' '.join(args)
+        return '<%s %s %s>' % (self.__kind, id(self), args)
+
+    def __getitem__(self, key, default=None):
+        return getattr(self, key, default)
+
+    def __setitem__(self, key, value):
+        setattr(self, key, value)
+
+    def get(self, key, default=None):
+        return getattr(self, key, default)
+
+    def set(self, key, value):
+        setattr(self, key, value)
+
+
+class FakeOpenStackCloud(object):
+    log = logging.getLogger("nodepool.FakeOpenStackCloud")
+
+    def __init__(self, images=None, networks=None):
+        self.pause_creates = False
+        self._image_list = images
+        if self._image_list is None:
+            self._image_list = [
+                Dummy(
+                    Dummy.IMAGE,
+                    id='fake-image-id',
+                    status='READY',
+                    name='Fake Precise',
+                    metadata={})
+            ]
+        if networks is None:
+            networks = [dict(id='fake-public-network-uuid',
+                             name='fake-public-network-name'),
+                        dict(id='fake-private-network-uuid',
+                             name='fake-private-network-name'),
+                        dict(id='fake-ipv6-network-uuid',
+                             name='fake-ipv6-network-name')]
+        self.networks = networks
+        self._flavor_list = [
+            Dummy(Dummy.FLAVOR, id='f1', ram=8192, name='Fake Flavor'),
+            Dummy(Dummy.FLAVOR, id='f2', ram=8192, name='Unreal Flavor'),
+        ]
+        self._server_list = []
+
+    def _get(self, name_or_id, instance_list):
+        self.log.debug("Get %s in %s" % (name_or_id, repr(instance_list)))
+        for instance in instance_list:
+            if instance.name == name_or_id or instance.id == name_or_id:
+                return instance
+        return None
+
+    def get_network(self, name_or_id, filters=None):
+        for net in self.networks:
+            if net['id'] == name_or_id or net['name'] == name_or_id:
+                return net
+        return self.networks[0]
+
+    def _create(
+            self, instance_list, instance_type=Dummy.INSTANCE,
+            done_status='ACTIVE', **kw):
+        should_fail = kw.get('SHOULD_FAIL', '').lower() == 'true'
+        nics = kw.get('nics', [])
+        addresses = None
+        # if keyword 'ipv6-uuid' is found in provider config,
+        # ipv6 address will be available in public addr dict.
+        for nic in nics:
+            if nic['net-id'] != 'fake-ipv6-network-uuid':
+                continue
+            addresses = dict(
+                public=[dict(version=4, addr='fake'),
+                        dict(version=6, addr='fake_v6')],
+                private=[dict(version=4, addr='fake')]
+            )
+            public_v6 = 'fake_v6'
+            public_v4 = 'fake'
+            private_v4 = 'fake'
+            interface_ip = 'fake_v6'
+            break
+        if not addresses:
+            addresses = dict(
+                public=[dict(version=4, addr='fake')],
+                private=[dict(version=4, addr='fake')]
+            )
+            public_v6 = ''
+            public_v4 = 'fake'
+            private_v4 = 'fake'
+            interface_ip = 'fake'
+
+        s = Dummy(instance_type,
+                  id=uuid.uuid4().hex,
+                  name=kw['name'],
+                  status='BUILD',
+                  adminPass='fake',
+                  addresses=addresses,
+                  public_v4=public_v4,
+                  public_v6=public_v6,
+                  private_v4=private_v4,
+                  interface_ip=interface_ip,
+                  location=Dummy(Dummy.LOCATION, zone=kw.get('az')),
+                  metadata=kw.get('meta', {}),
+                  manager=self,
+                  key_name=kw.get('key_name', None),
+                  should_fail=should_fail,
+                  event=threading.Event())
+        instance_list.append(s)
+        t = threading.Thread(target=self._finish,
+                             name='FakeProvider create',
+                             args=(s, 0.1, done_status))
+        t.start()
+        return s
+
+    def _delete(self, name_or_id, instance_list):
+        self.log.debug("Delete from %s" % (repr(instance_list),))
+        instance = None
+        for maybe in instance_list:
+            if maybe.name == name_or_id or maybe.id == name_or_id:
+                instance = maybe
+        if instance:
+            instance_list.remove(instance)
+        self.log.debug("Deleted from %s" % (repr(instance_list),))
+
+    def _finish(self, obj, delay, status):
+        self.log.debug("Pause creates %s", self.pause_creates)
+        if self.pause_creates:
+            self.log.debug("Pausing")
+            obj.event.wait()
+            self.log.debug("Continuing")
+        else:
+            time.sleep(delay)
+        obj.status = status
+
+    def create_image(self, **kwargs):
+        return self._create(
+            self._image_list, instance_type=Dummy.IMAGE,
+            done_status='READY', **kwargs)
+
+    def get_image(self, name_or_id):
+        return self._get(name_or_id, self._image_list)
+
+    def list_images(self):
+        return self._image_list
+
+    def delete_image(self, name_or_id):
+        if not name_or_id:
+            raise Exception('name_or_id is Empty')
+        self._delete(name_or_id, self._image_list)
+
+    def create_image_snapshot(self, name, server, **metadata):
+        # XXX : validate metadata?
+        return self._create(
+            self._image_list, instance_type=Dummy.IMAGE,
+            name=name, **metadata)
+
+    def list_flavors(self, get_extra=False):
+        return self._flavor_list
+
+    def get_openstack_vars(self, server):
+        server.public_v4 = 'fake'
+        server.public_v6 = 'fake'
+        server.private_v4 = 'fake'
+        server.interface_ip = 'fake'
+        return server
+
+    def create_server(self, **kw):
+        return self._create(self._server_list, **kw)
+
+    def get_server(self, name_or_id):
+        result = self._get(name_or_id, self._server_list)
+        return result
+
+    def wait_for_server(self, server, **kwargs):
+        while server.status == 'BUILD':
+            time.sleep(0.1)
+        return server
+
+    def list_servers(self):
+        return self._server_list
+
+    def delete_server(self, name_or_id, delete_ips=True):
+        self._delete(name_or_id, self._server_list)
+
+    def list_availability_zone_names(self):
+        return ['fake-az1', 'fake-az2']
+
+
+class FakeUploadFailCloud(FakeOpenStackCloud):
+    log = logging.getLogger("nodepool.FakeUploadFailCloud")
+
+    def __init__(self, times_to_fail=None):
+        super(FakeUploadFailCloud, self).__init__()
+        self.times_to_fail = times_to_fail
+        self.times_failed = 0
+
+    def create_image(self, **kwargs):
+        if self.times_to_fail is None:
+            raise exceptions.BuilderError("Test fail image upload.")
+        self.times_failed += 1
+        if self.times_failed <= self.times_to_fail:
+            raise exceptions.BuilderError("Test fail image upload.")
+        else:
+            return super(FakeUploadFailCloud, self).create_image(**kwargs)
+
+
 class FakeProvider(OpenStackProvider):
     def __init__(self, provider, use_taskmanager):
         self.createServer_fails = 0
-        self.__client = fakeprovider.FakeOpenStackCloud()
+        self.__client = FakeOpenStackCloud()
         super(FakeProvider, self).__init__(provider, use_taskmanager)
 
     def _getClient(self):
diff --git a/nodepool/fakeprovider.py b/nodepool/fakeprovider.py
deleted file mode 100644
index fa55f6953..000000000
--- a/nodepool/fakeprovider.py
+++ /dev/null
@@ -1,255 +0,0 @@
-#!/usr/bin/env python
-#
-# Copyright 2013 OpenStack Foundation
-#
-# Licensed under the Apache License, Version 2.0 (the "License"); you may
-# not use this file except in compliance with the License. You may obtain
-# a copy of the License at
-#
-#      http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
-# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
-# License for the specific language governing permissions and limitations
-# under the License.
-
-import logging
-import threading
-import time
-import uuid
-
-import shade
-
-from nodepool import exceptions
-
-
-class Dummy(object):
-    IMAGE = 'Image'
-    INSTANCE = 'Instance'
-    FLAVOR = 'Flavor'
-    LOCATION = 'Server.Location'
-
-    def __init__(self, kind, **kw):
-        self.__kind = kind
-        self.__kw = kw
-        for k, v in kw.items():
-            setattr(self, k, v)
-        try:
-            if self.should_fail:
-                raise shade.OpenStackCloudException('This image has '
-                                                    'SHOULD_FAIL set to True.')
-        except AttributeError:
-            pass
-
-    def __repr__(self):
-        args = []
-        for k in self.__kw.keys():
-            args.append('%s=%s' % (k, getattr(self, k)))
-        args = ' '.join(args)
-        return '<%s %s %s>' % (self.__kind, id(self), args)
-
-    def __getitem__(self, key, default=None):
-        return getattr(self, key, default)
-
-    def __setitem__(self, key, value):
-        setattr(self, key, value)
-
-    def get(self, key, default=None):
-        return getattr(self, key, default)
-
-    def set(self, key, value):
-        setattr(self, key, value)
-
-
-def fake_get_one_cloud(cloud_config, cloud_kwargs):
-    cloud_kwargs['validate'] = False
-    return cloud_config.get_one_cloud(**cloud_kwargs)
-
-
-class FakeOpenStackCloud(object):
-    log = logging.getLogger("nodepool.FakeOpenStackCloud")
-
-    def __init__(self, images=None, networks=None):
-        self.pause_creates = False
-        self._image_list = images
-        if self._image_list is None:
-            self._image_list = [
-                Dummy(
-                    Dummy.IMAGE,
-                    id='fake-image-id',
-                    status='READY',
-                    name='Fake Precise',
-                    metadata={})
-            ]
-        if networks is None:
-            networks = [dict(id='fake-public-network-uuid',
-                             name='fake-public-network-name'),
-                        dict(id='fake-private-network-uuid',
-                             name='fake-private-network-name'),
-                        dict(id='fake-ipv6-network-uuid',
-                             name='fake-ipv6-network-name')]
-        self.networks = networks
-        self._flavor_list = [
-            Dummy(Dummy.FLAVOR, id='f1', ram=8192, name='Fake Flavor'),
-            Dummy(Dummy.FLAVOR, id='f2', ram=8192, name='Unreal Flavor'),
-        ]
-        self._server_list = []
-
-    def _get(self, name_or_id, instance_list):
-        self.log.debug("Get %s in %s" % (name_or_id, repr(instance_list)))
-        for instance in instance_list:
-            if instance.name == name_or_id or instance.id == name_or_id:
-                return instance
-        return None
-
-    def get_network(self, name_or_id, filters=None):
-        for net in self.networks:
-            if net['id'] == name_or_id or net['name'] == name_or_id:
-                return net
-        return self.networks[0]
-
-    def _create(
-            self, instance_list, instance_type=Dummy.INSTANCE,
-            done_status='ACTIVE', **kw):
-        should_fail = kw.get('SHOULD_FAIL', '').lower() == 'true'
-        nics = kw.get('nics', [])
-        addresses = None
-        # if keyword 'ipv6-uuid' is found in provider config,
-        # ipv6 address will be available in public addr dict.
-        for nic in nics:
-            if nic['net-id'] != 'fake-ipv6-network-uuid':
-                continue
-            addresses = dict(
-                public=[dict(version=4, addr='fake'),
-                        dict(version=6, addr='fake_v6')],
-                private=[dict(version=4, addr='fake')]
-            )
-            public_v6 = 'fake_v6'
-            public_v4 = 'fake'
-            private_v4 = 'fake'
-            interface_ip = 'fake_v6'
-            break
-        if not addresses:
-            addresses = dict(
-                public=[dict(version=4, addr='fake')],
-                private=[dict(version=4, addr='fake')]
-            )
-            public_v6 = ''
-            public_v4 = 'fake'
-            private_v4 = 'fake'
-            interface_ip = 'fake'
-
-        s = Dummy(instance_type,
-                  id=uuid.uuid4().hex,
-                  name=kw['name'],
-                  status='BUILD',
-                  adminPass='fake',
-                  addresses=addresses,
-                  public_v4=public_v4,
-                  public_v6=public_v6,
-                  private_v4=private_v4,
-                  interface_ip=interface_ip,
-                  location=Dummy(Dummy.LOCATION, zone=kw.get('az')),
-                  metadata=kw.get('meta', {}),
-                  manager=self,
-                  key_name=kw.get('key_name', None),
-                  should_fail=should_fail,
-                  event=threading.Event())
-        instance_list.append(s)
-        t = threading.Thread(target=self._finish,
-                             name='FakeProvider create',
-                             args=(s, 0.1, done_status))
-        t.start()
-        return s
-
-    def _delete(self, name_or_id, instance_list):
-        self.log.debug("Delete from %s" % (repr(instance_list),))
-        instance = None
-        for maybe in instance_list:
-            if maybe.name == name_or_id or maybe.id == name_or_id:
-                instance = maybe
-        if instance:
-            instance_list.remove(instance)
-        self.log.debug("Deleted from %s" % (repr(instance_list),))
-
-    def _finish(self, obj, delay, status):
-        self.log.debug("Pause creates %s", self.pause_creates)
-        if self.pause_creates:
-            self.log.debug("Pausing")
-            obj.event.wait()
-            self.log.debug("Continuing")
-        else:
-            time.sleep(delay)
-        obj.status = status
-
-    def create_image(self, **kwargs):
-        return self._create(
-            self._image_list, instance_type=Dummy.IMAGE,
-            done_status='READY', **kwargs)
-
-    def get_image(self, name_or_id):
-        return self._get(name_or_id, self._image_list)
-
-    def list_images(self):
-        return self._image_list
-
-    def delete_image(self, name_or_id):
-        if not name_or_id:
-            raise Exception('name_or_id is Empty')
-        self._delete(name_or_id, self._image_list)
-
-    def create_image_snapshot(self, name, server, **metadata):
-        # XXX : validate metadata?
-        return self._create(
-            self._image_list, instance_type=Dummy.IMAGE,
-            name=name, **metadata)
-
-    def list_flavors(self, get_extra=False):
-        return self._flavor_list
-
-    def get_openstack_vars(self, server):
-        server.public_v4 = 'fake'
-        server.public_v6 = 'fake'
-        server.private_v4 = 'fake'
-        server.interface_ip = 'fake'
-        return server
-
-    def create_server(self, **kw):
-        return self._create(self._server_list, **kw)
-
-    def get_server(self, name_or_id):
-        result = self._get(name_or_id, self._server_list)
-        return result
-
-    def wait_for_server(self, server, **kwargs):
-        while server.status == 'BUILD':
-            time.sleep(0.1)
-        return server
-
-    def list_servers(self):
-        return self._server_list
-
-    def delete_server(self, name_or_id, delete_ips=True):
-        self._delete(name_or_id, self._server_list)
-
-    def list_availability_zone_names(self):
-        return ['fake-az1', 'fake-az2']
-
-
-class FakeUploadFailCloud(FakeOpenStackCloud):
-    log = logging.getLogger("nodepool.FakeUploadFailCloud")
-
-    def __init__(self, times_to_fail=None):
-        super(FakeUploadFailCloud, self).__init__()
-        self.times_to_fail = times_to_fail
-        self.times_failed = 0
-
-    def create_image(self, **kwargs):
-        if self.times_to_fail is None:
-            raise exceptions.BuilderError("Test fail image upload.")
-        self.times_failed += 1
-        if self.times_failed <= self.times_to_fail:
-            raise exceptions.BuilderError("Test fail image upload.")
-        else:
-            return super(FakeUploadFailCloud, self).create_image(**kwargs)
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 74266a95a..27674f40a 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -28,6 +28,7 @@ from nodepool import provider_manager
 from nodepool import stats
 from nodepool import config as nodepool_config
 from nodepool import zk
+from nodepool.driver.fake.handler import FakeNodeRequestHandler
 from nodepool.driver.openstack.handler import OpenStackNodeRequestHandler
 
 
@@ -141,7 +142,9 @@ class PoolWorker(threading.Thread):
     #----------------------------------------------------------------
 
     def _get_node_request_handler(self, provider, request):
-        if provider.driver.name == 'openstack':
+        if provider.driver.name == 'fake':
+            return FakeNodeRequestHandler(self, request)
+        elif provider.driver.name == 'openstack':
             return OpenStackNodeRequestHandler(self, request)
         else:
             raise RuntimeError("Unknown provider driver %s" % provider.driver)
diff --git a/nodepool/provider_manager.py b/nodepool/provider_manager.py
index 1c592ee68..f51496b53 100755
--- a/nodepool/provider_manager.py
+++ b/nodepool/provider_manager.py
@@ -23,7 +23,7 @@ from nodepool.driver.openstack.provider import OpenStackProvider
 
 
 def get_provider(provider, use_taskmanager):
-    if provider.name.startswith('fake'):
+    if provider.driver.name == 'fake':
         return FakeProvider(provider, use_taskmanager)
     elif provider.driver.name == 'openstack':
         return OpenStackProvider(provider, use_taskmanager)
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 1f27317cd..3ff0db716 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -32,7 +32,6 @@ import kazoo.client
 import testtools
 
 from nodepool import builder
-from nodepool import fakeprovider
 from nodepool import launcher
 from nodepool import webapp
 from nodepool import zk
@@ -190,9 +189,6 @@ class BaseTestCase(testtools.TestCase):
         self.setUpFakes()
 
     def setUpFakes(self):
-        self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.launcher._get_one_cloud',
-            fakeprovider.fake_get_one_cloud))
         clouds_path = os.path.join(os.path.dirname(__file__),
                                    'fixtures', 'clouds.yaml')
         self.useFixture(fixtures.MonkeyPatch(
diff --git a/nodepool/tests/fixtures/leaked_node.yaml b/nodepool/tests/fixtures/leaked_node.yaml
index 40d166b85..902554748 100644
--- a/nodepool/tests/fixtures/leaked_node.yaml
+++ b/nodepool/tests/fixtures/leaked_node.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/leaked_node_nodepool_id.yaml b/nodepool/tests/fixtures/leaked_node_nodepool_id.yaml
index faf2c6058..5d95ddffb 100644
--- a/nodepool/tests/fixtures/leaked_node_nodepool_id.yaml
+++ b/nodepool/tests/fixtures/leaked_node_nodepool_id.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     nodepool-id: foo
diff --git a/nodepool/tests/fixtures/multiple_pools.yaml b/nodepool/tests/fixtures/multiple_pools.yaml
index 49f667320..72ae76cb8 100644
--- a/nodepool/tests/fixtures/multiple_pools.yaml
+++ b/nodepool/tests/fixtures/multiple_pools.yaml
@@ -15,6 +15,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node.yaml b/nodepool/tests/fixtures/node.yaml
index eb2cb2b07..e794160ea 100644
--- a/nodepool/tests/fixtures/node.yaml
+++ b/nodepool/tests/fixtures/node.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_az.yaml b/nodepool/tests/fixtures/node_az.yaml
index f234cab1b..0ffa64290 100644
--- a/nodepool/tests/fixtures/node_az.yaml
+++ b/nodepool/tests/fixtures/node_az.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_boot_from_volume.yaml b/nodepool/tests/fixtures/node_boot_from_volume.yaml
index 55c950f5d..7b96d1208 100644
--- a/nodepool/tests/fixtures/node_boot_from_volume.yaml
+++ b/nodepool/tests/fixtures/node_boot_from_volume.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_cmd.yaml b/nodepool/tests/fixtures/node_cmd.yaml
index 08e1120cd..1f7658e32 100644
--- a/nodepool/tests/fixtures/node_cmd.yaml
+++ b/nodepool/tests/fixtures/node_cmd.yaml
@@ -14,6 +14,7 @@ labels:
 providers:
   - name: fake-provider1
     cloud: fake
+    driver: fake
     rate: 0.0001
     diskimages:
       - name: fake-image1
@@ -31,6 +32,7 @@ providers:
 
   - name: fake-provider2
     cloud: fake
+    driver: fake
     rate: 0.0001
     diskimages:
       - name: fake-image2
diff --git a/nodepool/tests/fixtures/node_disabled_label.yaml b/nodepool/tests/fixtures/node_disabled_label.yaml
index e6e20dd3d..b3bd76faf 100644
--- a/nodepool/tests/fixtures/node_disabled_label.yaml
+++ b/nodepool/tests/fixtures/node_disabled_label.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_diskimage_fail.yaml b/nodepool/tests/fixtures/node_diskimage_fail.yaml
index f05be81b8..ad8fbc02c 100644
--- a/nodepool/tests/fixtures/node_diskimage_fail.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_fail.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_diskimage_pause.yaml b/nodepool/tests/fixtures/node_diskimage_pause.yaml
index 1b07eee5a..6c206f6f9 100644
--- a/nodepool/tests/fixtures/node_diskimage_pause.yaml
+++ b/nodepool/tests/fixtures/node_diskimage_pause.yaml
@@ -15,6 +15,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_flavor_name.yaml b/nodepool/tests/fixtures/node_flavor_name.yaml
index 10909dd5e..bae2adbd4 100644
--- a/nodepool/tests/fixtures/node_flavor_name.yaml
+++ b/nodepool/tests/fixtures/node_flavor_name.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_image_upload_pause.yaml b/nodepool/tests/fixtures/node_image_upload_pause.yaml
index eb97fe833..ce8ee5c31 100644
--- a/nodepool/tests/fixtures/node_image_upload_pause.yaml
+++ b/nodepool/tests/fixtures/node_image_upload_pause.yaml
@@ -15,6 +15,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_ipv6.yaml b/nodepool/tests/fixtures/node_ipv6.yaml
index 7cc13b0e2..06e908559 100644
--- a/nodepool/tests/fixtures/node_ipv6.yaml
+++ b/nodepool/tests/fixtures/node_ipv6.yaml
@@ -16,6 +16,7 @@ labels:
 providers:
   - name: fake-provider1
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
@@ -34,6 +35,7 @@ providers:
 
   - name: fake-provider2
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_label_provider.yaml b/nodepool/tests/fixtures/node_label_provider.yaml
index 0bf4db88d..9a600056c 100644
--- a/nodepool/tests/fixtures/node_label_provider.yaml
+++ b/nodepool/tests/fixtures/node_label_provider.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
@@ -22,6 +23,7 @@ providers:
         max-servers: 96
   - name: fake-provider2
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_launch_retry.yaml b/nodepool/tests/fixtures/node_launch_retry.yaml
index 5ada506c4..ecf41011b 100644
--- a/nodepool/tests/fixtures/node_launch_retry.yaml
+++ b/nodepool/tests/fixtures/node_launch_retry.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     launch-retries: 2
     rate: 0.0001
diff --git a/nodepool/tests/fixtures/node_lost_requests.yaml b/nodepool/tests/fixtures/node_lost_requests.yaml
index 8bb874143..0b1a82961 100644
--- a/nodepool/tests/fixtures/node_lost_requests.yaml
+++ b/nodepool/tests/fixtures/node_lost_requests.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_max_ready_age.yaml b/nodepool/tests/fixtures/node_max_ready_age.yaml
index b144e60a6..15789aa45 100644
--- a/nodepool/tests/fixtures/node_max_ready_age.yaml
+++ b/nodepool/tests/fixtures/node_max_ready_age.yaml
@@ -14,6 +14,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_net_name.yaml b/nodepool/tests/fixtures/node_net_name.yaml
index 9b832ea19..a983fdbfa 100644
--- a/nodepool/tests/fixtures/node_net_name.yaml
+++ b/nodepool/tests/fixtures/node_net_name.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_no_min_ready.yaml b/nodepool/tests/fixtures/node_no_min_ready.yaml
index dafbc1e93..4ea152558 100644
--- a/nodepool/tests/fixtures/node_no_min_ready.yaml
+++ b/nodepool/tests/fixtures/node_no_min_ready.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota.yaml
index 8968695d4..08013c6fb 100644
--- a/nodepool/tests/fixtures/node_quota.yaml
+++ b/nodepool/tests/fixtures/node_quota.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_two_image.yaml b/nodepool/tests/fixtures/node_two_image.yaml
index 43ef5265c..862cd9177 100644
--- a/nodepool/tests/fixtures/node_two_image.yaml
+++ b/nodepool/tests/fixtures/node_two_image.yaml
@@ -15,6 +15,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_two_image_remove.yaml b/nodepool/tests/fixtures/node_two_image_remove.yaml
index 40d166b85..902554748 100644
--- a/nodepool/tests/fixtures/node_two_image_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_image_remove.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_two_provider.yaml b/nodepool/tests/fixtures/node_two_provider.yaml
index 0225cf12d..748e4b6d5 100644
--- a/nodepool/tests/fixtures/node_two_provider.yaml
+++ b/nodepool/tests/fixtures/node_two_provider.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
@@ -26,6 +27,7 @@ providers:
             min-ram: 8192
   - name: fake-provider2
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_two_provider_remove.yaml b/nodepool/tests/fixtures/node_two_provider_remove.yaml
index 5d5728dd4..f4887abc2 100644
--- a/nodepool/tests/fixtures/node_two_provider_remove.yaml
+++ b/nodepool/tests/fixtures/node_two_provider_remove.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
@@ -27,6 +28,7 @@ providers:
 
   - name: fake-provider2
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
 
diff --git a/nodepool/tests/fixtures/node_unmanaged_image.yaml b/nodepool/tests/fixtures/node_unmanaged_image.yaml
index 0fe55c25b..ec2bd3209 100644
--- a/nodepool/tests/fixtures/node_unmanaged_image.yaml
+++ b/nodepool/tests/fixtures/node_unmanaged_image.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     cloud-images:
diff --git a/nodepool/tests/fixtures/node_upload_fail.yaml b/nodepool/tests/fixtures/node_upload_fail.yaml
index b29a34910..766fa6c87 100644
--- a/nodepool/tests/fixtures/node_upload_fail.yaml
+++ b/nodepool/tests/fixtures/node_upload_fail.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider1
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
@@ -29,6 +30,7 @@ providers:
 
   - name: fake-provider2
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_vhd.yaml b/nodepool/tests/fixtures/node_vhd.yaml
index dd75c5f46..6f71d702a 100644
--- a/nodepool/tests/fixtures/node_vhd.yaml
+++ b/nodepool/tests/fixtures/node_vhd.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake-vhd
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
index 044e8ca1f..39f368ffa 100644
--- a/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
+++ b/nodepool/tests/fixtures/node_vhd_and_qcow2.yaml
@@ -13,6 +13,7 @@ labels:
 providers:
   - name: fake-provider1
     cloud: fake-vhd
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
@@ -27,6 +28,7 @@ providers:
 
   - name: fake-provider2
     cloud: fake
+    driver: fake
     region-name: fake-region
     rate: 0.0001
     diskimages:
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index c59d1c715..6547d7b0d 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -17,7 +17,8 @@ import os
 import uuid
 import fixtures
 
-from nodepool import builder, exceptions, fakeprovider, tests
+from nodepool import builder, exceptions, tests
+from nodepool.driver.fake import provider as fakeprovider
 from nodepool import zk
 
 
@@ -120,9 +121,6 @@ class TestNodePoolBuilder(tests.DBTestCase):
         self.useFixture(fixtures.MonkeyPatch(
             'nodepool.driver.fake.provider.FakeProvider._getClient',
             get_fake_client))
-        self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.launcher._get_one_cloud',
-            fakeprovider.fake_get_one_cloud))
 
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index b565eb8fa..22b5c3553 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -91,7 +91,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         def fail_list(self):
             raise RuntimeError('Fake list error')
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.fakeprovider.FakeOpenStackCloud.list_servers',
+            'nodepool.driver.fake.provider.FakeOpenStackCloud.list_servers',
             fail_list))
 
         configfile = self.setup_config("node_cmd.yaml")
@@ -110,7 +110,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         def fail_list(self):
             raise RuntimeError('Fake list error')
         self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.fakeprovider.FakeOpenStackCloud.list_servers',
+            'nodepool.driver.fake.provider.FakeOpenStackCloud.list_servers',
             fail_list))
 
         configfile = self.setup_config("node_cmd.yaml")
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 95047f882..dd500bdc9 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -19,7 +19,6 @@ import fixtures
 
 from nodepool import tests
 from nodepool import zk
-import nodepool.fakeprovider
 import nodepool.launcher
 
 
diff --git a/tools/fake-dib.yaml b/tools/fake-dib.yaml
index 8d95162c2..47e119551 100644
--- a/tools/fake-dib.yaml
+++ b/tools/fake-dib.yaml
@@ -21,6 +21,7 @@ labels:
 
 providers:
   - name: fake-provider
+    driver: fake
     region-name: 'fake-region'
     max-servers: 96
     images:
diff --git a/tools/fake.yaml b/tools/fake.yaml
index 8a9a2786b..89d304c47 100644
--- a/tools/fake.yaml
+++ b/tools/fake.yaml
@@ -23,6 +23,7 @@ labels:
 
 providers:
   - name: fake-provider
+    driver: fake
     region-name: 'fake-region'
     diskimages:
       - name: fake-nodepool
diff --git a/tools/zuul-nodepool-integration/nodepool.yaml b/tools/zuul-nodepool-integration/nodepool.yaml
index ecca5653f..bac5aa568 100644
--- a/tools/zuul-nodepool-integration/nodepool.yaml
+++ b/tools/zuul-nodepool-integration/nodepool.yaml
@@ -22,6 +22,7 @@ labels:
 providers:
   - name: fake-provider
     cloud: fake
+    driver: fake
     diskimages:
       - name: fake-nodepool
     pools:

From 738389683367418554618b0000ed8d9516045b99 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 1 Aug 2017 15:14:33 -0400
Subject: [PATCH 241/309] Add --detail option to nodepool list command

The output of the 'list' command has gotten quite large. Simplify
the default output, and output the complete info when the --detail
option is given.

Also adds/modifies the list_nodes tests to assert that the column
output changes when the new option is used.

Change-Id: I60f849225c8c7fce1c524f132e54da58b25ae752
---
 nodepool/cmd/nodepoolcmd.py     |  9 +++++--
 nodepool/status.py              | 42 +++++++++++++++++++++------------
 nodepool/tests/test_commands.py | 29 +++++++++++++++++++----
 3 files changed, 59 insertions(+), 21 deletions(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index f38b01c23..86630bcbc 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -50,6 +50,9 @@ class NodePoolCmd(NodepoolApp):
 
         cmd_list = subparsers.add_parser('list', help='list nodes')
         cmd_list.set_defaults(func=self.list)
+        cmd_list.add_argument('--detail', action='store_true',
+                              help='Output detailed node info')
+
         cmd_image_list = subparsers.add_parser(
             'image-list', help='list images from providers')
         cmd_image_list.set_defaults(func=self.image_list)
@@ -145,8 +148,10 @@ class NodePoolCmd(NodepoolApp):
             l = logging.getLogger('kazoo')
             l.setLevel(logging.WARNING)
 
-    def list(self, node_id=None):
-        print(status.node_list(self.zk, node_id))
+    def list(self, node_id=None, detail=False):
+        if hasattr(self.args, 'detail'):
+            detail = self.args.detail
+        print(status.node_list(self.zk, node_id, detail))
 
     def dib_image_list(self):
         print(status.dib_image_list(self.zk))
diff --git a/nodepool/status.py b/nodepool/status.py
index 3da1374de..da240df57 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -29,12 +29,17 @@ def age(timestamp):
     return '%02d:%02d:%02d:%02d' % (d, h, m, s)
 
 
-def node_list(zk, node_id=None):
-    t = PrettyTable(["ID", "Provider", "AZ", "Label",
-                     "Launcher", "Hostname", "Server ID",
-                     "Public IPv4", "Private IPv4", "IPv6", "SSH Port",
-                     "State", "Age", "Locked", "Comment"])
+def node_list(zk, node_id=None, detail=False):
+    headers = ["ID", "Provider", "AZ", "Label", "Server ID", "State",
+               "Age", "Locked"]
+    detail_headers = ["Hostname", "Public IPv4", "Private IPv4", "IPv6",
+                      "SSH Port", "Launcher", "Comment"]
+    if detail:
+        headers += detail_headers
+
+    t = PrettyTable(headers)
     t.align = 'l'
+
     if node_id:
         node = zk.getNode(node_id)
         if node:
@@ -46,11 +51,14 @@ def node_list(zk, node_id=None):
             else:
                 zk.unlockNode(node)
 
-            t.add_row([node.id, node.provider, node.az, node.type,
-                       node.launcher, node.hostname, node.external_id,
-                       node.public_ipv4, node.private_ipv4, node.public_ipv6,
-                       node.ssh_port, node.state, age(node.state_time), locked,
-                       node.comment])
+            values = [node.id, node.provider, node.az, node.type,
+                      node.external_id, node.state, age(node.state_time),
+                      locked]
+            if detail:
+                values += [node.hostname, node.public_ipv4, node.private_ipv4,
+                           node.public_ipv6, node.ssh_port, node.launcher,
+                           node.comment]
+            t.add_row(values)
     else:
         for node in zk.nodeIterator():
             locked = "unlocked"
@@ -60,11 +68,15 @@ def node_list(zk, node_id=None):
                 locked = "locked"
             else:
                 zk.unlockNode(node)
-            t.add_row([node.id, node.provider, node.az, node.type,
-                       node.launcher, node.hostname, node.external_id,
-                       node.public_ipv4, node.private_ipv4, node.public_ipv6,
-                       node.ssh_port, node.state, age(node.state_time), locked,
-                       node.comment])
+
+            values = [node.id, node.provider, node.az, node.type,
+                      node.external_id, node.state, age(node.state_time),
+                      locked]
+            if detail:
+                values += [node.hostname, node.public_ipv4, node.private_ipv4,
+                           node.public_ipv6, node.ssh_port, node.launcher,
+                           node.comment]
+            t.add_row(values)
     return str(t)
 
 
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 22b5c3553..bd369c5fb 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -35,7 +35,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         argv.extend(args)
         self.useFixture(fixtures.MonkeyPatch('sys.argv', argv))
 
-    def assert_listed(self, configfile, cmd, col, val, count):
+    def assert_listed(self, configfile, cmd, col, val, count, col_count=0):
         log = logging.getLogger("tests.PrettyTableMock")
         self.patch_argv("-c", configfile, *cmd)
         with mock.patch('prettytable.PrettyTable.add_row') as m_add_row:
@@ -44,6 +44,8 @@ class TestNodepoolCMD(tests.DBTestCase):
             # Find add_rows with the status were looking for
             for args, kwargs in m_add_row.call_args_list:
                 row = args[0]
+                if col_count:
+                    self.assertEquals(len(row), col_count)
                 log.debug(row)
                 if row[col] == val:
                     rows_with_val += 1
@@ -58,8 +60,16 @@ class TestNodepoolCMD(tests.DBTestCase):
     def assert_images_listed(self, configfile, image_cnt, status="ready"):
         self.assert_listed(configfile, ['image-list'], 6, status, image_cnt)
 
-    def assert_nodes_listed(self, configfile, node_cnt, status="ready"):
-        self.assert_listed(configfile, ['list'], 11, status, node_cnt)
+    def assert_nodes_listed(self, configfile, node_cnt, status="ready",
+                            detail=False, validate_col_count=False):
+        cmd = ['list']
+        col_count = 8
+        if detail:
+            cmd += ['--detail']
+            col_count = 15
+        if not validate_col_count:
+            col_count = 0
+        self.assert_listed(configfile, cmd, 5, status, node_cnt, col_count)
 
     def test_image_list_empty(self):
         self.assert_images_listed(self.setup_config("node_cmd.yaml"), 0)
@@ -124,7 +134,18 @@ class TestNodepoolCMD(tests.DBTestCase):
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         self.waitForNodes('fake-label')
-        self.assert_nodes_listed(configfile, 1)
+        self.assert_nodes_listed(configfile, 1, detail=False,
+                                 validate_col_count=True)
+
+    def test_list_nodes_detail(self):
+        configfile = self.setup_config('node.yaml')
+        self._useBuilder(configfile)
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+        self.waitForImage('fake-provider', 'fake-image')
+        self.waitForNodes('fake-label')
+        self.assert_nodes_listed(configfile, 1, detail=True,
+                                 validate_col_count=True)
 
     def test_config_validate(self):
         config = os.path.join(os.path.dirname(tests.__file__),

From 5837004e5630244ef6127669c9d0044cb065e2c2 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 1 Aug 2017 15:30:08 -0400
Subject: [PATCH 242/309] Add hold job to nodepool list output

This is set by Zuul when a node is held. The comment
field is also filled in by Zuul, but we already output
that.

Change-Id: I7af5c6c12d94ba9be15daa13dca138ee3785a972
---
 nodepool/status.py              | 6 +++---
 nodepool/tests/test_commands.py | 2 +-
 nodepool/tests/test_zk.py       | 4 ++++
 nodepool/zk.py                  | 4 ++++
 4 files changed, 12 insertions(+), 4 deletions(-)

diff --git a/nodepool/status.py b/nodepool/status.py
index da240df57..f02d75ae1 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -33,7 +33,7 @@ def node_list(zk, node_id=None, detail=False):
     headers = ["ID", "Provider", "AZ", "Label", "Server ID", "State",
                "Age", "Locked"]
     detail_headers = ["Hostname", "Public IPv4", "Private IPv4", "IPv6",
-                      "SSH Port", "Launcher", "Comment"]
+                      "SSH Port", "Hold Job", "Launcher", "Comment"]
     if detail:
         headers += detail_headers
 
@@ -57,7 +57,7 @@ def node_list(zk, node_id=None, detail=False):
             if detail:
                 values += [node.hostname, node.public_ipv4, node.private_ipv4,
                            node.public_ipv6, node.ssh_port, node.launcher,
-                           node.comment]
+                           node.hold_job, node.comment]
             t.add_row(values)
     else:
         for node in zk.nodeIterator():
@@ -75,7 +75,7 @@ def node_list(zk, node_id=None, detail=False):
             if detail:
                 values += [node.hostname, node.public_ipv4, node.private_ipv4,
                            node.public_ipv6, node.ssh_port, node.launcher,
-                           node.comment]
+                           node.hold_job, node.comment]
             t.add_row(values)
     return str(t)
 
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index bd369c5fb..1888cca9b 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -66,7 +66,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         col_count = 8
         if detail:
             cmd += ['--detail']
-            col_count = 15
+            col_count = 16
         if not validate_col_count:
             col_count = 0
         self.assert_listed(configfile, cmd, 5, status, node_cnt, col_count)
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index dde66a761..43dfcb7dd 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -795,6 +795,7 @@ class TestZKModel(tests.BaseTestCase):
         o.external_id = 'ABCD'
         o.hostname = 'xyz'
         o.comment = 'comment'
+        o.hold_job = 'hold job'
         o.host_keys = ['key1', 'key2']
 
         d = o.toDict()
@@ -815,6 +816,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(d['external_id'], o.external_id)
         self.assertEqual(d['hostname'], o.hostname)
         self.assertEqual(d['comment'], o.comment)
+        self.assertEqual(d['hold_job'], o.hold_job)
         self.assertEqual(d['host_keys'], o.host_keys)
 
     def test_Node_fromDict(self):
@@ -837,6 +839,7 @@ class TestZKModel(tests.BaseTestCase):
             'external_id': 'ABCD',
             'hostname': 'xyz',
             'comment': 'comment',
+            'hold_job': 'hold job',
             'host_keys': ['key1', 'key2'],
             'ssh_port': 22022,
         }
@@ -859,6 +862,7 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.external_id, d['external_id'])
         self.assertEqual(o.hostname , d['hostname'])
         self.assertEqual(o.comment , d['comment'])
+        self.assertEqual(o.hold_job, d['hold_job'])
         self.assertEqual(o.host_keys , d['host_keys'])
         self.assertEqual(o.ssh_port , d['ssh_port'])
 
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 8459f34b1..0e71c4ac5 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -436,6 +436,7 @@ class Node(BaseModel):
         self.external_id = None
         self.hostname = None
         self.comment = None
+        self.hold_job = None
         self.host_keys = []
 
     def __repr__(self):
@@ -465,6 +466,7 @@ class Node(BaseModel):
                     self.external_id == other.external_id and
                     self.hostname == other.hostname and
                     self.comment == other.comment and
+                    self.hold_job == other.hold_job and
                     self.host_keys == other.host_keys)
         else:
             return False
@@ -491,6 +493,7 @@ class Node(BaseModel):
         d['external_id'] = self.external_id
         d['hostname'] = self.hostname
         d['comment'] = self.comment
+        d['hold_job'] = self.hold_job
         d['host_keys'] = self.host_keys
         return d
 
@@ -523,6 +526,7 @@ class Node(BaseModel):
         o.external_id = d.get('external_id')
         o.hostname = d.get('hostname')
         o.comment = d.get('comment')
+        o.hold_job = d.get('hold_job')
         o.host_keys = d.get('host_keys', [])
         return o
 

From c440df41893ec4b5f6966cddda4699e994d0935f Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Tue, 8 Aug 2017 08:20:30 +0200
Subject: [PATCH 243/309] Fix detail headers order for nodepool list

When running 'nodepool list --detail' the ordering of the headings is
wrong. The 'Hold Job' and 'Launcher' headings need to be swapped.

Change-Id: I195392744d5b596c2d51335af9eba68e0a1ad671
---
 nodepool/status.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/status.py b/nodepool/status.py
index f02d75ae1..b32217db9 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -33,7 +33,7 @@ def node_list(zk, node_id=None, detail=False):
     headers = ["ID", "Provider", "AZ", "Label", "Server ID", "State",
                "Age", "Locked"]
     detail_headers = ["Hostname", "Public IPv4", "Private IPv4", "IPv6",
-                      "SSH Port", "Hold Job", "Launcher", "Comment"]
+                      "SSH Port", "Launcher", "Hold Job", "Comment"]
     if detail:
         headers += detail_headers
 

From 7a5c1c6d51ce03cb70a36cf767fee8c4ccd82e47 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 9 Aug 2017 14:23:14 -0400
Subject: [PATCH 244/309] Allow launcher to stop quicker when asked

Taking a cue from https://review.openstack.org/476683, use a threading
Event to signal thread shutdown and avoid time.sleep().

Change-Id: If4c9ae260b20b03b97815ea3a575a7a54db97796
---
 nodepool/launcher.py | 67 +++++++++++++++++++++++++++-----------------
 1 file changed, 42 insertions(+), 25 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 27674f40a..748993561 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -128,7 +128,6 @@ class PoolWorker(threading.Thread):
         self.nodepool = nodepool
         self.provider_name = provider_name
         self.pool_name = pool_name
-        self.running = False
         self.paused_handler = None
         self.request_handlers = []
         self.watermark_sleep = nodepool.watermark_sleep
@@ -136,6 +135,11 @@ class PoolWorker(threading.Thread):
         self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
                                          os.getpid(),
                                          self.name)
+        self._death = threading.Event()
+
+    @property
+    def _running(self):
+        return not self._death.is_set()
 
     #----------------------------------------------------------------
     # Private methods
@@ -248,13 +252,15 @@ class PoolWorker(threading.Thread):
         return self.nodepool.getProviderManager(self.provider_name)
 
     def run(self):
-        self.running = True
-
-        while self.running:
+        while self._running:
             # Don't do work if we've lost communication with the ZK cluster
-            while self.zk and (self.zk.suspended or self.zk.lost):
+            while (self._running and self.zk and
+                   (self.zk.suspended or self.zk.lost)):
                 self.log.info("ZooKeeper suspended. Waiting")
-                time.sleep(SUSPEND_WAIT_TIME)
+                self._death.wait(SUSPEND_WAIT_TIME)
+
+            if not self._running:
+                break
 
             # Make sure we're always registered with ZK
             self.zk.registerLauncher(self.launcher_id)
@@ -273,7 +279,7 @@ class PoolWorker(threading.Thread):
                 self._removeCompletedHandlers()
             except Exception:
                 self.log.exception("Error in PoolWorker:")
-            time.sleep(self.watermark_sleep)
+            self._death.wait(self.watermark_sleep)
 
         # Cleanup on exit
         if self.paused_handler:
@@ -288,7 +294,7 @@ class PoolWorker(threading.Thread):
         restart. They will be unlocked and BUILDING in ZooKeeper.
         '''
         self.log.info("%s received stop" % self.name)
-        self.running = False
+        self._death.set()
 
 
 class BaseCleanupWorker(threading.Thread):
@@ -296,7 +302,11 @@ class BaseCleanupWorker(threading.Thread):
         threading.Thread.__init__(self, name=name)
         self._nodepool = nodepool
         self._interval = interval
-        self._running = False
+        self._death = threading.Event()
+
+    @property
+    def _running(self):
+        return not self._death.is_set()
 
     def _deleteInstance(self, node):
         '''
@@ -321,22 +331,25 @@ class BaseCleanupWorker(threading.Thread):
 
     def run(self):
         self.log.info("Starting")
-        self._running = True
 
         while self._running:
             # Don't do work if we've lost communication with the ZK cluster
             zk_conn = self._nodepool.getZK()
-            while zk_conn and (zk_conn.suspended or zk_conn.lost):
+            while (self._running and zk_conn and
+                   (zk_conn.suspended or zk_conn.lost)):
                 self.log.info("ZooKeeper suspended. Waiting")
-                time.sleep(SUSPEND_WAIT_TIME)
+                self._death.wait(SUSPEND_WAIT_TIME)
+
+            if not self._running:
+                break
 
             self._run()
-            time.sleep(self._interval)
+            self._death.wait(self._interval)
 
         self.log.info("Stopped")
 
     def stop(self):
-        self._running = False
+        self._death.set()
         self.join()
 
 
@@ -608,7 +621,6 @@ class NodePool(threading.Thread):
         self.watermark_sleep = watermark_sleep
         self.cleanup_interval = 60
         self.delete_interval = 5
-        self._stopped = False
         self.config = None
         self.zk = None
         self.statsd = stats.get_client()
@@ -617,12 +629,15 @@ class NodePool(threading.Thread):
         self._delete_thread = None
         self._wake_condition = threading.Condition()
         self._submittedRequests = {}
+        self._death = threading.Event()
+
+    @property
+    def _running(self):
+        return not self._death.is_set()
 
     def stop(self):
-        self._stopped = True
-        self._wake_condition.acquire()
-        self._wake_condition.notify()
-        self._wake_condition.release()
+        self._death.set()
+
         if self.config:
             provider_manager.ProviderManager.stopProviders(self.config)
 
@@ -824,14 +839,18 @@ class NodePool(threading.Thread):
         '''
         Start point for the NodePool thread.
         '''
-        while not self._stopped:
+        while self._running:
             try:
                 self.updateConfig()
 
                 # Don't do work if we've lost communication with the ZK cluster
-                while self.zk and (self.zk.suspended or self.zk.lost):
+                while (self._running and self.zk and
+                       (self.zk.suspended or self.zk.lost)):
                     self.log.info("ZooKeeper suspended. Waiting")
-                    time.sleep(SUSPEND_WAIT_TIME)
+                    self._death.wait(SUSPEND_WAIT_TIME)
+
+                if not self._running:
+                    break
 
                 self.createMinReady()
 
@@ -876,6 +895,4 @@ class NodePool(threading.Thread):
             except Exception:
                 self.log.exception("Exception in main loop:")
 
-            self._wake_condition.acquire()
-            self._wake_condition.wait(self.watermark_sleep)
-            self._wake_condition.release()
+            self._death.wait(self.watermark_sleep)

From 4e411207d975249808ec11781c3a40a837385490 Mon Sep 17 00:00:00 2001
From: Paul Belanger <pabelanger@redhat.com>
Date: Fri, 11 Aug 2017 13:00:53 -0400
Subject: [PATCH 245/309] Add node.cloud to zookeeper

We'd like to pass this information into zuulv3 inventory files but
first we need to store the value into zookeeper.

Change-Id: Idc7686167d131d8e74d55b8f7f50224a1b782091
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 nodepool/driver/openstack/handler.py | 1 +
 nodepool/tests/test_launcher.py      | 1 +
 nodepool/zk.py                       | 4 ++++
 3 files changed, 6 insertions(+)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index cdb145746..83a47b2e7 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -445,6 +445,7 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                 node.provider = self.provider.name
                 node.pool = self.pool.name
                 node.az = self.chosen_az
+                node.cloud = self.provider.cloud_config.name
                 node.region = self.provider.region_name
                 node.launcher = self.launcher_id
                 node.allocated_to = self.request.id
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index dd500bdc9..07ee0741a 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -52,6 +52,7 @@ class TestLauncher(tests.DBTestCase):
             self.assertEqual(node.allocated_to, req.id)
             self.assertEqual(node.state, zk.READY)
             self.assertIsNotNone(node.launcher)
+            self.assertEqual(node.cloud, 'fake')
             self.assertEqual(node.region, 'fake-region')
             self.assertEqual(node.az, "az1")
             p = "{path}/{id}".format(
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 0e71c4ac5..24a621a81 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -419,6 +419,7 @@ class Node(BaseModel):
     def __init__(self, id=None):
         super(Node, self).__init__(id)
         self.lock = None
+        self.cloud = None
         self.provider = None
         self.pool = None
         self.type = None
@@ -448,6 +449,7 @@ class Node(BaseModel):
     def __eq__(self, other):
         if isinstance(other, Node):
             return (self.id == other.id and
+                    self.cloud == other.cloud and
                     self.state == other.state and
                     self.state_time == other.state_time and
                     self.provider == other.provider and
@@ -476,6 +478,7 @@ class Node(BaseModel):
         Convert a Node object's attributes to a dictionary.
         '''
         d = super(Node, self).toDict()
+        d['cloud'] = self.cloud
         d['provider'] = self.provider
         d['pool'] = self.pool
         d['type'] = self.type
@@ -509,6 +512,7 @@ class Node(BaseModel):
         '''
         o = Node(o_id)
         super(Node, o).fromDict(d)
+        o.cloud = d.get('cloud')
         o.provider = d.get('provider')
         o.pool = d.get('pool')
         o.type = d.get('type')

From 5e37f0916c092cfee818ee8bec3a71f1a9533aab Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 24 Aug 2017 12:20:58 -0400
Subject: [PATCH 246/309] Revert "Allow launcher to stop quicker when asked"

This reverts commit 7a5c1c6d51ce03cb70a36cf767fee8c4ccd82e47.

This is somehow causing our unit tests to randomly hang. Have
been unable to locate the problem. For now, let's revert it.

Change-Id: Id2f6857bbd7077a85ce377fa15db711548aec8c4
---
 nodepool/launcher.py | 69 +++++++++++++++++---------------------------
 1 file changed, 26 insertions(+), 43 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 748993561..27674f40a 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -128,6 +128,7 @@ class PoolWorker(threading.Thread):
         self.nodepool = nodepool
         self.provider_name = provider_name
         self.pool_name = pool_name
+        self.running = False
         self.paused_handler = None
         self.request_handlers = []
         self.watermark_sleep = nodepool.watermark_sleep
@@ -135,11 +136,6 @@ class PoolWorker(threading.Thread):
         self.launcher_id = "%s-%s-%s" % (socket.gethostname(),
                                          os.getpid(),
                                          self.name)
-        self._death = threading.Event()
-
-    @property
-    def _running(self):
-        return not self._death.is_set()
 
     #----------------------------------------------------------------
     # Private methods
@@ -252,15 +248,13 @@ class PoolWorker(threading.Thread):
         return self.nodepool.getProviderManager(self.provider_name)
 
     def run(self):
-        while self._running:
-            # Don't do work if we've lost communication with the ZK cluster
-            while (self._running and self.zk and
-                   (self.zk.suspended or self.zk.lost)):
-                self.log.info("ZooKeeper suspended. Waiting")
-                self._death.wait(SUSPEND_WAIT_TIME)
+        self.running = True
 
-            if not self._running:
-                break
+        while self.running:
+            # Don't do work if we've lost communication with the ZK cluster
+            while self.zk and (self.zk.suspended or self.zk.lost):
+                self.log.info("ZooKeeper suspended. Waiting")
+                time.sleep(SUSPEND_WAIT_TIME)
 
             # Make sure we're always registered with ZK
             self.zk.registerLauncher(self.launcher_id)
@@ -279,7 +273,7 @@ class PoolWorker(threading.Thread):
                 self._removeCompletedHandlers()
             except Exception:
                 self.log.exception("Error in PoolWorker:")
-            self._death.wait(self.watermark_sleep)
+            time.sleep(self.watermark_sleep)
 
         # Cleanup on exit
         if self.paused_handler:
@@ -294,7 +288,7 @@ class PoolWorker(threading.Thread):
         restart. They will be unlocked and BUILDING in ZooKeeper.
         '''
         self.log.info("%s received stop" % self.name)
-        self._death.set()
+        self.running = False
 
 
 class BaseCleanupWorker(threading.Thread):
@@ -302,11 +296,7 @@ class BaseCleanupWorker(threading.Thread):
         threading.Thread.__init__(self, name=name)
         self._nodepool = nodepool
         self._interval = interval
-        self._death = threading.Event()
-
-    @property
-    def _running(self):
-        return not self._death.is_set()
+        self._running = False
 
     def _deleteInstance(self, node):
         '''
@@ -331,25 +321,22 @@ class BaseCleanupWorker(threading.Thread):
 
     def run(self):
         self.log.info("Starting")
+        self._running = True
 
         while self._running:
             # Don't do work if we've lost communication with the ZK cluster
             zk_conn = self._nodepool.getZK()
-            while (self._running and zk_conn and
-                   (zk_conn.suspended or zk_conn.lost)):
+            while zk_conn and (zk_conn.suspended or zk_conn.lost):
                 self.log.info("ZooKeeper suspended. Waiting")
-                self._death.wait(SUSPEND_WAIT_TIME)
-
-            if not self._running:
-                break
+                time.sleep(SUSPEND_WAIT_TIME)
 
             self._run()
-            self._death.wait(self._interval)
+            time.sleep(self._interval)
 
         self.log.info("Stopped")
 
     def stop(self):
-        self._death.set()
+        self._running = False
         self.join()
 
 
@@ -621,6 +608,7 @@ class NodePool(threading.Thread):
         self.watermark_sleep = watermark_sleep
         self.cleanup_interval = 60
         self.delete_interval = 5
+        self._stopped = False
         self.config = None
         self.zk = None
         self.statsd = stats.get_client()
@@ -629,15 +617,12 @@ class NodePool(threading.Thread):
         self._delete_thread = None
         self._wake_condition = threading.Condition()
         self._submittedRequests = {}
-        self._death = threading.Event()
-
-    @property
-    def _running(self):
-        return not self._death.is_set()
 
     def stop(self):
-        self._death.set()
-
+        self._stopped = True
+        self._wake_condition.acquire()
+        self._wake_condition.notify()
+        self._wake_condition.release()
         if self.config:
             provider_manager.ProviderManager.stopProviders(self.config)
 
@@ -839,18 +824,14 @@ class NodePool(threading.Thread):
         '''
         Start point for the NodePool thread.
         '''
-        while self._running:
+        while not self._stopped:
             try:
                 self.updateConfig()
 
                 # Don't do work if we've lost communication with the ZK cluster
-                while (self._running and self.zk and
-                       (self.zk.suspended or self.zk.lost)):
+                while self.zk and (self.zk.suspended or self.zk.lost):
                     self.log.info("ZooKeeper suspended. Waiting")
-                    self._death.wait(SUSPEND_WAIT_TIME)
-
-                if not self._running:
-                    break
+                    time.sleep(SUSPEND_WAIT_TIME)
 
                 self.createMinReady()
 
@@ -895,4 +876,6 @@ class NodePool(threading.Thread):
             except Exception:
                 self.log.exception("Exception in main loop:")
 
-            self._death.wait(self.watermark_sleep)
+            self._wake_condition.acquire()
+            self._wake_condition.wait(self.watermark_sleep)
+            self._wake_condition.release()

From 50d8b5d27fdef1c4cd2f4ab34b4a1d188b7f96ef Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 22 Aug 2017 10:33:53 -0400
Subject: [PATCH 247/309] Set base environment as python3

We are python3 all the way down now.

Change-Id: Ibdb2bffc3f47ba35aa970cc0520075186c848299
---
 tox.ini | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/tox.ini b/tox.ini
index ad0be152a..6e6fa2b63 100644
--- a/tox.ini
+++ b/tox.ini
@@ -1,7 +1,7 @@
 [tox]
 minversion = 1.6
 skipsdist = True
-envlist = pep8, py27
+envlist = pep8,py35
 
 [testenv]
 # Set STATSD env variables so that statsd code paths are tested.
@@ -17,6 +17,7 @@ commands =
   python setup.py testr --slowest --testr-args='{posargs}'
 
 [testenv:pep8]
+basepython = python3
 commands = flake8 nodepool
 
 [testenv:bindep]
@@ -28,6 +29,7 @@ deps = bindep
 commands = bindep test
 
 [testenv:cover]
+basepython = python3
 commands =
   python setup.py testr --coverage
 
@@ -36,6 +38,7 @@ commands =
   python setup.py build_sphinx
 
 [testenv:venv]
+basepython = python3
 commands = {posargs}
 
 [flake8]

From 5ae9b63737c08a24cb1c02d264be788e5fbdeee7 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Wed, 5 Jul 2017 09:49:14 +1000
Subject: [PATCH 248/309] Remove the default argument to secure in nodepoolcmd

The nodepool secure file is currently not being used for anything. By
having a default value in the nodepool command the config will try to
load this file. When the file then doesn't exist the program will exit.

This basically means you have to have an empty file at
/etc/nodepool/secure.conf to be able to use nodepoolcmd. Launcher does
not specify a default for secure, so follow that lead and remove the
default.

Change-Id: I244f097bcd1443588c03257394c5e8768ab3e785
Signed-off-by: Jamie Lennox <jamielennox@gmail.com>
---
 nodepool/cmd/nodepoolcmd.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 86630bcbc..7b967d013 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -38,7 +38,6 @@ class NodePoolCmd(NodepoolApp):
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
         parser.add_argument('-s', dest='secure',
-                            default='/etc/nodepool/secure.conf',
                             help='path to secure file')
         parser.add_argument('--debug', dest='debug', action='store_true',
                             help='show DEBUG level logging')

From 5f02073a61e7e576eea3e801e6701cc2fe4727b8 Mon Sep 17 00:00:00 2001
From: Monty Taylor <mordred@inaugust.com>
Date: Sun, 3 Sep 2017 14:44:20 -0500
Subject: [PATCH 249/309] Fix nodepool's docs about config-drive

It does not, in fact, default to True. It defaults to None, which
causes shade to not send any config-drive flag to Nova.

Change-Id: I5b8c299adc8a96beb31a5e6ff99d020f2c1c3f6c
---
 doc/source/configuration.rst | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index ad20db73c..048c79e9c 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -448,7 +448,8 @@ Example configuration::
     provider.
 
   ``config-drive`` (boolean)
-    Whether config drive should be used for the image. Default ``True``
+    Whether config drive should be used for the image. Defaults to unset which
+    will use the cloud's default behavior.
 
   ``meta`` (dict)
     Arbitrary key/value metadata to store for this server using the Nova
@@ -486,7 +487,8 @@ Example configuration::
 **optional**
 
   ``config-drive`` (boolean)
-    Whether config drive should be used for the cloud image. Default ``True``
+    Whether config drive should be used for the cloud image. Defaults to
+    unset which will use the cloud's default behavior.
 
   ``image-id`` (str)
     If this is provided, it is used to select the image from the cloud

From d399b3ac4f59ff0f5bae1e56bec0d2906daff626 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 11 Sep 2017 10:15:16 -0600
Subject: [PATCH 250/309] Add node.allocated_to to node detail output

Change-Id: Ia17a8821365f3a7bae6f874c0b46e2016b44595a
---
 nodepool/status.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/nodepool/status.py b/nodepool/status.py
index b32217db9..3d4f32f16 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -33,7 +33,8 @@ def node_list(zk, node_id=None, detail=False):
     headers = ["ID", "Provider", "AZ", "Label", "Server ID", "State",
                "Age", "Locked"]
     detail_headers = ["Hostname", "Public IPv4", "Private IPv4", "IPv6",
-                      "SSH Port", "Launcher", "Hold Job", "Comment"]
+                      "SSH Port", "Launcher", "Allocated To", "Hold Job",
+                      "Comment"]
     if detail:
         headers += detail_headers
 
@@ -57,7 +58,7 @@ def node_list(zk, node_id=None, detail=False):
             if detail:
                 values += [node.hostname, node.public_ipv4, node.private_ipv4,
                            node.public_ipv6, node.ssh_port, node.launcher,
-                           node.hold_job, node.comment]
+                           node.allocated_to, node.hold_job, node.comment]
             t.add_row(values)
     else:
         for node in zk.nodeIterator():

From d125538023231f3cad596e878cb366921ae6b4a9 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 11 Sep 2017 11:12:48 -0600
Subject: [PATCH 251/309] Fix node list output

Missed a place for the new allocated_to field output.

Change-Id: I9ff2166cb49542b71e9dbe9fb6b5f50498a6bfab
---
 nodepool/status.py              | 2 +-
 nodepool/tests/test_commands.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/nodepool/status.py b/nodepool/status.py
index 3d4f32f16..8b3160380 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -76,7 +76,7 @@ def node_list(zk, node_id=None, detail=False):
             if detail:
                 values += [node.hostname, node.public_ipv4, node.private_ipv4,
                            node.public_ipv6, node.ssh_port, node.launcher,
-                           node.hold_job, node.comment]
+                           node.allocated_to, node.hold_job, node.comment]
             t.add_row(values)
     return str(t)
 
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 1888cca9b..8b61ff593 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -66,7 +66,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         col_count = 8
         if detail:
             cmd += ['--detail']
-            col_count = 16
+            col_count = 17
         if not validate_col_count:
             col_count = 0
         self.assert_listed(configfile, cmd, 5, status, node_cnt, col_count)

From 9399046878fd1bfafeab425ba48fbc54f84b2725 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Wed, 13 Sep 2017 00:17:02 +0200
Subject: [PATCH 252/309] Fix typo in variable name

This fixes a typo leading to not correcly resetting the interface ip
of a failed node.

Change-Id: I4bfc97484855aa8e16f06ebe9693a91af3ece072
---
 nodepool/driver/openstack/handler.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 83a47b2e7..db173d71b 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -226,7 +226,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
                     self._node.external_id = None
                     self._node.public_ipv4 = None
                     self._node.public_ipv6 = None
-                    self._node.inerface_ip = None
+                    self._node.interface_ip = None
                     self._zk.storeNode(self._node)
                 if attempts == self._retries:
                     raise

From 864bffa9a06528ba5513c291de03b012cd0ff09d Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Thu, 21 Sep 2017 14:10:50 +0200
Subject: [PATCH 253/309] Remove unreachable code

This removes unreachable code which is probably a leftover from the v3
development.

Change-Id: I7444e1480a0dc429541859c3aa850a3edbd5491d
---
 nodepool/launcher.py | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 27674f40a..6235ae61b 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -761,11 +761,6 @@ class NodePool(threading.Thread):
                     return True
         return False
 
-        for provider_name in label.providers.keys():
-            if self.zk.getMostRecentImageUpload(label.image, provider_name):
-                return True
-        return False
-
     def createMinReady(self):
         '''
         Create node requests to make the minimum amount of ready nodes.

From 97305a760c5f96062ff324ae3f80612cbe626e2a Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 22 Sep 2017 14:54:53 -0400
Subject: [PATCH 254/309] Fix node delete command

If we issue a 'nodepool delete' command for a node whose provider
is not defined on the current launcher, we would get an error
trying to pull up that provider info. Only pull that provider info
when using the --now option.

Change-Id: Ibe05b93b3c8a2b9105261c4df01c9c6a43352f9e
---
 nodepool/cmd/nodepoolcmd.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 86630bcbc..0746f548f 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -265,10 +265,14 @@ class NodePoolCmd(NodepoolApp):
             print("Node id %s not found" % self.args.id)
             return
 
-        provider = self.pool.config.providers[node.provider]
         self.zk.lockNode(node, blocking=True, timeout=5)
 
         if self.args.now:
+            if node.provider not in self.pool.config.providers:
+                print("Provider %s for node %s not defined on this launcher" %
+                      (node.provider, node.id))
+                return
+            provider = self.pool.config.providers[node.provider]
             manager = provider_manager.get_provider(provider, True)
             manager.start()
             launcher.NodeDeleter.delete(self.zk, manager, node)

From 592b71d5578ca0a59f11e979502380cbd06127d5 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 25 Sep 2017 11:56:05 -0400
Subject: [PATCH 255/309] Fix node request assignment order

Nodes should be assigned to a request in the same label order as
listed in the request.

Change-Id: Iff5fa9c1be888fac77d957048ed425088d11b61c
---
 nodepool/driver/__init__.py                   | 15 ++++--
 nodepool/tests/fixtures/node_many_labels.yaml | 54 +++++++++++++++++++
 nodepool/tests/test_launcher.py               | 33 ++++++++++++
 3 files changed, 99 insertions(+), 3 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_many_labels.yaml

diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 38444edcd..6c8919d59 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -191,9 +191,18 @@ class NodeRequestHandler(object):
             else:
                 self.request.state = zk.REQUESTED
         else:
-            for node in self.nodeset:
-                # Record node ID in the request
-                self.request.nodes.append(node.id)
+            # The assigned nodes must be added to the request in the order
+            # in which they were requested.
+            assigned = []
+            for requested_type in self.request.node_types:
+                for node in self.nodeset:
+                    if node.id in assigned:
+                        continue
+                    if node.type == requested_type:
+                        # Record node ID in the request
+                        self.request.nodes.append(node.id)
+                        assigned.append(node.id)
+
             self.log.debug("Fulfilled node request %s",
                            self.request.id)
             self.request.state = zk.FULFILLED
diff --git a/nodepool/tests/fixtures/node_many_labels.yaml b/nodepool/tests/fixtures/node_many_labels.yaml
new file mode 100644
index 000000000..7e165e25c
--- /dev/null
+++ b/nodepool/tests/fixtures/node_many_labels.yaml
@@ -0,0 +1,54 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label1
+    min-ready: 1
+  - name: fake-label2
+    min-ready: 1
+  - name: fake-label3
+    min-ready: 1
+  - name: fake-label4
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label1
+            diskimage: fake-image
+            min-ram: 8192
+          - name: fake-label2
+            diskimage: fake-image
+            min-ram: 8192
+          - name: fake-label3
+            diskimage: fake-image
+            min-ram: 8192
+          - name: fake-label4
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 07ee0741a..4b5594ec9 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -73,6 +73,39 @@ class TestLauncher(tests.DBTestCase):
         self.assertReportedStat('nodepool.nodes.ready', '1|g')
         self.assertReportedStat('nodepool.nodes.building', '0|g')
 
+    def test_node_assignment_order(self):
+        """Test that nodes are assigned in the order requested"""
+        configfile = self.setup_config('node_many_labels.yaml')
+        self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
+
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+
+        self.waitForNodes('fake-label1')
+        self.waitForNodes('fake-label2')
+        self.waitForNodes('fake-label3')
+        self.waitForNodes('fake-label4')
+
+        req = zk.NodeRequest()
+        req.state = zk.REQUESTED
+        req.node_types.append('fake-label3')
+        req.node_types.append('fake-label1')
+        req.node_types.append('fake-label4')
+        req.node_types.append('fake-label2')
+        self.zk.storeNodeRequest(req)
+
+        req = self.waitForNodeRequest(req)
+        self.assertEqual(req.state, zk.FULFILLED)
+        self.assertEqual(4, len(req.nodes))
+        nodes = []
+        for node_id in req.nodes:
+            nodes.append(self.zk.getNode(node_id))
+        self.assertEqual(nodes[0].type, 'fake-label3')
+        self.assertEqual(nodes[1].type, 'fake-label1')
+        self.assertEqual(nodes[2].type, 'fake-label4')
+        self.assertEqual(nodes[3].type, 'fake-label2')
+
     def test_node_assignment_at_quota(self):
         '''
         Successful node launch should have unlocked nodes in READY state

From 5ff1454696678d2280593922c50a6d1230d9f307 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 28 Sep 2017 12:55:17 -0400
Subject: [PATCH 256/309] Add debug line for deleting unlocked nodes

It can be useful to see when we mark a node for deletion when it
has been left a state where it was being used, but has been unlocked
(and thus abandoned) for some reason (e.g., zuul disconnect).

Change-Id: I11ca2144815dac085e6e3cd3ad2ddf95736ed3e9
---
 nodepool/launcher.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 27674f40a..8010a974e 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -586,6 +586,11 @@ class DeletedNodeWorker(BaseCleanupWorker):
                     zk_conn.unlockNode(node)
                     continue
 
+                self.log.debug(
+                    "Marking for deletion unlocked node %s "
+                    "(state: %s, allocated_to: %s)",
+                    node.id, node.state, node.allocated_to)
+
                 # The NodeDeleter thread will unlock and remove the
                 # node from ZooKeeper if it succeeds.
                 self._deleteInstance(node)

From 45431c9f6f61fe328c99d18e42090c49cb20eecf Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 4 Oct 2017 07:01:48 -0400
Subject: [PATCH 257/309] Add launcher ID to log messages

When we moved some of the launcher code to drivers, we lost context
around many of the log messages, making it impossible to see which
launcher thread was logging the messages.

Change-Id: Ib5ea58a23ce471042a88a6771e99ab00a63443f6
---
 nodepool/driver/fake/handler.py      | 2 +-
 nodepool/driver/openstack/handler.py | 5 +++--
 2 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/nodepool/driver/fake/handler.py b/nodepool/driver/fake/handler.py
index 09b14e6cd..dbd949c55 100644
--- a/nodepool/driver/fake/handler.py
+++ b/nodepool/driver/fake/handler.py
@@ -16,4 +16,4 @@ from nodepool.driver.openstack.handler import OpenStackNodeRequestHandler
 
 
 class FakeNodeRequestHandler(OpenStackNodeRequestHandler):
-    pass
+    launcher_id = "Fake"
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index db173d71b..b08fa04f9 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -283,12 +283,13 @@ class OpenStackNodeLaunchManager(NodeLaunchManager):
 
 
 class OpenStackNodeRequestHandler(NodeRequestHandler):
-    log = logging.getLogger("nodepool.driver.openstack."
-                            "OpenStackNodeRequestHandler")
 
     def __init__(self, pw, request):
         super(OpenStackNodeRequestHandler, self).__init__(pw, request)
         self.chosen_az = None
+        self.log = logging.getLogger(
+            "nodepool.driver.openstack.OpenStackNodeRequestHandler[%s]" %
+            self.launcher_id)
 
     def _imagesAvailable(self):
         '''

From a90ac791773652dc523a5f2e96be3f345c5a8761 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 4 Oct 2017 10:13:52 -0400
Subject: [PATCH 258/309] Set log after we have launcher_id

Change-Id: I5e24db8f0dc7e934facf4856ca49a19943a1c707
---
 nodepool/driver/openstack/handler.py | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index b08fa04f9..5ad30c1cb 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -287,9 +287,6 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
     def __init__(self, pw, request):
         super(OpenStackNodeRequestHandler, self).__init__(pw, request)
         self.chosen_az = None
-        self.log = logging.getLogger(
-            "nodepool.driver.openstack.OpenStackNodeRequestHandler[%s]" %
-            self.launcher_id)
 
     def _imagesAvailable(self):
         '''
@@ -472,6 +469,12 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         Main body for the OpenStackNodeRequestHandler.
         '''
         self._setFromPoolWorker()
+
+        # We have the launcher_id attr after _setFromPoolWorker() is called.
+        self.log = logging.getLogger(
+            "nodepool.driver.openstack.OpenStackNodeRequestHandler[%s]" %
+            self.launcher_id)
+
         declined_reasons = []
         invalid_types = self._invalidNodeTypes()
         if invalid_types:

From 2d3543bd90375e47d0c723366bb61cc4a2c1bf4e Mon Sep 17 00:00:00 2001
From: Ricardo Carrillo Cruz <ricardo.carrillo.cruz@gmail.com>
Date: Wed, 4 Oct 2017 22:07:17 +0200
Subject: [PATCH 259/309] Bring back per label groups in Openstack

I added per label groups in Openstack at commit
7c3263c7df08bf824a1a8a87279d4e8ca547fd63 , it seems that got lost
on the nodepool openstack driver split.
This change brings back that feature.

Change-Id: I4f8f71bdc72b60a3bbf19a093987967c47caa2c4
---
 nodepool/driver/openstack/handler.py     | 1 +
 nodepool/tests/test_nodelaunchmanager.py | 2 ++
 2 files changed, 3 insertions(+)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 5ad30c1cb..34499a23f 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -136,6 +136,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             az=self._node.az,
             config_drive=config_drive,
             nodepool_node_id=self._node.id,
+            nodepool_node_label=self._node.type,
             nodepool_image_name=image_name,
             networks=self._pool.networks,
             boot_from_volume=self._label.boot_from_volume,
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index 0819a5659..7ba659319 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -61,6 +61,8 @@ class TestNodeLaunchManager(tests.DBTestCase):
             time.sleep(0)
         self.assertEqual(len(mgr.ready_nodes), 1)
         self.assertEqual(len(mgr.failed_nodes), 0)
+        self.assertEqual(mgr._manager.listNodes()[0]['metadata']['groups'],
+                         'fake-provider,fake-image,fake-label')
 
     @mock.patch('nodepool.driver.openstack.handler.NodeLauncher._launchNode')
     def test_failed_launch(self, mock_launch):

From c739eec8535ccff4dc133a40661dfaed393042ba Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 6 Oct 2017 08:08:04 -0400
Subject: [PATCH 260/309] Do not satisfy min-ready requests if at capacity

If a provider gets a min-ready request, but it is already at capacity,
it should decline the request so as to not wedge the provider (because
a min-ready does not reuse READY nodes, provider would have to wait until
a node was freed to satisfy the min-ready request).

Change-Id: I37dc0802c1b30714833d6f46cc19b86deb58852b
---
 nodepool/driver/openstack/handler.py          |  9 ++++
 nodepool/launcher.py                          |  2 +-
 .../fixtures/node_min_ready_capacity.yaml     | 47 +++++++++++++++++++
 nodepool/tests/test_launcher.py               | 29 ++++++++++++
 nodepool/zk.py                                | 13 +++++
 5 files changed, 99 insertions(+), 1 deletion(-)
 create mode 100644 nodepool/tests/fixtures/node_min_ready_capacity.yaml

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 34499a23f..9ada75177 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -486,6 +486,15 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         if len(self.request.node_types) > self.pool.max_servers:
             declined_reasons.append('it would exceed quota')
 
+        # For min-ready requests, which do not re-use READY nodes, let's
+        # decline if this provider is already at capacity. Otherwise, we
+        # could end up wedged until another request frees up a node.
+        if self.request.requestor == "NodePool:min-ready":
+            current_count = self.zk.countPoolNodes(self.provider.name,
+                                                   self.pool.name)
+            if current_count == self.pool.max_servers:
+                declined_reasons.append("provider cannot satisify min-ready")
+
         if declined_reasons:
             self.log.debug("Declining node request %s because %s",
                            self.request.id, ', '.join(declined_reasons))
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 8010a974e..bd1fce8e0 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -786,7 +786,7 @@ class NodePool(threading.Thread):
             req.requestor = "NodePool:min-ready"
             req.node_types.append(label_name)
             req.reuse = False    # force new node launches
-            self.zk.storeNodeRequest(req)
+            self.zk.storeNodeRequest(req, priority="100")
             if label_name not in self._submittedRequests:
                 self._submittedRequests[label_name] = []
             self._submittedRequests[label_name].append(req)
diff --git a/nodepool/tests/fixtures/node_min_ready_capacity.yaml b/nodepool/tests/fixtures/node_min_ready_capacity.yaml
new file mode 100644
index 000000000..0c31e5590
--- /dev/null
+++ b/nodepool/tests/fixtures/node_min_ready_capacity.yaml
@@ -0,0 +1,47 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: main
+        max-servers: 1
+        availability-zones:
+          - az1
+        networks:
+          - net-name
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            flavor-name: 'Fake'
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 4b5594ec9..2eb75cece 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -228,6 +228,35 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(req.state, zk.FAILED)
         self.assertNotEqual(req.declined_by, [])
 
+    def test_fail_minready_request_at_capacity(self):
+        '''
+        A min-ready request to a provider that is already at capacity should
+        be declined.
+        '''
+        configfile = self.setup_config('node_min_ready_capacity.yaml')
+        self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+
+        # Get an initial node ready
+        req = zk.NodeRequest()
+        req.state = zk.REQUESTED
+        req.node_types.append("fake-label")
+        self.zk.storeNodeRequest(req)
+        req = self.waitForNodeRequest(req)
+        self.assertEqual(req.state, zk.FULFILLED)
+
+        # Now simulate a min-ready request
+        min_ready_req = zk.NodeRequest()
+        min_ready_req.state = zk.REQUESTED
+        min_ready_req.node_types.append("fake-label")
+        min_ready_req.requestor = "NodePool:min-ready"
+        self.zk.storeNodeRequest(min_ready_req)
+        min_ready_req = self.waitForNodeRequest(min_ready_req)
+        self.assertEqual(min_ready_req.state, zk.FAILED)
+        self.assertNotEqual(min_ready_req.declined_by, [])
+
     def test_invalid_image_fails(self):
         '''
         Test that an invalid image declines and fails the request.
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 24a621a81..78829582e 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -1629,3 +1629,16 @@ class ZooKeeper(object):
             req = self.getNodeRequest(req_id)
             if req:
                 yield req
+
+    def countPoolNodes(self, provider_name, pool_name):
+        '''
+        Count the number of nodes that exist for the given provider pool.
+
+        :param str provider_name: The provider name.
+        :param str pool_name: The pool name.
+        '''
+        count = 0
+        for node in self.nodeIterator():
+            if node.provider == provider_name and node.pool == pool_name:
+                count = count + 1
+        return count

From 8dc91bb752aae5d300d8b30531d7933bb4fcf1d5 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 9 Oct 2017 10:44:31 -0400
Subject: [PATCH 261/309] Improve exception handling around lost requests

An unexpected exception during resets of lost requests was leaving
the request in a locked state, and thus it would never get processed
again. Improve handling around that.

Also, raise a ZKLockException if the thing we've been asked to lock
has disappeared for some reason (this was the unhandled exception that
caused the lost request handling to fail).

Change-Id: Ie3e91714edc482b7b4fb99d7992cae999b1b7026
---
 nodepool/launcher.py |  7 ++++++-
 nodepool/zk.py       | 17 +++++++++++++++++
 2 files changed, 23 insertions(+), 1 deletion(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index bd1fce8e0..bb5234435 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -395,7 +395,12 @@ class CleanupWorker(BaseCleanupWorker):
                 except exceptions.ZKLockException:
                     continue
 
-                self._resetLostRequest(zk_conn, req)
+                try:
+                    self._resetLostRequest(zk_conn, req)
+                except Exception:
+                    self.log.exception("Error resetting lost request %s:",
+                                       req.id)
+
                 zk_conn.unlockNodeRequest(req)
 
     def _cleanupNodeRequestLocks(self):
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 78829582e..61d906d70 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -625,6 +625,9 @@ class ZooKeeper(object):
         except kze.LockTimeout:
             raise npe.TimeoutException(
                 "Timeout trying to acquire lock %s" % lock_path)
+        except kze.NoNodeError:
+            have_lock = False
+            self.log.error("Image build not found for locking: %s", image)
 
         # If we aren't blocking, it's possible we didn't get the lock
         # because someone else has it.
@@ -642,6 +645,10 @@ class ZooKeeper(object):
         except kze.LockTimeout:
             raise npe.TimeoutException(
                 "Timeout trying to acquire lock %s" % lock_path)
+        except kze.NoNodeError:
+            have_lock = False
+            self.log.error("Image build number not found for locking: %s, %s",
+                           build_number, image)
 
         # If we aren't blocking, it's possible we didn't get the lock
         # because someone else has it.
@@ -659,6 +666,10 @@ class ZooKeeper(object):
         except kze.LockTimeout:
             raise npe.TimeoutException(
                 "Timeout trying to acquire lock %s" % lock_path)
+        except kze.NoNodeError:
+            have_lock = False
+            self.log.error("Image upload not found for locking: %s, %s, %s",
+                           build_number, provider, image)
 
         # If we aren't blocking, it's possible we didn't get the lock
         # because someone else has it.
@@ -1436,6 +1447,9 @@ class ZooKeeper(object):
         except kze.LockTimeout:
             raise npe.TimeoutException(
                 "Timeout trying to acquire lock %s" % path)
+        except kze.NoNodeError:
+            have_lock = False
+            self.log.error("Request not found for locking: %s", request)
 
         # If we aren't blocking, it's possible we didn't get the lock
         # because someone else has it.
@@ -1483,6 +1497,9 @@ class ZooKeeper(object):
         except kze.LockTimeout:
             raise npe.TimeoutException(
                 "Timeout trying to acquire lock %s" % path)
+        except kze.NoNodeError:
+            have_lock = False
+            self.log.error("Node not found for locking: %s", node)
 
         # If we aren't blocking, it's possible we didn't get the lock
         # because someone else has it.

From 7e71dc74817fc93c98a6edee500411d3919ff31d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 16 Oct 2017 16:42:53 -0400
Subject: [PATCH 262/309] Harden exception handling around instance deletes

It's possible to leave a ZK node in a locked state if deleting an
instance fails for some reason. This hardens the logic in the cleanup
thread to make sure we always attempt to unlock the node if the delete
fails.

We have a similar situation in clearing the allocation of nodes whose
request has disappeared.

Also, s/unallocate/deallocate/

Change-Id: I82d9dcb0f86c3296f2427a315e14fce772f5369a
---
 nodepool/launcher.py | 49 ++++++++++++++++++++++++++++++++++----------
 1 file changed, 38 insertions(+), 11 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index bb5234435..cdbd6323f 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -348,7 +348,7 @@ class CleanupWorker(BaseCleanupWorker):
 
     def _resetLostRequest(self, zk_conn, req):
         '''
-        Reset the request state and unallocate nodes.
+        Reset the request state and deallocate nodes.
 
         :param ZooKeeper zk_conn: A ZooKeeper connection object.
         :param NodeRequest req: The lost NodeRequest object.
@@ -364,14 +364,21 @@ class CleanupWorker(BaseCleanupWorker):
                     zk_conn.lockNode(node)
                 except exceptions.ZKLockException:
                     self.log.warning(
-                        "Unable to unallocate node %s from request %s",
-                        node.id, req.id)
+                        "Unable to grab lock to deallocate node %s from "
+                        "request %s", node.id, req.id)
                     return
 
                 node.allocated_to = None
-                zk_conn.storeNode(node)
+                try:
+                    zk_conn.storeNode(node)
+                    self.log.debug("Deallocated node %s for lost request %s",
+                                   node.id, req.id)
+                except Exception:
+                    self.log.exception(
+                        "Unable to deallocate node %s from request %s:",
+                        node.id, req.id)
+
                 zk_conn.unlockNode(node)
-                self.log.debug("Unallocated lost request node %s", node.id)
 
         req.state = zk.REQUESTED
         req.nodes = []
@@ -505,9 +512,18 @@ class CleanupWorker(BaseCleanupWorker):
                     zk_conn.unlockNode(node)
                     continue
 
+                self.log.debug("Node %s exceeds max ready age: %s >= %s",
+                               node.id, now - node.state_time,
+                               label.max_ready_age)
+
                 # The NodeDeleter thread will unlock and remove the
                 # node from ZooKeeper if it succeeds.
-                self._deleteInstance(node)
+                try:
+                    self._deleteInstance(node)
+                except Exception:
+                    self.log.exception("Failure deleting aged node %s:",
+                                       node.id)
+                    zk_conn.unlockNode(node)
 
     def _run(self):
         '''
@@ -566,11 +582,16 @@ class DeletedNodeWorker(BaseCleanupWorker):
                 else:
                     # Double check node conditions after lock
                     if node.state == zk.READY and node.allocated_to:
-                        self.log.debug(
-                            "Unallocating node %s with missing request %s",
-                            node.id, node.allocated_to)
                         node.allocated_to = None
-                        zk_conn.storeNode(node)
+                        try:
+                            zk_conn.storeNode(node)
+                            self.log.debug(
+                                "Deallocated node %s with missing request %s",
+                                node.id, node.allocated_to)
+                        except Exception:
+                            self.log.exception(
+                                "Failed to deallocate node %s for missing "
+                                "request %s:", node.id, node.allocated_to)
 
                     zk_conn.unlockNode(node)
 
@@ -598,7 +619,13 @@ class DeletedNodeWorker(BaseCleanupWorker):
 
                 # The NodeDeleter thread will unlock and remove the
                 # node from ZooKeeper if it succeeds.
-                self._deleteInstance(node)
+                try:
+                    self._deleteInstance(node)
+                except Exception:
+                    self.log.exception(
+                        "Failure deleting node %s in cleanup state %s:",
+                        node.id, node.state)
+                    zk_conn.unlockNode(node)
 
     def _run(self):
         try:

From 559b01cfa0fccf0d6a965610c48e2a60cc636329 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 20 Oct 2017 13:41:11 -0700
Subject: [PATCH 263/309] Add timeout for ssh negotiation on keyscan

We had a launch thread stuck here:

Thread: NodeLauncher-0000341123 (140201917658880)
  File "/usr/lib/python3.5/threading.py", line 882, in _bootstrap
    self._bootstrap_inner()
  File "/usr/lib/python3.5/threading.py", line 914, in _bootstrap_inner
    self.run()
  File "/usr/local/lib/python3.5/dist-packages/nodepool/driver/openstack/handler.py", line 245, in run
    self._run()
  File "/usr/local/lib/python3.5/dist-packages/nodepool/driver/openstack/handler.py", line 216, in _run
    self._launchNode()
  File "/usr/local/lib/python3.5/dist-packages/nodepool/driver/openstack/handler.py", line 201, in _launchNode
    interface_ip, timeout=self._provider.boot_timeout)
  File "/usr/local/lib/python3.5/dist-packages/nodepool/nodeutils.py", line 74, in keyscan
    t.start_client()
  File "/usr/local/lib/python3.5/dist-packages/paramiko/transport.py", line 489, in start_client
    event.wait(0.1)
  File "/usr/lib/python3.5/threading.py", line 549, in wait
    signaled = self._cond.wait(timeout)
  File "/usr/lib/python3.5/threading.py", line 297, in wait
    gotit = waiter.acquire(True, timeout)

This adds a timeout to that method so paramiko won't get stuck there.

Change-Id: I038d88cb141f57b93d8572c067e714f4a3af9c2d
---
 nodepool/nodeutils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index 884c6419a..1db8de4ce 100755
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -71,7 +71,7 @@ def keyscan(ip, port=22, timeout=60):
             sock.settimeout(timeout)
             sock.connect(sockaddr)
             t = paramiko.transport.Transport(sock)
-            t.start_client()
+            t.start_client(timeout=timeout)
             key = t.get_remote_server_key()
             break
         except socket.error as e:

From 7760676d94a2e44a4f8b9be1eaf3cb337ba779f1 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Fri, 20 Oct 2017 11:12:47 -0400
Subject: [PATCH 264/309] Migrate legacy jobs for feature/zuulv3 branch

The nodepool-functional-py35 and nodepool-functional-py35-src
jobs are copied directly from the master branch since there is
currently a zuulv3 bug preventing us from using those jobs in
this branch.

Change-Id: If8636dc36dbab145ef976ce3dd38dd3b593ef1b1
Depends-On: I22007434b38129379690f4e469a1981ed7dcb68c
---
 .zuul.yaml                                    |  44 +++++++
 .../nodepool-functional-py35-src/post.yaml    |  15 +++
 .../nodepool-functional-py35-src/run.yaml     | 121 ++++++++++++++++++
 playbooks/nodepool-functional-py35/post.yaml  |  15 +++
 playbooks/nodepool-functional-py35/run.yaml   |  85 ++++++++++++
 playbooks/nodepool-zuul-functional/post.yaml  |  80 ++++++++++++
 playbooks/nodepool-zuul-functional/run.yaml   |  52 ++++++++
 7 files changed, 412 insertions(+)
 create mode 100644 playbooks/nodepool-functional-py35-src/post.yaml
 create mode 100644 playbooks/nodepool-functional-py35-src/run.yaml
 create mode 100644 playbooks/nodepool-functional-py35/post.yaml
 create mode 100644 playbooks/nodepool-functional-py35/run.yaml
 create mode 100644 playbooks/nodepool-zuul-functional/post.yaml
 create mode 100644 playbooks/nodepool-zuul-functional/run.yaml

diff --git a/.zuul.yaml b/.zuul.yaml
index 435e98e5a..1ca6ba59c 100644
--- a/.zuul.yaml
+++ b/.zuul.yaml
@@ -1,3 +1,36 @@
+- job:
+    name: nodepool-functional-py35
+    parent: legacy-dsvm-base
+    run: playbooks/nodepool-functional-py35/run
+    post-run: playbooks/nodepool-functional-py35/post
+    timeout: 5400
+    required-projects:
+      - openstack-infra/devstack-gate
+      - openstack-infra/nodepool
+
+- job:
+    name: nodepool-functional-py35-src
+    parent: legacy-dsvm-base
+    run: playbooks/nodepool-functional-py35-src/run
+    post-run: playbooks/nodepool-functional-py35-src/post
+    timeout: 5400
+    required-projects:
+      - openstack-infra/devstack-gate
+      - openstack-infra/glean
+      - openstack-infra/nodepool
+      - openstack-infra/shade
+      - openstack/diskimage-builder
+
+- job:
+    name: nodepool-zuul-functional
+    parent: legacy-base
+    run: playbooks/nodepool-zuul-functional/run
+    post-run: playbooks/nodepool-zuul-functional/post
+    timeout: 1800
+    required-projects:
+      - openstack-infra/nodepool
+      - openstack-infra/zuul
+
 - project:
     name: openstack-infra/nodepool
     check:
@@ -6,3 +39,14 @@
         - tox-cover
         - tox-pep8
         - tox-py35
+        - nodepool-functional-py35:
+            voting: false
+        - nodepool-functional-py35-src:
+            voting: false
+    gate:
+      jobs:
+        - tox-pep8
+        - tox-py35
+    experimental:
+      jobs:
+        - nodepool-zuul-functional
diff --git a/playbooks/nodepool-functional-py35-src/post.yaml b/playbooks/nodepool-functional-py35-src/post.yaml
new file mode 100644
index 000000000..e07f5510a
--- /dev/null
+++ b/playbooks/nodepool-functional-py35-src/post.yaml
@@ -0,0 +1,15 @@
+- hosts: primary
+  tasks:
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=/logs/**
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
diff --git a/playbooks/nodepool-functional-py35-src/run.yaml b/playbooks/nodepool-functional-py35-src/run.yaml
new file mode 100644
index 000000000..812532ee1
--- /dev/null
+++ b/playbooks/nodepool-functional-py35-src/run.yaml
@@ -0,0 +1,121 @@
+- hosts: all
+  name: Autoconverted job legacy-dsvm-nodepool-py35-src from old job gate-dsvm-nodepool-py35-src-nv
+  tasks:
+
+    - name: Ensure legacy workspace directory
+      file:
+        path: '{{ ansible_user_dir }}/workspace'
+        state: directory
+
+    - shell:
+        cmd: |
+          set -e
+          set -x
+          cat > clonemap.yaml << EOF
+          clonemap:
+            - name: openstack-infra/devstack-gate
+              dest: devstack-gate
+          EOF
+          /usr/zuul-env/bin/zuul-cloner -m clonemap.yaml --cache-dir /opt/git \
+              git://git.openstack.org \
+              openstack-infra/devstack-gate
+        executable: /bin/bash
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'
+
+    - shell:
+        cmd: |
+          set -e
+          set -x
+          export PYTHONUNBUFFERED=true
+          # Disable tempest as nodepool is talking to the cloud not tempest.
+          export DEVSTACK_GATE_TEMPEST=0
+          # Use neutron as the public clouds in use are neutron based.
+          export DEVSTACK_GATE_NEUTRON=1
+          # The nodepool process needs sudo rights in order to
+          # perform dib image builds
+          export DEVSTACK_GATE_REMOVE_STACK_SUDO=0
+          # Disable services we do not need for nodepool
+          export DEVSTACK_LOCAL_CONFIG="disable_service horizon"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-acentral"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-acompute"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-alarm-evaluator"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-alarm-notifier"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-anotification"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-api"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-collector"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service cinder"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-bak"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-sch"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-api"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-vol"
+
+          if [ "-py35" == "-py35" ]; then
+              export DEVSTACK_GATE_USE_PYTHON3=True
+
+              # swift is not ready for python3 yet
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-account"
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-container"
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-object"
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-proxy"
+          fi
+
+          export BRANCH_OVERRIDE=default
+          if [ "$BRANCH_OVERRIDE" != "default" ] ; then
+              export OVERRIDE_ZUUL_BRANCH=$BRANCH_OVERRIDE
+          fi
+          # Because we are testing a non standard project, add the
+          # our project repository. This makes zuul do the right
+          # reference magic for testing changes.
+          export PROJECTS="openstack-infra/nodepool $PROJECTS"
+          # note the actual url here is somewhat irrelevant because it
+          # caches in nodepool, however make it a valid url for
+          # documentation purposes.
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"enable_plugin nodepool git://git.openstack.org/openstack-infra/nodepool"
+          export DEVSTACK_PROJECT_FROM_GIT="diskimage-builder"
+          export DEVSTACK_PROJECT_FROM_GIT+=",glean"
+          export DEVSTACK_PROJECT_FROM_GIT+=",shade"
+
+          # Start with all images disabled.
+          export NODEPOOL_PAUSE_CENTOS_7_DIB=true
+          export NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB=true
+          export NODEPOOL_PAUSE_FEDORA_26_DIB=true
+          export NODEPOOL_PAUSE_OPENSUSE_423_DIB=true
+          export NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=true
+          export NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB=true
+
+          if [ "" == "" ] ; then
+              # dsvm-nodepool-src
+              export NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=false
+          elif [ "" == "-debian" ] ; then
+              # dsvm-nodepool-debian-src
+              export NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB=false
+          elif [ "" == "-opensuse" ] ; then
+              # dsvm-nodepool-opensuse-src
+              export NODEPOOL_PAUSE_OPENSUSE_423_DIB=false
+          elif [ "" == "-redhat" ] ; then
+              # dsvm-nodepool-redhat-src
+              export NODEPOOL_PAUSE_CENTOS_7_DIB=false
+              export NODEPOOL_PAUSE_FEDORA_26_DIB=false
+          elif [ "" == "-ubuntu" ] ; then
+              # dsvm-nodepool-ubuntu-src
+              export NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=false
+              export NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB=false
+          fi
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"NODEPOOL_PAUSE_CENTOS_7_DIB=$NODEPOOL_PAUSE_CENTOS_7_DIB"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB=$NODEPOOL_PAUSE_DEBIAN_JESSIE_DIB"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"NODEPOOL_PAUSE_FEDORA_26_DIB=$NODEPOOL_PAUSE_FEDORA_26_DIB"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"NODEPOOL_PAUSE_OPENSUSE_423_DIB=$NODEPOOL_PAUSE_OPENSUSE_423_DIB"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB=$NODEPOOL_PAUSE_UBUNTU_TRUSTY_DIB"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB=$NODEPOOL_PAUSE_UBUNTU_XENIAL_DIB"
+
+          function post_test_hook {
+              /opt/stack/new/nodepool/tools/check_devstack_plugin.sh
+          }
+          export -f post_test_hook
+
+          cp devstack-gate/devstack-vm-gate-wrap.sh ./safe-devstack-vm-gate-wrap.sh
+          ./safe-devstack-vm-gate-wrap.sh
+        executable: /bin/bash
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'
diff --git a/playbooks/nodepool-functional-py35/post.yaml b/playbooks/nodepool-functional-py35/post.yaml
new file mode 100644
index 000000000..e07f5510a
--- /dev/null
+++ b/playbooks/nodepool-functional-py35/post.yaml
@@ -0,0 +1,15 @@
+- hosts: primary
+  tasks:
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=/logs/**
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
diff --git a/playbooks/nodepool-functional-py35/run.yaml b/playbooks/nodepool-functional-py35/run.yaml
new file mode 100644
index 000000000..d62470167
--- /dev/null
+++ b/playbooks/nodepool-functional-py35/run.yaml
@@ -0,0 +1,85 @@
+- hosts: all
+  name: Autoconverted job legacy-dsvm-nodepool-py35 from old job gate-dsvm-nodepool-py35-nv
+  tasks:
+
+    - name: Ensure legacy workspace directory
+      file:
+        path: '{{ ansible_user_dir }}/workspace'
+        state: directory
+
+    - shell:
+        cmd: |
+          set -e
+          set -x
+          cat > clonemap.yaml << EOF
+          clonemap:
+            - name: openstack-infra/devstack-gate
+              dest: devstack-gate
+          EOF
+          /usr/zuul-env/bin/zuul-cloner -m clonemap.yaml --cache-dir /opt/git \
+              git://git.openstack.org \
+              openstack-infra/devstack-gate
+        executable: /bin/bash
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'
+
+    - shell:
+        cmd: |
+          set -e
+          set -x
+          export PYTHONUNBUFFERED=true
+          # Disable tempest as nodepool is talking to the cloud not tempest.
+          export DEVSTACK_GATE_TEMPEST=0
+          # Use neutron as the public clouds in use are neutron based.
+          export DEVSTACK_GATE_NEUTRON=1
+          # The nodepool process needs sudo rights in order to
+          # perform dib image builds
+          export DEVSTACK_GATE_REMOVE_STACK_SUDO=0
+          # Disable services we do not need for nodepool
+          export DEVSTACK_LOCAL_CONFIG="disable_service horizon"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-acentral"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-acompute"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-alarm-evaluator"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-alarm-notifier"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-anotification"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-api"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service ceilometer-collector"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service cinder"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-bak"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-sch"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-api"
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service c-vol"
+
+          if [ "-py35" == "-py35" ]; then
+              export DEVSTACK_GATE_USE_PYTHON3=True
+
+              # swift is not ready for python3 yet
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-account"
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-container"
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-object"
+              export DEVSTACK_LOCAL_CONFIG+=$'\n'"disable_service s-proxy"
+          fi
+
+          export BRANCH_OVERRIDE=default
+          if [ "$BRANCH_OVERRIDE" != "default" ] ; then
+              export OVERRIDE_ZUUL_BRANCH=$BRANCH_OVERRIDE
+          fi
+          # Because we are testing a non standard project, add the
+          # our project repository. This makes zuul do the right
+          # reference magic for testing changes.
+          export PROJECTS="openstack-infra/nodepool $PROJECTS"
+          # note the actual url here is somewhat irrelevant because it
+          # caches in nodepool, however make it a valid url for
+          # documentation purposes.
+          export DEVSTACK_LOCAL_CONFIG+=$'\n'"enable_plugin nodepool git://git.openstack.org/openstack-infra/nodepool"
+
+          function post_test_hook {
+              /opt/stack/new/nodepool/tools/check_devstack_plugin.sh
+          }
+          export -f post_test_hook
+
+          cp devstack-gate/devstack-vm-gate-wrap.sh ./safe-devstack-vm-gate-wrap.sh
+          ./safe-devstack-vm-gate-wrap.sh
+        executable: /bin/bash
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'
diff --git a/playbooks/nodepool-zuul-functional/post.yaml b/playbooks/nodepool-zuul-functional/post.yaml
new file mode 100644
index 000000000..b495a60ae
--- /dev/null
+++ b/playbooks/nodepool-zuul-functional/post.yaml
@@ -0,0 +1,80 @@
+- hosts: primary
+  tasks:
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=**/*nose_results.html
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=**/*testr_results.html.gz
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=/.testrepository/tmp*
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=**/*testrepository.subunit.gz
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}/tox'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=/.tox/*/log/*
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
+
+    - name: Copy files from {{ ansible_user_dir }}/workspace/ on node
+      synchronize:
+        src: '{{ ansible_user_dir }}/workspace/'
+        dest: '{{ zuul.executor.log_root }}/logs'
+        mode: pull
+        copy_links: true
+        verify_host: true
+        rsync_opts:
+          - --include=/logs/**
+          - --include=*/
+          - --exclude=*
+          - --prune-empty-dirs
diff --git a/playbooks/nodepool-zuul-functional/run.yaml b/playbooks/nodepool-zuul-functional/run.yaml
new file mode 100644
index 000000000..201ad98b3
--- /dev/null
+++ b/playbooks/nodepool-zuul-functional/run.yaml
@@ -0,0 +1,52 @@
+- hosts: all
+  name: Autoconverted job legacy-zuul-nodepool from old job gate-zuul-nodepool
+  tasks:
+
+    - name: Ensure legacy workspace directory
+      file:
+        path: '{{ ansible_user_dir }}/workspace'
+        state: directory
+
+    - shell:
+        cmd: |
+          set -e
+          set -x
+          CLONEMAP=`mktemp`
+          function cleanup {
+              # In cases where zuul-cloner is aborted during a git
+              # clone operation, git will remove the git work tree in
+              # its cleanup. The work tree in these jobs is the
+              # workspace directory, which means that subsequent
+              # jenkins post-build actions can not run because the
+              # workspace has been removed.
+              # To reduce the likelyhood of this having an impact,
+              # recreate the workspace directory if needed
+              mkdir -p $WORKSPACE
+              rm -f $CLONEMAP
+          }
+          trap cleanup EXIT
+          cat > $CLONEMAP << EOF
+          clonemap:
+            - name: openstack-infra/zuul
+              dest: .
+          EOF
+          /usr/zuul-env/bin/zuul-cloner -m $CLONEMAP --cache-dir /opt/git \
+              git://git.openstack.org openstack-infra/zuul
+        executable: /bin/bash
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'
+
+    - shell:
+        cmd: /usr/local/jenkins/slave_scripts/install-distro-packages.sh
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'
+
+    - shell:
+        cmd: tools/nodepool-integration-setup.sh
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'
+
+    - shell:
+        cmd: /usr/local/jenkins/slave_scripts/run-tox.sh nodepool
+        chdir: '{{ ansible_user_dir }}/workspace'
+      environment: '{{ zuul | zuul_legacy_vars }}'

From 02ba6858a80b75422a9446eb947fb394b6ce1dba Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Sat, 28 Oct 2017 10:16:37 -0700
Subject: [PATCH 265/309] Zuul: add file extension to playbook path

Zuul now supports including the file extension on the playbook path
and omitting the extension is now deprecrated.  Update references
to include the extension.

Change-Id: Iea7722f93094bcc437978e44b9360eb3b70db552
---
 .zuul.yaml | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/.zuul.yaml b/.zuul.yaml
index 1ca6ba59c..0d5f71f50 100644
--- a/.zuul.yaml
+++ b/.zuul.yaml
@@ -1,8 +1,8 @@
 - job:
     name: nodepool-functional-py35
     parent: legacy-dsvm-base
-    run: playbooks/nodepool-functional-py35/run
-    post-run: playbooks/nodepool-functional-py35/post
+    run: playbooks/nodepool-functional-py35/run.yaml
+    post-run: playbooks/nodepool-functional-py35/post.yaml
     timeout: 5400
     required-projects:
       - openstack-infra/devstack-gate
@@ -11,8 +11,8 @@
 - job:
     name: nodepool-functional-py35-src
     parent: legacy-dsvm-base
-    run: playbooks/nodepool-functional-py35-src/run
-    post-run: playbooks/nodepool-functional-py35-src/post
+    run: playbooks/nodepool-functional-py35-src/run.yaml
+    post-run: playbooks/nodepool-functional-py35-src/post.yaml
     timeout: 5400
     required-projects:
       - openstack-infra/devstack-gate
@@ -24,8 +24,8 @@
 - job:
     name: nodepool-zuul-functional
     parent: legacy-base
-    run: playbooks/nodepool-zuul-functional/run
-    post-run: playbooks/nodepool-zuul-functional/post
+    run: playbooks/nodepool-zuul-functional/run.yaml
+    post-run: playbooks/nodepool-zuul-functional/post.yaml
     timeout: 1800
     required-projects:
       - openstack-infra/nodepool

From 73bcb0349c2e555ac5b782f4536189fd1d2f9f64 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 1 Nov 2017 09:03:28 -0400
Subject: [PATCH 266/309] Use >= in instance count comparison to max-servers

Dynamic config changes to the max-servers value can leave us with
more instances than a recently reduced max-servers value. We should
account for that. Not doing so could leave the provider in a
permanently paused state trying to satisfy a min-ready request.

Change-Id: I95923a4d9660cde6ca351ddb705045b322e17285
---
 nodepool/driver/openstack/handler.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 9ada75177..f696550b7 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -492,7 +492,9 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         if self.request.requestor == "NodePool:min-ready":
             current_count = self.zk.countPoolNodes(self.provider.name,
                                                    self.pool.name)
-            if current_count == self.pool.max_servers:
+            # Use >= because dynamic config changes to max-servers can leave
+            # us with more than max-servers.
+            if current_count >= self.pool.max_servers:
                 declined_reasons.append("provider cannot satisify min-ready")
 
         if declined_reasons:

From 2b26b4deff77c2bf1e81083c072cbaf246eac1c8 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 1 Nov 2017 13:11:09 -0400
Subject: [PATCH 267/309] Add additional launcher logging

Needed for more insight into pool worker activity.

Change-Id: I8e74b310a094942dc1542ceaf9a843467d209324
---
 nodepool/launcher.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index b2df15024..4234c8315 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -175,6 +175,9 @@ class PoolWorker(threading.Thread):
             if (provider.max_concurrency > 0 and
                 active_threads >= provider.max_concurrency
             ):
+                self.log.debug("Request handling limited: %s active threads ",
+                               "with max concurrency of %s",
+                               active_threads, provider.max_concurrency)
                 return
 
             req = self.zk.getNodeRequest(req_id)
@@ -216,7 +219,11 @@ class PoolWorker(threading.Thread):
         for r in self.request_handlers:
             if not r.poll():
                 active_handlers.append(r)
+            else:
+                self.log.debug("Removing handler for request %s", r.request.id)
         self.request_handlers = active_handlers
+        active_reqs = [r.request.id for r in self.request_handlers]
+        self.log.debug("Active requests: %s", active_reqs)
 
     #----------------------------------------------------------------
     # Public methods

From e82e5ed06903277253a0b7124ad67997d67ea67b Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Wed, 1 Nov 2017 14:07:23 -0400
Subject: [PATCH 268/309] Unpause a declined request

A paused request is retried until it can be satisfied. If conditions
change such that, during a retry, we now determine we should decline
the request, then we need to unpause it so it can be removed from our
active request handlers. Without doing this, we would have unallocated
any previously allocated nodes for the request, leaving things in a
state that could cause chaos and agony.

Change-Id: I9073ca2274ef4e97ecb1ece01ddb861c22807984
---
 nodepool/driver/openstack/handler.py          |  5 ++
 nodepool/tests/fixtures/pause_declined_1.yaml | 47 +++++++++++++++++++
 nodepool/tests/fixtures/pause_declined_2.yaml | 47 +++++++++++++++++++
 nodepool/tests/test_launcher.py               | 37 +++++++++++++++
 4 files changed, 136 insertions(+)
 create mode 100644 nodepool/tests/fixtures/pause_declined_1.yaml
 create mode 100644 nodepool/tests/fixtures/pause_declined_2.yaml

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index f696550b7..a40ed0ebc 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -498,6 +498,11 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                 declined_reasons.append("provider cannot satisify min-ready")
 
         if declined_reasons:
+            # If conditions have changed for a paused request to now cause us
+            # to decline it, we need to unpause so we don't keep trying it
+            if self.paused:
+                self.paused = False
+
             self.log.debug("Declining node request %s because %s",
                            self.request.id, ', '.join(declined_reasons))
             self.request.declined_by.append(self.launcher_id)
diff --git a/nodepool/tests/fixtures/pause_declined_1.yaml b/nodepool/tests/fixtures/pause_declined_1.yaml
new file mode 100644
index 000000000..0568b21ff
--- /dev/null
+++ b/nodepool/tests/fixtures/pause_declined_1.yaml
@@ -0,0 +1,47 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: main
+        max-servers: 2
+        availability-zones:
+          - az1
+        networks:
+          - net-name
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            flavor-name: 'Fake'
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/fixtures/pause_declined_2.yaml b/nodepool/tests/fixtures/pause_declined_2.yaml
new file mode 100644
index 000000000..0c31e5590
--- /dev/null
+++ b/nodepool/tests/fixtures/pause_declined_2.yaml
@@ -0,0 +1,47 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: main
+        max-servers: 1
+        availability-zones:
+          - az1
+        networks:
+          - net-name
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            flavor-name: 'Fake'
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 2eb75cece..78d179d4b 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -639,3 +639,40 @@ class TestLauncher(tests.DBTestCase):
 
         nodes = self.waitForNodes('fake-label')
         self.assertEqual(len(nodes), 1)
+
+    def test_paused_gets_declined(self):
+        """Test that a paused request, that later gets declined, unpauses."""
+
+        # First config has max-servers set to 2
+        configfile = self.setup_config('pause_declined_1.yaml')
+        self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+
+        # Create a request that uses all capacity (2 servers)
+        req = zk.NodeRequest()
+        req.state = zk.REQUESTED
+        req.node_types.append('fake-label')
+        req.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req)
+        req = self.waitForNodeRequest(req)
+        self.assertEqual(req.state, zk.FULFILLED)
+        self.assertEqual(len(req.nodes), 2)
+
+        # Now that we have 2 nodes in use, create another request that
+        # requests two nodes, which should cause the request to pause.
+        req2 = zk.NodeRequest()
+        req2.state = zk.REQUESTED
+        req2.node_types.append('fake-label')
+        req2.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req2)
+        req2 = self.waitForNodeRequest(req2, (zk.PENDING,))
+
+        # Second config decreases max-servers to 1
+        self.replace_config(configfile, 'pause_declined_2.yaml')
+
+        # Because the second request asked for 2 nodes, but that now exceeds
+        # max-servers, req2 should get declined now, and transition to FAILED
+        req2 = self.waitForNodeRequest(req2, (zk.FAILED,))
+        self.assertNotEqual(req2.declined_by, [])

From d20a13da9dba90e357cd91a9aa58fd8c6b5f2e2d Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 2 Nov 2017 15:41:09 -0400
Subject: [PATCH 269/309] Reset state on unpaused, declined request

We neglected to reset the request state to REQUESTED when we fixed
unpausing a declined request. This isn't *too* terrible since the
cleanup worker will see it as a lost request and reset the state
for us, but it shouldn't have to do that.

Change-Id: I2e4222b49685a7627acf6617925b6171e1bdbe41
---
 nodepool/driver/openstack/handler.py | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index a40ed0ebc..c470d84b4 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -498,11 +498,6 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                 declined_reasons.append("provider cannot satisify min-ready")
 
         if declined_reasons:
-            # If conditions have changed for a paused request to now cause us
-            # to decline it, we need to unpause so we don't keep trying it
-            if self.paused:
-                self.paused = False
-
             self.log.debug("Declining node request %s because %s",
                            self.request.id, ', '.join(declined_reasons))
             self.request.declined_by.append(self.launcher_id)
@@ -513,6 +508,15 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                 # All launchers have declined it
                 self.request.state = zk.FAILED
             self.unlockNodeSet(clear_allocation=True)
+
+            # If conditions have changed for a paused request to now cause us
+            # to decline it, we need to unpause so we don't keep trying it
+            if self.paused:
+                self.paused = False
+                # If we didn't mark the request as failed above, reset it.
+                if self.request.state != zk.FAILED:
+                    self.request.state = zk.REQUESTED
+
             self.zk.storeNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
             self.done = True

From a3a1768e9a90862e9268a2b85f13d117692fca46 Mon Sep 17 00:00:00 2001
From: mhuin <mhuin@redhat.com>
Date: Wed, 8 Nov 2017 22:16:37 +0100
Subject: [PATCH 270/309] Document security group

Nodepool spawns instances under default security groups. This needs
to be explained in the documentation, since at least SSH traffic
should be allowed, which is not the case in default security groups.

Change-Id: I1db22361556c035b61829c35d8f61da414cf0c91
---
 doc/source/configuration.rst | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 048c79e9c..e7e4716fc 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -296,6 +296,11 @@ Example::
   ``cloud``
   Name of a cloud configured in ``clouds.yaml``.
 
+  The instances spawned by nodepool will inherit the default security group
+  of the project specified in the cloud definition in `clouds.yaml`. This means
+  that when working with Zuul, for example, SSH traffic (TCP/22) must be allowed
+  in the project's default security group for Zuul to be able to reach instances.
+
   More information about the contents of `clouds.yaml` can be found in
   `the os-client-config documentation <http://docs.openstack.org/developer/os-client-config/>`_.
 

From af0d58e9850b9c112e349452996afb36056e8be0 Mon Sep 17 00:00:00 2001
From: Jamie Lennox <jamielennox@gmail.com>
Date: Wed, 5 Apr 2017 14:22:39 +1000
Subject: [PATCH 271/309] Add username to build and upload information

The username should be included in the stored information so that when
this is passed over to zuul it can ssh to the correct username.

Change-Id: Ife0daa79f319aea04ed32513f99c73c460156941
---
 doc/source/configuration.rst         |  6 ++++++
 nodepool/builder.py                  | 12 ++++++++++--
 nodepool/cmd/config_validator.py     |  1 +
 nodepool/config.py                   |  4 +++-
 nodepool/driver/openstack/handler.py |  6 ++++++
 nodepool/tests/test_launcher.py      |  9 ++++++++-
 nodepool/zk.py                       | 15 ++++++++++++++-
 7 files changed, 48 insertions(+), 5 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 048c79e9c..28eef7a2a 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -146,6 +146,7 @@ Example configuration::
         - growroot
         - infra-package-needs
       release: precise
+      username: zuul
       env-vars:
         TMPDIR: /opt/dib_tmp
         DIB_CHECKSUM: '1'
@@ -170,6 +171,7 @@ Example configuration::
         - growroot
         - infra-package-needs
       release: precise
+      username: ubuntu
       env-vars:
         TMPDIR: /opt/dib_tmp
         DIB_CHECKSUM: '1'
@@ -214,6 +216,10 @@ Example configuration::
   ``pause`` (bool)
     When set to True, nodepool-builder will not build the diskimage.
 
+  ``username`` (string)
+    The username that a consumer should use when SSHing onto the node. Defaults
+    to ``zuul``.
+
 .. _provider:
 
 provider
diff --git a/nodepool/builder.py b/nodepool/builder.py
index 6deba91bf..60f7dd59b 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -726,6 +726,7 @@ class BuildWorker(BaseWorker):
         build_data = zk.ImageBuild()
         build_data.builder_id = self._builder_id
         build_data.builder = self._hostname
+        build_data.username = diskimage.username
 
         if self._zk.didLoseConnection:
             self.log.info("ZooKeeper lost while building %s" % diskimage.name)
@@ -810,7 +811,8 @@ class UploadWorker(BaseWorker):
                                                      use_taskmanager=False)
         self._config = new_config
 
-    def _uploadImage(self, build_id, upload_id, image_name, images, provider):
+    def _uploadImage(self, build_id, upload_id, image_name, images, provider,
+                     username):
         '''
         Upload a local DIB image build to a provider.
 
@@ -820,6 +822,7 @@ class UploadWorker(BaseWorker):
         :param list images: A list of DibImageFile objects from this build
             that available for uploading.
         :param provider: The provider from the parsed config file.
+        :param username:
         '''
         start_time = time.time()
         timestamp = int(start_time)
@@ -890,6 +893,8 @@ class UploadWorker(BaseWorker):
         data.external_id = external_id
         data.external_name = ext_image_name
         data.format = image.extension
+        data.username = username
+
         return data
 
     def _checkForProviderUploads(self):
@@ -983,11 +988,14 @@ class UploadWorker(BaseWorker):
                 # New upload number with initial state 'uploading'
                 data = zk.ImageUpload()
                 data.state = zk.UPLOADING
+                data.username = build.username
+
                 upnum = self._zk.storeImageUpload(
                     image.name, build.id, provider.name, data)
 
                 data = self._uploadImage(build.id, upnum, image.name,
-                                         local_images, provider)
+                                         local_images, provider,
+                                         build.username)
 
                 # Set final state
                 self._zk.storeImageUpload(image.name, build.id,
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 76b013f80..6a5375e2a 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -104,6 +104,7 @@ class ConfigValidator:
             'release': v.Any(str, int),
             'rebuild-age': int,
             'env-vars': {str: str},
+            'username': str,
         }
 
         webapp = {
diff --git a/nodepool/config.py b/nodepool/config.py
index b89a9e35c..3085d97b1 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -118,7 +118,8 @@ class DiskImage(ConfigValue):
             other.rebuild_age != self.rebuild_age or
             other.env_vars != self.env_vars or
             other.image_types != self.image_types or
-            other.pause != self.pause):
+            other.pause != self.pause or
+            other.username != self.username):
             return False
         return True
 
@@ -193,6 +194,7 @@ def loadConfig(config_path):
             d.env_vars = {}
         d.image_types = set(diskimage.get('formats', []))
         d.pause = bool(diskimage.get('pause', False))
+        d.username = diskimage.get('username', 'zuul')
 
     for label in config.get('labels', []):
         l = Label()
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index c470d84b4..39b95e9b9 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -93,6 +93,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
                                                cloud_image.provider_name),
                 upload_id=cloud_image.id)
             image_name = self._diskimage.name
+            username = cloud_image.username
 
         else:
             # launch using unmanaged cloud image
@@ -113,6 +114,9 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             image_id = self._cloud_image.name
             image_name = self._cloud_image.name
 
+            # TODO(tobiash): support username also for unmanaged cloud images
+            username = None
+
         hostname = self._provider.hostname_format.format(
             label=self._label, provider=self._provider, node=self._node
         )
@@ -145,6 +149,8 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         self._node.external_id = server.id
         self._node.hostname = hostname
         self._node.image_id = image_id
+        if username:
+            self._node.username = username
 
         # Checkpoint save the updated node info
         self._zk.storeNode(self._node)
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 78d179d4b..168bf08f0 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -33,6 +33,7 @@ class TestLauncher(tests.DBTestCase):
         configfile = self.setup_config('node_no_min_ready.yaml')
         self._useBuilder(configfile)
         image = self.waitForImage('fake-provider', 'fake-image')
+        self.assertEqual(image.username, 'zuul')
 
         nodepool.launcher.LOCK_CLEANUP = 1
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -55,6 +56,7 @@ class TestLauncher(tests.DBTestCase):
             self.assertEqual(node.cloud, 'fake')
             self.assertEqual(node.region, 'fake-region')
             self.assertEqual(node.az, "az1")
+            self.assertEqual(node.username, "zuul")
             p = "{path}/{id}".format(
                 path=self.zk._imageUploadPath(image.image_name,
                                               image.build_id,
@@ -280,12 +282,14 @@ class TestLauncher(tests.DBTestCase):
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
-        self.waitForImage('fake-provider', 'fake-image')
+        image = self.waitForImage('fake-provider', 'fake-image')
+        self.assertEqual(image.username, 'zuul')
         nodes = self.waitForNodes('fake-label')
 
         self.assertEqual(len(nodes), 1)
         self.assertEqual(nodes[0].provider, 'fake-provider')
         self.assertEqual(nodes[0].type, 'fake-label')
+        self.assertEqual(nodes[0].username, 'zuul')
         self.assertNotEqual(nodes[0].host_keys, [])
 
     def test_node_boot_from_volume(self):
@@ -322,6 +326,7 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(len(nodes), 1)
         self.assertEqual(nodes[0].provider, 'fake-provider')
         self.assertEqual(nodes[0].type, 'fake-label')
+        self.assertEqual(nodes[0].username, 'zuul')
 
     def test_node_flavor_name(self):
         """Test that a node is created with a flavor name"""
@@ -373,8 +378,10 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(total_nodes, 2)
         self.assertEqual(nodes[0].provider, 'fake-provider2')
         self.assertEqual(nodes[0].type, 'fake-label')
+        self.assertEqual(nodes[0].username, 'zuul')
         self.assertEqual(nodes[1].provider, 'fake-provider2')
         self.assertEqual(nodes[1].type, 'fake-label')
+        self.assertEqual(nodes[1].username, 'zuul')
 
     def test_node_az(self):
         """Test that an image and node are created with az specified"""
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 61d906d70..58fe9e77d 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -204,6 +204,7 @@ class ImageBuild(BaseModel):
         self._formats = []
         self.builder = None       # Hostname
         self.builder_id = None    # Unique ID
+        self.username = None
 
     def __repr__(self):
         d = self.toDict()
@@ -235,6 +236,8 @@ class ImageBuild(BaseModel):
             d['builder_id'] = self.builder_id
         if len(self.formats):
             d['formats'] = ','.join(self.formats)
+        if self.username:
+            d['username'] = self.username
         return d
 
     @staticmethod
@@ -251,6 +254,7 @@ class ImageBuild(BaseModel):
         super(ImageBuild, o).fromDict(d)
         o.builder = d.get('builder')
         o.builder_id = d.get('builder_id')
+        o.username = d.get('username', 'zuul')
         # Only attempt the split on non-empty string
         if d.get('formats', ''):
             o.formats = d.get('formats', '').split(',')
@@ -264,12 +268,13 @@ class ImageUpload(BaseModel):
     VALID_STATES = set([UPLOADING, READY, DELETING, FAILED])
 
     def __init__(self, build_id=None, provider_name=None, image_name=None,
-                 upload_id=None):
+                 upload_id=None, username=None):
         super(ImageUpload, self).__init__(upload_id)
         self.build_id = build_id
         self.provider_name = provider_name
         self.image_name = image_name
         self.format = None
+        self.username = username
         self.external_id = None      # Provider ID of the image
         self.external_name = None    # Provider name of the image
 
@@ -301,6 +306,8 @@ class ImageUpload(BaseModel):
         d['external_id'] = self.external_id
         d['external_name'] = self.external_name
         d['format'] = self.format
+        if self.username:
+            d['username'] = self.username
         return d
 
     @staticmethod
@@ -321,6 +328,7 @@ class ImageUpload(BaseModel):
         o.external_id = d.get('external_id')
         o.external_name = d.get('external_name')
         o.format = d.get('format')
+        o.username = d.get('username', 'zuul')
         return o
 
 
@@ -438,6 +446,7 @@ class Node(BaseModel):
         self.hostname = None
         self.comment = None
         self.hold_job = None
+        self.username = 'zuul'
         self.host_keys = []
 
     def __repr__(self):
@@ -469,6 +478,7 @@ class Node(BaseModel):
                     self.hostname == other.hostname and
                     self.comment == other.comment and
                     self.hold_job == other.hold_job and
+                    self.username == other.username and
                     self.host_keys == other.host_keys)
         else:
             return False
@@ -498,6 +508,8 @@ class Node(BaseModel):
         d['comment'] = self.comment
         d['hold_job'] = self.hold_job
         d['host_keys'] = self.host_keys
+        if self.username:
+            d['username'] = self.username
         return d
 
     @staticmethod
@@ -531,6 +543,7 @@ class Node(BaseModel):
         o.hostname = d.get('hostname')
         o.comment = d.get('comment')
         o.hold_job = d.get('hold_job')
+        o.username = d.get('username', 'zuul')
         o.host_keys = d.get('host_keys', [])
         return o
 

From 0f83d13e01a4ea9f797d98efb22f4afcb0053fd1 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Tue, 14 Nov 2017 12:25:36 -0500
Subject: [PATCH 272/309] Be consistent with the ZK data model

An earlier change added a non-None default value to the Node class
in order to fix tests, but this is inconsistent with the rest of
the model where we use None for the defaults. This can be fixed
by always storing the username, regardless of value, which is
actually more consistent, too.

Change-Id: If420ddb8de4c0b7ae5ff2edf52d3b0230f2da126
---
 nodepool/zk.py | 11 ++++-------
 1 file changed, 4 insertions(+), 7 deletions(-)

diff --git a/nodepool/zk.py b/nodepool/zk.py
index 58fe9e77d..470be3a0a 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -236,8 +236,7 @@ class ImageBuild(BaseModel):
             d['builder_id'] = self.builder_id
         if len(self.formats):
             d['formats'] = ','.join(self.formats)
-        if self.username:
-            d['username'] = self.username
+        d['username'] = self.username
         return d
 
     @staticmethod
@@ -306,8 +305,7 @@ class ImageUpload(BaseModel):
         d['external_id'] = self.external_id
         d['external_name'] = self.external_name
         d['format'] = self.format
-        if self.username:
-            d['username'] = self.username
+        d['username'] = self.username
         return d
 
     @staticmethod
@@ -446,7 +444,7 @@ class Node(BaseModel):
         self.hostname = None
         self.comment = None
         self.hold_job = None
-        self.username = 'zuul'
+        self.username = None
         self.host_keys = []
 
     def __repr__(self):
@@ -508,8 +506,7 @@ class Node(BaseModel):
         d['comment'] = self.comment
         d['hold_job'] = self.hold_job
         d['host_keys'] = self.host_keys
-        if self.username:
-            d['username'] = self.username
+        d['username'] = self.username
         return d
 
     @staticmethod

From fa4af260956b3c5319b9e5cdada442a54c50b433 Mon Sep 17 00:00:00 2001
From: Jesse Pretorius <jesse.pretorius@rackspace.co.uk>
Date: Thu, 16 Nov 2017 15:47:49 +0000
Subject: [PATCH 273/309] [docs] Correct default image name

The documentation and nodepool/config.py do not agree.
In the interests of greater consistency and world peace,
let us help them agree with each other.

Change-Id: Ie06f1149b4fe2e5422cd0497bec1076217ae4d1b
---
 doc/source/configuration.rst | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 28eef7a2a..f51172c99 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -244,7 +244,7 @@ Example::
       boot-timeout: 120
       launch-timeout: 900
       launch-retries: 3
-      image-name-format: 'template-{image_name}-{timestamp}'
+      image-name-format: '{image_name}-{timestamp}'
       hostname-format: '{label.name}-{provider.name}-{node.id}'
       diskimages:
         - name: trusty
@@ -274,7 +274,7 @@ Example::
     - name: provider2
       region-name: 'region1'
       rate: 1.0
-      image-name-format: 'template-{image_name}-{timestamp}'
+      image-name-format: '{image_name}-{timestamp}'
       hostname-format: '{label.name}-{provider.name}-{node.id}'
       diskimages:
         - name: precise
@@ -345,7 +345,7 @@ Example::
 
   ``image-name-format``
     Format for image names that are uploaded to providers.
-    Default ``template-{image_name}-{timestamp}``
+    Default ``{image_name}-{timestamp}``
 
   ``rate``
     In seconds, amount to wait between operations on the provider.

From 73e5d8bdd4a8d6e1461954724a33d39b3fb7eba5 Mon Sep 17 00:00:00 2001
From: Rui Chen <chenrui.momo@gmail.com>
Date: Tue, 14 Nov 2017 16:55:58 +0800
Subject: [PATCH 274/309] Fix nodepool cmd TypeError when no arguemnts

When execute command "nodepool" without any argument,
an internal error TypeError and traceback info
will be raised out now. Output help message to instead.

Change-Id: If96761fd2342c76a2c69a5bb16bd526279502ac0
---
 nodepool/cmd/__init__.py        | 4 +++-
 nodepool/cmd/nodepoolcmd.py     | 4 ++++
 nodepool/tests/test_commands.py | 6 ++++++
 3 files changed, 13 insertions(+), 1 deletion(-)

diff --git a/nodepool/cmd/__init__.py b/nodepool/cmd/__init__.py
index 2378ad41e..8ccf480dc 100644
--- a/nodepool/cmd/__init__.py
+++ b/nodepool/cmd/__init__.py
@@ -84,6 +84,7 @@ class NodepoolApp(object):
     app_description = 'Node pool.'
 
     def __init__(self):
+        self.parser = None
         self.args = None
 
     def create_parser(self):
@@ -122,7 +123,8 @@ class NodepoolApp(object):
         if argv is None:
             argv = sys.argv[1:]
 
-        self.args = self.create_parser().parse_args()
+        self.parser = self.create_parser()
+        self.args = self.parser.parse_args()
         return self._do_run()
 
     def _do_run(self):
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 0746f548f..8a0953728 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -335,6 +335,10 @@ class NodePoolCmd(NodepoolApp):
     def run(self):
         self.zk = None
 
+        # no arguments, print help messaging, then exit with error(1)
+        if not self.args.command:
+            self.parser.print_help()
+            return 1
         # commands which do not need to start-up or parse config
         if self.args.command in ('config-validate'):
             return self.args.func()
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index 8b61ff593..f387f85e2 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -304,3 +304,9 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.zk.storeNodeRequest(req)
 
         self.assert_listed(configfile, ['request-list'], 0, req.id, 1)
+
+    def test_without_argument(self):
+        configfile = self.setup_config("node_cmd.yaml")
+        self.patch_argv("-c", configfile)
+        result = nodepoolcmd.main()
+        self.assertEqual(1, result)

From 32e1e0b616dbc34fad3902a0f36260731aba6928 Mon Sep 17 00:00:00 2001
From: Rui Chen <chenrui.momo@gmail.com>
Date: Fri, 10 Nov 2017 17:30:29 +0800
Subject: [PATCH 275/309] Apply floating ip for node according to configuration

When we deploy nodepool and zuul instances in virtual machine of
cloud provider, the provisioned nodes may be in the same internal
network with nodepool and zuul instances, in that case we don't
have to allocate floating ip for nodes, zuul can talk with nodes
via fixed ip of virtual machines. So if we can customize the behavior,
save the quota of floating ip, it's awesome.

Note: Although option "floating_ip_source: None" in clouds.yaml can
decide to apply floating ip or not for specified cloud, but that impact
all the SDKs and tools that use the clouds.yaml, we should control
nodepool behavior flexibly and independently.

This patch add a bool option "auto-floating-ip" into each pool of
"provider" section in nodepool.conf

Change-Id: Ia9a1bed6dd4f6e39015bde660f52e4cd6addb26e
---
 doc/source/configuration.rst                  |  7 ++
 nodepool/cmd/config_validator.py              |  1 +
 nodepool/config.py                            |  1 +
 nodepool/driver/fake/provider.py              |  9 ++
 nodepool/driver/openstack/handler.py          |  3 +-
 nodepool/driver/openstack/provider.py         |  6 +-
 .../tests/fixtures/config_validate/good.yaml  |  2 +
 .../tests/fixtures/node_auto_floating_ip.yaml | 84 +++++++++++++++++++
 nodepool/tests/test_launcher.py               | 35 ++++++++
 9 files changed, 144 insertions(+), 4 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_auto_floating_ip.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index f51172c99..c06f05924 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -380,6 +380,7 @@ Example::
         - az1
       networks:
         - some-network-name
+      auto-floating-ip: False
       labels:
         - name: trusty
           min-ram: 8192
@@ -417,6 +418,12 @@ Example::
     Specify custom Neutron networks that get attached to each
     node. Specify the name or id of the network as a string.
 
+  ``auto-floating-ip`` (bool)
+    Specify custom behavior of allocating floating ip for each node.
+    When set to False, nodepool-launcher will not apply floating ip
+    for nodes. When zuul instances and nodes are deployed in the same
+    internal private network, set the option to False to save floating ip
+    for cloud provider. The default value is True.
 
 .. _provider_diskimages:
 
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index 6a5375e2a..a5e0b7ec8 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -52,6 +52,7 @@ class ConfigValidator:
         pool = {
             'name': str,
             'networks': [str],
+            'auto-floating-ip': bool,
             'max-servers': int,
             'labels': [pool_label],
             'availability-zones': [str],
diff --git a/nodepool/config.py b/nodepool/config.py
index 3085d97b1..ac44420e3 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -278,6 +278,7 @@ def loadConfig(config_path):
             pp.max_servers = pool['max-servers']
             pp.azs = pool.get('availability-zones')
             pp.networks = pool.get('networks', [])
+            pp.auto_floating_ip = bool(pool.get('auto-floating-ip', True))
             pp.labels = {}
             for label in pool.get('labels', []):
                 pl = ProviderLabel()
diff --git a/nodepool/driver/fake/provider.py b/nodepool/driver/fake/provider.py
index 7e0ef6d6a..5b0053384 100644
--- a/nodepool/driver/fake/provider.py
+++ b/nodepool/driver/fake/provider.py
@@ -218,9 +218,18 @@ class FakeOpenStackCloud(object):
         result = self._get(name_or_id, self._server_list)
         return result
 
+    def _clean_floating_ip(self, server):
+        server.public_v4 = ''
+        server.public_v6 = ''
+        server.interface_ip = server.private_v4
+        return server
+
     def wait_for_server(self, server, **kwargs):
         while server.status == 'BUILD':
             time.sleep(0.1)
+        auto_ip = kwargs.get('auto_ip')
+        if not auto_ip:
+            server = self._clean_floating_ip(server)
         return server
 
     def list_servers(self):
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 39b95e9b9..2cf6024ce 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -158,7 +158,8 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         self.log.debug("Waiting for server %s for node id: %s" %
                        (server.id, self._node.id))
         server = self._manager.waitForServer(
-            server, self._provider.launch_timeout)
+            server, self._provider.launch_timeout,
+            auto_ip=self._pool.auto_floating_ip)
 
         if server.status != 'ACTIVE':
             raise exceptions.LaunchStatusException("Server %s for node id: %s "
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index f9fe1b6cf..1939e1671 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -214,11 +214,11 @@ class OpenStackProvider(Provider):
         except shade.OpenStackCloudException:
             return None
 
-    def waitForServer(self, server, timeout=3600):
+    def waitForServer(self, server, timeout=3600, auto_ip=True):
         with shade_inner_exceptions():
             return self._client.wait_for_server(
-                server=server, auto_ip=True, reuse=False,
-                timeout=timeout)
+                server=server, auto_ip=auto_ip,
+                reuse=False, timeout=timeout)
 
     def waitForNodeCleanup(self, server_id, timeout=600):
         for count in iterate_timeout(
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 51273d0c7..311608402 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -33,6 +33,7 @@ providers:
     pools:
       - name: main
         max-servers: 184
+        auto-floating-ip: True
         labels:
           - name: trusty
             diskimage: trusty
@@ -59,6 +60,7 @@ providers:
     pools:
       - name: main
         max-servers: 184
+        auto-floating-ip: False
         labels:
           - name: trusty
             diskimage: trusty
diff --git a/nodepool/tests/fixtures/node_auto_floating_ip.yaml b/nodepool/tests/fixtures/node_auto_floating_ip.yaml
new file mode 100644
index 000000000..1e489131e
--- /dev/null
+++ b/nodepool/tests/fixtures/node_auto_floating_ip.yaml
@@ -0,0 +1,84 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label1
+    min-ready: 1
+
+  - name: fake-label2
+    min-ready: 1
+
+  - name: fake-label3
+    min-ready: 1
+
+providers:
+  - name: fake-provider1
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - 'some-name'
+        auto-floating-ip: False
+        labels:
+          - name: fake-label1
+            diskimage: fake-image
+            min-ram: 8192
+
+  - name: fake-provider2
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - 'some-name'
+        auto-floating-ip: True
+        labels:
+          - name: fake-label2
+            diskimage: fake-image
+            min-ram: 8192
+
+  - name: fake-provider3
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        networks:
+          - 'some-name'
+#       Test default value of auto-floating-ip is True
+        labels:
+          - name: fake-label3
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 168bf08f0..5ccce5f25 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -683,3 +683,38 @@ class TestLauncher(tests.DBTestCase):
         # max-servers, req2 should get declined now, and transition to FAILED
         req2 = self.waitForNodeRequest(req2, (zk.FAILED,))
         self.assertNotEqual(req2.declined_by, [])
+
+    def test_node_auto_floating_ip(self):
+        """Test that auto-floating-ip option works fine."""
+        configfile = self.setup_config('node_auto_floating_ip.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        self._useBuilder(configfile)
+        pool.start()
+        self.waitForImage('fake-provider1', 'fake-image')
+        self.waitForImage('fake-provider2', 'fake-image')
+        self.waitForImage('fake-provider3', 'fake-image')
+        label1_nodes = self.waitForNodes('fake-label1')
+        label2_nodes = self.waitForNodes('fake-label2')
+        label3_nodes = self.waitForNodes('fake-label3')
+
+        self.assertEqual(1, len(label1_nodes))
+        self.assertEqual(1, len(label2_nodes))
+        self.assertEqual(1, len(label3_nodes))
+
+        # auto-floating-ip: False
+        self.assertEqual('fake-provider1', label1_nodes[0].provider)
+        self.assertEqual('', label1_nodes[0].public_ipv4)
+        self.assertEqual('', label1_nodes[0].public_ipv6)
+        self.assertEqual('fake', label1_nodes[0].interface_ip)
+
+        # auto-floating-ip: True
+        self.assertEqual('fake-provider2', label2_nodes[0].provider)
+        self.assertEqual('fake', label2_nodes[0].public_ipv4)
+        self.assertEqual('', label2_nodes[0].public_ipv6)
+        self.assertEqual('fake', label2_nodes[0].interface_ip)
+
+        # auto-floating-ip: default value
+        self.assertEqual('fake-provider3', label3_nodes[0].provider)
+        self.assertEqual('fake', label3_nodes[0].public_ipv4)
+        self.assertEqual('', label3_nodes[0].public_ipv6)
+        self.assertEqual('fake', label3_nodes[0].interface_ip)

From ce337c283e1a1ce5e9d956e589f79198b86385a5 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Thu, 21 Sep 2017 13:44:42 +0200
Subject: [PATCH 276/309] Improve test case node_assignment_at_quota

Currently the test case node_assignment_at_quota doesn't check that
the request handler is really paused and not more servers than
specified are created. Add a check for that.

Change-Id: I2f7742a73c066c6b5bcc8cfaac1881d25cf6f326
---
 nodepool/tests/test_launcher.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 5ccce5f25..9cc85835b 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -156,6 +156,13 @@ class TestLauncher(tests.DBTestCase):
         while len(client._server_list) < 2:
             time.sleep(0.1)
 
+        # Wait until there is a paused request handler and check if there
+        # are exactly two servers
+        pool_worker = pool.getPoolWorkers('fake-provider')
+        while not pool_worker[0].paused_handler:
+            time.sleep(0.1)
+        self.assertEqual(len(client._server_list), 2)
+
         # Allow the servers to finish being created.
         for server in client._server_list:
             server.event.set()

From 185f5c99142683b4e21e6df77dc36d5973be9ee2 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Tue, 21 Nov 2017 19:40:14 -0800
Subject: [PATCH 277/309] Reorg non detailed instance listing columns

"AZ" is an almost always unused piece of info so move it from non
detailed info to detailed info when listing instances. Public IP addrs
are used all the time though so move from from detailed to non detailed
listings.

This should give better balance to the default usage of the list command
for day to day ops.

Change-Id: I5bb6255ea76b78b8427d1f145d3f8e077f11013d
---
 nodepool/status.py              | 80 ++++++++++++++++++++++++++-------
 nodepool/tests/test_commands.py |  4 +-
 2 files changed, 65 insertions(+), 19 deletions(-)

diff --git a/nodepool/status.py b/nodepool/status.py
index 8b3160380..ddfbc768e 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -30,11 +30,27 @@ def age(timestamp):
 
 
 def node_list(zk, node_id=None, detail=False):
-    headers = ["ID", "Provider", "AZ", "Label", "Server ID", "State",
-               "Age", "Locked"]
-    detail_headers = ["Hostname", "Public IPv4", "Private IPv4", "IPv6",
-                      "SSH Port", "Launcher", "Allocated To", "Hold Job",
-                      "Comment"]
+    headers = [
+        "ID",
+        "Provider",
+        "Label",
+        "Server ID",
+        "Public IPv4",
+        "IPv6",
+        "State",
+        "Age",
+        "Locked"
+    ]
+    detail_headers = [
+        "Hostname",
+        "Private IPv4",
+        "AZ",
+        "SSH Port",
+        "Launcher",
+        "Allocated To",
+        "Hold Job",
+        "Comment"
+    ]
     if detail:
         headers += detail_headers
 
@@ -52,13 +68,28 @@ def node_list(zk, node_id=None, detail=False):
             else:
                 zk.unlockNode(node)
 
-            values = [node.id, node.provider, node.az, node.type,
-                      node.external_id, node.state, age(node.state_time),
-                      locked]
+            values = [
+                node.id,
+                node.provider,
+                node.type,
+                node.external_id,
+                node.public_ipv4,
+                node.public_ipv6,
+                node.state,
+                age(node.state_time),
+                locked
+            ]
             if detail:
-                values += [node.hostname, node.public_ipv4, node.private_ipv4,
-                           node.public_ipv6, node.ssh_port, node.launcher,
-                           node.allocated_to, node.hold_job, node.comment]
+                values += [
+                    node.hostname,
+                    node.private_ipv4,
+                    node.az,
+                    node.ssh_port,
+                    node.launcher,
+                    node.allocated_to,
+                    node.hold_job,
+                    node.comment
+                ]
             t.add_row(values)
     else:
         for node in zk.nodeIterator():
@@ -70,13 +101,28 @@ def node_list(zk, node_id=None, detail=False):
             else:
                 zk.unlockNode(node)
 
-            values = [node.id, node.provider, node.az, node.type,
-                      node.external_id, node.state, age(node.state_time),
-                      locked]
+            values = [
+                node.id,
+                node.provider,
+                node.type,
+                node.external_id,
+                node.public_ipv4,
+                node.public_ipv6,
+                node.state,
+                age(node.state_time),
+                locked
+            ]
             if detail:
-                values += [node.hostname, node.public_ipv4, node.private_ipv4,
-                           node.public_ipv6, node.ssh_port, node.launcher,
-                           node.allocated_to, node.hold_job, node.comment]
+                values += [
+                    node.hostname,
+                    node.private_ipv4,
+                    node.az,
+                    node.ssh_port,
+                    node.launcher,
+                    node.allocated_to,
+                    node.hold_job,
+                    node.comment
+                ]
             t.add_row(values)
     return str(t)
 
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index f387f85e2..628606ba2 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -63,13 +63,13 @@ class TestNodepoolCMD(tests.DBTestCase):
     def assert_nodes_listed(self, configfile, node_cnt, status="ready",
                             detail=False, validate_col_count=False):
         cmd = ['list']
-        col_count = 8
+        col_count = 9
         if detail:
             cmd += ['--detail']
             col_count = 17
         if not validate_col_count:
             col_count = 0
-        self.assert_listed(configfile, cmd, 5, status, node_cnt, col_count)
+        self.assert_listed(configfile, cmd, 6, status, node_cnt, col_count)
 
     def test_image_list_empty(self):
         self.assert_images_listed(self.setup_config("node_cmd.yaml"), 0)

From e0ac89ccf9d8891f41678a8a7c252f8ea7f1bf59 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 27 Nov 2017 12:04:29 -0500
Subject: [PATCH 278/309] Use py3 in docs generation

'tox -edocs' will annoyingly use py2 if it's available. Since
everything else is py3, do that for docs, too.

Change-Id: Ia8bbde27ad4d97fd6b0859536580a2268bda0933
---
 tox.ini | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tox.ini b/tox.ini
index 6e6fa2b63..49502aad0 100644
--- a/tox.ini
+++ b/tox.ini
@@ -34,6 +34,7 @@ commands =
   python setup.py testr --coverage
 
 [testenv:docs]
+basepython = python3
 commands =
   python setup.py build_sphinx
 

From f664678a2f025f2d7cca0a7f93c9442fa504f259 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Fri, 25 Aug 2017 11:23:36 -0700
Subject: [PATCH 279/309] Fix broken use of pre-existing cloud images

The existing code to check for a label being ready was using the label
name to query the cloud for image existence. The label name and the
name used to communicate with the remote cloud are not necessarily the
same.

Change the config reader to put the ProviderCloudImage into the Label's
cloud_image attribute, which allows validating that the cloud-image
referenced in a label definition matches the name of an existing
ProviderCloudImage.

Add accessor properties on the ProviderCloudImage to get the thing we
pass to the cloud (external) and the human readable name version of the
name of the image on the remote cloud for logging (image_name).

Note: This will need to be reworked a bit with the upcoming pluggable
config. The name, image_id, image_name split is done the way it is
currently because of how shade works and so is likely a feature of an
OpenStackProviderCloudImage not a general CloudImage. (or maybe I'm
wrong and it's a general thing, but I don't think I'm wrong)

Change-Id: I8411c627f9136339d1b0eb35632d6b2a27ab7a81
Co-Authored-By: Monty Taylor <mordred@inaugust.com>
Co-Authored-By: David Shrewsbury <shrewsbury.dave@gmail.com>
---
 doc/source/configuration.rst                  |  6 ++--
 nodepool/config.py                            | 25 +++++++++++++++-
 nodepool/driver/openstack/handler.py          | 29 +++++--------------
 nodepool/driver/openstack/provider.py         | 16 ++++++++--
 nodepool/launcher.py                          | 13 +++++----
 .../unmanaged_image_provider_name.yaml        | 28 ++++++++++++++++++
 nodepool/tests/test_launcher.py               | 16 ++++++++++
 7 files changed, 101 insertions(+), 32 deletions(-)
 create mode 100644 nodepool/tests/fixtures/unmanaged_image_provider_name.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index c06f05924..73bdc2c51 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -542,8 +542,10 @@ Example configuration::
     Refers to provider's diskimages, see :ref:`provider_diskimages`.
 
   ``cloud-image``
-    Refers to an externally managed image name or id already existing on the
-    provider, see :ref:`provider_cloud_images`.
+    Refers to the name of an externally managed image in the cloud that already
+    exists on the provider. The value of ``cloud-image`` should match the
+    ``name`` of a previously configured entry from the ``cloud-images`` section
+    of the provider. See :ref:`provider_cloud_images`.
 
 **at least one of**
 
diff --git a/nodepool/config.py b/nodepool/config.py
index ac44420e3..2ccef9f4f 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -87,6 +87,19 @@ class ProviderCloudImage(ConfigValue):
     def __repr__(self):
         return "<ProviderCloudImage %s>" % self.name
 
+    @property
+    def external(self):
+        '''External identifier to pass to the cloud.'''
+        if self.image_id:
+            return dict(id=self.image_id)
+        else:
+            return self.image_name or self.name
+
+    @property
+    def external_name(self):
+        '''Human readable version of external.'''
+        return self.image_id or self.image_name or self.name
+
 
 class Label(ConfigValue):
     def __repr__(self):
@@ -290,7 +303,17 @@ def loadConfig(config_path):
                     pl.diskimage = newconfig.diskimages[diskimage]
                 else:
                     pl.diskimage = None
-                pl.cloud_image = label.get('cloud-image', None)
+                cloud_image_name = label.get('cloud-image', None)
+                if cloud_image_name:
+                    cloud_image = p.cloud_images.get(cloud_image_name, None)
+                    if not cloud_image:
+                        raise ValueError(
+                            "cloud-image %s does not exist in provider %s"
+                            " but is referenced in label %s" %
+                            (cloud_image_name, p.name, pl.name))
+                else:
+                    cloud_image = None
+                pl.cloud_image = cloud_image
                 pl.min_ram = label.get('min-ram', 0)
                 pl.flavor_name = label.get('flavor-name', None)
                 pl.key_name = label.get('key-name')
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 2cf6024ce..3baec6292 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -62,7 +62,6 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             self._diskimage = self._provider.diskimages[self._label.diskimage.name]
         else:
             self._diskimage = None
-        self._cloud_image = self._provider.cloud_images.get(self._label.cloud_image, None)
 
     def logConsole(self, server_id, hostname):
         if not self._label.console_log:
@@ -97,22 +96,11 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
 
         else:
             # launch using unmanaged cloud image
-            config_drive = self._cloud_image.config_drive
+            config_drive = self._label.cloud_image.config_drive
 
-            # These are different values for zk, but it's all the same
-            # for cloud-images.
-            # image_external is what we use for OpenStack.
-            # image_id is what we record in the node for zk.
-            # image_name is what we log, so matches the config.
-            image_external = self._cloud_image.name
-            if self._cloud_image.image_id:
-                image_external = dict(id=self._cloud_image.image_id)
-            elif self._cloud_image.image_name:
-                image_external = self._cloud_image.image_name
-            else:
-                image_external = self._cloud_image.name
-            image_id = self._cloud_image.name
-            image_name = self._cloud_image.name
+            image_external = self._label.cloud_image.external
+            image_id = self._label.cloud_image.name
+            image_name = self._label.cloud_image.name
 
             # TODO(tobiash): support username also for unmanaged cloud images
             username = None
@@ -308,13 +296,12 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         for label in self.request.node_types:
 
             if self.pool.labels[label].cloud_image:
-                img = self.pool.labels[label].cloud_image
-                if not self.manager.labelReady(img):
+                if not self.manager.labelReady(self.pool.labels[label]):
                     return False
             else:
-                img = self.pool.labels[label].diskimage.name
-
-                if not self.zk.getMostRecentImageUpload(img, self.provider.name):
+                if not self.zk.getMostRecentImageUpload(
+                        self.pool.labels[label].diskimage.name,
+                        self.provider.name):
                     return False
         return True
 
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index 1939e1671..8f9f9fde8 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -273,8 +273,20 @@ class OpenStackProvider(Provider):
         with shade_inner_exceptions():
             return self._client.get_image(image_id)
 
-    def labelReady(self, image_id):
-        return self.getImage(image_id)
+    def labelReady(self, label):
+        if not label.cloud_image:
+            return False
+        image = self.getImage(label.cloud_image.external)
+        if not image:
+            self.log.warning(
+                "Provider %s is configured to use %s as the"
+                " cloud-image for label %s and that"
+                " cloud-image could not be found in the"
+                " cloud." % (self.provider.name,
+                             label.cloud_image.external_name,
+                             label.name))
+            return False
+        return True
 
     def uploadImage(self, image_name, filename, image_type=None, meta=None,
             md5=None, sha256=None):
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 4234c8315..da45fc841 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -796,13 +796,14 @@ class NodePool(threading.Thread):
                 # Provider doesn't manage images, assuming label is ready
                 return True
             for pool_label in pool.labels.values():
-                if pool_label.cloud_image:
-                    manager = self.getProviderManager(pool.provider.name)
-                    if manager.labelReady(pool_label.cloud_image):
+                if pool_label.diskimage:
+                    if self.zk.getMostRecentImageUpload(
+                            pool_label.diskimage.name, pool.provider.name):
+                        return True
+                else:
+                    manager = self.getProviderManager(pool.provider.name)
+                    if manager.labelReady(pool_label):
                         return True
-                elif self.zk.getMostRecentImageUpload(pool_label.diskimage.name,
-                                                      pool.provider.name):
-                    return True
         return False
 
     def createMinReady(self):
diff --git a/nodepool/tests/fixtures/unmanaged_image_provider_name.yaml b/nodepool/tests/fixtures/unmanaged_image_provider_name.yaml
new file mode 100644
index 000000000..c95561432
--- /dev/null
+++ b/nodepool/tests/fixtures/unmanaged_image_provider_name.yaml
@@ -0,0 +1,28 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    cloud-images:
+      - name: fake-image
+        image-name: provider-named-image
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            cloud-image: fake-image
+            min-ram: 8192
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 5ccce5f25..6d8c9f8e3 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -647,6 +647,22 @@ class TestLauncher(tests.DBTestCase):
         nodes = self.waitForNodes('fake-label')
         self.assertEqual(len(nodes), 1)
 
+    def test_unmanaged_image_provider_name(self):
+        """
+        Test node launching using an unmanaged image referencing the
+        image name as known by the provider.
+        """
+        configfile = self.setup_config('unmanaged_image_provider_name.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+
+        pool.start()
+        self.wait_for_config(pool)
+        manager = pool.getProviderManager('fake-provider')
+        manager._client.create_image(name="provider-named-image")
+
+        nodes = self.waitForNodes('fake-label')
+        self.assertEqual(len(nodes), 1)
+
     def test_paused_gets_declined(self):
         """Test that a paused request, that later gets declined, unpauses."""
 

From 6a716af6a210a8c7554bddd81df6ad759af18ab1 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Fri, 28 Jul 2017 11:35:29 +0000
Subject: [PATCH 280/309] Refactor provider config to driver module

This change adds a new ProviderConfig driver interface so that driver can
load and validate their config.

This change also adds a new provider abstract method 'cleanupLeakedResources'
that the openstack driver implements to clean floating ip. This removes the
need for a shared clean-floating-ip provider config.

Change-Id: I20319aa660ebf5fbe8df5d6af1d77028e1b18350
---
 doc/source/configuration.rst          |  47 +++--
 nodepool/cmd/config_validator.py      |  70 +------
 nodepool/config.py                    | 226 ++--------------------
 nodepool/driver/__init__.py           |  50 +++++
 nodepool/driver/fake/config.py        |  22 +++
 nodepool/driver/openstack/config.py   | 260 ++++++++++++++++++++++++++
 nodepool/driver/openstack/provider.py |   7 +-
 nodepool/launcher.py                  |   3 +-
 8 files changed, 394 insertions(+), 291 deletions(-)
 create mode 100644 nodepool/driver/fake/config.py
 create mode 100644 nodepool/driver/openstack/config.py

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 73bdc2c51..2428a6efa 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -222,15 +222,37 @@ Example configuration::
 
 .. _provider:
 
-provider
+providers
 ---------
 
-Lists the OpenStack cloud providers Nodepool should use.  Within each
-provider the available Nodepool image types are defined (see
-:ref:`provider_diskimages`.
+Lists the providers Nodepool should use. Each provider is associated to
+a driver listed below.
 
-A provider's resources are partitioned into groups called "pools" (see
-:ref:`pools` for details), and within a pool, the node types which are
+**required**
+
+  ``name``
+
+
+**optional**
+
+  ``driver``
+    Default to *openstack*
+
+  ``max-concurrency``
+    Maximum number of node requests that this provider is allowed to handle
+    concurrently. The default, if not specified, is to have no maximum. Since
+    each node request is handled by a separate thread, this can be useful for
+    limiting the number of threads used by the nodepool-launcher daemon.
+
+
+OpenStack driver
+^^^^^^^^^^^^^^^^
+
+Within each OpenStack provider the available Nodepool image types are defined
+(see :ref:`provider_diskimages`).
+
+An OpenStack provider's resources are partitioned into groups called "pools"
+(see :ref:`pools` for details), and within a pool, the node types which are
 to be made available are listed (see :ref:`pool_labels` for
 details).
 
@@ -238,6 +260,7 @@ Example::
 
   providers:
     - name: provider1
+      driver: openstack
       cloud: example
       region-name: 'region1'
       rate: 1.0
@@ -272,6 +295,8 @@ Example::
               min-ram: 8192
               diskimage: devstack-trusty
     - name: provider2
+      driver: openstack
+      cloud: example2
       region-name: 'region1'
       rate: 1.0
       image-name-format: '{image_name}-{timestamp}'
@@ -297,8 +322,6 @@ Example::
 
 **required**
 
-  ``name``
-
   ``cloud``
   Name of a cloud configured in ``clouds.yaml``.
 
@@ -356,18 +379,12 @@ Example::
     OpenStack project and will attempt to clean unattached floating ips that
     may have leaked around restarts.
 
-  ``max-concurrency``
-    Maximum number of node requests that this provider is allowed to handle
-    concurrently. The default, if not specified, is to have no maximum. Since
-    each node request is handled by a separate thread, this can be useful for
-    limiting the number of threads used by the nodepool-launcher daemon.
-
 .. _pools:
 
 pools
 ~~~~~
 
-A pool defines a group of resources from a provider.  Each pool has a
+A pool defines a group of resources from an OpenStack provider. Each pool has a
 maximum number of nodes which can be launched from it, along with a
 number of cloud-related attributes used when launching nodes.
 
diff --git a/nodepool/cmd/config_validator.py b/nodepool/cmd/config_validator.py
index a5e0b7ec8..cccf611ab 100644
--- a/nodepool/cmd/config_validator.py
+++ b/nodepool/cmd/config_validator.py
@@ -14,6 +14,8 @@ import logging
 import voluptuous as v
 import yaml
 
+from nodepool.config import get_provider_config
+
 log = logging.getLogger(__name__)
 
 
@@ -24,71 +26,10 @@ class ConfigValidator:
         self.config_file = config_file
 
     def validate(self):
-        label_min_ram = v.Schema({v.Required('min-ram'): int}, extra=True)
-
-        label_flavor_name = v.Schema({v.Required('flavor-name'): str},
-                                     extra=True)
-
-        label_diskimage = v.Schema({v.Required('diskimage'): str}, extra=True)
-
-        label_cloud_image = v.Schema({v.Required('cloud-image'): str}, extra=True)
-
-        pool_label_main = {
-            v.Required('name'): str,
-            v.Exclusive('diskimage', 'label-image'): str,
-            v.Exclusive('cloud-image', 'label-image'): str,
-            'min-ram': int,
-            'flavor-name': str,
-            'key-name': str,
-            'console-log': bool,
-            'boot-from-volume': bool,
-            'volume-size': int,
-        }
-
-        pool_label = v.All(pool_label_main,
-                           v.Any(label_min_ram, label_flavor_name),
-                           v.Any(label_diskimage, label_cloud_image))
-
-        pool = {
-            'name': str,
-            'networks': [str],
-            'auto-floating-ip': bool,
-            'max-servers': int,
-            'labels': [pool_label],
-            'availability-zones': [str],
-            }
-
-        provider_diskimage = {
-            'name': str,
-            'pause': bool,
-            'meta': dict,
-            'config-drive': bool,
-        }
-
-        provider_cloud_images = {
-            'name': str,
-            'config-drive': bool,
-            v.Exclusive('image-id', 'cloud-image-name-or-id'): str,
-            v.Exclusive('image-name', 'cloud-image-name-or-id'): str,
-        }
-
         provider = {
-            'name': str,
+            'name': v.Required(str),
             'driver': str,
-            'region-name': str,
-            v.Required('cloud'): str,
             'max-concurrency': int,
-            'boot-timeout': int,
-            'launch-timeout': int,
-            'launch-retries': int,
-            'nodepool-id': str,
-            'rate': float,
-            'hostname-format': str,
-            'image-name-format': str,
-            'clean-floating-ips': bool,
-            'pools': [pool],
-            'diskimages': [provider_diskimage],
-            'cloud-images': [provider_cloud_images],
         }
 
         label = {
@@ -122,7 +63,7 @@ class ConfigValidator:
                 'port': int,
                 'chroot': str,
             }],
-            'providers': [provider],
+            'providers': list,
             'labels': [label],
             'diskimages': [diskimage],
         }
@@ -133,3 +74,6 @@ class ConfigValidator:
         # validate the overall schema
         schema = v.Schema(top_level)
         schema(config)
+        for provider_dict in config.get('providers', []):
+            provider_schema = get_provider_config(provider_dict).get_schema()
+            provider_schema.extend(provider)(provider_dict)
diff --git a/nodepool/config.py b/nodepool/config.py
index 2ccef9f4f..537dfbc23 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -16,113 +16,25 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import os_client_config
 from six.moves import configparser as ConfigParser
 import time
 import yaml
 
 from nodepool import zk
-
-
-class ConfigValue(object):
-    def __eq__(self, other):
-        if isinstance(other, ConfigValue):
-            if other.__dict__ == self.__dict__:
-                return True
-        return False
+from nodepool.driver import ConfigValue
+from nodepool.driver.fake.config import FakeProviderConfig
+from nodepool.driver.openstack.config import OpenStackProviderConfig
 
 
 class Config(ConfigValue):
     pass
 
 
-class Driver(ConfigValue):
-    pass
-
-
-class Provider(ConfigValue):
-    def __eq__(self, other):
-        if (other.cloud_config != self.cloud_config or
-            other.pools != self.pools or
-            other.image_type != self.image_type or
-            other.rate != self.rate or
-            other.boot_timeout != self.boot_timeout or
-            other.launch_timeout != self.launch_timeout or
-            other.clean_floating_ips != self.clean_floating_ips or
-            other.max_concurrency != self.max_concurrency or
-            other.diskimages != self.diskimages):
-            return False
-
-        return True
-
-    def __ne__(self, other):
-        return not self.__eq__(other)
-
-    def __repr__(self):
-        return "<Provider %s>" % self.name
-
-
-class ProviderPool(ConfigValue):
-    def __eq__(self, other):
-        if (other.labels != self.labels or
-            other.max_servers != self.max_servers or
-            other.azs != self.azs or
-            other.networks != self.networks):
-            return False
-        return True
-
-    def __ne__(self, other):
-        return not self.__eq__(other)
-
-    def __repr__(self):
-        return "<ProviderPool %s>" % self.name
-
-
-class ProviderDiskImage(ConfigValue):
-    def __repr__(self):
-        return "<ProviderDiskImage %s>" % self.name
-
-
-class ProviderCloudImage(ConfigValue):
-    def __repr__(self):
-        return "<ProviderCloudImage %s>" % self.name
-
-    @property
-    def external(self):
-        '''External identifier to pass to the cloud.'''
-        if self.image_id:
-            return dict(id=self.image_id)
-        else:
-            return self.image_name or self.name
-
-    @property
-    def external_name(self):
-        '''Human readable version of external.'''
-        return self.image_id or self.image_name or self.name
-
-
 class Label(ConfigValue):
     def __repr__(self):
         return "<Label %s>" % self.name
 
 
-class ProviderLabel(ConfigValue):
-    def __eq__(self, other):
-        if (other.diskimage != self.diskimage or
-            other.cloud_image != self.cloud_image or
-            other.min_ram != self.min_ram or
-            other.flavor_name != self.flavor_name or
-            other.key_name != self.key_name):
-            return False
-        return True
-
-    def __ne__(self, other):
-        return not self.__eq__(other)
-
-    def __repr__(self):
-        return "<ProviderLabel %s>" % self.name
-
-
 class DiskImage(ConfigValue):
     def __eq__(self, other):
         if (other.name != self.name or
@@ -143,6 +55,17 @@ class DiskImage(ConfigValue):
         return "<DiskImage %s>" % self.name
 
 
+def get_provider_config(provider):
+    provider.setdefault('driver', 'openstack')
+    # Ensure legacy configuration still works when using fake cloud
+    if provider.get('name', '').startswith('fake'):
+        provider['driver'] = 'fake'
+    if provider['driver'] == 'fake':
+        return FakeProviderConfig(provider)
+    elif provider['driver'] == 'openstack':
+        return OpenStackProviderConfig(provider)
+
+
 def loadConfig(config_path):
     retry = 3
 
@@ -163,7 +86,8 @@ def loadConfig(config_path):
             if retry == 0:
                 raise e
 
-    cloud_config = os_client_config.OpenStackConfig()
+    # Reset the shared os_client_config instance
+    OpenStackProviderConfig.os_client_config = None
 
     newconfig = Config()
     newconfig.db = None
@@ -218,113 +142,9 @@ def loadConfig(config_path):
         l.pools = []
 
     for provider in config.get('providers', []):
-        provider.setdefault('driver', 'openstack')
-        # Ensure legacy configuration still works when using fake name
-        if provider.get('name', '').startswith('fake'):
-            provider['driver'] = 'fake'
-        p = Provider()
-        p.name = provider['name']
-        p.driver = Driver()
-        p.driver.name = provider['driver']
-        p.driver.manage_images = False
+        p = get_provider_config(provider)
+        p.load(newconfig)
         newconfig.providers[p.name] = p
-
-        cloud_kwargs = _cloudKwargsFromProvider(provider)
-        p.cloud_config = None
-        p.image_type = None
-        if p.driver.name in ('openstack', 'fake'):
-            p.driver.manage_images = True
-            p.cloud_config = cloud_config.get_one_cloud(**cloud_kwargs)
-            p.image_type = p.cloud_config.config['image_format']
-        p.region_name = provider.get('region-name')
-        p.max_concurrency = provider.get('max-concurrency', -1)
-        p.rate = provider.get('rate', 1.0)
-        p.boot_timeout = provider.get('boot-timeout', 60)
-        p.launch_timeout = provider.get('launch-timeout', 3600)
-        p.launch_retries = provider.get('launch-retries', 3)
-        p.clean_floating_ips = provider.get('clean-floating-ips')
-        p.hostname_format = provider.get(
-            'hostname-format',
-            '{label.name}-{provider.name}-{node.id}'
-        )
-        p.image_name_format = provider.get(
-            'image-name-format',
-            '{image_name}-{timestamp}'
-        )
-        p.diskimages = {}
-        for image in provider.get('diskimages', []):
-            i = ProviderDiskImage()
-            i.name = image['name']
-            p.diskimages[i.name] = i
-            diskimage = newconfig.diskimages[i.name]
-            diskimage.image_types.add(p.image_type)
-            i.pause = bool(image.get('pause', False))
-            i.config_drive = image.get('config-drive', None)
-
-            # This dict is expanded and used as custom properties when
-            # the image is uploaded.
-            i.meta = image.get('meta', {})
-            # 5 elements, and no key or value can be > 255 chars
-            # per Nova API rules
-            if i.meta:
-                if len(i.meta) > 5 or \
-                   any([len(k) > 255 or len(v) > 255
-                        for k, v in i.meta.items()]):
-                    # soft-fail
-                    #self.log.error("Invalid metadata for %s; ignored"
-                    #               % i.name)
-                    i.meta = {}
-        p.cloud_images = {}
-        for image in provider.get('cloud-images', []):
-            i = ProviderCloudImage()
-            i.name = image['name']
-            i.config_drive = image.get('config-drive', None)
-            i.image_id = image.get('image-id', None)
-            i.image_name = image.get('image-name', None)
-            p.cloud_images[i.name] = i
-        p.pools = {}
-        for pool in provider.get('pools', []):
-            pp = ProviderPool()
-            pp.name = pool['name']
-            pp.provider = p
-            p.pools[pp.name] = pp
-            pp.max_servers = pool['max-servers']
-            pp.azs = pool.get('availability-zones')
-            pp.networks = pool.get('networks', [])
-            pp.auto_floating_ip = bool(pool.get('auto-floating-ip', True))
-            pp.labels = {}
-            for label in pool.get('labels', []):
-                pl = ProviderLabel()
-                pl.name = label['name']
-                pl.pool = pp
-                pp.labels[pl.name] = pl
-                diskimage = label.get('diskimage', None)
-                if diskimage:
-                    pl.diskimage = newconfig.diskimages[diskimage]
-                else:
-                    pl.diskimage = None
-                cloud_image_name = label.get('cloud-image', None)
-                if cloud_image_name:
-                    cloud_image = p.cloud_images.get(cloud_image_name, None)
-                    if not cloud_image:
-                        raise ValueError(
-                            "cloud-image %s does not exist in provider %s"
-                            " but is referenced in label %s" %
-                            (cloud_image_name, p.name, pl.name))
-                else:
-                    cloud_image = None
-                pl.cloud_image = cloud_image
-                pl.min_ram = label.get('min-ram', 0)
-                pl.flavor_name = label.get('flavor-name', None)
-                pl.key_name = label.get('key-name')
-                pl.console_log = label.get('console-log', False)
-                pl.boot_from_volume = bool(label.get('boot-from-volume',
-                                                     False))
-                pl.volume_size = label.get('volume-size', 50)
-
-                top_label = newconfig.labels[pl.name]
-                top_label.pools.append(pp)
-
     return newconfig
 
 
@@ -333,13 +153,3 @@ def loadSecureConfig(config, secure_config_path):
     secure.readfp(open(secure_config_path))
 
     #config.dburi = secure.get('database', 'dburi')
-
-
-def _cloudKwargsFromProvider(provider):
-    cloud_kwargs = {}
-    for arg in ['region-name', 'cloud']:
-        if arg in provider:
-            cloud_kwargs[arg] = provider[arg]
-    if provider['driver'] == 'fake':
-        cloud_kwargs['validate'] = False
-    return cloud_kwargs
diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 6c8919d59..93b994afa 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -53,6 +53,10 @@ class Provider(object):
     def waitForNodeCleanup(self, node_id):
         pass
 
+    @abc.abstractmethod
+    def cleanupLeakedResources(self):
+        pass
+
     @abc.abstractmethod
     def listNodes(self):
         pass
@@ -294,3 +298,49 @@ class NodeLaunchManager(object):
     @abc.abstractmethod
     def launch(self, node):
         pass
+
+
+class ConfigValue(object):
+    def __eq__(self, other):
+        if isinstance(other, ConfigValue):
+            if other.__dict__ == self.__dict__:
+                return True
+        return False
+
+    def __ne__(self, other):
+        return not self.__eq__(other)
+
+
+class Driver(ConfigValue):
+    pass
+
+
+@six.add_metaclass(abc.ABCMeta)
+class ProviderConfig(ConfigValue):
+    """The Provider config interface
+
+    The class or instance attribute **name** must be provided as a string.
+
+    """
+    def __init__(self, provider):
+        self.name = provider['name']
+        self.provider = provider
+        self.driver = Driver()
+        self.driver.name = provider.get('driver', 'openstack')
+        self.max_concurrency = provider.get('max-concurrency', -1)
+        self.driver.manage_images = False
+
+    def __repr__(self):
+        return "<Provider %s>" % self.name
+
+    @abc.abstractmethod
+    def __eq__(self, other):
+        pass
+
+    @abc.abstractmethod
+    def load(self, newconfig):
+        pass
+
+    @abc.abstractmethod
+    def get_schema(self):
+        pass
diff --git a/nodepool/driver/fake/config.py b/nodepool/driver/fake/config.py
new file mode 100644
index 000000000..a2d3f5891
--- /dev/null
+++ b/nodepool/driver/fake/config.py
@@ -0,0 +1,22 @@
+# Copyright 2017 Red Hat
+#
+# Licensed under the Apache License, Version 2.0 (the "License"); you may
+# not use this file except in compliance with the License. You may obtain
+# a copy of the License at
+#
+#      http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
+# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
+# License for the specific language governing permissions and limitations
+# under the License.
+
+from nodepool.driver.openstack.config import OpenStackProviderConfig
+
+
+class FakeProviderConfig(OpenStackProviderConfig):
+    def _cloudKwargs(self):
+        cloud_kwargs = super(FakeProviderConfig, self)._cloudKwargs()
+        cloud_kwargs['validate'] = False
+        return cloud_kwargs
diff --git a/nodepool/driver/openstack/config.py b/nodepool/driver/openstack/config.py
new file mode 100644
index 000000000..2c9dcb9ef
--- /dev/null
+++ b/nodepool/driver/openstack/config.py
@@ -0,0 +1,260 @@
+# Copyright (C) 2011-2013 OpenStack Foundation
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
+# implied.
+#
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import os_client_config
+import voluptuous as v
+
+from nodepool.driver import ProviderConfig
+from nodepool.driver import ConfigValue
+
+
+class ProviderDiskImage(ConfigValue):
+    def __repr__(self):
+        return "<ProviderDiskImage %s>" % self.name
+
+
+class ProviderCloudImage(ConfigValue):
+    def __repr__(self):
+        return "<ProviderCloudImage %s>" % self.name
+
+    @property
+    def external(self):
+        '''External identifier to pass to the cloud.'''
+        if self.image_id:
+            return dict(id=self.image_id)
+        else:
+            return self.image_name or self.name
+
+    @property
+    def external_name(self):
+        '''Human readable version of external.'''
+        return self.image_id or self.image_name or self.name
+
+
+class ProviderLabel(ConfigValue):
+    def __eq__(self, other):
+        if (other.diskimage != self.diskimage or
+            other.cloud_image != self.cloud_image or
+            other.min_ram != self.min_ram or
+            other.flavor_name != self.flavor_name or
+            other.key_name != self.key_name):
+            return False
+        return True
+
+    def __repr__(self):
+        return "<ProviderLabel %s>" % self.name
+
+
+class ProviderPool(ConfigValue):
+    def __eq__(self, other):
+        if (other.labels != self.labels or
+            other.max_servers != self.max_servers or
+            other.azs != self.azs or
+            other.networks != self.networks):
+            return False
+        return True
+
+    def __repr__(self):
+        return "<ProviderPool %s>" % self.name
+
+
+class OpenStackProviderConfig(ProviderConfig):
+    os_client_config = None
+
+    def __eq__(self, other):
+        if (other.cloud_config != self.cloud_config or
+            other.pools != self.pools or
+            other.image_type != self.image_type or
+            other.rate != self.rate or
+            other.boot_timeout != self.boot_timeout or
+            other.launch_timeout != self.launch_timeout or
+            other.clean_floating_ips != self.clean_floating_ips or
+            other.max_concurrency != self.max_concurrency or
+            other.diskimages != self.diskimages):
+            return False
+        return True
+
+    def _cloudKwargs(self):
+        cloud_kwargs = {}
+        for arg in ['region-name', 'cloud']:
+            if arg in self.provider:
+                cloud_kwargs[arg] = self.provider[arg]
+        return cloud_kwargs
+
+    def load(self, config):
+        if OpenStackProviderConfig.os_client_config is None:
+             OpenStackProviderConfig.os_client_config = \
+                os_client_config.OpenStackConfig()
+        cloud_kwargs = self._cloudKwargs()
+        self.cloud_config = self.os_client_config.get_one_cloud(**cloud_kwargs)
+
+        self.image_type = self.cloud_config.config['image_format']
+        self.driver.manage_images = True
+        self.region_name = self.provider.get('region-name')
+        self.rate = self.provider.get('rate', 1.0)
+        self.boot_timeout = self.provider.get('boot-timeout', 60)
+        self.launch_timeout = self.provider.get('launch-timeout', 3600)
+        self.launch_retries = self.provider.get('launch-retries', 3)
+        self.clean_floating_ips = self.provider.get('clean-floating-ips')
+        self.hostname_format = self.provider.get(
+            'hostname-format',
+            '{label.name}-{provider.name}-{node.id}'
+        )
+        self.image_name_format = self.provider.get(
+            'image-name-format',
+            '{image_name}-{timestamp}'
+        )
+        self.diskimages = {}
+        for image in self.provider.get('diskimages', []):
+            i = ProviderDiskImage()
+            i.name = image['name']
+            self.diskimages[i.name] = i
+            diskimage = config.diskimages[i.name]
+            diskimage.image_types.add(self.image_type)
+            i.pause = bool(image.get('pause', False))
+            i.config_drive = image.get('config-drive', None)
+
+            # This dict is expanded and used as custom properties when
+            # the image is uploaded.
+            i.meta = image.get('meta', {})
+            # 5 elements, and no key or value can be > 255 chars
+            # per Nova API rules
+            if i.meta:
+                if len(i.meta) > 5 or \
+                   any([len(k) > 255 or len(v) > 255
+                        for k, v in i.meta.items()]):
+                    # soft-fail
+                    #self.log.error("Invalid metadata for %s; ignored"
+                    #               % i.name)
+                    i.meta = {}
+
+        self.cloud_images = {}
+        for image in self.provider.get('cloud-images', []):
+            i = ProviderCloudImage()
+            i.name = image['name']
+            i.config_drive = image.get('config-drive', None)
+            i.image_id = image.get('image-id', None)
+            i.image_name = image.get('image-name', None)
+            self.cloud_images[i.name] = i
+
+        self.pools = {}
+        for pool in self.provider.get('pools', []):
+            pp = ProviderPool()
+            pp.name = pool['name']
+            pp.provider = self
+            self.pools[pp.name] = pp
+            pp.max_servers = pool['max-servers']
+            pp.azs = pool.get('availability-zones')
+            pp.networks = pool.get('networks', [])
+            pp.auto_floating_ip = bool(pool.get('auto-floating-ip', True))
+            pp.labels = {}
+            for label in pool.get('labels', []):
+                pl = ProviderLabel()
+                pl.name = label['name']
+                pl.pool = pp
+                pp.labels[pl.name] = pl
+                diskimage = label.get('diskimage', None)
+                if diskimage:
+                    pl.diskimage = config.diskimages[diskimage]
+                else:
+                    pl.diskimage = None
+                cloud_image_name = label.get('cloud-image', None)
+                if cloud_image_name:
+                    cloud_image = self.cloud_images.get(cloud_image_name, None)
+                    if not cloud_image:
+                        raise ValueError(
+                            "cloud-image %s does not exist in provider %s"
+                            " but is referenced in label %s" %
+                            (cloud_image_name, self.name, pl.name))
+                else:
+                    cloud_image = None
+                pl.cloud_image = cloud_image
+                pl.min_ram = label.get('min-ram', 0)
+                pl.flavor_name = label.get('flavor-name', None)
+                pl.key_name = label.get('key-name')
+                pl.console_log = label.get('console-log', False)
+                pl.boot_from_volume = bool(label.get('boot-from-volume',
+                                                     False))
+                pl.volume_size = label.get('volume-size', 50)
+
+                top_label = config.labels[pl.name]
+                top_label.pools.append(pp)
+
+
+    def get_schema(self):
+        provider_diskimage = {
+            'name': str,
+            'pause': bool,
+            'meta': dict,
+            'config-drive': bool,
+        }
+
+        provider_cloud_images = {
+            'name': str,
+            'config-drive': bool,
+            v.Exclusive('image-id', 'cloud-image-name-or-id'): str,
+            v.Exclusive('image-name', 'cloud-image-name-or-id'): str,
+        }
+
+        pool_label_main = {
+            v.Required('name'): str,
+            v.Exclusive('diskimage', 'label-image'): str,
+            v.Exclusive('cloud-image', 'label-image'): str,
+            'min-ram': int,
+            'flavor-name': str,
+            'key-name': str,
+            'console-log': bool,
+            'boot-from-volume': bool,
+            'volume-size': int,
+        }
+
+        label_min_ram = v.Schema({v.Required('min-ram'): int}, extra=True)
+
+        label_flavor_name = v.Schema({v.Required('flavor-name'): str},
+                                     extra=True)
+
+        label_diskimage = v.Schema({v.Required('diskimage'): str}, extra=True)
+
+        label_cloud_image = v.Schema({v.Required('cloud-image'): str}, extra=True)
+
+        pool_label = v.All(pool_label_main,
+                           v.Any(label_min_ram, label_flavor_name),
+                           v.Any(label_diskimage, label_cloud_image))
+
+        pool = {
+            'name': str,
+            'networks': [str],
+            'auto-floating-ip': bool,
+            'max-servers': int,
+            'labels': [pool_label],
+            'availability-zones': [str],
+        }
+
+        return v.Schema({
+            'region-name': str,
+            v.Required('cloud'): str,
+            'boot-timeout': int,
+            'launch-timeout': int,
+            'launch-retries': int,
+            'nodepool-id': str,
+            'rate': float,
+            'hostname-format': str,
+            'image-name-format': str,
+            'clean-floating-ips': bool,
+            'pools': [pool],
+            'diskimages': [provider_diskimage],
+            'cloud-images': [provider_cloud_images],
+        })
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index 8f9f9fde8..6f8399518 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -340,9 +340,10 @@ class OpenStackProvider(Provider):
         self.log.debug('Deleting server %s' % server_id)
         self.deleteServer(server_id)
 
-    def cleanupLeakedFloaters(self):
-        with shade_inner_exceptions():
-            self._client.delete_unattached_floating_ips()
+    def cleanupLeakedResources(self):
+        if self.provider.clean_floating_ips:
+            with shade_inner_exceptions():
+                self._client.delete_unattached_floating_ips()
 
     def getAZs(self):
         if self.__azs is None:
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index da45fc841..017be7055 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -474,8 +474,7 @@ class CleanupWorker(BaseCleanupWorker):
                     node.provider = provider.name
                     self._deleteInstance(node)
 
-            if provider.clean_floating_ips:
-                manager.cleanupLeakedFloaters()
+            manager.cleanupLeakedResources()
 
     def _cleanupMaxReadyAge(self):
         '''

From a466e560dacfcabd23fb3d95d9fb36999bed52a2 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 4 Dec 2017 07:56:58 -0500
Subject: [PATCH 281/309] Remove alien_list command

This command has lost its usefulness in v3. Leaked instances
are automatically cleaned up by the CleanupWorker thread.

Change-Id: I99dced6c655fe865012d0d54f39bfc16b789d1a2
---
 doc/source/operation.rst        |  5 -----
 nodepool/cmd/nodepoolcmd.py     | 34 +--------------------------------
 nodepool/tests/test_commands.py | 11 -----------
 3 files changed, 1 insertion(+), 49 deletions(-)

diff --git a/doc/source/operation.rst b/doc/source/operation.rst
index 50efb73e2..bb53e99dc 100644
--- a/doc/source/operation.rst
+++ b/doc/source/operation.rst
@@ -207,11 +207,6 @@ If Nodepool's database gets out of sync with reality, the following
 commands can help identify compute instances or images that are
 unknown to Nodepool:
 
-alien-list
-^^^^^^^^^^
-.. program-output:: nodepool alien-list --help
-   :nostderr:
-
 alien-image-list
 ^^^^^^^^^^^^^^^^
 .. program-output:: nodepool alien-image-list --help
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 8a0953728..1976d940b 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -68,13 +68,6 @@ class NodePoolCmd(NodepoolApp):
         cmd_image_build.add_argument('image', help='image name')
         cmd_image_build.set_defaults(func=self.image_build)
 
-        cmd_alien_list = subparsers.add_parser(
-            'alien-list',
-            help='list nodes not accounted for by nodepool')
-        cmd_alien_list.set_defaults(func=self.alien_list)
-        cmd_alien_list.add_argument('provider', help='provider name',
-                                    nargs='?')
-
         cmd_alien_image_list = subparsers.add_parser(
             'alien-image-list',
             help='list images not accounted for by nodepool')
@@ -172,31 +165,6 @@ class NodePoolCmd(NodepoolApp):
 
         self.zk.submitBuildRequest(diskimage)
 
-    def alien_list(self):
-        self.pool.updateConfig()
-
-        t = PrettyTable(["Provider", "Hostname", "Server ID", "IP"])
-        t.align = 'l'
-
-        for provider in self.pool.config.providers.values():
-            if (self.args.provider and
-                    provider.name != self.args.provider):
-                continue
-            manager = self.pool.getProviderManager(provider)
-
-            try:
-                servers = manager.listNodes()
-                known = set([n.external_id for n in self.zk.nodeIterator()
-                             if n.provider == provider.name])
-                for server in servers:
-                    if server.id not in known:
-                        t.add_row([provider.name, server.name,
-                                   server.id, server.public_v4])
-            except Exception as e:
-                log.warning("Exception listing aliens for %s: %s"
-                            % (provider.name, str(e)))
-        print(t)
-
     def alien_image_list(self):
         self.pool.updateConfig()
 
@@ -350,7 +318,7 @@ class NodePoolCmd(NodepoolApp):
         if self.args.command in ('image-build', 'dib-image-list',
                                  'image-list', 'dib-image-delete',
                                  'image-delete', 'alien-image-list',
-                                 'alien-list', 'list', 'hold', 'delete',
+                                 'list', 'hold', 'delete',
                                  'request-list'):
             self.zk = zk.ZooKeeper()
             self.zk.connect(list(config.zookeeper_servers.values()))
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index f387f85e2..4e3a364aa 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -97,17 +97,6 @@ class TestNodepoolCMD(tests.DBTestCase):
         self.waitForUploadRecordDeletion('fake-provider', 'fake-image',
                                          image.build_id, image.id)
 
-    def test_alien_list_fail(self):
-        def fail_list(self):
-            raise RuntimeError('Fake list error')
-        self.useFixture(fixtures.MonkeyPatch(
-            'nodepool.driver.fake.provider.FakeOpenStackCloud.list_servers',
-            fail_list))
-
-        configfile = self.setup_config("node_cmd.yaml")
-        self.patch_argv("-c", configfile, "alien-list", "fakeprovider")
-        nodepoolcmd.main()
-
     def test_alien_image_list_empty(self):
         configfile = self.setup_config("node.yaml")
         self._useBuilder(configfile)

From d81c35249ad7fd5e6a9c7c66d282ce337a1546e0 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Tue, 5 Sep 2017 14:33:07 +0200
Subject: [PATCH 282/309] Rename ssh_port to connection_port

With the upcoming windows support we don't have ssh as the only
connection type. As a preparation for this generalize ssh_port to
connection_port.

Change-Id: Ic1939054f0604411e0122db8dbd7e9886ceaa974
---
 doc/source/configuration.rst |  2 +-
 nodepool/status.py           |  6 +++---
 nodepool/tests/test_zk.py    | 14 +++++++-------
 nodepool/zk.py               |  9 ++++++---
 4 files changed, 17 insertions(+), 14 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index c8dc0e0d7..ebe7a9d64 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -217,7 +217,7 @@ Example configuration::
     When set to True, nodepool-builder will not build the diskimage.
 
   ``username`` (string)
-    The username that a consumer should use when SSHing onto the node. Defaults
+    The username that a consumer should use when connecting onto the node. Defaults
     to ``zuul``.
 
 .. _provider:
diff --git a/nodepool/status.py b/nodepool/status.py
index ddfbc768e..b28898885 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -45,7 +45,7 @@ def node_list(zk, node_id=None, detail=False):
         "Hostname",
         "Private IPv4",
         "AZ",
-        "SSH Port",
+        "Port",
         "Launcher",
         "Allocated To",
         "Hold Job",
@@ -84,7 +84,7 @@ def node_list(zk, node_id=None, detail=False):
                     node.hostname,
                     node.private_ipv4,
                     node.az,
-                    node.ssh_port,
+                    node.connection_port,
                     node.launcher,
                     node.allocated_to,
                     node.hold_job,
@@ -117,7 +117,7 @@ def node_list(zk, node_id=None, detail=False):
                     node.hostname,
                     node.private_ipv4,
                     node.az,
-                    node.ssh_port,
+                    node.connection_port,
                     node.launcher,
                     node.allocated_to,
                     node.hold_job,
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 43dfcb7dd..91fe8fbce 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -841,7 +841,7 @@ class TestZKModel(tests.BaseTestCase):
             'comment': 'comment',
             'hold_job': 'hold job',
             'host_keys': ['key1', 'key2'],
-            'ssh_port': 22022,
+            'connection_port': 22022,
         }
 
         o = zk.Node.fromDict(d, node_id)
@@ -864,15 +864,15 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.comment , d['comment'])
         self.assertEqual(o.hold_job, d['hold_job'])
         self.assertEqual(o.host_keys , d['host_keys'])
-        self.assertEqual(o.ssh_port , d['ssh_port'])
+        self.assertEqual(o.connection_port , d['connection_port'])
 
-    def test_custom_ssh_port(self):
+    def test_custom_connection_port(self):
         n = zk.Node('0001')
         n.state = zk.BUILDING
         d = n.toDict()
-        self.assertEqual(d["ssh_port"], 22, "Default port not 22")
+        self.assertEqual(d["connection_port"], 22, "Default port not 22")
         n = zk.Node.fromDict(d, '0001')
-        self.assertEqual(n.ssh_port, 22, "Default port not 22")
-        n.ssh_port = 22022
+        self.assertEqual(n.connection_port, 22, "Default port not 22")
+        n.connection_port = 22022
         d = n.toDict()
-        self.assertEqual(d["ssh_port"], 22022, "Custom ssh port not set")
+        self.assertEqual(d["connection_port"], 22022, "Custom ssh port not set")
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 470be3a0a..88bfc0caa 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -436,7 +436,7 @@ class Node(BaseModel):
         self.private_ipv4 = None
         self.public_ipv6 = None
         self.interface_ip = None
-        self.ssh_port = 22
+        self.connection_port = 22
         self.image_id = None
         self.launcher = None
         self.created_time = None
@@ -497,7 +497,10 @@ class Node(BaseModel):
         d['private_ipv4'] = self.private_ipv4
         d['public_ipv6'] = self.public_ipv6
         d['interface_ip'] = self.interface_ip
-        d['ssh_port'] = self.ssh_port
+        d['connection_port'] = self.connection_port
+        # TODO(tobiash): ssh_port is kept for backwards compatibility reasons
+        # to zuul. It should be removed after some deprecation time.
+        d['ssh_port'] = self.connection_port
         d['image_id'] = self.image_id
         d['launcher'] = self.launcher
         d['created_time'] = self.created_time
@@ -532,7 +535,7 @@ class Node(BaseModel):
         o.private_ipv4 = d.get('private_ipv4')
         o.public_ipv6 = d.get('public_ipv6')
         o.interface_ip = d.get('interface_ip')
-        o.ssh_port = d.get('ssh_port', 22)
+        o.connection_port = d.get('connection_port', d.get('ssh_port', 22))
         o.image_id = d.get('image_id')
         o.launcher = d.get('launcher')
         o.created_time = d.get('created_time')

From 9065905296c2d175a28f82125cd107385502bf8c Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Tue, 5 Sep 2017 14:51:33 +0200
Subject: [PATCH 283/309] Support username also for unmanaged cloud images

The username should also be configurable for unmanaged cloud images.

Change-Id: Ib4b8878a7fc49ed0016f0e90ff076c057216f740
---
 doc/source/configuration.rst                      | 2 ++
 nodepool/driver/openstack/config.py               | 2 ++
 nodepool/driver/openstack/handler.py              | 4 +---
 nodepool/tests/fixtures/config_validate/good.yaml | 2 ++
 nodepool/tests/fixtures/node_unmanaged_image.yaml | 7 +++++++
 nodepool/tests/test_launcher.py                   | 6 ++++++
 6 files changed, 20 insertions(+), 3 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index ebe7a9d64..728d26b69 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -533,6 +533,8 @@ Example configuration::
     If this is provided, it is used to select the image from the cloud
     provider by this name or ID.  Mutually exclusive with ``image-id``.
 
+  ``username`` (str)
+    The username that a consumer should use when connecting onto the node.
 
 .. _pool_labels:
 
diff --git a/nodepool/driver/openstack/config.py b/nodepool/driver/openstack/config.py
index 2c9dcb9ef..9093dff8f 100644
--- a/nodepool/driver/openstack/config.py
+++ b/nodepool/driver/openstack/config.py
@@ -148,6 +148,7 @@ class OpenStackProviderConfig(ProviderConfig):
             i.config_drive = image.get('config-drive', None)
             i.image_id = image.get('image-id', None)
             i.image_name = image.get('image-name', None)
+            i.username = image.get('username', None)
             self.cloud_images[i.name] = i
 
         self.pools = {}
@@ -207,6 +208,7 @@ class OpenStackProviderConfig(ProviderConfig):
             'config-drive': bool,
             v.Exclusive('image-id', 'cloud-image-name-or-id'): str,
             v.Exclusive('image-name', 'cloud-image-name-or-id'): str,
+            'username': str,
         }
 
         pool_label_main = {
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 3baec6292..94643d8d3 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -101,9 +101,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             image_external = self._label.cloud_image.external
             image_id = self._label.cloud_image.name
             image_name = self._label.cloud_image.name
-
-            # TODO(tobiash): support username also for unmanaged cloud images
-            username = None
+            username = self._label.cloud_image.username
 
         hostname = self._provider.hostname_format.format(
             label=self._label, provider=self._provider, node=self._node
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index 311608402..d1c5f35b0 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -57,6 +57,8 @@ providers:
     cloud-images:
       - name: trusty-unmanaged
         config-drive: true
+      - name: windows-unmanaged
+        username: winzuul
     pools:
       - name: main
         max-servers: 184
diff --git a/nodepool/tests/fixtures/node_unmanaged_image.yaml b/nodepool/tests/fixtures/node_unmanaged_image.yaml
index ec2bd3209..308c2fd07 100644
--- a/nodepool/tests/fixtures/node_unmanaged_image.yaml
+++ b/nodepool/tests/fixtures/node_unmanaged_image.yaml
@@ -9,6 +9,8 @@ zookeeper-servers:
 labels:
   - name: fake-label
     min-ready: 1
+  - name: fake-label-windows
+    min-ready: 1
 
 providers:
   - name: fake-provider
@@ -18,6 +20,8 @@ providers:
     rate: 0.0001
     cloud-images:
       - name: fake-image
+      - name: fake-image-windows
+        username: zuul
     pools:
       - name: main
         max-servers: 96
@@ -25,3 +29,6 @@ providers:
           - name: fake-label
             cloud-image: fake-image
             min-ram: 8192
+          - name: fake-label-windows
+            cloud-image: fake-image-windows
+            min-ram: 8192
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 12a01e46b..bcf01d53e 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -650,9 +650,15 @@ class TestLauncher(tests.DBTestCase):
         self.wait_for_config(pool)
         manager = pool.getProviderManager('fake-provider')
         manager._client.create_image(name="fake-image")
+        manager._client.create_image(name="fake-image-windows")
 
         nodes = self.waitForNodes('fake-label')
         self.assertEqual(len(nodes), 1)
+        self.assertIsNone(nodes[0].username)
+
+        nodes = self.waitForNodes('fake-label-windows')
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual('zuul', nodes[0].username)
 
     def test_unmanaged_image_provider_name(self):
         """

From b707e7218e680975acb46c4c4b512de9e2f63958 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Tue, 12 Sep 2017 21:28:19 +0200
Subject: [PATCH 284/309] Add connection-type to provider diskimage

The connection type should be included in the provider diskimage. This
makes it possible to define images using other connection methods than
ssh like winrm for Windows.

Change-Id: Ica0b9afe39d347028eb66c069b8dbd56a8c0ec8c
---
 doc/source/configuration.rst                      | 14 ++++++++++++++
 nodepool/driver/openstack/config.py               |  4 ++++
 nodepool/driver/openstack/handler.py              |  3 +++
 nodepool/tests/fixtures/config_validate/good.yaml |  2 ++
 nodepool/tests/fixtures/node_unmanaged_image.yaml |  1 +
 nodepool/tests/test_launcher.py                   |  2 ++
 nodepool/zk.py                                    |  4 ++++
 7 files changed, 30 insertions(+)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 728d26b69..97a1c02d7 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -469,6 +469,8 @@ Example configuration::
       meta:
           key: value
           key2: value
+    - name: windows
+      connection-type: winrm
 
 **required**
 
@@ -491,6 +493,11 @@ Example configuration::
     metadata service. A maximum of five entries is allowed, and both keys and
     values must be 255 characters or less.
 
+  ``connection-type`` (string)
+    The connection type that a consumer should use when connecting onto the
+    node. For most diskimages this is not necessary. However when creating
+    Windows images this could be 'winrm' to enable access via ansible.
+
 
 .. _provider_cloud_images:
 
@@ -506,6 +513,8 @@ Example configuration::
   cloud-images:
     - name: trusty-external
       config-drive: False
+    - name: windows-external
+      connection-type: winrm
 
 **required**
 
@@ -536,6 +545,11 @@ Example configuration::
   ``username`` (str)
     The username that a consumer should use when connecting onto the node.
 
+  ``connection-type`` (str)
+    The connection type that a consumer should use when connecting onto the
+    node. For most diskimages this is not necessary. However when creating
+    Windows images this could be 'winrm' to enable access via ansible.
+
 .. _pool_labels:
 
 labels
diff --git a/nodepool/driver/openstack/config.py b/nodepool/driver/openstack/config.py
index 9093dff8f..8fe798faf 100644
--- a/nodepool/driver/openstack/config.py
+++ b/nodepool/driver/openstack/config.py
@@ -126,6 +126,7 @@ class OpenStackProviderConfig(ProviderConfig):
             diskimage.image_types.add(self.image_type)
             i.pause = bool(image.get('pause', False))
             i.config_drive = image.get('config-drive', None)
+            i.connection_type = image.get('connection-type', 'ssh')
 
             # This dict is expanded and used as custom properties when
             # the image is uploaded.
@@ -149,6 +150,7 @@ class OpenStackProviderConfig(ProviderConfig):
             i.image_id = image.get('image-id', None)
             i.image_name = image.get('image-name', None)
             i.username = image.get('username', None)
+            i.connection_type = image.get('connection-type', 'ssh')
             self.cloud_images[i.name] = i
 
         self.pools = {}
@@ -201,11 +203,13 @@ class OpenStackProviderConfig(ProviderConfig):
             'pause': bool,
             'meta': dict,
             'config-drive': bool,
+            'connection-type': str,
         }
 
         provider_cloud_images = {
             'name': str,
             'config-drive': bool,
+            'connection-type': str,
             v.Exclusive('image-id', 'cloud-image-name-or-id'): str,
             v.Exclusive('image-name', 'cloud-image-name-or-id'): str,
             'username': str,
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 94643d8d3..6e54fa071 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -93,6 +93,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
                 upload_id=cloud_image.id)
             image_name = self._diskimage.name
             username = cloud_image.username
+            connection_type = self._diskimage.connection_type
 
         else:
             # launch using unmanaged cloud image
@@ -102,6 +103,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             image_id = self._label.cloud_image.name
             image_name = self._label.cloud_image.name
             username = self._label.cloud_image.username
+            connection_type = self._label.cloud_image.connection_type
 
         hostname = self._provider.hostname_format.format(
             label=self._label, provider=self._provider, node=self._node
@@ -137,6 +139,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         self._node.image_id = image_id
         if username:
             self._node.username = username
+        self._node.connection_type = connection_type
 
         # Checkpoint save the updated node info
         self._zk.storeNode(self._node)
diff --git a/nodepool/tests/fixtures/config_validate/good.yaml b/nodepool/tests/fixtures/config_validate/good.yaml
index d1c5f35b0..979db04b1 100644
--- a/nodepool/tests/fixtures/config_validate/good.yaml
+++ b/nodepool/tests/fixtures/config_validate/good.yaml
@@ -54,11 +54,13 @@ providers:
     diskimages:
       - name: trusty
         pause: False
+        connection-type: ssh
     cloud-images:
       - name: trusty-unmanaged
         config-drive: true
       - name: windows-unmanaged
         username: winzuul
+        connection-type: winrm
     pools:
       - name: main
         max-servers: 184
diff --git a/nodepool/tests/fixtures/node_unmanaged_image.yaml b/nodepool/tests/fixtures/node_unmanaged_image.yaml
index 308c2fd07..15645da84 100644
--- a/nodepool/tests/fixtures/node_unmanaged_image.yaml
+++ b/nodepool/tests/fixtures/node_unmanaged_image.yaml
@@ -22,6 +22,7 @@ providers:
       - name: fake-image
       - name: fake-image-windows
         username: zuul
+        connection-type: winrm
     pools:
       - name: main
         max-servers: 96
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index bcf01d53e..50e1454c6 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -57,6 +57,7 @@ class TestLauncher(tests.DBTestCase):
             self.assertEqual(node.region, 'fake-region')
             self.assertEqual(node.az, "az1")
             self.assertEqual(node.username, "zuul")
+            self.assertEqual(node.connection_type, 'ssh')
             p = "{path}/{id}".format(
                 path=self.zk._imageUploadPath(image.image_name,
                                               image.build_id,
@@ -659,6 +660,7 @@ class TestLauncher(tests.DBTestCase):
         nodes = self.waitForNodes('fake-label-windows')
         self.assertEqual(len(nodes), 1)
         self.assertEqual('zuul', nodes[0].username)
+        self.assertEqual('winrm', nodes[0].connection_type)
 
     def test_unmanaged_image_provider_name(self):
         """
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 88bfc0caa..3df17bf12 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -445,6 +445,7 @@ class Node(BaseModel):
         self.comment = None
         self.hold_job = None
         self.username = None
+        self.connection_type = None
         self.host_keys = []
 
     def __repr__(self):
@@ -477,6 +478,7 @@ class Node(BaseModel):
                     self.comment == other.comment and
                     self.hold_job == other.hold_job and
                     self.username == other.username and
+                    self.connection_type == other.connection_type and
                     self.host_keys == other.host_keys)
         else:
             return False
@@ -510,6 +512,7 @@ class Node(BaseModel):
         d['hold_job'] = self.hold_job
         d['host_keys'] = self.host_keys
         d['username'] = self.username
+        d['connection_type'] = self.connection_type
         return d
 
     @staticmethod
@@ -544,6 +547,7 @@ class Node(BaseModel):
         o.comment = d.get('comment')
         o.hold_job = d.get('hold_job')
         o.username = d.get('username', 'zuul')
+        o.connection_type = d.get('connection_type')
         o.host_keys = d.get('host_keys', [])
         return o
 

From 92451cdb737509415f52b3b430ac2e22bcab4392 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Wed, 6 Dec 2017 16:53:14 -0800
Subject: [PATCH 285/309] Clarify terminology around node request locks

We had NodeRequestLock objects which are not the same type or data as
the request.lock objects. This is confusing. NodeRequestLock objects
hold znode state info for a lock object in zk and request.lock objects
are the actual zk Lock() for the earlier znode.

Make this more clear by renaming the NodeRequestLock object
NodeRequestLockStats.

Similarly there are many places where we pass 'lock' as a parameter
when we don't mean the actual request.lock object but instead the
request.lock.id object. Update these to be more clearly 'lock_id'
instead of 'lock'.

Finally we also have cases where we want the 'lock_id' but pass 'id'
which is a reserved word in python so lets just avoid it and call these
things 'lock_id'.

Change-Id: Id5c4fe71266efa7f8362fa9c8be7ab27c60059fd
---
 nodepool/launcher.py       |  8 +++---
 nodepool/tests/__init__.py |  2 +-
 nodepool/tests/test_zk.py  | 32 ++++++++++++------------
 nodepool/zk.py             | 50 +++++++++++++++++++-------------------
 4 files changed, 46 insertions(+), 46 deletions(-)

diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 017be7055..ba392dca5 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -432,11 +432,11 @@ class CleanupWorker(BaseCleanupWorker):
         zk = self._nodepool.getZK()
         requests = zk.getNodeRequests()
         now = time.time()
-        for lock in zk.nodeRequestLockIterator():
-            if lock.id in requests:
+        for lock_stat in zk.nodeRequestLockStatsIterator():
+            if lock_stat.lock_id in requests:
                 continue
-            if (now - lock.stat.mtime/1000) > LOCK_CLEANUP:
-                zk.deleteNodeRequestLock(lock.id)
+            if (now - lock_stat.stat.mtime/1000) > LOCK_CLEANUP:
+                zk.deleteNodeRequestLock(lock_stat.lock_id)
 
     def _cleanupLeakedInstances(self):
         '''
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 3ff0db716..2d299d3e9 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -425,7 +425,7 @@ class DBTestCase(BaseTestCase):
     def waitForNodeRequestLockDeletion(self, request_id):
         while True:
             exists = False
-            for lock_id in self.zk.getNodeRequestLocks():
+            for lock_id in self.zk.getNodeRequestLockIDs():
                 if request_id == lock_id:
                     exists = True
                     break
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 43dfcb7dd..8f5e9d57a 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -589,29 +589,29 @@ class TestZooKeeper(tests.DBTestCase):
         with testtools.ExpectedException(StopIteration):
             next(i)
 
-    def test_getNodeRequestLocks(self):
+    def test_getNodeRequestLockIDs(self):
         req = self._create_node_request()
         self.zk.lockNodeRequest(req, blocking=False)
-        locks = self.zk.getNodeRequestLocks()
-        self.assertEqual(1, len(locks))
-        self.assertEqual(req.id, locks[0])
+        lock_ids = self.zk.getNodeRequestLockIDs()
+        self.assertEqual(1, len(lock_ids))
+        self.assertEqual(req.id, lock_ids[0])
         self.zk.unlockNodeRequest(req)
         self.zk.deleteNodeRequest(req)
 
-    def test_getNodeRequestLock(self):
+    def test_getNodeRequestLockStats(self):
         req = self._create_node_request()
         self.zk.lockNodeRequest(req, blocking=False)
-        lock = self.zk.getNodeRequestLock(req.id)
-        self.assertEqual(lock.id, req.id)
-        self.assertIsNotNone(lock.stat)
+        lock_stats = self.zk.getNodeRequestLockStats(req.id)
+        self.assertEqual(lock_stats.lock_id, req.id)
+        self.assertIsNotNone(lock_stats.stat)
         self.zk.unlockNodeRequest(req)
         self.zk.deleteNodeRequest(req)
 
-    def test_nodeRequestLockIterator(self):
+    def test_nodeRequestLockStatsIterator(self):
         req = self._create_node_request()
         self.zk.lockNodeRequest(req, blocking=False)
-        i = self.zk.nodeRequestLockIterator()
-        self.assertEqual(zk.NodeRequestLock(req.id), next(i))
+        i = self.zk.nodeRequestLockStatsIterator()
+        self.assertEqual(zk.NodeRequestLockStats(req.id), next(i))
         with testtools.ExpectedException(StopIteration):
             next(i)
         self.zk.unlockNodeRequest(req)
@@ -634,11 +634,11 @@ class TestZooKeeper(tests.DBTestCase):
         self.zk.deleteNodeRequest(req)
 
         # We expect the lock to linger even after the request is deleted
-        locks = self.zk.getNodeRequestLocks()
-        self.assertEqual(1, len(locks))
-        self.assertEqual(req.id, locks[0])
-        self.zk.deleteNodeRequestLock(locks[0])
-        self.assertEqual([], self.zk.getNodeRequestLocks())
+        lock_ids = self.zk.getNodeRequestLockIDs()
+        self.assertEqual(1, len(lock_ids))
+        self.assertEqual(req.id, lock_ids[0])
+        self.zk.deleteNodeRequestLock(lock_ids[0])
+        self.assertEqual([], self.zk.getNodeRequestLockIDs())
 
 
 class TestZKModel(tests.BaseTestCase):
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 470be3a0a..ca016e0c2 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -330,25 +330,25 @@ class ImageUpload(BaseModel):
         return o
 
 
-class NodeRequestLock(object):
+class NodeRequestLockStats(object):
     '''
-    Class representing a node request lock.
+    Class holding the stats of a node request lock znode.
 
     This doesn't need to derive from BaseModel since this class exists only
     to associate the znode stats with the lock.
     '''
-    def __init__(self, id=None):
-        self.id = id
+    def __init__(self, lock_id=None):
+        self.lock_id = lock_id
         self.stat = None
 
     def __eq__(self, other):
-        if isinstance(other, NodeRequestLock):
-            return (self.id == other.id)
+        if isinstance(other, NodeRequestLockStats):
+            return (self.lock_id == other.lock_id)
         else:
             return False
 
     def __repr__(self):
-        return '<NodeRequestLock %s>' % self.id
+        return '<NodeRequestLockStats %s>' % self.lock_id
 
 
 class NodeRequest(BaseModel):
@@ -1331,17 +1331,17 @@ class ZooKeeper(object):
 
         return sorted(requests)
 
-    def getNodeRequestLocks(self):
+    def getNodeRequestLockIDs(self):
         '''
-        Get the current list of all node request locks.
+        Get the current list of all node request lock ids.
         '''
         try:
-            locks = self.client.get_children(self.REQUEST_LOCK_ROOT)
+            lock_ids = self.client.get_children(self.REQUEST_LOCK_ROOT)
         except kze.NoNodeError:
             return []
-        return locks
+        return lock_ids
 
-    def getNodeRequestLock(self, lock):
+    def getNodeRequestLockStats(self, lock_id):
         '''
         Get the data for a specific node request lock.
 
@@ -1349,26 +1349,26 @@ class ZooKeeper(object):
         main purpose for this method is to get the ZK stat data for the lock
         so we can inspect it and use it for lock deletion.
 
-        :param str lock: The node request lock ID.
+        :param str lock_id: The node request lock ID.
 
-        :returns: A NodeRequestLock object.
+        :returns: A NodeRequestLockStats object.
         '''
-        path = self._requestLockPath(lock)
+        path = self._requestLockPath(lock_id)
         try:
             data, stat = self.client.get(path)
         except kze.NoNodeError:
             return None
-        d = NodeRequestLock(lock)
+        d = NodeRequestLockStats(lock_id)
         d.stat = stat
         return d
 
-    def deleteNodeRequestLock(self, lock):
+    def deleteNodeRequestLock(self, lock_id):
         '''
-        Delete the znode for a node request lock.
+        Delete the znode for a node request lock id.
 
-        :param str lock: The lock ID.
+        :param str lock_id: The lock ID.
         '''
-        path = self._requestLockPath(lock)
+        path = self._requestLockPath(lock_id)
         try:
             self.client.delete(path, recursive=True)
         except kze.NoNodeError:
@@ -1639,14 +1639,14 @@ class ZooKeeper(object):
             if node:
                 yield node
 
-    def nodeRequestLockIterator(self):
+    def nodeRequestLockStatsIterator(self):
         '''
         Utility generator method for iterating through all nodes request locks.
         '''
-        for lock_id in self.getNodeRequestLocks():
-            lock = self.getNodeRequestLock(lock_id)
-            if lock:
-                yield lock
+        for lock_id in self.getNodeRequestLockIDs():
+            lock_stats = self.getNodeRequestLockStats(lock_id)
+            if lock_stats:
+                yield lock_stats
 
     def nodeRequestIterator(self):
         '''

From 1b465699ed9006fedb3fcd54b80b5b202a3964a1 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Wed, 13 Sep 2017 23:37:51 +0200
Subject: [PATCH 286/309] Add cloud quota handling

This is an approach of calculating the cloud quotas before launching
nodes. To support co-existence with other services the limits of the
cloud are gathered and all unknown resources subtracted from the max
values. Thus the remaining quota for being used by nodepool can be
calculated and checked before launching nodes.

Change-Id: I18594ab76949faddade3164b6027dd3b82771c95
---
 nodepool/driver/fake/provider.py              |  22 ++-
 nodepool/driver/openstack/handler.py          |  80 +++++++--
 nodepool/driver/openstack/provider.py         | 165 ++++++++++++++++++
 nodepool/tests/fixtures/node_quota_cloud.yaml |  39 +++++
 ...ta.yaml => node_quota_pool_instances.yaml} |   0
 nodepool/tests/test_launcher.py               |  41 ++++-
 6 files changed, 328 insertions(+), 19 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_quota_cloud.yaml
 rename nodepool/tests/fixtures/{node_quota.yaml => node_quota_pool_instances.yaml} (100%)

diff --git a/nodepool/driver/fake/provider.py b/nodepool/driver/fake/provider.py
index 5b0053384..82990ceb1 100644
--- a/nodepool/driver/fake/provider.py
+++ b/nodepool/driver/fake/provider.py
@@ -63,6 +63,10 @@ class Dummy(object):
         setattr(self, key, value)
 
 
+def get_fake_quota():
+    return 100, 20, 1000000
+
+
 class FakeOpenStackCloud(object):
     log = logging.getLogger("nodepool.FakeOpenStackCloud")
 
@@ -87,10 +91,13 @@ class FakeOpenStackCloud(object):
                              name='fake-ipv6-network-name')]
         self.networks = networks
         self._flavor_list = [
-            Dummy(Dummy.FLAVOR, id='f1', ram=8192, name='Fake Flavor'),
-            Dummy(Dummy.FLAVOR, id='f2', ram=8192, name='Unreal Flavor'),
+            Dummy(Dummy.FLAVOR, id='f1', ram=8192, name='Fake Flavor',
+                  vcpus=4),
+            Dummy(Dummy.FLAVOR, id='f2', ram=8192, name='Unreal Flavor',
+                  vcpus=4),
         ]
         self._server_list = []
+        self.max_cores, self.max_instances, self.max_ram = get_fake_quota()
 
     def _get(self, name_or_id, instance_list):
         self.log.debug("Get %s in %s" % (name_or_id, repr(instance_list)))
@@ -241,6 +248,17 @@ class FakeOpenStackCloud(object):
     def list_availability_zone_names(self):
         return ['fake-az1', 'fake-az2']
 
+    def get_compute_limits(self):
+        return Dummy(
+            'limits',
+            max_total_cores=self.max_cores,
+            max_total_instances=self.max_instances,
+            max_total_ram_size=self.max_ram,
+            total_cores_used=4 * len(self._server_list),
+            total_instances_used=len(self._server_list),
+            total_ram_used=8192 * len(self._server_list)
+        )
+
 
 class FakeUploadFailCloud(FakeOpenStackCloud):
     log = logging.getLogger("nodepool.FakeUploadFailCloud")
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 3baec6292..424d88fd8 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -15,6 +15,7 @@
 
 import collections
 import logging
+import math
 import pprint
 import random
 import threading
@@ -26,6 +27,7 @@ from nodepool import stats
 from nodepool import zk
 from nodepool.driver import NodeLaunchManager
 from nodepool.driver import NodeRequestHandler
+from nodepool.driver.openstack.provider import QuotaInformation
 
 
 class NodeLauncher(threading.Thread, stats.StatsReporter):
@@ -318,18 +320,64 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                 invalid.append(ntype)
         return invalid
 
-    def _countNodes(self):
-        '''
-        Query ZooKeeper to determine the number of provider nodes launched.
+    def _hasRemainingQuota(self, ntype):
+        """
+        Checks if the predicted quota is enough for an additional node of type
+        ntype.
 
-        :returns: An integer for the number launched for this provider.
-        '''
-        count = 0
-        for node in self.zk.nodeIterator():
-            if (node.provider == self.provider.name and
-                node.pool == self.pool.name):
-                count += 1
-        return count
+        :param ntype: node type for the quota check
+        :return: True if there is enough quota, False otherwise
+        """
+
+        needed_quota = self.manager.quotaNeededByNodeType(ntype, self.pool)
+
+        # Calculate remaining quota which is calculated as:
+        # quota = <total nodepool quota> - <used quota> - <quota for node>
+        cloud_quota = self.manager.estimatedNodepoolQuota()
+        cloud_quota.subtract(self.manager.estimatedNodepoolQuotaUsed(self.zk))
+        cloud_quota.subtract(needed_quota)
+        self.log.debug("Predicted remaining tenant quota: %s", cloud_quota)
+
+        if not cloud_quota.non_negative():
+            return False
+
+        # Now calculate pool specific quota. Values indicating no quota default
+        # to math.inf representing infinity that can be calculated with.
+        pool_quota = QuotaInformation(instances=self.pool.max_servers,
+                                      default=math.inf)
+        pool_quota.subtract(
+            self.manager.estimatedNodepoolQuotaUsed(self.zk, self.pool))
+        pool_quota.subtract(needed_quota)
+        self.log.debug("Predicted remaining pool quota: %s", pool_quota)
+
+        return pool_quota.non_negative()
+
+    def _hasProviderQuota(self, node_types):
+        """
+        Checks if a provider has enough quota to handle a list of nodes.
+        This does not take our currently existing nodes into account.
+
+        :param node_types: list of node types to check
+        :return: True if the node list fits into the provider, False otherwise
+        """
+        needed_quota = QuotaInformation()
+
+        for ntype in node_types:
+            needed_quota.add(
+                self.manager.quotaNeededByNodeType(ntype, self.pool))
+
+        cloud_quota = self.manager.estimatedNodepoolQuota()
+        cloud_quota.subtract(needed_quota)
+
+        if not cloud_quota.non_negative():
+            return False
+
+        # Now calculate pool specific quota. Values indicating no quota default
+        # to math.inf representing infinity that can be calculated with.
+        pool_quota = QuotaInformation(instances=self.pool.max_servers,
+                                      default=math.inf)
+        pool_quota.subtract(needed_quota)
+        return pool_quota.non_negative()
 
     def _waitForNodeSet(self):
         '''
@@ -420,7 +468,7 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
 
                 # If we calculate that we're at capacity, pause until nodes
                 # are released by Zuul and removed by the DeletedNodeWorker.
-                if self._countNodes() >= self.pool.max_servers:
+                if not self._hasRemainingQuota(ntype):
                     if not self.paused:
                         self.log.debug(
                             "Pausing request handling to satisfy request %s",
@@ -451,7 +499,7 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                 self.log.debug("Locked building node %s for request %s",
                                node.id, self.request.id)
 
-                # Set state AFTER lock so sthat it isn't accidentally cleaned
+                # Set state AFTER lock so that it isn't accidentally cleaned
                 # up (unlocked BUILDING nodes will be deleted).
                 node.state = zk.BUILDING
                 self.zk.storeNode(node)
@@ -477,8 +525,12 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                                     ','.join(invalid_types))
         elif not self._imagesAvailable():
             declined_reasons.append('images are not available')
-        if len(self.request.node_types) > self.pool.max_servers:
+        elif not self._hasProviderQuota(self.request.node_types):
             declined_reasons.append('it would exceed quota')
+        # TODO(tobiash): Maybe also calculate the quota prediction here and
+        # backoff for some seconds if the used quota would be exceeded?
+        # This way we could give another (free) provider the chance to take
+        # this request earlier.
 
         # For min-ready requests, which do not re-use READY nodes, let's
         # decline if this provider is already at capacity. Otherwise, we
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index 6f8399518..c13d9cfe8 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -14,9 +14,11 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import copy
 import logging
 from contextlib import contextmanager
 import operator
+import time
 
 import shade
 
@@ -28,6 +30,7 @@ from nodepool.task_manager import TaskManager
 
 
 IPS_LIST_AGE = 5      # How long to keep a cached copy of the ip list
+MAX_QUOTA_AGE = 5 * 60  # How long to keep the quota information cached
 
 
 @contextmanager
@@ -39,6 +42,68 @@ def shade_inner_exceptions():
         raise
 
 
+class QuotaInformation:
+
+    def __init__(self, cores=None, instances=None, ram=None, default=0):
+        '''
+        Initializes the quota information with some values. None values will
+        be initialized with default which will be typically 0 or math.inf
+        indicating an infinite limit.
+
+        :param cores:
+        :param instances:
+        :param ram:
+        :param default:
+        '''
+        self.quota = {
+            'compute': {
+                'cores': self._get_default(cores, default),
+                'instances': self._get_default(instances, default),
+                'ram': self._get_default(ram, default),
+            }
+        }
+
+    @staticmethod
+    def construct_from_flavor(flavor):
+        return QuotaInformation(instances=1,
+                                cores=flavor.vcpus,
+                                ram=flavor.ram)
+
+    @staticmethod
+    def construct_from_limits(limits):
+        return QuotaInformation(instances=limits.max_total_instances,
+                                cores=limits.max_total_cores,
+                                ram=limits.max_total_ram_size)
+
+    def _get_default(self, value, default):
+        return value if value is not None else default
+
+    def _add_subtract(self, other, add=True):
+        for category in self.quota.keys():
+            for resource in self.quota[category].keys():
+                second_value = other.quota.get(category, {}).get(resource, 0)
+                if add:
+                    self.quota[category][resource] += second_value
+                else:
+                    self.quota[category][resource] -= second_value
+
+    def subtract(self, other):
+        self._add_subtract(other, add=False)
+
+    def add(self, other):
+        self._add_subtract(other, True)
+
+    def non_negative(self):
+        for key_i, category in self.quota.items():
+            for resource, value in category.items():
+                if value < 0:
+                    return False
+        return True
+
+    def __str__(self):
+        return str(self.quota)
+
+
 class OpenStackProvider(Provider):
     log = logging.getLogger("nodepool.driver.openstack.OpenStackProvider")
 
@@ -50,6 +115,7 @@ class OpenStackProvider(Provider):
         self.__azs = None
         self._use_taskmanager = use_taskmanager
         self._taskmanager = None
+        self._current_nodepool_quota = None
 
     def start(self):
         if self._use_taskmanager:
@@ -82,6 +148,98 @@ class OpenStackProvider(Provider):
             manager=manager,
             **self.provider.cloud_config.config)
 
+    def quotaNeededByNodeType(self, ntype, pool):
+        provider_label = pool.labels[ntype]
+
+        flavor = self.findFlavor(provider_label.flavor_name,
+                                 provider_label.min_ram)
+
+        return QuotaInformation.construct_from_flavor(flavor)
+
+    def estimatedNodepoolQuota(self):
+        '''
+        Determine how much quota is available for nodepool managed resources.
+        This needs to take into account the quota of the tenant, resources
+        used outside of nodepool and the currently used resources by nodepool,
+        max settings in nodepool config. This is cached for MAX_QUOTA_AGE
+        seconds.
+
+        :return: Total amount of resources available which is currently
+                 available to nodepool including currently existing nodes.
+        '''
+
+        if self._current_nodepool_quota:
+            now = time.monotonic()
+            if now < self._current_nodepool_quota['timestamp'] + MAX_QUOTA_AGE:
+                return copy.deepcopy(self._current_nodepool_quota['quota'])
+
+        self.log.debug("Updating quota information")
+
+        with shade_inner_exceptions():
+            limits = self._client.get_compute_limits()
+
+        # This is initialized with the full tenant quota and later becomes
+        # the quota available for nodepool.
+        nodepool_quota = QuotaInformation.construct_from_limits(limits)
+
+        # Subtract the unmanaged quota usage from nodepool_max
+        # to get the quota available for us.
+        nodepool_quota.subtract(self.unmanagedQuotaUsed())
+
+        self._current_nodepool_quota = {
+            'quota': nodepool_quota,
+            'timestamp': time.monotonic()
+        }
+
+        quota = self._current_nodepool_quota['quota']
+        self.log.debug("Available nodepool quota: %s", quota)
+
+        return copy.deepcopy(self._current_nodepool_quota['quota'])
+
+    def estimatedNodepoolQuotaUsed(self, zk, pool=None):
+        '''
+        Sums up the quota used (or planned) currently by nodepool. If pool is
+        given it is filtered by the pool.
+
+        :param zk: the object to access zookeeper
+        :param pool: If given, filtered by the pool.
+        :return: Calculated quota in use by nodepool
+        '''
+        used_quota = QuotaInformation()
+
+        for node in zk.nodeIterator():
+            if node.provider == self.provider.name:
+                if pool and not node.pool == pool.name:
+                    continue
+                node_resources = self.quotaNeededByNodeType(
+                    node.type, self.provider.pools.get(node.pool))
+                used_quota.add(node_resources)
+        return used_quota
+
+    def unmanagedQuotaUsed(self):
+        '''
+        Sums up the quota used by servers unmanaged by nodepool.
+
+        :return: Calculated quota in use by unmanaged servers
+        '''
+        flavors = self.listFlavorsById()
+        used_quota = QuotaInformation()
+
+        for server in self.listNodes():
+            meta = server.get('metadata', {})
+
+            nodepool_provider_name = meta.get('nodepool_provider_name')
+            if nodepool_provider_name and \
+                    nodepool_provider_name == self.provider.name:
+                # This provider (regardless of the launcher) owns this server
+                # so it must not be accounted for unmanaged quota.
+                continue
+
+            flavor = flavors.get(server.flavor.id)
+            used_quota.add(QuotaInformation.construct_from_flavor(flavor))
+
+        return used_quota
+
     def resetClient(self):
         self._client = self._getClient()
         if self._use_taskmanager:
@@ -323,6 +481,13 @@ class OpenStackProvider(Provider):
         with shade_inner_exceptions():
             return self._client.list_flavors(get_extra=False)
 
+    def listFlavorsById(self):
+        with shade_inner_exceptions():
+            flavors = {}
+            for flavor in self._client.list_flavors(get_extra=False):
+                flavors[flavor.id] = flavor
+        return flavors
+
     def listNodes(self):
         # shade list_servers carries the nodepool server list caching logic
         with shade_inner_exceptions():
diff --git a/nodepool/tests/fixtures/node_quota_cloud.yaml b/nodepool/tests/fixtures/node_quota_cloud.yaml
new file mode 100644
index 000000000..f7684ae9c
--- /dev/null
+++ b/nodepool/tests/fixtures/node_quota_cloud.yaml
@@ -0,0 +1,39 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 20
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/fixtures/node_quota.yaml b/nodepool/tests/fixtures/node_quota_pool_instances.yaml
similarity index 100%
rename from nodepool/tests/fixtures/node_quota.yaml
rename to nodepool/tests/fixtures/node_quota_pool_instances.yaml
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 12a01e46b..c98d33355 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -14,8 +14,10 @@
 # limitations under the License.
 
 import logging
+import math
 import time
 import fixtures
+import unittest.mock as mock
 
 from nodepool import tests
 from nodepool import zk
@@ -108,12 +110,22 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(nodes[2].type, 'fake-label4')
         self.assertEqual(nodes[3].type, 'fake-label2')
 
-    def test_node_assignment_at_quota(self):
+    @mock.patch('nodepool.driver.fake.provider.get_fake_quota')
+    def _test_node_assignment_at_quota(self, mock_quota,
+                                       config='node_quota.yaml',
+                                       max_cores=100,
+                                       max_instances=20,
+                                       max_ram=1000000):
         '''
         Successful node launch should have unlocked nodes in READY state
-        and assigned to the request.
+        and assigned to the request. This should be run with a quota that
+        fits for two nodes.
         '''
-        configfile = self.setup_config('node_quota.yaml')
+
+        # patch the cloud with requested quota
+        mock_quota.return_value = (max_cores, max_instances, max_ram)
+
+        configfile = self.setup_config(config)
         self._useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
@@ -213,6 +225,29 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(req2.state, zk.FULFILLED)
         self.assertEqual(len(req2.nodes), 2)
 
+    def test_node_assignment_at_pool_quota_instances(self):
+        self._test_node_assignment_at_quota(
+            config='node_quota_pool_instances.yaml')
+
+
+    def test_node_assignment_at_cloud_cores_quota(self):
+        self._test_node_assignment_at_quota(config='node_quota_cloud.yaml',
+                                            max_cores=8,
+                                            max_instances=math.inf,
+                                            max_ram=math.inf)
+
+    def test_node_assignment_at_cloud_instances_quota(self):
+        self._test_node_assignment_at_quota(config='node_quota_cloud.yaml',
+                                            max_cores=math.inf,
+                                            max_instances=2,
+                                            max_ram=math.inf)
+
+    def test_node_assignment_at_cloud_ram_quota(self):
+        self._test_node_assignment_at_quota(config='node_quota_cloud.yaml',
+                                            max_cores=math.inf,
+                                            max_instances=math.inf,
+                                            max_ram=2*8192)
+
     def test_fail_request_on_launch_failure(self):
         '''
         Test that provider launch error fails the request.

From ae65d94e34c35df43e59e109d7a7658de3bc8f0d Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Tue, 12 Sep 2017 15:07:49 +0200
Subject: [PATCH 287/309] Don't fail on quota exceeded

When the quota available to nodepool is reduced it can happen that
some launch attempts fail due to exceeded quota. This needs to be
handled gracefully and the quota cache should be invalidated such that
the reduced available quota is encountered directly for the following
node requests.

Change-Id: I2fb2ea3e0d68cfa52b2b663b9c6d1654e2f45e97
---
 nodepool/driver/openstack/handler.py  | 15 +++++++++++++--
 nodepool/driver/openstack/provider.py |  3 +++
 2 files changed, 16 insertions(+), 2 deletions(-)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 424d88fd8..251408deb 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -212,7 +212,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             try:
                 self._launchNode()
                 break
-            except Exception:
+            except Exception as e:
                 if attempts <= self._retries:
                     self.log.exception(
                         "Launch attempt %d/%d failed for node %s:",
@@ -228,7 +228,18 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
                     self._zk.storeNode(self._node)
                 if attempts == self._retries:
                     raise
-                attempts += 1
+                # Don't count launch attempts caused by quota exceeded. These
+                # are transient and should occur only if the quota available
+                # to nodepool gets reduced. In this case directly invalidate
+                # the quota cache such that the available quota is recalculated
+                # for the next node request. Also sleep for a while before
+                # retrying to relaunch this node.
+                if 'quota exceeded' in str(e).lower():
+                    self.log.info("Quota exceeded, invalidating quota cache")
+                    self._provider.invalidateQuotaCache()
+                    time.sleep(5)
+                else:
+                    attempts += 1
 
         self._node.state = zk.READY
         self._zk.storeNode(self._node)
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index c13d9cfe8..670d236a0 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -196,6 +196,9 @@ class OpenStackProvider(Provider):
 
         return copy.deepcopy(self._current_nodepool_quota['quota'])
 
+    def invalidateQuotaCache(self):
+        self._current_nodepool_quota['timestamp'] = 0
+
     def estimatedNodepoolQuotaUsed(self, zk, pool=None):
         '''
         Sums up the quota used (or planned) currently by nodepool. If pool is

From 9a4570844a8a4209863eebc98ed1613d9caab1d1 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Fri, 15 Sep 2017 01:00:45 +0200
Subject: [PATCH 288/309] Make max-servers optional

Nodepool now respects the quotas of the tenant it is safe to make
max-servers optional for the pool.

Change-Id: I17731036ad0d8e33f35edb395a0caa2632026c24
---
 doc/source/configuration.rst        | 7 +++++--
 nodepool/driver/openstack/config.py | 2 +-
 nodepool/stats.py                   | 3 ++-
 3 files changed, 8 insertions(+), 4 deletions(-)

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index c8dc0e0d7..038cc47b4 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -419,11 +419,14 @@ Example::
 
   ``name``
 
-  ``max-servers``
-    Maximum number of servers spawnable from this pool.
 
 **optional**
 
+  ``max-servers``
+    Maximum number of servers spawnable from this pool. This can be used to
+    limit the number of servers. If not defined nodepool can create as many
+    servers the tenant allows.
+
   ``availability-zones`` (list)
     A list of availability zones to use.
 
diff --git a/nodepool/driver/openstack/config.py b/nodepool/driver/openstack/config.py
index 2c9dcb9ef..71ddc12ea 100644
--- a/nodepool/driver/openstack/config.py
+++ b/nodepool/driver/openstack/config.py
@@ -156,7 +156,7 @@ class OpenStackProviderConfig(ProviderConfig):
             pp.name = pool['name']
             pp.provider = self
             self.pools[pp.name] = pp
-            pp.max_servers = pool['max-servers']
+            pp.max_servers = pool.get('max-servers', None)
             pp.azs = pool.get('availability-zones')
             pp.networks = pool.get('networks', [])
             pp.auto_floating_ip = bool(pool.get('auto-floating-ip', True))
diff --git a/nodepool/stats.py b/nodepool/stats.py
index 675d7d21d..e46e83a57 100755
--- a/nodepool/stats.py
+++ b/nodepool/stats.py
@@ -133,5 +133,6 @@ class StatsReporter(object):
 
         #nodepool.provider.PROVIDER.max_servers
         key = 'nodepool.provider.%s.max_servers' % provider.name
-        max_servers = sum([p.max_servers for p in provider.pools.values()])
+        max_servers = sum([p.max_servers for p in provider.pools.values()
+                           if p.max_servers])
         self._statsd.gauge(key, max_servers)

From 4b51ac6f3e4821c2b3f722a7dc1197ef483938a2 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Fri, 15 Sep 2017 01:03:00 +0200
Subject: [PATCH 289/309] Support cores limit per pool

Nodepool supports pretty generic limits on tenant and pool side. Make
the cores limit configurable.

Change-Id: Ia0e577a710de5dc319e8c51f3353882e3ca186cc
---
 doc/source/configuration.rst                  |  5 +++
 nodepool/driver/openstack/config.py           |  3 ++
 nodepool/driver/openstack/handler.py          |  6 ++-
 .../tests/fixtures/node_quota_pool_cores.yaml | 39 +++++++++++++++++++
 nodepool/tests/test_launcher.py               |  4 ++
 5 files changed, 55 insertions(+), 2 deletions(-)
 create mode 100644 nodepool/tests/fixtures/node_quota_pool_cores.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index 038cc47b4..c74666528 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -422,6 +422,11 @@ Example::
 
 **optional**
 
+  ``max-cores``
+    Maximum number of cores usable from this pool. This can be used to limit
+    usage of the tenant. If not defined nodepool can use all cores up to the
+    quota of the tenant.
+
   ``max-servers``
     Maximum number of servers spawnable from this pool. This can be used to
     limit the number of servers. If not defined nodepool can create as many
diff --git a/nodepool/driver/openstack/config.py b/nodepool/driver/openstack/config.py
index 71ddc12ea..c8e51c9d2 100644
--- a/nodepool/driver/openstack/config.py
+++ b/nodepool/driver/openstack/config.py
@@ -61,6 +61,7 @@ class ProviderLabel(ConfigValue):
 class ProviderPool(ConfigValue):
     def __eq__(self, other):
         if (other.labels != self.labels or
+            other.max_cores != self.max_cores or
             other.max_servers != self.max_servers or
             other.azs != self.azs or
             other.networks != self.networks):
@@ -156,6 +157,7 @@ class OpenStackProviderConfig(ProviderConfig):
             pp.name = pool['name']
             pp.provider = self
             self.pools[pp.name] = pp
+            pp.max_cores = pool.get('max-cores', None)
             pp.max_servers = pool.get('max-servers', None)
             pp.azs = pool.get('availability-zones')
             pp.networks = pool.get('networks', [])
@@ -238,6 +240,7 @@ class OpenStackProviderConfig(ProviderConfig):
             'name': str,
             'networks': [str],
             'auto-floating-ip': bool,
+            'max-cores': int,
             'max-servers': int,
             'labels': [pool_label],
             'availability-zones': [str],
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 251408deb..39b3f4f1c 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -354,7 +354,8 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
 
         # Now calculate pool specific quota. Values indicating no quota default
         # to math.inf representing infinity that can be calculated with.
-        pool_quota = QuotaInformation(instances=self.pool.max_servers,
+        pool_quota = QuotaInformation(cores=self.pool.max_cores,
+                                      instances=self.pool.max_servers,
                                       default=math.inf)
         pool_quota.subtract(
             self.manager.estimatedNodepoolQuotaUsed(self.zk, self.pool))
@@ -385,7 +386,8 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
 
         # Now calculate pool specific quota. Values indicating no quota default
         # to math.inf representing infinity that can be calculated with.
-        pool_quota = QuotaInformation(instances=self.pool.max_servers,
+        pool_quota = QuotaInformation(cores=self.pool.max_cores,
+                                      instances=self.pool.max_servers,
                                       default=math.inf)
         pool_quota.subtract(needed_quota)
         return pool_quota.non_negative()
diff --git a/nodepool/tests/fixtures/node_quota_pool_cores.yaml b/nodepool/tests/fixtures/node_quota_pool_cores.yaml
new file mode 100644
index 000000000..a43144348
--- /dev/null
+++ b/nodepool/tests/fixtures/node_quota_pool_cores.yaml
@@ -0,0 +1,39 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-cores: 8
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index c98d33355..afefd4d9a 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -225,6 +225,10 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(req2.state, zk.FULFILLED)
         self.assertEqual(len(req2.nodes), 2)
 
+    def test_node_assignment_at_pool_quota_cores(self):
+        self._test_node_assignment_at_quota(
+            config='node_quota_pool_cores.yaml')
+
     def test_node_assignment_at_pool_quota_instances(self):
         self._test_node_assignment_at_quota(
             config='node_quota_pool_instances.yaml')

From 2f183926ca46393d2ae6067deb6d1d13f14e41d0 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Fri, 15 Sep 2017 01:04:36 +0200
Subject: [PATCH 290/309] Support ram limit per pool

Nodepool supports pretty generic limits on tenant and pool side. Make
the ram limit configurable.

Change-Id: Ie9f1ece75106fa936a737ed2b289188d9a594fb0
---
 doc/source/configuration.rst                  |  5 +++
 nodepool/driver/openstack/config.py           |  3 ++
 nodepool/driver/openstack/handler.py          |  2 +
 .../tests/fixtures/node_quota_pool_ram.yaml   | 39 +++++++++++++++++++
 nodepool/tests/test_launcher.py               |  3 ++
 5 files changed, 52 insertions(+)
 create mode 100644 nodepool/tests/fixtures/node_quota_pool_ram.yaml

diff --git a/doc/source/configuration.rst b/doc/source/configuration.rst
index c74666528..a6b5b3477 100644
--- a/doc/source/configuration.rst
+++ b/doc/source/configuration.rst
@@ -432,6 +432,11 @@ Example::
     limit the number of servers. If not defined nodepool can create as many
     servers the tenant allows.
 
+  ``max-ram``
+    Maximum ram usable from this pool. This can be used to limit the amount of
+    ram allocated by nodepool. If not defined nodepool can use as much ram as
+    the tenant allows.
+
   ``availability-zones`` (list)
     A list of availability zones to use.
 
diff --git a/nodepool/driver/openstack/config.py b/nodepool/driver/openstack/config.py
index c8e51c9d2..a7aa40f44 100644
--- a/nodepool/driver/openstack/config.py
+++ b/nodepool/driver/openstack/config.py
@@ -63,6 +63,7 @@ class ProviderPool(ConfigValue):
         if (other.labels != self.labels or
             other.max_cores != self.max_cores or
             other.max_servers != self.max_servers or
+            other.max_ram != self.max_ram or
             other.azs != self.azs or
             other.networks != self.networks):
             return False
@@ -159,6 +160,7 @@ class OpenStackProviderConfig(ProviderConfig):
             self.pools[pp.name] = pp
             pp.max_cores = pool.get('max-cores', None)
             pp.max_servers = pool.get('max-servers', None)
+            pp.max_ram = pool.get('max-ram', None)
             pp.azs = pool.get('availability-zones')
             pp.networks = pool.get('networks', [])
             pp.auto_floating_ip = bool(pool.get('auto-floating-ip', True))
@@ -242,6 +244,7 @@ class OpenStackProviderConfig(ProviderConfig):
             'auto-floating-ip': bool,
             'max-cores': int,
             'max-servers': int,
+            'max-ram': int,
             'labels': [pool_label],
             'availability-zones': [str],
         }
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 39b3f4f1c..05fcd78fd 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -356,6 +356,7 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         # to math.inf representing infinity that can be calculated with.
         pool_quota = QuotaInformation(cores=self.pool.max_cores,
                                       instances=self.pool.max_servers,
+                                      ram=self.pool.max_ram,
                                       default=math.inf)
         pool_quota.subtract(
             self.manager.estimatedNodepoolQuotaUsed(self.zk, self.pool))
@@ -388,6 +389,7 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         # to math.inf representing infinity that can be calculated with.
         pool_quota = QuotaInformation(cores=self.pool.max_cores,
                                       instances=self.pool.max_servers,
+                                      ram=self.pool.max_ram,
                                       default=math.inf)
         pool_quota.subtract(needed_quota)
         return pool_quota.non_negative()
diff --git a/nodepool/tests/fixtures/node_quota_pool_ram.yaml b/nodepool/tests/fixtures/node_quota_pool_ram.yaml
new file mode 100644
index 000000000..608ff8d32
--- /dev/null
+++ b/nodepool/tests/fixtures/node_quota_pool_ram.yaml
@@ -0,0 +1,39 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-ram: 16384
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index afefd4d9a..1ee2b1fb2 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -233,6 +233,9 @@ class TestLauncher(tests.DBTestCase):
         self._test_node_assignment_at_quota(
             config='node_quota_pool_instances.yaml')
 
+    def test_node_assignment_at_pool_quota_ram(self):
+        self._test_node_assignment_at_quota(
+            config='node_quota_pool_ram.yaml')
 
     def test_node_assignment_at_cloud_cores_quota(self):
         self._test_node_assignment_at_quota(config='node_quota_cloud.yaml',

From f36fc13222037b3237b5ebf2bde09defc26ddf49 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Wed, 6 Dec 2017 16:57:07 -0800
Subject: [PATCH 291/309] Handle invalid request lock in request cleanup

We have seen in production the case where node request handler cleanup
fails due to being unable to cleanup a node request lock. This appears
to happen because the node request lock has been invalidated somehow.
The lock may or may not be valid in zookeeper, but the python object has
been updated to None.

This is a defenseive change to handle when that node request lock is
None. This occurs when the node request has already been removed from
zookeeper so it is safe to ignore this node request lock and move on
with processing other requests in the handler. The node request lock
clenaup step should clean out any leaks on the zookeeper side of things.

Change-Id: I30e78bc67906d9ad97bf9ca964ea145c67526a8b
---
 nodepool/driver/__init__.py | 11 ++++++++++-
 nodepool/launcher.py        | 19 ++++++++++++++-----
 2 files changed, 24 insertions(+), 6 deletions(-)

diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 93b994afa..694267328 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -20,6 +20,7 @@ import abc
 import six
 
 from nodepool import zk
+from nodepool import exceptions
 
 
 @six.add_metaclass(abc.ABCMeta)
@@ -179,7 +180,15 @@ class NodeRequestHandler(object):
                 node.allocated_to = None
                 self.zk.storeNode(node)
             self.unlockNodeSet()
-            self.zk.unlockNodeRequest(self.request)
+            try:
+                self.zk.unlockNodeRequest(self.request)
+            except exceptions.ZKLockException:
+                # If the lock object is invalid that is "ok" since we no
+                # longer have a request either. Just do our best, log and
+                # move on.
+                self.log.debug("Request lock invalid for node request %s "
+                               "when attempting to clean up the lock",
+                               self.request.id)
             return True
 
         if self.launch_manager.failed_nodes:
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index ba392dca5..bfdb799fa 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -217,10 +217,19 @@ class PoolWorker(threading.Thread):
         '''
         active_handlers = []
         for r in self.request_handlers:
-            if not r.poll():
+            try:
+                if not r.poll():
+                    active_handlers.append(r)
+                else:
+                    self.log.debug("Removing handler for request %s",
+                                   r.request.id)
+            except Exception:
+                # If we fail to poll a request handler log it but move on
+                # and process the other handlers. We keep this handler around
+                # and will try again later.
+                self.log.exception("Error polling request handler for "
+                                   "request %s", r.request.id)
                 active_handlers.append(r)
-            else:
-                self.log.debug("Removing handler for request %s", r.request.id)
         self.request_handlers = active_handlers
         active_reqs = [r.request.id for r in self.request_handlers]
         self.log.debug("Active requests: %s", active_reqs)
@@ -424,8 +433,8 @@ class CleanupWorker(BaseCleanupWorker):
         Because the node request locks are not direct children of the request
         znode, we need to remove the locks separately after the request has
         been processed. Only remove them after LOCK_CLEANUP seconds have
-        passed. This helps prevent the scenario where a request could go
-        away _while_ a lock is currently held for processing and the cleanup
+        passed. This helps reduce chances of the scenario where a request could
+        go away _while_ a lock is currently held for processing and the cleanup
         thread attempts to delete it. The delay should reduce the chance that
         we delete a currently held lock.
         '''

From a345b929541fd6855c8116d2e59b38314f667b68 Mon Sep 17 00:00:00 2001
From: Tristan Cacqueray <tdecacqu@redhat.com>
Date: Mon, 18 Dec 2017 13:32:20 +0000
Subject: [PATCH 292/309] requirements: remove paramiko <2.0 cap

It seems like recent version fixes deadlock issue and there is security
concerns regarding PyCrypto: http://www.paramiko.org/installing-1.x.html

Change-Id: Ia464931228ebdec15354cfd1176c48f6ee48eb0e
Signed-off-by: Paul Belanger <pabelanger@redhat.com>
---
 requirements.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements.txt b/requirements.txt
index a115ebdcc..74799ccfc 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,7 +1,7 @@
 pbr>=1.3
 
 PyYAML
-paramiko>1.11.6,<2.0.0
+paramiko>=2.0.1
 python-daemon>=2.0.4,<2.1.0
 extras
 statsd>=3.0

From 9528c3b5b17492f3e184b9486ffa6acd36c9ed4e Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Tue, 19 Dec 2017 15:20:54 -0800
Subject: [PATCH 293/309] Log provider names with quota

When updating quota information, log the provider name along with
the quota both before and after subtracting the unmanaged resources.

Change-Id: Icf3cfb466dc3373079f7698d2a45033d09009fbc
---
 nodepool/driver/openstack/provider.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index 670d236a0..4537766b8 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -173,14 +173,14 @@ class OpenStackProvider(Provider):
             if now < self._current_nodepool_quota['timestamp'] + MAX_QUOTA_AGE:
                 return copy.deepcopy(self._current_nodepool_quota['quota'])
 
-        self.log.debug("Updating quota information")
-
         with shade_inner_exceptions():
             limits = self._client.get_compute_limits()
 
         # This is initialized with the full tenant quota and later becomes
         # the quota available for nodepool.
         nodepool_quota = QuotaInformation.construct_from_limits(limits)
+        self.log.debug("Provider quota for %s: %s",
+                       self.provider.name, nodepool_quota)
 
         # Subtract the unmanaged quota usage from nodepool_max
         # to get the quota available for us.
@@ -191,10 +191,10 @@ class OpenStackProvider(Provider):
             'timestamp': time.monotonic()
         }
 
-        quota = self._current_nodepool_quota['quota']
-        self.log.debug("Available nodepool quota: %s", quota)
+        self.log.debug("Available quota for %s: %s",
+                       self.provider.name, nodepool_quota)
 
-        return copy.deepcopy(self._current_nodepool_quota['quota'])
+        return copy.deepcopy(nodepool_quota)
 
     def invalidateQuotaCache(self):
         self._current_nodepool_quota['timestamp'] = 0

From 5aac0a361ecab7f9210c228c19352d4d90176a21 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Tue, 19 Dec 2017 14:49:52 -0800
Subject: [PATCH 294/309] Fail on quota-exceeded (partial revert)

This is a partial revert of ae65d94e34c35df43e59e109d7a7658de3bc8f0d
which did two things: made over-quota errors not fatal, and invalidated
the quota cache.

The quota cache invalidation had a typo which caused it to fail.  This
error actually meant that we retained the old behavior of marking
a launch attempt as failed if we encountered an over-quota error.
This change adds a test to exercise this and fixes the typo.

In writing the test, it was observed that a launch which encounteres
an over-quota situation will continue to retry indefinitely, every
5 seconds, and will emit an exception into the log each time.  This is
probably not the best experience for an operator.  Further, because
there is no discernable state change within nodepool, it is very
difficult to test this situation.

Due to these issues, we should discuss a more robust way to handle
unexpected over-quota errors.  In the mean time, reverting to the old
(and indeed, still current due to the typo) behavior of failing on
over-quota error, seems the safest way to proceed.

Also, change time.monotonic to time.time.  The reference point for
monotonic is undefined, and can be 0, or other values less than 300,
which causes the cache timeout check to fail.

Change-Id: Id488c070df991a554570c5717dc85aec351fed45
---
 nodepool/driver/fake/provider.py      | 14 ++++--
 nodepool/driver/openstack/handler.py  | 13 ++---
 nodepool/driver/openstack/provider.py |  4 +-
 nodepool/tests/test_launcher.py       | 69 +++++++++++++++++++++++++++
 4 files changed, 85 insertions(+), 15 deletions(-)

diff --git a/nodepool/driver/fake/provider.py b/nodepool/driver/fake/provider.py
index 82990ceb1..c170de6f0 100644
--- a/nodepool/driver/fake/provider.py
+++ b/nodepool/driver/fake/provider.py
@@ -40,6 +40,9 @@ class Dummy(object):
             if self.should_fail:
                 raise shade.OpenStackCloudException('This image has '
                                                     'SHOULD_FAIL set to True.')
+            if self.over_quota:
+                raise shade.exc.OpenStackCloudHTTPError(
+                    'Quota exceeded for something', 403)
         except AttributeError:
             pass
 
@@ -112,9 +115,8 @@ class FakeOpenStackCloud(object):
                 return net
         return self.networks[0]
 
-    def _create(
-            self, instance_list, instance_type=Dummy.INSTANCE,
-            done_status='ACTIVE', **kw):
+    def _create(self, instance_list, instance_type=Dummy.INSTANCE,
+                done_status='ACTIVE', max_quota=-1, **kw):
         should_fail = kw.get('SHOULD_FAIL', '').lower() == 'true'
         nics = kw.get('nics', [])
         addresses = None
@@ -142,6 +144,11 @@ class FakeOpenStackCloud(object):
             public_v4 = 'fake'
             private_v4 = 'fake'
             interface_ip = 'fake'
+        over_quota = False
+        if (instance_type == Dummy.INSTANCE and
+            self.max_instances > -1 and
+            len(instance_list) >= self.max_instances):
+            over_quota = True
 
         s = Dummy(instance_type,
                   id=uuid.uuid4().hex,
@@ -158,6 +165,7 @@ class FakeOpenStackCloud(object):
                   manager=self,
                   key_name=kw.get('key_name', None),
                   should_fail=should_fail,
+                  over_quota=over_quota,
                   event=threading.Event())
         instance_list.append(s)
         t = threading.Thread(target=self._finish,
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 27a21712a..28a40fdc4 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -229,18 +229,11 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
                     self._zk.storeNode(self._node)
                 if attempts == self._retries:
                     raise
-                # Don't count launch attempts caused by quota exceeded. These
-                # are transient and should occur only if the quota available
-                # to nodepool gets reduced. In this case directly invalidate
-                # the quota cache such that the available quota is recalculated
-                # for the next node request. Also sleep for a while before
-                # retrying to relaunch this node.
+                # Invalidate the quota cache if we encountered a quota error.
                 if 'quota exceeded' in str(e).lower():
                     self.log.info("Quota exceeded, invalidating quota cache")
-                    self._provider.invalidateQuotaCache()
-                    time.sleep(5)
-                else:
-                    attempts += 1
+                    self._manager.invalidateQuotaCache()
+                attempts += 1
 
         self._node.state = zk.READY
         self._zk.storeNode(self._node)
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index 4537766b8..93a621b98 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -169,7 +169,7 @@ class OpenStackProvider(Provider):
         '''
 
         if self._current_nodepool_quota:
-            now = time.monotonic()
+            now = time.time()
             if now < self._current_nodepool_quota['timestamp'] + MAX_QUOTA_AGE:
                 return copy.deepcopy(self._current_nodepool_quota['quota'])
 
@@ -188,7 +188,7 @@ class OpenStackProvider(Provider):
 
         self._current_nodepool_quota = {
             'quota': nodepool_quota,
-            'timestamp': time.monotonic()
+            'timestamp': time.time()
         }
 
         self.log.debug("Available quota for %s: %s",
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index ef8784a24..e25cedc32 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -256,6 +256,75 @@ class TestLauncher(tests.DBTestCase):
                                             max_instances=math.inf,
                                             max_ram=2*8192)
 
+
+    @mock.patch('nodepool.driver.fake.provider.get_fake_quota')
+    def test_over_quota(self, mock_quota,
+                        config='node_quota_cloud.yaml'):
+        '''
+        This tests what happens when a cloud unexpectedly returns an
+        over-quota error.
+
+        '''
+        # Start with an instance quota of 2
+        max_cores=math.inf
+        max_instances=2
+        max_ram=math.inf
+
+        # patch the cloud with requested quota
+        mock_quota.return_value = (max_cores, max_instances, max_ram)
+
+        configfile = self.setup_config(config)
+        self._useBuilder(configfile)
+        self.waitForImage('fake-provider', 'fake-image')
+
+        nodepool.launcher.LOCK_CLEANUP = 1
+        pool = self.useNodepool(configfile, watermark_sleep=1)
+        pool.start()
+        self.wait_for_config(pool)
+
+        client = pool.getProviderManager('fake-provider')._getClient()
+
+        # Wait for a single node to be created
+        req1 = zk.NodeRequest()
+        req1.state = zk.REQUESTED
+        req1.node_types.append('fake-label')
+        self.log.debug("Adding first request")
+        self.zk.storeNodeRequest(req1)
+        req1 = self.waitForNodeRequest(req1)
+        self.assertEqual(req1.state, zk.FULFILLED)
+
+        # Now, reduce the quota so the next node unexpectedly
+        # (according to nodepool's quota estimate) fails.
+        client.max_instances = 1
+
+        # Request a second node; this request should fail.
+        req2 = zk.NodeRequest()
+        req2.state = zk.REQUESTED
+        req2.node_types.append('fake-label')
+        self.log.debug("Adding second request")
+        self.zk.storeNodeRequest(req2)
+        req2 = self.waitForNodeRequest(req2)
+        self.assertEqual(req2.state, zk.FAILED)
+
+        # After the second request failed, the internal quota estimate
+        # should be reset, so the next request should pause to wait
+        # for more quota to become available.
+        req3 = zk.NodeRequest()
+        req3.state = zk.REQUESTED
+        req3.node_types.append('fake-label')
+        self.log.debug("Adding third request")
+        self.zk.storeNodeRequest(req3)
+        req3 = self.waitForNodeRequest(req3, (zk.PENDING,))
+        self.assertEqual(req3.state, zk.PENDING)
+
+        # Wait until there is a paused request handler and verify that
+        # there is still only one server built (from the first
+        # request).
+        pool_worker = pool.getPoolWorkers('fake-provider')
+        while not pool_worker[0].paused_handler:
+            time.sleep(0.1)
+        self.assertEqual(len(client._server_list), 1)
+
     def test_fail_request_on_launch_failure(self):
         '''
         Test that provider launch error fails the request.

From ded8fd80d889ad647833270f809d81e27e59d393 Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Tue, 19 Dec 2017 15:26:32 -0800
Subject: [PATCH 295/309] Assume a quota limit of -1 means unlimited

A nova developer told us it's true.

Change-Id: Ib3b6e1944aa743bf404e247a19b825d4f1bdf2a8
---
 nodepool/driver/openstack/provider.py | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index 93a621b98..c28e52399 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -17,6 +17,7 @@
 import copy
 import logging
 from contextlib import contextmanager
+import math
 import operator
 import time
 
@@ -71,9 +72,15 @@ class QuotaInformation:
 
     @staticmethod
     def construct_from_limits(limits):
-        return QuotaInformation(instances=limits.max_total_instances,
-                                cores=limits.max_total_cores,
-                                ram=limits.max_total_ram_size)
+        def bound_value(value):
+            if value == -1:
+                return math.inf
+            return value
+
+        return QuotaInformation(
+            instances=bound_value(limits.max_total_instances),
+            cores=bound_value(limits.max_total_cores),
+            ram=bound_value(limits.max_total_ram_size))
 
     def _get_default(self, value, default):
         return value if value is not None else default

From 2376cb9ebe1e3aded43d2d4b9e12588b612e9ebe Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Wed, 20 Dec 2017 07:17:25 +0100
Subject: [PATCH 296/309] Test that -1 works for infinite quota

Change a test that it uses -1 for specifying an infinite quota. This
was not covered by the launcher tests.

Change-Id: Ie2a001ff9a28f880959cb89c4a36f2a658d78639
---
 nodepool/tests/test_launcher.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index e25cedc32..9b2fda2bc 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -241,7 +241,9 @@ class TestLauncher(tests.DBTestCase):
     def test_node_assignment_at_cloud_cores_quota(self):
         self._test_node_assignment_at_quota(config='node_quota_cloud.yaml',
                                             max_cores=8,
-                                            max_instances=math.inf,
+                                            # check that -1 and inf work for no
+                                            # quota
+                                            max_instances=-1,
                                             max_ram=math.inf)
 
     def test_node_assignment_at_cloud_instances_quota(self):

From 310ea2fe9d80e35c7c5854dc28278db786cc943d Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Wed, 20 Dec 2017 10:14:07 -0800
Subject: [PATCH 297/309] Log unknown providers during quota calculation

When determining quota usage for known nodes log cases where the
provider config isn't known. One theory is that this can happen when
launchers are restarted and that it is otherwise normal but without more
information it is hard to know for sure. Log the node data when we hit
this sutation so that we can dig in more and debug this.

Change-Id: I466e64a999ebf867ada9462a0c00a90de4b70125
---
 nodepool/driver/openstack/provider.py | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index c28e52399..7fb75f4f2 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -221,8 +221,16 @@ class OpenStackProvider(Provider):
             if node.provider == self.provider.name:
                 if pool and not node.pool == pool.name:
                     continue
+                provider_pool = self.provider.pools.get(node.pool)
+                if not provider_pool:
+                    self.log.warning(
+                        "Cannot find provider pool for node %s" % node)
+                    # This node is in a funny state we log it for debugging
+                    # but move on and don't account it as we can't properly
+                    # calculate its cost without pool info.
+                    continue
                 node_resources = self.quotaNeededByNodeType(
-                    node.type, self.provider.pools.get(node.pool))
+                    node.type, provider_pool)
                 used_quota.add(node_resources)
         return used_quota
 

From bbde8ec8f7174e77ffcaa02a452cc854b128981a Mon Sep 17 00:00:00 2001
From: "James E. Blair" <jeblair@redhat.com>
Date: Wed, 3 Jan 2018 09:03:51 -0800
Subject: [PATCH 298/309] Remove name from project stanza

This is now optional, and should be discouraged in in-repo configs.

Change-Id: I9fda49e4eeeaea0324fbe8ae1f86c48b5e8ba911
---
 .zuul.yaml | 1 -
 1 file changed, 1 deletion(-)

diff --git a/.zuul.yaml b/.zuul.yaml
index 0d5f71f50..1904788ff 100644
--- a/.zuul.yaml
+++ b/.zuul.yaml
@@ -32,7 +32,6 @@
       - openstack-infra/zuul
 
 - project:
-    name: openstack-infra/nodepool
     check:
       jobs:
         - tox-docs

From 477a40044bad9838ce0a17c9c3fe939da1936f96 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 8 Jan 2018 13:53:17 -0500
Subject: [PATCH 299/309] Add support for a secure ZooKeeper configuration

The secure config file has largely been unused and ignored for v3.
This add support for reading ZooKeeper credentials from the secure
file. Note that actually specifying authentication credentials is
left for future work, but this adds the framework necessary for that.

ZooKeeper creds can be in both the normal config file and the secure
file. If specified in both, the data in the secure configuration wins.

Change-Id: I5d9c12c00f5e85ef258128337cdb99809f86b8ed
---
 doc/source/installation.rst                   |  9 ++--
 nodepool/builder.py                           | 41 +++++++++++-----
 nodepool/cmd/builder.py                       | 12 +++--
 nodepool/config.py                            | 29 ++++++++----
 nodepool/tests/__init__.py                    | 29 +++++++-----
 nodepool/tests/fixtures/secure.conf           |  1 -
 .../tests/fixtures/secure_file_config.yaml    | 47 +++++++++++++++++++
 .../tests/fixtures/secure_file_secure.yaml    |  4 ++
 nodepool/tests/test_commands.py               |  2 +-
 nodepool/tests/test_launcher.py               | 29 ++++++++++++
 10 files changed, 163 insertions(+), 40 deletions(-)
 delete mode 100644 nodepool/tests/fixtures/secure.conf
 create mode 100644 nodepool/tests/fixtures/secure_file_config.yaml
 create mode 100644 nodepool/tests/fixtures/secure_file_secure.yaml

diff --git a/doc/source/installation.rst b/doc/source/installation.rst
index aa33d271f..f258e1c70 100644
--- a/doc/source/installation.rst
+++ b/doc/source/installation.rst
@@ -56,9 +56,12 @@ Nodepool has one required configuration file, which defaults to
 ``/etc/nodepool/nodepool.yaml``. This can be changed with the ``-c`` option.
 The Nodepool configuration file is described in :ref:`configuration`.
 
-Although there is support for a secure file that is used to store nodepool
-configurations that contain sensitive data, this is currently not used, but
-may be in the future.
+There is support for a secure file that is used to store nodepool
+configurations that contain sensitive data. It currently only supports
+specifying ZooKeeper credentials. If ZooKeeper credentials are defined in
+both configuration files, the data in the secure file takes precedence.
+The secure file location can be changed with the ``-s`` option and follows
+the same file format as the Nodepool configuration file.
 
 There is an optional logging configuration file, specified with the ``-l``
 option. The logging configuration file can accept either:
diff --git a/nodepool/builder.py b/nodepool/builder.py
index 60f7dd59b..744b4bc08 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -108,13 +108,14 @@ class DibImageFile(object):
 
 
 class BaseWorker(threading.Thread):
-    def __init__(self, builder_id, config_path, interval, zk):
+    def __init__(self, builder_id, config_path, secure_path, interval, zk):
         super(BaseWorker, self).__init__()
         self.log = logging.getLogger("nodepool.builder.BaseWorker")
         self.daemon = True
         self._running = False
         self._config = None
         self._config_path = config_path
+        self._secure_path = secure_path
         self._zk = zk
         self._hostname = socket.gethostname()
         self._statsd = stats.get_client()
@@ -146,9 +147,10 @@ class CleanupWorker(BaseWorker):
     and any local DIB builds.
     '''
 
-    def __init__(self, name, builder_id, config_path, interval, zk):
+    def __init__(self, name, builder_id, config_path, secure_path,
+                 interval, zk):
         super(CleanupWorker, self).__init__(builder_id, config_path,
-                                            interval, zk)
+                                            secure_path, interval, zk)
         self.log = logging.getLogger("nodepool.builder.CleanupWorker.%s" % name)
         self.name = 'CleanupWorker.%s' % name
 
@@ -507,6 +509,8 @@ class CleanupWorker(BaseWorker):
         Body of run method for exception handling purposes.
         '''
         new_config = nodepool_config.loadConfig(self._config_path)
+        if self._secure_path:
+            nodepool_config.loadSecureConfig(new_config, self._secure_path)
         if not self._config:
             self._config = new_config
 
@@ -519,8 +523,9 @@ class CleanupWorker(BaseWorker):
 
 
 class BuildWorker(BaseWorker):
-    def __init__(self, name, builder_id, config_path, interval, zk, dib_cmd):
-        super(BuildWorker, self).__init__(builder_id, config_path,
+    def __init__(self, name, builder_id, config_path, secure_path,
+                 interval, zk, dib_cmd):
+        super(BuildWorker, self).__init__(builder_id, config_path, secure_path,
                                           interval, zk)
         self.log = logging.getLogger("nodepool.builder.BuildWorker.%s" % name)
         self.name = 'BuildWorker.%s' % name
@@ -781,6 +786,8 @@ class BuildWorker(BaseWorker):
         '''
         # NOTE: For the first iteration, we expect self._config to be None
         new_config = nodepool_config.loadConfig(self._config_path)
+        if self._secure_path:
+            nodepool_config.loadSecureConfig(new_config, self._secure_path)
         if not self._config:
             self._config = new_config
 
@@ -792,9 +799,10 @@ class BuildWorker(BaseWorker):
 
 
 class UploadWorker(BaseWorker):
-    def __init__(self, name, builder_id, config_path, interval, zk):
+    def __init__(self, name, builder_id, config_path, secure_path,
+                 interval, zk):
         super(UploadWorker, self).__init__(builder_id, config_path,
-                                           interval, zk)
+                                           secure_path, interval, zk)
         self.log = logging.getLogger("nodepool.builder.UploadWorker.%s" % name)
         self.name = 'UploadWorker.%s' % name
 
@@ -803,6 +811,8 @@ class UploadWorker(BaseWorker):
         Reload the nodepool configuration file.
         '''
         new_config = nodepool_config.loadConfig(self._config_path)
+        if self._secure_path:
+            nodepool_config.loadSecureConfig(new_config, self._secure_path)
         if not self._config:
             self._config = new_config
 
@@ -1039,17 +1049,19 @@ class NodePoolBuilder(object):
     '''
     log = logging.getLogger("nodepool.builder.NodePoolBuilder")
 
-    def __init__(self, config_path, num_builders=1, num_uploaders=4,
-                 fake=False):
+    def __init__(self, config_path, secure_path=None,
+                 num_builders=1, num_uploaders=4, fake=False):
         '''
         Initialize the NodePoolBuilder object.
 
         :param str config_path: Path to configuration file.
+        :param str secure_path: Path to secure configuration file.
         :param int num_builders: Number of build workers to start.
         :param int num_uploaders: Number of upload workers to start.
         :param bool fake: Whether to fake the image builds.
         '''
         self._config_path = config_path
+        self._secure_path = secure_path
         self._config = None
         self._num_builders = num_builders
         self._build_workers = []
@@ -1090,6 +1102,8 @@ class NodePoolBuilder(object):
 
     def _getAndValidateConfig(self):
         config = nodepool_config.loadConfig(self._config_path)
+        if self._secure_path:
+            nodepool_config.loadSecureConfig(config, self._secure_path)
         if not config.zookeeper_servers.values():
             raise RuntimeError('No ZooKeeper servers specified in config.')
         if not config.imagesdir:
@@ -1127,20 +1141,23 @@ class NodePoolBuilder(object):
 
             # Create build and upload worker objects
             for i in range(self._num_builders):
-                w = BuildWorker(i, builder_id, self._config_path,
+                w = BuildWorker(i, builder_id,
+                                self._config_path, self._secure_path,
                                 self.build_interval, self.zk, self.dib_cmd)
                 w.start()
                 self._build_workers.append(w)
 
             for i in range(self._num_uploaders):
-                w = UploadWorker(i, builder_id, self._config_path,
+                w = UploadWorker(i, builder_id,
+                                 self._config_path, self._secure_path,
                                  self.upload_interval, self.zk)
                 w.start()
                 self._upload_workers.append(w)
 
             if self.cleanup_interval > 0:
                 self._janitor = CleanupWorker(
-                    0, builder_id, self._config_path,
+                    0, builder_id,
+                    self._config_path, self._secure_path,
                     self.cleanup_interval, self.zk)
                 self._janitor.start()
 
diff --git a/nodepool/cmd/builder.py b/nodepool/cmd/builder.py
index 1138cba5f..7ac993b2a 100644
--- a/nodepool/cmd/builder.py
+++ b/nodepool/cmd/builder.py
@@ -34,6 +34,8 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolDaemonApp):
         parser.add_argument('-c', dest='config',
                             default='/etc/nodepool/nodepool.yaml',
                             help='path to config file')
+        parser.add_argument('-s', dest='secure',
+                            help='path to secure config file')
         parser.add_argument('--build-workers', dest='build_workers',
                             default=1, help='number of build workers',
                             type=int)
@@ -46,10 +48,12 @@ class NodePoolBuilderApp(nodepool.cmd.NodepoolDaemonApp):
         return parser
 
     def run(self):
-        self.nb = builder.NodePoolBuilder(self.args.config,
-                                          self.args.build_workers,
-                                          self.args.upload_workers,
-                                          self.args.fake)
+        self.nb = builder.NodePoolBuilder(
+            self.args.config,
+            secure_path=self.args.secure,
+            num_builders=self.args.build_workers,
+            num_uploaders=self.args.upload_workers,
+            fake=self.args.fake)
 
         signal.signal(signal.SIGINT, self.sigint_handler)
 
diff --git a/nodepool/config.py b/nodepool/config.py
index 537dfbc23..d9a710d6d 100755
--- a/nodepool/config.py
+++ b/nodepool/config.py
@@ -16,7 +16,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from six.moves import configparser as ConfigParser
 import time
 import yaml
 
@@ -66,7 +65,7 @@ def get_provider_config(provider):
         return OpenStackProviderConfig(provider)
 
 
-def loadConfig(config_path):
+def openConfig(path):
     retry = 3
 
     # Since some nodepool code attempts to dynamically re-read its config
@@ -75,7 +74,7 @@ def loadConfig(config_path):
     # attempt to reload it.
     while True:
         try:
-            config = yaml.load(open(config_path))
+            config = yaml.load(open(path))
             break
         except IOError as e:
             if e.errno == 2:
@@ -85,6 +84,11 @@ def loadConfig(config_path):
                 raise e
             if retry == 0:
                 raise e
+    return config
+
+
+def loadConfig(config_path):
+    config = openConfig(config_path)
 
     # Reset the shared os_client_config instance
     OpenStackProviderConfig.os_client_config = None
@@ -126,8 +130,6 @@ def loadConfig(config_path):
         d.rebuild_age = int(diskimage.get('rebuild-age', 86400))
         d.env_vars = diskimage.get('env-vars', {})
         if not isinstance(d.env_vars, dict):
-            #self.log.error("%s: ignoring env-vars; "
-            #               "should be a dict" % d.name)
             d.env_vars = {}
         d.image_types = set(diskimage.get('formats', []))
         d.pause = bool(diskimage.get('pause', False))
@@ -149,7 +151,18 @@ def loadConfig(config_path):
 
 
 def loadSecureConfig(config, secure_config_path):
-    secure = ConfigParser.ConfigParser()
-    secure.readfp(open(secure_config_path))
+    secure = openConfig(secure_config_path)
+    if not secure:   # empty file
+        return
 
-    #config.dburi = secure.get('database', 'dburi')
+    # Eliminate any servers defined in the normal config
+    if secure.get('zookeeper-servers', []):
+        config.zookeeper_servers = {}
+
+    # TODO(Shrews): Support ZooKeeper auth
+    for server in secure.get('zookeeper-servers', []):
+        z = zk.ZooKeeperConnectionConfig(server['host'],
+                                         server.get('port', 2181),
+                                         server.get('chroot', None))
+        name = z.host + '_' + str(z.port)
+        config.zookeeper_servers[name] = z
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 2d299d3e9..77aad1293 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -254,15 +254,17 @@ class BaseTestCase(testtools.TestCase):
 
 
 class BuilderFixture(fixtures.Fixture):
-    def __init__(self, configfile, cleanup_interval):
+    def __init__(self, configfile, cleanup_interval, securefile=None):
         super(BuilderFixture, self).__init__()
         self.configfile = configfile
+        self.securefile = securefile
         self.cleanup_interval = cleanup_interval
         self.builder = None
 
     def setUp(self):
         super(BuilderFixture, self).setUp()
-        self.builder = builder.NodePoolBuilder(self.configfile)
+        self.builder = builder.NodePoolBuilder(
+            self.configfile, secure_path=self.securefile)
         self.builder.cleanup_interval = self.cleanup_interval
         self.builder.build_interval = .1
         self.builder.upload_interval = .1
@@ -278,7 +280,6 @@ class DBTestCase(BaseTestCase):
     def setUp(self):
         super(DBTestCase, self).setUp()
         self.log = logging.getLogger("tests")
-        self.secure_conf = self._setup_secure()
         self.setupZK()
 
     def setup_config(self, filename, images_dir=None):
@@ -306,15 +307,18 @@ class DBTestCase(BaseTestCase):
         new_configfile = self.setup_config(filename, self._config_images_dir)
         os.rename(new_configfile, configfile)
 
-    def _setup_secure(self):
+    def setup_secure(self, filename):
         # replace entries in secure.conf
         configfile = os.path.join(os.path.dirname(__file__),
-                                  'fixtures', 'secure.conf')
+                                  'fixtures', filename)
         (fd, path) = tempfile.mkstemp()
         with open(configfile, 'rb') as conf_fd:
-            config = conf_fd.read()
-            os.write(fd, config)
-            #os.write(fd, config.format(dburi=self.dburi))
+            config = conf_fd.read().decode('utf8')
+            data = config.format(
+                zookeeper_host=self.zookeeper_host,
+                zookeeper_port=self.zookeeper_port,
+                zookeeper_chroot=self.zookeeper_chroot)
+            os.write(fd, data.encode('utf8'))
         os.close(fd)
         return path
 
@@ -458,7 +462,8 @@ class DBTestCase(BaseTestCase):
         return req
 
     def useNodepool(self, *args, **kwargs):
-        args = (self.secure_conf,) + args
+        secure_conf = kwargs.pop('secure_conf', None)
+        args = (secure_conf,) + args
         pool = launcher.NodePool(*args, **kwargs)
         pool.cleanup_interval = .5
         pool.delete_interval = .5
@@ -470,8 +475,10 @@ class DBTestCase(BaseTestCase):
         self.addCleanup(app.stop)
         return app
 
-    def _useBuilder(self, configfile, cleanup_interval=.5):
-        self.useFixture(BuilderFixture(configfile, cleanup_interval))
+    def _useBuilder(self, configfile, securefile=None, cleanup_interval=.5):
+        self.useFixture(
+            BuilderFixture(configfile, cleanup_interval, securefile)
+        )
 
     def setupZK(self):
         f = ZookeeperServerFixture()
diff --git a/nodepool/tests/fixtures/secure.conf b/nodepool/tests/fixtures/secure.conf
deleted file mode 100644
index b7db25411..000000000
--- a/nodepool/tests/fixtures/secure.conf
+++ /dev/null
@@ -1 +0,0 @@
-# Empty
diff --git a/nodepool/tests/fixtures/secure_file_config.yaml b/nodepool/tests/fixtures/secure_file_config.yaml
new file mode 100644
index 000000000..094284a32
--- /dev/null
+++ b/nodepool/tests/fixtures/secure_file_config.yaml
@@ -0,0 +1,47 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: invalid_host
+    port: 1
+    chroot: invalid_chroot
+
+labels:
+  - name: fake-label
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+        meta:
+          key: value
+          key2: value
+    pools:
+      - name: main
+        max-servers: 96
+        availability-zones:
+          - az1
+        networks:
+          - net-name
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+            flavor-name: 'Fake'
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/fixtures/secure_file_secure.yaml b/nodepool/tests/fixtures/secure_file_secure.yaml
new file mode 100644
index 000000000..03a3444ca
--- /dev/null
+++ b/nodepool/tests/fixtures/secure_file_secure.yaml
@@ -0,0 +1,4 @@
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index c9ee8993b..fe7829bed 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -31,7 +31,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         super(TestNodepoolCMD, self).setUp()
 
     def patch_argv(self, *args):
-        argv = ["nodepool", "-s", self.secure_conf]
+        argv = ["nodepool"]
         argv.extend(args)
         self.useFixture(fixtures.MonkeyPatch('sys.argv', argv))
 
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 9b2fda2bc..975f10fcb 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -862,3 +862,32 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual('fake', label3_nodes[0].public_ipv4)
         self.assertEqual('', label3_nodes[0].public_ipv6)
         self.assertEqual('fake', label3_nodes[0].interface_ip)
+
+    def test_secure_file(self):
+        """Test using secure.conf file"""
+        configfile = self.setup_config('secure_file_config.yaml')
+        securefile = self.setup_secure('secure_file_secure.yaml')
+        pool = self.useNodepool(
+            configfile,
+            secure_conf=securefile,
+            watermark_sleep=1)
+        self._useBuilder(configfile, securefile=securefile)
+        pool.start()
+        self.wait_for_config(pool)
+
+        zk_servers = pool.config.zookeeper_servers
+        self.assertEqual(1, len(zk_servers))
+        key = list(zk_servers.keys())[0]
+        self.assertEqual(self.zookeeper_host, zk_servers[key].host)
+        self.assertEqual(self.zookeeper_port, zk_servers[key].port)
+        self.assertEqual(self.zookeeper_chroot, zk_servers[key].chroot)
+
+        image = self.waitForImage('fake-provider', 'fake-image')
+        self.assertEqual(image.username, 'zuul')
+        nodes = self.waitForNodes('fake-label')
+
+        self.assertEqual(len(nodes), 1)
+        self.assertEqual(nodes[0].provider, 'fake-provider')
+        self.assertEqual(nodes[0].type, 'fake-label')
+        self.assertEqual(nodes[0].username, 'zuul')
+        self.assertNotEqual(nodes[0].host_keys, [])

From 26b122d131fc433c6e189c4429645791869becae Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Mon, 8 Jan 2018 13:59:16 -0500
Subject: [PATCH 300/309] Rename _useBuilder method to useBuilder

Consistency in method naming and usage is good...  mmmkay?

Change-Id: I87d1d54807dd73f74ad86fb72ad4c8d98fbd5acb
---
 nodepool/tests/__init__.py      |  2 +-
 nodepool/tests/test_builder.py  | 20 ++++++------
 nodepool/tests/test_commands.py | 28 ++++++++---------
 nodepool/tests/test_launcher.py | 56 ++++++++++++++++-----------------
 nodepool/tests/test_webapp.py   |  4 +--
 5 files changed, 55 insertions(+), 55 deletions(-)

diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 77aad1293..77e8922c9 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -475,7 +475,7 @@ class DBTestCase(BaseTestCase):
         self.addCleanup(app.stop)
         return app
 
-    def _useBuilder(self, configfile, securefile=None, cleanup_interval=.5):
+    def useBuilder(self, configfile, securefile=None, cleanup_interval=.5):
         self.useFixture(
             BuilderFixture(configfile, cleanup_interval, securefile)
         )
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 6547d7b0d..ea50c4d98 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -99,7 +99,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
     def test_builder_id_file(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         path = os.path.join(self._config_images_dir.path, 'builder_id.txt')
 
         # Validate the unique ID file exists and contents are what we expect
@@ -126,7 +126,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
         pool = self.useNodepool(configfile, watermark_sleep=1)
         # NOTE(pabelanger): Disable CleanupWorker thread for nodepool-builder
         # as we currently race it to validate our failed uploads.
-        self._useBuilder(configfile, cleanup_interval=0)
+        self.useBuilder(configfile, cleanup_interval=0)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -142,14 +142,14 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
     def test_provider_addition(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         self.replace_config(configfile, 'node_two_provider.yaml')
         self.waitForImage('fake-provider2', 'fake-image')
 
     def test_provider_removal(self):
         configfile = self.setup_config('node_two_provider.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         self.waitForImage('fake-provider2', 'fake-image')
         image = self.zk.getMostRecentImageUpload('fake-provider', 'fake-image')
@@ -160,14 +160,14 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
     def test_image_addition(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         self.replace_config(configfile, 'node_two_image.yaml')
         self.waitForImage('fake-provider', 'fake-image2')
 
     def test_image_removal(self):
         configfile = self.setup_config('node_two_image.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         self.waitForImage('fake-provider', 'fake-image2')
         self.replace_config(configfile, 'node_two_image_remove.yaml')
@@ -179,7 +179,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
     def _test_image_rebuild_age(self, expire=86400):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         build = self.waitForBuild('fake-image', '0000000001')
         image = self.waitForImage('fake-provider', 'fake-image')
         # Expire rebuild-age (default: 1day) to force a new build.
@@ -257,7 +257,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
     def test_cleanup_hard_upload_fails(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
         upload = self.zk.getUploads('fake-image', '0000000001',
@@ -282,7 +282,7 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
     def test_cleanup_failed_image_build(self):
         configfile = self.setup_config('node_diskimage_fail.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         # NOTE(pabelanger): We are racing here, but don't really care. We just
         # need our first image build to fail.
         self.replace_config(configfile, 'node.yaml')
@@ -292,5 +292,5 @@ class TestNodePoolBuilder(tests.DBTestCase):
 
     def test_diskimage_build_only(self):
         configfile = self.setup_config('node_diskimage_only.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForBuild('fake-image', '0000000001')
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index fe7829bed..94185b6b4 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -85,7 +85,7 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_image_delete(self):
         configfile = self.setup_config("node.yaml")
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         image = self.zk.getMostRecentImageUpload('fake-image', 'fake-provider')
         self.patch_argv("-c", configfile, "image-delete",
@@ -99,7 +99,7 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_alien_image_list_empty(self):
         configfile = self.setup_config("node.yaml")
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         self.patch_argv("-c", configfile, "alien-image-list")
         nodepoolcmd.main()
@@ -118,7 +118,7 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_list_nodes(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
@@ -128,7 +128,7 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_list_nodes_detail(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
@@ -144,13 +144,13 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_dib_image_list(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         self.assert_listed(configfile, ['dib-image-list'], 4, zk.READY, 1)
 
     def test_dib_image_build_pause(self):
         configfile = self.setup_config('node_diskimage_pause.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.patch_argv("-c", configfile, "image-build", "fake-image")
         with testtools.ExpectedException(Exception):
             nodepoolcmd.main()
@@ -158,7 +158,7 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_dib_image_pause(self):
         configfile = self.setup_config('node_diskimage_pause.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
         nodes = self.waitForNodes('fake-label2')
@@ -168,7 +168,7 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_dib_image_upload_pause(self):
         configfile = self.setup_config('node_image_upload_pause.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
         nodes = self.waitForNodes('fake-label2')
@@ -183,7 +183,7 @@ class TestNodepoolCMD(tests.DBTestCase):
     def test_dib_image_delete(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -203,7 +203,7 @@ class TestNodepoolCMD(tests.DBTestCase):
     def test_hold(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -222,7 +222,7 @@ class TestNodepoolCMD(tests.DBTestCase):
     def test_delete(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -243,7 +243,7 @@ class TestNodepoolCMD(tests.DBTestCase):
     def test_delete_now(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage( 'fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -263,7 +263,7 @@ class TestNodepoolCMD(tests.DBTestCase):
 
     def test_image_build(self):
         configfile = self.setup_config('node.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
 
         # wait for the scheduled build to arrive
         self.waitForImage('fake-provider', 'fake-image')
@@ -280,7 +280,7 @@ class TestNodepoolCMD(tests.DBTestCase):
     def test_request_list(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage( 'fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 975f10fcb..b1e2651b6 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -33,7 +33,7 @@ class TestLauncher(tests.DBTestCase):
         and assigned to the request.
         '''
         configfile = self.setup_config('node_no_min_ready.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         image = self.waitForImage('fake-provider', 'fake-image')
         self.assertEqual(image.username, 'zuul')
 
@@ -81,7 +81,7 @@ class TestLauncher(tests.DBTestCase):
     def test_node_assignment_order(self):
         """Test that nodes are assigned in the order requested"""
         configfile = self.setup_config('node_many_labels.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -127,7 +127,7 @@ class TestLauncher(tests.DBTestCase):
         mock_quota.return_value = (max_cores, max_instances, max_ram)
 
         configfile = self.setup_config(config)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
         nodepool.launcher.LOCK_CLEANUP = 1
@@ -276,7 +276,7 @@ class TestLauncher(tests.DBTestCase):
         mock_quota.return_value = (max_cores, max_instances, max_ram)
 
         configfile = self.setup_config(config)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
         nodepool.launcher.LOCK_CLEANUP = 1
@@ -332,7 +332,7 @@ class TestLauncher(tests.DBTestCase):
         Test that provider launch error fails the request.
         '''
         configfile = self.setup_config('node_launch_retry.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
 
         pool = self.useNodepool(configfile, watermark_sleep=1)
@@ -357,7 +357,7 @@ class TestLauncher(tests.DBTestCase):
         be declined.
         '''
         configfile = self.setup_config('node_min_ready_capacity.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
@@ -401,7 +401,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that an image and node are created"""
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         image = self.waitForImage('fake-provider', 'fake-image')
         self.assertEqual(image.username, 'zuul')
@@ -417,7 +417,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that an image and node are created from a volume"""
         configfile = self.setup_config('node_boot_from_volume.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -430,7 +430,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that a node is not created with min-ready=0"""
         configfile = self.setup_config('node_disabled_label.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         self.assertEqual([], self.zk.getNodeRequests())
@@ -440,7 +440,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that a node is created with a net name"""
         configfile = self.setup_config('node_net_name.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -453,7 +453,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that a node is created with a flavor name"""
         configfile = self.setup_config('node_flavor_name.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -465,7 +465,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that a image and node are created vhd image"""
         configfile = self.setup_config('node_vhd.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -476,7 +476,7 @@ class TestLauncher(tests.DBTestCase):
     def test_node_vhd_and_qcow2(self):
         """Test label provided by vhd and qcow2 images builds"""
         configfile = self.setup_config('node_vhd_and_qcow2.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         p1_image = self.waitForImage('fake-provider1', 'fake-image')
         p2_image = self.waitForImage('fake-provider2', 'fake-image')
 
@@ -490,7 +490,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that an image upload failure is contained."""
         configfile = self.setup_config('node_upload_fail.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider2', 'fake-image')
         nodes = self.waitForNodes('fake-label', 2)
@@ -508,7 +508,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that an image and node are created with az specified"""
         configfile = self.setup_config('node_az.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -520,7 +520,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that ipv6 existence either way works fine."""
         configfile = self.setup_config('node_ipv6.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider1', 'fake-image')
         self.waitForImage('fake-provider2', 'fake-image')
@@ -545,7 +545,7 @@ class TestLauncher(tests.DBTestCase):
     def test_node_delete_success(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -568,7 +568,7 @@ class TestLauncher(tests.DBTestCase):
     def test_node_launch_retries(self):
         configfile = self.setup_config('node_launch_retry.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.wait_for_config(pool)
         manager = pool.getProviderManager('fake-provider')
@@ -595,7 +595,7 @@ class TestLauncher(tests.DBTestCase):
 
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
@@ -619,7 +619,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that a leaked node is deleted"""
         configfile = self.setup_config('leaked_node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         self.log.debug("Waiting for initial pool...")
@@ -655,7 +655,7 @@ class TestLauncher(tests.DBTestCase):
         """Test a node with exceeded max-ready-age is deleted"""
         configfile = self.setup_config('node_max_ready_age.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         self.log.debug("Waiting for initial pool...")
@@ -670,7 +670,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that only providers listed in the label satisfy the request"""
         configfile = self.setup_config('node_label_provider.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         self.waitForImage('fake-provider2', 'fake-image')
@@ -704,7 +704,7 @@ class TestLauncher(tests.DBTestCase):
 
         configfile = self.setup_config('node_lost_requests.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         pool.start()
         req = self.waitForNodeRequest(req, (zk.FULFILLED,))
@@ -725,7 +725,7 @@ class TestLauncher(tests.DBTestCase):
 
         configfile = self.setup_config('node_lost_requests.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
 
         while True:
@@ -737,7 +737,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that an image and node are created"""
         configfile = self.setup_config('multiple_pools.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider', 'fake-image')
         lab1 = self.waitForNodes('fake-label1')
@@ -796,7 +796,7 @@ class TestLauncher(tests.DBTestCase):
 
         # First config has max-servers set to 2
         configfile = self.setup_config('pause_declined_1.yaml')
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         self.waitForImage('fake-provider', 'fake-image')
         pool = self.useNodepool(configfile, watermark_sleep=1)
         pool.start()
@@ -832,7 +832,7 @@ class TestLauncher(tests.DBTestCase):
         """Test that auto-floating-ip option works fine."""
         configfile = self.setup_config('node_auto_floating_ip.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         self.waitForImage('fake-provider1', 'fake-image')
         self.waitForImage('fake-provider2', 'fake-image')
@@ -871,7 +871,7 @@ class TestLauncher(tests.DBTestCase):
             configfile,
             secure_conf=securefile,
             watermark_sleep=1)
-        self._useBuilder(configfile, securefile=securefile)
+        self.useBuilder(configfile, securefile=securefile)
         pool.start()
         self.wait_for_config(pool)
 
diff --git a/nodepool/tests/test_webapp.py b/nodepool/tests/test_webapp.py
index 9af193218..7ad29cc28 100644
--- a/nodepool/tests/test_webapp.py
+++ b/nodepool/tests/test_webapp.py
@@ -27,7 +27,7 @@ class TestWebApp(tests.DBTestCase):
     def test_image_list(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         webapp = self.useWebApp(pool, port=0)
         webapp.start()
@@ -47,7 +47,7 @@ class TestWebApp(tests.DBTestCase):
     def test_dib_image_list_json(self):
         configfile = self.setup_config('node.yaml')
         pool = self.useNodepool(configfile, watermark_sleep=1)
-        self._useBuilder(configfile)
+        self.useBuilder(configfile)
         pool.start()
         webapp = self.useWebApp(pool, port=0)
         webapp.start()

From 198c5d43d92d598eae45e84ba58989459b0a4b13 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 11 Jan 2018 08:47:52 -0500
Subject: [PATCH 301/309] Improve logging around ZooKeeper suspension

It will be nice to know that a thread successfully unsuspends itself
when a ZooKeeper connection returns.

Change-Id: If084906ee5f2e2cb941d766a8470fcbebb2ed161
---
 nodepool/builder.py  | 16 ++++++++++++++++
 nodepool/launcher.py | 12 ++++++++++++
 2 files changed, 28 insertions(+)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index 744b4bc08..a8f2ad8e4 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -490,9 +490,13 @@ class CleanupWorker(BaseWorker):
         self._running = True
         while self._running:
             # Don't do work if we've lost communication with the ZK cluster
+            did_suspend = False
             while self._zk and (self._zk.suspended or self._zk.lost):
+                did_suspend = True
                 self.log.info("ZooKeeper suspended. Waiting")
                 time.sleep(SUSPEND_WAIT_TIME)
+            if did_suspend:
+                self.log.info("ZooKeeper available. Resuming")
 
             try:
                 self._run()
@@ -724,9 +728,13 @@ class BuildWorker(BaseWorker):
         # interrupted during the build. If so, wait for it to return.
         # It could transition directly from SUSPENDED to CONNECTED, or go
         # through the LOST state before CONNECTED.
+        did_suspend = False
         while self._zk.suspended or self._zk.lost:
+            did_suspend = True
             self.log.info("ZooKeeper suspended during build. Waiting")
             time.sleep(SUSPEND_WAIT_TIME)
+        if did_suspend:
+            self.log.info("ZooKeeper available. Resuming")
 
         build_data = zk.ImageBuild()
         build_data.builder_id = self._builder_id
@@ -768,9 +776,13 @@ class BuildWorker(BaseWorker):
         self._running = True
         while self._running:
             # Don't do work if we've lost communication with the ZK cluster
+            did_suspend = False
             while self._zk and (self._zk.suspended or self._zk.lost):
+                did_suspend = True
                 self.log.info("ZooKeeper suspended. Waiting")
                 time.sleep(SUSPEND_WAIT_TIME)
+            if did_suspend:
+                self.log.info("ZooKeeper available. Resuming")
 
             try:
                 self._run()
@@ -1023,9 +1035,13 @@ class UploadWorker(BaseWorker):
         self._running = True
         while self._running:
             # Don't do work if we've lost communication with the ZK cluster
+            did_suspend = False
             while self._zk and (self._zk.suspended or self._zk.lost):
+                did_suspend = True
                 self.log.info("ZooKeeper suspended. Waiting")
                 time.sleep(SUSPEND_WAIT_TIME)
+            if did_suspend:
+                self.log.info("ZooKeeper available. Resuming")
 
             try:
                 self._reloadConfig()
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index bfdb799fa..d6f22da91 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -268,9 +268,13 @@ class PoolWorker(threading.Thread):
 
         while self.running:
             # Don't do work if we've lost communication with the ZK cluster
+            did_suspend = False
             while self.zk and (self.zk.suspended or self.zk.lost):
+                did_suspend = True
                 self.log.info("ZooKeeper suspended. Waiting")
                 time.sleep(SUSPEND_WAIT_TIME)
+            if did_suspend:
+                self.log.info("ZooKeeper available. Resuming")
 
             # Make sure we're always registered with ZK
             self.zk.registerLauncher(self.launcher_id)
@@ -341,10 +345,14 @@ class BaseCleanupWorker(threading.Thread):
 
         while self._running:
             # Don't do work if we've lost communication with the ZK cluster
+            did_suspend = False
             zk_conn = self._nodepool.getZK()
             while zk_conn and (zk_conn.suspended or zk_conn.lost):
+                did_suspend = True
                 self.log.info("ZooKeeper suspended. Waiting")
                 time.sleep(SUSPEND_WAIT_TIME)
+            if did_suspend:
+                self.log.info("ZooKeeper available. Resuming")
 
             self._run()
             time.sleep(self._interval)
@@ -877,9 +885,13 @@ class NodePool(threading.Thread):
                 self.updateConfig()
 
                 # Don't do work if we've lost communication with the ZK cluster
+                did_suspend = False
                 while self.zk and (self.zk.suspended or self.zk.lost):
+                    did_suspend = True
                     self.log.info("ZooKeeper suspended. Waiting")
                     time.sleep(SUSPEND_WAIT_TIME)
+                if did_suspend:
+                    self.log.info("ZooKeeper available. Resuming")
 
                 self.createMinReady()
 

From e8db0cc388c173f80d23dcfa119cab209a388918 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 11 Jan 2018 10:22:32 -0500
Subject: [PATCH 302/309] Log request ID on request failure

Not having the request ID makes identifying its failure difficult.

Change-Id: I7da48149948055e76d93c3e0a3000dd92cb48d6c
---
 nodepool/driver/__init__.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 694267328..6d1d24041 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -146,7 +146,9 @@ class NodeRequestHandler(object):
         try:
             self.run_handler()
         except Exception:
-            self.log.exception("Exception in NodeRequestHandler:")
+            self.log.exception(
+                "Exception in NodeRequestHandler for request %s:",
+                self.request.id)
             self.unlockNodeSet(clear_allocation=True)
             self.request.state = zk.FAILED
             self.zk.storeNodeRequest(self.request)

From 0731a1a596b4eac11f24abbf167967ab94017b09 Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 11 Jan 2018 13:11:56 -0500
Subject: [PATCH 303/309] Fix races around deleting a provider

This fixes:

   - Delete the pool thread when a provider is removed.
     This bug means we kept restarting a pool worker thread whenever
     we removed it from the config.

   - We could get a KeyError exception for the provider name from the
     request handler if the pool worker thread had not yet stopped when
     the config was changed and the handler tried to re-read its configuration.

Change-Id: Ib2c02c25c0d0c8a1505cc1f629de1aa21ae439bd
---
 nodepool/driver/__init__.py                   |  2 +-
 nodepool/driver/openstack/handler.py          | 11 ++--
 nodepool/launcher.py                          | 16 +++++-
 .../tests/fixtures/launcher_two_provider.yaml | 53 +++++++++++++++++++
 .../launcher_two_provider_remove.yaml         | 39 ++++++++++++++
 nodepool/tests/test_launcher.py               | 13 +++++
 6 files changed, 127 insertions(+), 7 deletions(-)
 create mode 100644 nodepool/tests/fixtures/launcher_two_provider.yaml
 create mode 100644 nodepool/tests/fixtures/launcher_two_provider_remove.yaml

diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 694267328..dd425214c 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -86,6 +86,7 @@ class NodeRequestHandler(object):
         self.nodeset = []
         self.done = False
         self.paused = False
+        self.launcher_id = self.pw.launcher_id
 
     def _setFromPoolWorker(self):
         '''
@@ -98,7 +99,6 @@ class NodeRequestHandler(object):
         self.pool = self.pw.getPoolConfig()
         self.zk = self.pw.getZK()
         self.manager = self.pw.getProviderManager()
-        self.launcher_id = self.pw.launcher_id
 
     @property
     def alive_thread_count(self):
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 28a40fdc4..2643beec3 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -290,6 +290,9 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
     def __init__(self, pw, request):
         super(OpenStackNodeRequestHandler, self).__init__(pw, request)
         self.chosen_az = None
+        self.log = logging.getLogger(
+            "nodepool.driver.openstack.OpenStackNodeRequestHandler[%s]" %
+            self.launcher_id)
 
     def _imagesAvailable(self):
         '''
@@ -522,10 +525,10 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         '''
         self._setFromPoolWorker()
 
-        # We have the launcher_id attr after _setFromPoolWorker() is called.
-        self.log = logging.getLogger(
-            "nodepool.driver.openstack.OpenStackNodeRequestHandler[%s]" %
-            self.launcher_id)
+        if self.provider is None or self.pool is None:
+            # If the config changed out from underneath us, we could now be
+            # an invalid provider and should stop handling this request.
+            raise Exception("Provider configuration missing")
 
         declined_reasons = []
         invalid_types = self._invalidNodeTypes()
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index bfdb799fa..460615716 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -158,6 +158,10 @@ class PoolWorker(threading.Thread):
         the handler for completion.
         '''
         provider = self.getProviderConfig()
+        if not provider:
+            self.log.info("Missing config. Deleted provider?")
+            return
+
         if provider.max_concurrency == 0:
             return
 
@@ -255,10 +259,14 @@ class PoolWorker(threading.Thread):
         return self.nodepool.getZK()
 
     def getProviderConfig(self):
-        return self.nodepool.config.providers[self.provider_name]
+        return self.nodepool.config.providers.get(self.provider_name)
 
     def getPoolConfig(self):
-        return self.getProviderConfig().pools[self.pool_name]
+        provider = self.getProviderConfig()
+        if provider:
+            return provider.pools[self.pool_name]
+        else:
+            return None
 
     def getProviderManager(self):
         return self.nodepool.getProviderManager(self.provider_name)
@@ -900,9 +908,13 @@ class NodePool(threading.Thread):
                     for pool in provider.pools.values():
                         pool_keys.add(provider.name + '-' + pool.name)
 
+                new_pool_threads = {}
                 for key in self._pool_threads.keys():
                     if key not in pool_keys:
                         self._pool_threads[key].stop()
+                    else:
+                        new_pool_threads[key] = self._pool_threads[key]
+                self._pool_threads = new_pool_threads
 
                 # Start (or restart) provider threads for each provider in
                 # the config. Removing a provider from the config and then
diff --git a/nodepool/tests/fixtures/launcher_two_provider.yaml b/nodepool/tests/fixtures/launcher_two_provider.yaml
new file mode 100644
index 000000000..748e4b6d5
--- /dev/null
+++ b/nodepool/tests/fixtures/launcher_two_provider.yaml
@@ -0,0 +1,53 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+  - name: fake-provider2
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/fixtures/launcher_two_provider_remove.yaml b/nodepool/tests/fixtures/launcher_two_provider_remove.yaml
new file mode 100644
index 000000000..902554748
--- /dev/null
+++ b/nodepool/tests/fixtures/launcher_two_provider_remove.yaml
@@ -0,0 +1,39 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 1
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 96
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 975f10fcb..b1fef76ed 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -891,3 +891,16 @@ class TestLauncher(tests.DBTestCase):
         self.assertEqual(nodes[0].type, 'fake-label')
         self.assertEqual(nodes[0].username, 'zuul')
         self.assertNotEqual(nodes[0].host_keys, [])
+
+    def test_provider_removal(self):
+        """Test that removing a provider stops the worker thread"""
+        configfile = self.setup_config('launcher_two_provider.yaml')
+        pool = self.useNodepool(configfile, watermark_sleep=.5)
+        pool.start()
+        self.wait_for_config(pool)
+        self.assertEqual(2, len(pool._pool_threads))
+
+        self.replace_config(configfile, 'launcher_two_provider_remove.yaml')
+        # wait longer than our watermark_sleep time for the config to change
+        time.sleep(1)
+        self.assertEqual(1, len(pool._pool_threads))

From ceb5176279c7e0763a1c1217904aafa3da799c2f Mon Sep 17 00:00:00 2001
From: David Shrewsbury <shrewsbury.dave@gmail.com>
Date: Thu, 11 Jan 2018 14:56:36 -0500
Subject: [PATCH 304/309] Short-circuit request handling on disable provider

If a provider has max-servers of 0, let's not even bother with
querying the provider to calculate other quota things.

Change-Id: I79d99c7229d7670ddf036f044d6236e22699ac39
---
 nodepool/driver/openstack/handler.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 2643beec3..143941244 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -537,7 +537,9 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
                                     ','.join(invalid_types))
         elif not self._imagesAvailable():
             declined_reasons.append('images are not available')
-        elif not self._hasProviderQuota(self.request.node_types):
+        elif (self.pool.max_servers == 0 or
+              not self._hasProviderQuota(self.request.node_types)
+        ):
             declined_reasons.append('it would exceed quota')
         # TODO(tobiash): Maybe also calculate the quota prediction here and
         # backoff for some seconds if the used quota would be exceeded?

From be4b8f1416fdc4195e9f3e6688939c0bd923de5a Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Sun, 7 Jan 2018 12:44:15 -0800
Subject: [PATCH 305/309] Clarify provider manager vs provider config

There are places where we handle both the provider config and provider
manager objects. We had a bug where we called a manager method on the
config object which failed. Since python doesn't type check ahead of
time let us try and make this easier on developers and very explicitly
name the provider manager provider_manager and the provider config
provider_config.

Change-Id: I36919672cdbf9a5c66297ff49f304b9040eee1cb
---
 nodepool/driver/__init__.py              |  2 +-
 nodepool/driver/openstack/handler.py     | 40 +++++++++++++-----------
 nodepool/launcher.py                     | 12 +++----
 nodepool/tests/test_nodelaunchmanager.py |  3 +-
 4 files changed, 31 insertions(+), 26 deletions(-)

diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 83d940a83..256645e06 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -258,7 +258,7 @@ class NodeLaunchManager(object):
         self._threads = []
         self._zk = zk
         self._pool = pool
-        self._manager = provider_manager
+        self._provider_manager = provider_manager
         self._requestor = requestor
 
     @property
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 143941244..4bfc7839f 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -52,23 +52,24 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         self.log = logging.getLogger("nodepool.NodeLauncher-%s" % node.id)
         self._zk = zk
         self._label = provider_label
-        self._manager = provider_manager
+        self._provider_manager = provider_manager
         self._node = node
         self._retries = retries
         self._image_name = None
         self._requestor = requestor
 
         self._pool = self._label.pool
-        self._provider = self._pool.provider
+        self._provider_config = self._pool.provider
         if self._label.diskimage:
-            self._diskimage = self._provider.diskimages[self._label.diskimage.name]
+            self._diskimage = \
+                self._provider_config.diskimages[self._label.diskimage.name]
         else:
             self._diskimage = None
 
     def logConsole(self, server_id, hostname):
         if not self._label.console_log:
             return
-        console = self._manager.getServerConsole(server_id)
+        console = self._provider_manager.getServerConsole(server_id)
         if console:
             self.log.debug('Console log from hostname %s:' % hostname)
             for line in console.splitlines():
@@ -78,12 +79,12 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         if self._label.diskimage:
             # launch using diskimage
             cloud_image = self._zk.getMostRecentImageUpload(
-                self._diskimage.name, self._provider.name)
+                self._diskimage.name, self._provider_config.name)
 
             if not cloud_image:
                 raise exceptions.LaunchNodepoolException(
                     "Unable to find current cloud image %s in %s" %
-                    (self._diskimage.name, self._provider.name)
+                    (self._diskimage.name, self._provider_config.name)
                 )
 
             config_drive = self._diskimage.config_drive
@@ -107,12 +108,13 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             username = self._label.cloud_image.username
             connection_type = self._label.cloud_image.connection_type
 
-        hostname = self._provider.hostname_format.format(
-            label=self._label, provider=self._provider, node=self._node
+        hostname = self._provider_config.hostname_format.format(
+            label=self._label, provider=self._provider_config, node=self._node
         )
 
         self.log.info("Creating server with hostname %s in %s from image %s "
-                      "for node id: %s" % (hostname, self._provider.name,
+                      "for node id: %s" % (hostname,
+                                           self._provider_config.name,
                                            image_name,
                                            self._node.id))
 
@@ -121,7 +123,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         # because that isn't available in ZooKeeper until after the server is
         # active, which could cause a race in leak detection.
 
-        server = self._manager.createServer(
+        server = self._provider_manager.createServer(
             hostname,
             image=image_external,
             min_ram=self._label.min_ram,
@@ -148,8 +150,8 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
 
         self.log.debug("Waiting for server %s for node id: %s" %
                        (server.id, self._node.id))
-        server = self._manager.waitForServer(
-            server, self._provider.launch_timeout,
+        server = self._provider_manager.waitForServer(
+            server, self._provider_config.launch_timeout,
             auto_ip=self._pool.auto_floating_ip)
 
         if server.status != 'ACTIVE':
@@ -196,7 +198,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         try:
             self.log.debug("Gathering host keys for node %s", self._node.id)
             host_keys = utils.keyscan(
-                interface_ip, timeout=self._provider.boot_timeout)
+                interface_ip, timeout=self._provider_config.boot_timeout)
             if not host_keys:
                 raise exceptions.LaunchKeyscanException(
                     "Unable to gather host keys")
@@ -220,8 +222,10 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
                         attempts, self._retries, self._node.id)
                 # If we created an instance, delete it.
                 if self._node.external_id:
-                    self._manager.cleanupNode(self._node.external_id)
-                    self._manager.waitForNodeCleanup(self._node.external_id)
+                    self._provider_manager.cleanupNode(self._node.external_id)
+                    self._provider_manager.waitForNodeCleanup(
+                        self._node.external_id
+                    )
                     self._node.external_id = None
                     self._node.public_ipv4 = None
                     self._node.public_ipv6 = None
@@ -232,7 +236,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
                 # Invalidate the quota cache if we encountered a quota error.
                 if 'quota exceeded' in str(e).lower():
                     self.log.info("Quota exceeded, invalidating quota cache")
-                    self._manager.invalidateQuotaCache()
+                    self._provider_manager.invalidateQuotaCache()
                 attempts += 1
 
         self._node.state = zk.READY
@@ -261,7 +265,7 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
             self.recordLaunchStats(statsd_key, dt, self._image_name,
                                    self._node.provider, self._node.az,
                                    self._requestor)
-            self.updateNodeStats(self._zk, self._provider)
+            self.updateNodeStats(self._zk, self._provider_config)
         except Exception:
             self.log.exception("Exception while reporting stats:")
 
@@ -279,7 +283,7 @@ class OpenStackNodeLaunchManager(NodeLaunchManager):
         '''
         self._nodes.append(node)
         provider_label = self._pool.labels[node.type]
-        t = NodeLauncher(self._zk, provider_label, self._manager,
+        t = NodeLauncher(self._zk, provider_label, self._provider_manager,
                          self._requestor, node, self._retries)
         t.start()
         self._threads.append(t)
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index aa30507aa..58a1a8257 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -44,12 +44,12 @@ SUSPEND_WAIT_TIME = 30       # How long to wait between checks for ZooKeeper
 class NodeDeleter(threading.Thread, stats.StatsReporter):
     log = logging.getLogger("nodepool.NodeDeleter")
 
-    def __init__(self, zk, manager, node):
+    def __init__(self, zk, provider_manager, node):
         threading.Thread.__init__(self, name='NodeDeleter for %s %s' %
                                   (node.provider, node.external_id))
         stats.StatsReporter.__init__(self)
         self._zk = zk
-        self._manager = manager
+        self._provider_manager = provider_manager
         self._node = node
 
     @staticmethod
@@ -60,8 +60,8 @@ class NodeDeleter(threading.Thread, stats.StatsReporter):
         This is a class method so we can support instantaneous deletes.
 
         :param ZooKeeper zk_conn: A ZooKeeper object to use.
-        :param ProviderManager manager: ProviderManager object to use for
-            deleting the server.
+        :param ProviderManager provider_manager: ProviderManager object to
+            use fo deleting the server.
         :param Node node: A locked Node object that describes the server to
             delete.
         :param bool node_exists: True if the node actually exists in ZooKeeper.
@@ -101,10 +101,10 @@ class NodeDeleter(threading.Thread, stats.StatsReporter):
         else:
             node_exists = True
 
-        self.delete(self._zk, self._manager, self._node, node_exists)
+        self.delete(self._zk, self._provider_manager, self._node, node_exists)
 
         try:
-            self.updateNodeStats(self._zk, self._manager.provider)
+            self.updateNodeStats(self._zk, self._provider_manager.provider)
         except Exception:
             self.log.exception("Exception while reporting stats:")
 
diff --git a/nodepool/tests/test_nodelaunchmanager.py b/nodepool/tests/test_nodelaunchmanager.py
index 7ba659319..fd4b3b8f4 100644
--- a/nodepool/tests/test_nodelaunchmanager.py
+++ b/nodepool/tests/test_nodelaunchmanager.py
@@ -61,7 +61,8 @@ class TestNodeLaunchManager(tests.DBTestCase):
             time.sleep(0)
         self.assertEqual(len(mgr.ready_nodes), 1)
         self.assertEqual(len(mgr.failed_nodes), 0)
-        self.assertEqual(mgr._manager.listNodes()[0]['metadata']['groups'],
+        nodes = mgr._provider_manager.listNodes()
+        self.assertEqual(nodes[0]['metadata']['groups'],
                          'fake-provider,fake-image,fake-label')
 
     @mock.patch('nodepool.driver.openstack.handler.NodeLauncher._launchNode')

From 7d797708403fb7411f23998f39c43c4d065d2969 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Sun, 26 Nov 2017 08:29:40 +0100
Subject: [PATCH 306/309] Do pep8 housekeeping according to zuul rules

The pep8 rules used in nodepool are somewhat broken. In preparation to
use the pep8 ruleset from zuul we need to fix the findings upfront.

Change-Id: I9fb2a80db7671c590cdb8effbd1a1102aaa3aff8
---
 nodepool/builder.py                   | 36 ++++++++++++++++-----------
 nodepool/cmd/nodepoolcmd.py           |  2 +-
 nodepool/driver/__init__.py           |  4 +--
 nodepool/driver/openstack/config.py   |  8 +++---
 nodepool/driver/openstack/handler.py  |  7 +++---
 nodepool/driver/openstack/provider.py |  2 +-
 nodepool/exceptions.py                |  2 ++
 nodepool/launcher.py                  | 32 +++++++++++++-----------
 nodepool/nodeutils.py                 |  5 ++--
 nodepool/stats.py                     | 12 ++++-----
 nodepool/status.py                    |  6 +++--
 nodepool/task_manager.py              |  3 ++-
 nodepool/tests/__init__.py            | 14 +++++------
 nodepool/tests/test_builder.py        |  4 ++-
 nodepool/tests/test_commands.py       |  7 +++---
 nodepool/tests/test_launcher.py       |  9 +++----
 nodepool/tests/test_zk.py             | 20 +++++++++------
 nodepool/zk.py                        | 33 +++++++++++++-----------
 18 files changed, 114 insertions(+), 92 deletions(-)

diff --git a/nodepool/builder.py b/nodepool/builder.py
index a8f2ad8e4..01a90b238 100644
--- a/nodepool/builder.py
+++ b/nodepool/builder.py
@@ -32,9 +32,11 @@ from nodepool import zk
 
 MINS = 60
 HOURS = 60 * MINS
-IMAGE_TIMEOUT = 6 * HOURS    # How long to wait for an image save
-SUSPEND_WAIT_TIME = 30       # How long to wait between checks for
-                             # ZooKeeper connectivity if it disappears.
+# How long to wait for an image save
+IMAGE_TIMEOUT = 6 * HOURS
+
+# How long to wait between checks for ZooKeeper connectivity if it disappears.
+SUSPEND_WAIT_TIME = 30
 
 # HP Cloud requires qemu compat with 0.10. That version works elsewhere,
 # so just hardcode it for all qcow2 building
@@ -151,7 +153,8 @@ class CleanupWorker(BaseWorker):
                  interval, zk):
         super(CleanupWorker, self).__init__(builder_id, config_path,
                                             secure_path, interval, zk)
-        self.log = logging.getLogger("nodepool.builder.CleanupWorker.%s" % name)
+        self.log = logging.getLogger(
+            "nodepool.builder.CleanupWorker.%s" % name)
         self.name = 'CleanupWorker.%s' % name
 
     def _buildUploadRecencyTable(self):
@@ -395,7 +398,8 @@ class CleanupWorker(BaseWorker):
                 self.log.info("Removing failed upload record: %s" % upload)
                 self._zk.deleteUpload(image, build_id, provider, upload.id)
             elif upload.state == zk.DELETING:
-                self.log.info("Removing deleted upload and record: %s" % upload)
+                self.log.info(
+                    "Removing deleted upload and record: %s" % upload)
                 self._deleteUpload(upload)
             elif upload.state == zk.FAILED:
                 self.log.info("Removing failed upload and record: %s" % upload)
@@ -410,7 +414,7 @@ class CleanupWorker(BaseWorker):
         all_builds = self._zk.getBuilds(image)
         builds_to_keep = set([b for b in sorted(all_builds, reverse=True,
                                                 key=lambda y: y.state_time)
-                              if b.state==zk.READY][:2])
+                              if b.state == zk.READY][:2])
         local_builds = set(self._filterLocalBuilds(image, all_builds))
         diskimage = self._config.diskimages.get(image)
         if not diskimage and not local_builds:
@@ -575,7 +579,8 @@ class BuildWorker(BaseWorker):
         if (not builds
             or (now - builds[0].state_time) >= diskimage.rebuild_age
             or not set(builds[0].formats).issuperset(diskimage.image_types)
-        ):
+            ):
+
             try:
                 with self._zk.imageBuildLock(diskimage.name, blocking=False):
                     # To avoid locking each image repeatedly, we have an
@@ -584,7 +589,8 @@ class BuildWorker(BaseWorker):
                     # lock acquisition. If it's not the same build as
                     # identified in the first check above, assume another
                     # BuildWorker created the build for us and continue.
-                    builds2 = self._zk.getMostRecentBuilds(1, diskimage.name, zk.READY)
+                    builds2 = self._zk.getMostRecentBuilds(
+                        1, diskimage.name, zk.READY)
                     if builds2 and builds[0].id != builds2[0].id:
                         return
 
@@ -746,7 +752,8 @@ class BuildWorker(BaseWorker):
             self._zk.resetLostFlag()
             build_data.state = zk.FAILED
         elif p.returncode:
-            self.log.info("DIB failed creating %s (%s)" % (diskimage.name, p.returncode))
+            self.log.info(
+                "DIB failed creating %s (%s)" % (diskimage.name, p.returncode))
             build_data.state = zk.FAILED
         else:
             self.log.info("DIB image %s is built" % diskimage.name)
@@ -756,7 +763,8 @@ class BuildWorker(BaseWorker):
             if self._statsd:
                 # record stats on the size of each image we create
                 for ext in img_types.split(','):
-                    key = 'nodepool.dib_image_build.%s.%s.size' % (diskimage.name, ext)
+                    key = 'nodepool.dib_image_build.%s.%s.size' % (
+                        diskimage.name, ext)
                     # A bit tricky because these image files may be sparse
                     # files; we only want the true size of the file for
                     # purposes of watching if we've added too much stuff
@@ -1101,9 +1109,9 @@ class NodePoolBuilder(object):
         # startup process has completed.
         self._start_lock = threading.Lock()
 
-    #=======================================================================
+    # ======================================================================
     # Private methods
-    #=======================================================================
+    # ======================================================================
 
     def _getBuilderID(self, id_file):
         if not os.path.exists(id_file):
@@ -1126,9 +1134,9 @@ class NodePoolBuilder(object):
             raise RuntimeError('No images-dir specified in config.')
         return config
 
-    #=======================================================================
+    # ======================================================================
     # Public methods
-    #=======================================================================
+    # ======================================================================
 
     def start(self):
         '''
diff --git a/nodepool/cmd/nodepoolcmd.py b/nodepool/cmd/nodepoolcmd.py
index 59f6a7919..a73052380 100755
--- a/nodepool/cmd/nodepoolcmd.py
+++ b/nodepool/cmd/nodepoolcmd.py
@@ -289,7 +289,7 @@ class NodePoolCmd(NodepoolApp):
         validator = ConfigValidator(self.args.config)
         validator.validate()
         log.info("Configuration validation complete")
-        #TODO(asselin,yolanda): add validation of secure.conf
+        # TODO(asselin,yolanda): add validation of secure.conf
 
     def request_list(self):
         print(status.request_list(self.zk))
diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index 256645e06..f6e71c3d5 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -106,9 +106,9 @@ class NodeRequestHandler(object):
             return 0
         return self.launch_manager.alive_thread_count
 
-    #----------------------------------------------------------------
+    # ---------------------------------------------------------------
     # Public methods
-    #----------------------------------------------------------------
+    # ---------------------------------------------------------------
 
     def unlockNodeSet(self, clear_allocation=False):
         '''
diff --git a/nodepool/driver/openstack/config.py b/nodepool/driver/openstack/config.py
index 02b47abdd..cfd0991a0 100644
--- a/nodepool/driver/openstack/config.py
+++ b/nodepool/driver/openstack/config.py
@@ -98,7 +98,7 @@ class OpenStackProviderConfig(ProviderConfig):
 
     def load(self, config):
         if OpenStackProviderConfig.os_client_config is None:
-             OpenStackProviderConfig.os_client_config = \
+            OpenStackProviderConfig.os_client_config = \
                 os_client_config.OpenStackConfig()
         cloud_kwargs = self._cloudKwargs()
         self.cloud_config = self.os_client_config.get_one_cloud(**cloud_kwargs)
@@ -140,7 +140,7 @@ class OpenStackProviderConfig(ProviderConfig):
                    any([len(k) > 255 or len(v) > 255
                         for k, v in i.meta.items()]):
                     # soft-fail
-                    #self.log.error("Invalid metadata for %s; ignored"
+                    # self.log.error("Invalid metadata for %s; ignored"
                     #               % i.name)
                     i.meta = {}
 
@@ -200,7 +200,6 @@ class OpenStackProviderConfig(ProviderConfig):
                 top_label = config.labels[pl.name]
                 top_label.pools.append(pp)
 
-
     def get_schema(self):
         provider_diskimage = {
             'name': str,
@@ -238,7 +237,8 @@ class OpenStackProviderConfig(ProviderConfig):
 
         label_diskimage = v.Schema({v.Required('diskimage'): str}, extra=True)
 
-        label_cloud_image = v.Schema({v.Required('cloud-image'): str}, extra=True)
+        label_cloud_image = v.Schema({v.Required('cloud-image'): str},
+                                     extra=True)
 
         pool_label = v.All(pool_label_main,
                            v.Any(label_min_ram, label_flavor_name),
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 4bfc7839f..1fa98803f 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -61,8 +61,8 @@ class NodeLauncher(threading.Thread, stats.StatsReporter):
         self._pool = self._label.pool
         self._provider_config = self._pool.provider
         if self._label.diskimage:
-            self._diskimage = \
-                self._provider_config.diskimages[self._label.diskimage.name]
+            self._diskimage = self._provider_config.diskimages[
+                self._label.diskimage.name]
         else:
             self._diskimage = None
 
@@ -542,8 +542,7 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         elif not self._imagesAvailable():
             declined_reasons.append('images are not available')
         elif (self.pool.max_servers == 0 or
-              not self._hasProviderQuota(self.request.node_types)
-        ):
+              not self._hasProviderQuota(self.request.node_types)):
             declined_reasons.append('it would exceed quota')
         # TODO(tobiash): Maybe also calculate the quota prediction here and
         # backoff for some seconds if the used quota would be exceeded?
diff --git a/nodepool/driver/openstack/provider.py b/nodepool/driver/openstack/provider.py
index 7fb75f4f2..3ec7265cb 100755
--- a/nodepool/driver/openstack/provider.py
+++ b/nodepool/driver/openstack/provider.py
@@ -465,7 +465,7 @@ class OpenStackProvider(Provider):
         return True
 
     def uploadImage(self, image_name, filename, image_type=None, meta=None,
-            md5=None, sha256=None):
+                    md5=None, sha256=None):
         # configure glance and upload image.  Note the meta flags
         # are provided as custom glance properties
         # NOTE: we have wait=True set here. This is not how we normally
diff --git a/nodepool/exceptions.py b/nodepool/exceptions.py
index 941b59b49..c754e4943 100755
--- a/nodepool/exceptions.py
+++ b/nodepool/exceptions.py
@@ -64,8 +64,10 @@ class ServerDeleteException(TimeoutException):
 class ImageCreateException(TimeoutException):
     statsd_key = 'error.imagetimeout'
 
+
 class ZKException(Exception):
     pass
 
+
 class ZKLockException(ZKException):
     pass
diff --git a/nodepool/launcher.py b/nodepool/launcher.py
index 58a1a8257..da7d79647 100755
--- a/nodepool/launcher.py
+++ b/nodepool/launcher.py
@@ -35,10 +35,14 @@ from nodepool.driver.openstack.handler import OpenStackNodeRequestHandler
 MINS = 60
 HOURS = 60 * MINS
 
-WATERMARK_SLEEP = 10         # Interval between checking if new servers needed
-LOCK_CLEANUP = 8 * HOURS     # When to delete node request lock znodes
-SUSPEND_WAIT_TIME = 30       # How long to wait between checks for ZooKeeper
-                             # connectivity if it disappears.
+# Interval between checking if new servers needed
+WATERMARK_SLEEP = 10
+
+# When to delete node request lock znodes
+LOCK_CLEANUP = 8 * HOURS
+
+# How long to wait between checks for ZooKeeper connectivity if it disappears.
+SUSPEND_WAIT_TIME = 30
 
 
 class NodeDeleter(threading.Thread, stats.StatsReporter):
@@ -137,9 +141,9 @@ class PoolWorker(threading.Thread):
                                          os.getpid(),
                                          self.name)
 
-    #----------------------------------------------------------------
+    # ---------------------------------------------------------------
     # Private methods
-    #----------------------------------------------------------------
+    # ---------------------------------------------------------------
 
     def _get_node_request_handler(self, provider, request):
         if provider.driver.name == 'fake':
@@ -177,8 +181,7 @@ class PoolWorker(threading.Thread):
 
             # Short-circuit for limited request handling
             if (provider.max_concurrency > 0 and
-                active_threads >= provider.max_concurrency
-            ):
+                    active_threads >= provider.max_concurrency):
                 self.log.debug("Request handling limited: %s active threads ",
                                "with max concurrency of %s",
                                active_threads, provider.max_concurrency)
@@ -238,9 +241,9 @@ class PoolWorker(threading.Thread):
         active_reqs = [r.request.id for r in self.request_handlers]
         self.log.debug("Active requests: %s", active_reqs)
 
-    #----------------------------------------------------------------
+    # ---------------------------------------------------------------
     # Public methods
-    #----------------------------------------------------------------
+    # ---------------------------------------------------------------
 
     def activeThreads(self):
         '''
@@ -460,7 +463,7 @@ class CleanupWorker(BaseCleanupWorker):
         for lock_stat in zk.nodeRequestLockStatsIterator():
             if lock_stat.lock_id in requests:
                 continue
-            if (now - lock_stat.stat.mtime/1000) > LOCK_CLEANUP:
+            if (now - lock_stat.stat.mtime / 1000) > LOCK_CLEANUP:
                 zk.deleteNodeRequestLock(lock_stat.lock_id)
 
     def _cleanupLeakedInstances(self):
@@ -604,8 +607,7 @@ class DeletedNodeWorker(BaseCleanupWorker):
             # If a ready node has been allocated to a request, but that
             # request is now missing, deallocate it.
             if (node.state == zk.READY and node.allocated_to
-                and not zk_conn.getNodeRequest(node.allocated_to)
-            ):
+                    and not zk_conn.getNodeRequest(node.allocated_to)):
                 try:
                     zk_conn.lockNode(node, blocking=False)
                 except exceptions.ZKLockException:
@@ -936,13 +938,13 @@ class NodePool(threading.Thread):
                         key = provider.name + '-' + pool.name
                         if key not in self._pool_threads:
                             t = PoolWorker(self, provider.name, pool.name)
-                            self.log.info( "Starting %s" % t.name)
+                            self.log.info("Starting %s" % t.name)
                             t.start()
                             self._pool_threads[key] = t
                         elif not self._pool_threads[key].isAlive():
                             self._pool_threads[key].join()
                             t = PoolWorker(self, provider.name, pool.name)
-                            self.log.info( "Restarting %s" % t.name)
+                            self.log.info("Restarting %s" % t.name)
                             t.start()
                             self._pool_threads[key] = t
             except Exception:
diff --git a/nodepool/nodeutils.py b/nodepool/nodeutils.py
index 1db8de4ce..178ec8e86 100755
--- a/nodepool/nodeutils.py
+++ b/nodepool/nodeutils.py
@@ -29,9 +29,8 @@ from nodepool import exceptions
 
 log = logging.getLogger("nodepool.utils")
 
-
-ITERATE_INTERVAL = 2  # How long to sleep while waiting for something
-                      # in a loop
+# How long to sleep while waiting for something in a loop
+ITERATE_INTERVAL = 2
 
 
 def iterate_timeout(max_seconds, exc, purpose):
diff --git a/nodepool/stats.py b/nodepool/stats.py
index e46e83a57..d733759c7 100755
--- a/nodepool/stats.py
+++ b/nodepool/stats.py
@@ -24,6 +24,7 @@ from nodepool import zk
 
 log = logging.getLogger("nodepool.stats")
 
+
 def get_client():
     """Return a statsd client object setup from environment variables; or
     None if they are not set
@@ -69,7 +70,7 @@ class StatsReporter(object):
             'nodepool.launch.provider.%s.%s' % (provider_name, subkey),
             'nodepool.launch.image.%s.%s' % (image_name, subkey),
             'nodepool.launch.%s' % (subkey,),
-            ]
+        ]
 
         if node_az:
             keys.append('nodepool.launch.provider.%s.%s.%s' %
@@ -87,7 +88,6 @@ class StatsReporter(object):
             self._statsd.timing(key, dt)
             self._statsd.incr(key)
 
-
     def updateNodeStats(self, zk_conn, provider):
         '''
         Refresh statistics for all known nodes.
@@ -108,11 +108,11 @@ class StatsReporter(object):
             states[key] = 0
 
         for node in zk_conn.nodeIterator():
-            #nodepool.nodes.STATE
+            # nodepool.nodes.STATE
             key = 'nodepool.nodes.%s' % node.state
             states[key] += 1
 
-            #nodepool.label.LABEL.nodes.STATE
+            # nodepool.label.LABEL.nodes.STATE
             key = 'nodepool.label.%s.nodes.%s' % (node.type, node.state)
             # It's possible we could see node types that aren't in our config
             if key in states:
@@ -120,7 +120,7 @@ class StatsReporter(object):
             else:
                 states[key] = 1
 
-            #nodepool.provider.PROVIDER.nodes.STATE
+            # nodepool.provider.PROVIDER.nodes.STATE
             key = 'nodepool.provider.%s.nodes.%s' % (node.provider, node.state)
             # It's possible we could see providers that aren't in our config
             if key in states:
@@ -131,7 +131,7 @@ class StatsReporter(object):
         for key, count in states.items():
             self._statsd.gauge(key, count)
 
-        #nodepool.provider.PROVIDER.max_servers
+        # nodepool.provider.PROVIDER.max_servers
         key = 'nodepool.provider.%s.max_servers' % provider.name
         max_servers = sum([p.max_servers for p in provider.pools.values()
                            if p.max_servers])
diff --git a/nodepool/status.py b/nodepool/status.py
index b28898885..07e56db55 100755
--- a/nodepool/status.py
+++ b/nodepool/status.py
@@ -145,15 +145,16 @@ def dib_image_list_json(zk):
     for image_name in zk.getImageNames():
         for build_no in zk.getBuildNumbers(image_name):
             build = zk.getBuild(image_name, build_no)
-            objs.append({'id' : '-'.join([image_name, build_no]),
+            objs.append({'id': '-'.join([image_name, build_no]),
                          'image': image_name,
                          'builder': build.builder,
                          'formats': build.formats,
                          'state': build.state,
                          'age': int(build.state_time)
-            })
+                         })
     return json.dumps(objs)
 
+
 def image_list(zk):
     t = PrettyTable(["Build ID", "Upload ID", "Provider", "Image",
                      "Provider Image Name", "Provider Image ID", "State",
@@ -173,6 +174,7 @@ def image_list(zk):
                                age(upload.state_time)])
     return str(t)
 
+
 def request_list(zk):
     t = PrettyTable(["Request ID", "State", "Requestor", "Node Types", "Nodes",
                      "Declined By"])
diff --git a/nodepool/task_manager.py b/nodepool/task_manager.py
index 7f795dd9c..95c493bea 100644
--- a/nodepool/task_manager.py
+++ b/nodepool/task_manager.py
@@ -26,6 +26,7 @@ import requests.exceptions
 
 from nodepool import stats
 
+
 class ManagerStoppedException(Exception):
     pass
 
@@ -106,7 +107,7 @@ class TaskManager(threading.Thread):
                 self.log.debug("Manager %s ran task %s in %ss" %
                                (self.name, type(task).__name__, dt))
                 if self.statsd:
-                    #nodepool.task.PROVIDER.subkey
+                    # nodepool.task.PROVIDER.subkey
                     subkey = type(task).__name__
                     key = 'nodepool.task.%s.%s' % (self.name, subkey)
                     self.statsd.timing(key, int(dt * 1000))
diff --git a/nodepool/tests/__init__.py b/nodepool/tests/__init__.py
index 77aad1293..97068e988 100644
--- a/nodepool/tests/__init__.py
+++ b/nodepool/tests/__init__.py
@@ -163,10 +163,10 @@ class BaseTestCase(testtools.TestCase):
             logging.basicConfig(level=logging.DEBUG)
         l = logging.getLogger('kazoo')
         l.setLevel(logging.INFO)
-        l.propagate=False
+        l.propagate = False
         l = logging.getLogger('stevedore')
         l.setLevel(logging.INFO)
-        l.propagate=False
+        l.propagate = False
         self.useFixture(fixtures.NestedTempfile())
 
         self.subprocesses = []
@@ -292,9 +292,9 @@ class DBTestCase(BaseTestCase):
         with open(configfile, 'rb') as conf_fd:
             config = conf_fd.read().decode('utf8')
             data = config.format(images_dir=images_dir.path,
-                                       zookeeper_host=self.zookeeper_host,
-                                       zookeeper_port=self.zookeeper_port,
-                                       zookeeper_chroot=self.zookeeper_chroot)
+                                 zookeeper_host=self.zookeeper_host,
+                                 zookeeper_port=self.zookeeper_port,
+                                 zookeeper_chroot=self.zookeeper_chroot)
             os.write(fd, data.encode('utf8'))
         os.close(fd)
         self._config_images_dir = images_dir
@@ -500,8 +500,8 @@ class DBTestCase(BaseTestCase):
     def printZKTree(self, node):
         def join(a, b):
             if a.endswith('/'):
-                return a+b
-            return a+'/'+b
+                return a + b
+            return a + '/' + b
 
         data, stat = self.zk.client.get(node)
         self.log.debug("Node: %s" % (node,))
diff --git a/nodepool/tests/test_builder.py b/nodepool/tests/test_builder.py
index 6547d7b0d..9e4deb942 100644
--- a/nodepool/tests/test_builder.py
+++ b/nodepool/tests/test_builder.py
@@ -86,6 +86,7 @@ class TestNodepoolBuilderDibImage(tests.BaseTestCase):
         image = builder.DibImageFile('myid1234')
         self.assertRaises(exceptions.BuilderError, image.to_path, '/imagedir/')
 
+
 class TestNodePoolBuilder(tests.DBTestCase):
 
     def test_start_stop(self):
@@ -155,7 +156,8 @@ class TestNodePoolBuilder(tests.DBTestCase):
         image = self.zk.getMostRecentImageUpload('fake-provider', 'fake-image')
         self.replace_config(configfile, 'node_two_provider_remove.yaml')
         self.waitForImageDeletion('fake-provider2', 'fake-image')
-        image2 = self.zk.getMostRecentImageUpload('fake-provider', 'fake-image')
+        image2 = self.zk.getMostRecentImageUpload('fake-provider',
+                                                  'fake-image')
         self.assertEqual(image, image2)
 
     def test_image_addition(self):
diff --git a/nodepool/tests/test_commands.py b/nodepool/tests/test_commands.py
index fe7829bed..037916887 100644
--- a/nodepool/tests/test_commands.py
+++ b/nodepool/tests/test_commands.py
@@ -52,7 +52,8 @@ class TestNodepoolCMD(tests.DBTestCase):
             self.assertEquals(rows_with_val, count)
 
     def assert_alien_images_listed(self, configfile, image_cnt, image_id):
-        self.assert_listed(configfile, ['alien-image-list'], 2, image_id, image_cnt)
+        self.assert_listed(configfile, ['alien-image-list'], 2, image_id,
+                           image_cnt)
 
     def assert_alien_images_empty(self, configfile):
         self.assert_alien_images_listed(configfile, 0, 0)
@@ -245,7 +246,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
-        self.waitForImage( 'fake-provider', 'fake-image')
+        self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
         self.assertEqual(len(nodes), 1)
 
@@ -282,7 +283,7 @@ class TestNodepoolCMD(tests.DBTestCase):
         pool = self.useNodepool(configfile, watermark_sleep=1)
         self._useBuilder(configfile)
         pool.start()
-        self.waitForImage( 'fake-provider', 'fake-image')
+        self.waitForImage('fake-provider', 'fake-image')
         nodes = self.waitForNodes('fake-label')
         self.assertEqual(len(nodes), 1)
 
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index b1fef76ed..317625e45 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -256,8 +256,7 @@ class TestLauncher(tests.DBTestCase):
         self._test_node_assignment_at_quota(config='node_quota_cloud.yaml',
                                             max_cores=math.inf,
                                             max_instances=math.inf,
-                                            max_ram=2*8192)
-
+                                            max_ram=2 * 8192)
 
     @mock.patch('nodepool.driver.fake.provider.get_fake_quota')
     def test_over_quota(self, mock_quota,
@@ -268,9 +267,9 @@ class TestLauncher(tests.DBTestCase):
 
         '''
         # Start with an instance quota of 2
-        max_cores=math.inf
-        max_instances=2
-        max_ram=math.inf
+        max_cores = math.inf
+        max_instances = 2
+        max_ram = math.inf
 
         # patch the cloud with requested quota
         mock_quota.return_value = (max_cores, max_instances, max_ram)
diff --git a/nodepool/tests/test_zk.py b/nodepool/tests/test_zk.py
index 2ebb526f7..d24125303 100644
--- a/nodepool/tests/test_zk.py
+++ b/nodepool/tests/test_zk.py
@@ -104,7 +104,8 @@ class TestZooKeeper(tests.DBTestCase):
             with testtools.ExpectedException(
                 npe.ZKLockException, "Did not get lock on .*"
             ):
-                with self.zk.imageUploadLock(image, bnum, prov, blocking=False):
+                with self.zk.imageUploadLock(image, bnum, prov,
+                                             blocking=False):
                     pass
 
     def test_imageUploadLock_exception_blocking(self):
@@ -254,7 +255,8 @@ class TestZooKeeper(tests.DBTestCase):
         self.zk.storeImageUpload(image, bnum, provider, up3)
 
         # up2 should be the most recent 'ready' upload
-        data = self.zk.getMostRecentBuildImageUploads(1, image, bnum, provider, zk.READY)
+        data = self.zk.getMostRecentBuildImageUploads(
+            1, image, bnum, provider, zk.READY)
         self.assertNotEqual([], data)
         self.assertEqual(1, len(data))
         self.assertEqual(data[0].id, up2_id)
@@ -278,7 +280,8 @@ class TestZooKeeper(tests.DBTestCase):
         up3_id = self.zk.storeImageUpload(image, bnum, provider, up3)
 
         # up3 should be the most recent upload, regardless of state
-        data = self.zk.getMostRecentBuildImageUploads(1, image, bnum, provider, None)
+        data = self.zk.getMostRecentBuildImageUploads(
+            1, image, bnum, provider, None)
         self.assertNotEqual([], data)
         self.assertEqual(1, len(data))
         self.assertEqual(data[0].id, up3_id)
@@ -860,11 +863,11 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(o.image_id, d['image_id'])
         self.assertEqual(o.launcher, d['launcher'])
         self.assertEqual(o.external_id, d['external_id'])
-        self.assertEqual(o.hostname , d['hostname'])
-        self.assertEqual(o.comment , d['comment'])
+        self.assertEqual(o.hostname, d['hostname'])
+        self.assertEqual(o.comment, d['comment'])
         self.assertEqual(o.hold_job, d['hold_job'])
-        self.assertEqual(o.host_keys , d['host_keys'])
-        self.assertEqual(o.connection_port , d['connection_port'])
+        self.assertEqual(o.host_keys, d['host_keys'])
+        self.assertEqual(o.connection_port, d['connection_port'])
 
     def test_custom_connection_port(self):
         n = zk.Node('0001')
@@ -875,4 +878,5 @@ class TestZKModel(tests.BaseTestCase):
         self.assertEqual(n.connection_port, 22, "Default port not 22")
         n.connection_port = 22022
         d = n.toDict()
-        self.assertEqual(d["connection_port"], 22022, "Custom ssh port not set")
+        self.assertEqual(d["connection_port"], 22022,
+                         "Custom ssh port not set")
diff --git a/nodepool/zk.py b/nodepool/zk.py
index 51e54f769..ca894cd16 100755
--- a/nodepool/zk.py
+++ b/nodepool/zk.py
@@ -583,9 +583,9 @@ class ZooKeeper(object):
         self.client = None
         self._became_lost = False
 
-    #========================================================================
+    # =======================================================================
     # Private Methods
-    #========================================================================
+    # =======================================================================
 
     def _imagePath(self, image):
         return "%s/%s" % (self.IMAGE_ROOT, image)
@@ -709,10 +709,9 @@ class ZooKeeper(object):
         else:
             self.log.debug("ZooKeeper connection: CONNECTED")
 
-
-    #========================================================================
+    # =======================================================================
     # Public Methods and Properties
-    #========================================================================
+    # =======================================================================
 
     @property
     def connected(self):
@@ -1065,9 +1064,11 @@ class ZooKeeper(object):
         except kze.NoNodeError:
             return None
 
-        d = ImageUpload.fromDict(
-            self._bytesToDict(data), build_number, provider, image, upload_number
-        )
+        d = ImageUpload.fromDict(self._bytesToDict(data),
+                                 build_number,
+                                 provider,
+                                 image,
+                                 upload_number)
         d.stat = stat
         return d
 
@@ -1158,7 +1159,8 @@ class ZooKeeper(object):
             for upload in uploads:
                 if upload == 'lock':   # skip the upload lock node
                     continue
-                data = self.getImageUpload(image, build_number, provider, upload)
+                data = self.getImageUpload(
+                    image, build_number, provider, upload)
                 if not data or data.state != state:
                     continue
                 elif (recent_data is None or
@@ -1201,7 +1203,8 @@ class ZooKeeper(object):
         # Generate a path for the upload. This doesn't have to exist yet
         # since we'll create new provider/upload ID znodes automatically.
         # Append trailing / so the sequence node is created as a child node.
-        upload_path = self._imageUploadPath(image, build_number, provider) + "/"
+        upload_path = self._imageUploadPath(
+            image, build_number, provider) + "/"
 
         if upload_number is None:
             path = self.client.create(
@@ -1268,8 +1271,8 @@ class ZooKeeper(object):
 
         # Verify that no upload znodes exist.
         for prov in self.getBuildProviders(image, build_number):
-             if self.getImageUploadNumbers(image, build_number, prov):
-                 return False
+            if self.getImageUploadNumbers(image, build_number, prov):
+                return False
 
         try:
             # NOTE: Need to do recursively to remove lock znodes
@@ -1486,7 +1489,8 @@ class ZooKeeper(object):
         :raises: ZKLockException if the request is not currently locked.
         '''
         if request.lock is None:
-            raise npe.ZKLockException("Request %s does not hold a lock" % request)
+            raise npe.ZKLockException(
+                "Request %s does not hold a lock" % request)
         request.lock.release()
         request.lock = None
 
@@ -1630,8 +1634,7 @@ class ZooKeeper(object):
         ret = {}
         for node in self.nodeIterator():
             if (node.state == READY and
-                not node.allocated_to and node.type in labels
-            ):
+                    not node.allocated_to and node.type in labels):
                 if node.type not in ret:
                     ret[node.type] = []
                 ret[node.type].append(node)

From 924caa94963b2d89ee23bb2b3dd7b47930095613 Mon Sep 17 00:00:00 2001
From: Tobias Henkel <tobias.henkel@bmw.de>
Date: Thu, 5 Oct 2017 10:31:21 +0200
Subject: [PATCH 307/309] Use same flake8 config as in zuul

Currently the flake8 config seems to be broken as only H231, H233 and
F are selected but nothing from the formatting checks (E). I think we
should use the same set as in zuul.

Change-Id: Ifd48129386d42e87be8326358d43fc1c0d8b0eac
---
 tox.ini | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tox.ini b/tox.ini
index 49502aad0..91133dca1 100644
--- a/tox.ini
+++ b/tox.ini
@@ -43,7 +43,8 @@ basepython = python3
 commands = {posargs}
 
 [flake8]
-ignore = E123,E125,H
-select = H231,H233,F
+# These are ignored intentionally in openstack-infra projects;
+# please don't submit patches that solely correct them or enable them.
+ignore = E124,E125,E129,E402,H,W503
 show-source = True
 exclude = .venv,.tox,dist,doc,build,*.egg

From c4d047ab21f2c30eb1ef0d7597a326d0cfd7e938 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Sat, 13 Jan 2018 14:32:47 -0800
Subject: [PATCH 308/309] Only fail requests if no cloud can service them

Previously if we had cloud errors when attempting to handle a request in
a particular cloud we treated that node request as failed even if other
clouds had still not attempted to fulfill the request. This is
problematic because clouds have outages and this is the reason nodepool
supports speaking to more than one cloud at a time.

We fix this by only marking the request failed if all other providers
have attempted to fulfill it. Otherwise we put it back in the requested
state and let other providers have a go.

Change-Id: I519cdd2401f77cad97d60329e207dddafc8cd5a4
---
 nodepool/driver/__init__.py          | 27 +++++++++++++++------------
 nodepool/driver/openstack/handler.py | 11 +----------
 2 files changed, 16 insertions(+), 22 deletions(-)

diff --git a/nodepool/driver/__init__.py b/nodepool/driver/__init__.py
index f6e71c3d5..982eb3d6c 100644
--- a/nodepool/driver/__init__.py
+++ b/nodepool/driver/__init__.py
@@ -134,6 +134,17 @@ class NodeRequestHandler(object):
 
         self.nodeset = []
 
+    def decline_request(self):
+        self.request.declined_by.append(self.launcher_id)
+        launchers = set(self.zk.getRegisteredLaunchers())
+        if launchers.issubset(set(self.request.declined_by)):
+            # All launchers have declined it
+            self.log.debug("Failing declined node request %s",
+                           self.request.id)
+            self.request.state = zk.FAILED
+        else:
+            self.request.state = zk.REQUESTED
+
     def run(self):
         '''
         Execute node request handling.
@@ -147,10 +158,10 @@ class NodeRequestHandler(object):
             self.run_handler()
         except Exception:
             self.log.exception(
-                "Exception in NodeRequestHandler for request %s:",
-                self.request.id)
+                "Declining node request %s due to exception in "
+                "NodeRequestHandler:", self.request.id)
+            self.decline_request()
             self.unlockNodeSet(clear_allocation=True)
-            self.request.state = zk.FAILED
             self.zk.storeNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)
             self.done = True
@@ -196,15 +207,7 @@ class NodeRequestHandler(object):
         if self.launch_manager.failed_nodes:
             self.log.debug("Declining node request %s because nodes failed",
                            self.request.id)
-            self.request.declined_by.append(self.launcher_id)
-            launchers = set(self.zk.getRegisteredLaunchers())
-            if launchers.issubset(set(self.request.declined_by)):
-                # All launchers have declined it
-                self.log.debug("Failing declined node request %s",
-                               self.request.id)
-                self.request.state = zk.FAILED
-            else:
-                self.request.state = zk.REQUESTED
+            self.decline_request()
         else:
             # The assigned nodes must be added to the request in the order
             # in which they were requested.
diff --git a/nodepool/driver/openstack/handler.py b/nodepool/driver/openstack/handler.py
index 1fa98803f..83db37634 100644
--- a/nodepool/driver/openstack/handler.py
+++ b/nodepool/driver/openstack/handler.py
@@ -563,22 +563,13 @@ class OpenStackNodeRequestHandler(NodeRequestHandler):
         if declined_reasons:
             self.log.debug("Declining node request %s because %s",
                            self.request.id, ', '.join(declined_reasons))
-            self.request.declined_by.append(self.launcher_id)
-            launchers = set(self.zk.getRegisteredLaunchers())
-            if launchers.issubset(set(self.request.declined_by)):
-                self.log.debug("Failing declined node request %s",
-                               self.request.id)
-                # All launchers have declined it
-                self.request.state = zk.FAILED
+            self.decline_request()
             self.unlockNodeSet(clear_allocation=True)
 
             # If conditions have changed for a paused request to now cause us
             # to decline it, we need to unpause so we don't keep trying it
             if self.paused:
                 self.paused = False
-                # If we didn't mark the request as failed above, reset it.
-                if self.request.state != zk.FAILED:
-                    self.request.state = zk.REQUESTED
 
             self.zk.storeNodeRequest(self.request)
             self.zk.unlockNodeRequest(self.request)

From d0725ed3985dba4331af287e505cbe16050c33b7 Mon Sep 17 00:00:00 2001
From: Clark Boylan <clark.boylan@gmail.com>
Date: Mon, 15 Jan 2018 11:08:57 -0800
Subject: [PATCH 309/309] Add test_launcher test

The aim of this test is to test that one provider handler being in
failure mode due to something liek a cloud disappearing doesn't fail
node requests as long as other providers are able to service the
request.

Change-Id: Ia009ac0d16d311d3006f5910ad981900a264a9a8
---
 .../fixtures/launcher_two_provider_max_1.yaml |  63 +++++++++++
 nodepool/tests/test_launcher.py               | 100 ++++++++++++++++++
 2 files changed, 163 insertions(+)
 create mode 100644 nodepool/tests/fixtures/launcher_two_provider_max_1.yaml

diff --git a/nodepool/tests/fixtures/launcher_two_provider_max_1.yaml b/nodepool/tests/fixtures/launcher_two_provider_max_1.yaml
new file mode 100644
index 000000000..2b8147a86
--- /dev/null
+++ b/nodepool/tests/fixtures/launcher_two_provider_max_1.yaml
@@ -0,0 +1,63 @@
+elements-dir: .
+images-dir: '{images_dir}'
+
+zookeeper-servers:
+  - host: {zookeeper_host}
+    port: {zookeeper_port}
+    chroot: {zookeeper_chroot}
+
+labels:
+  - name: fake-label
+    min-ready: 0
+  - name: fake-label2
+    min-ready: 0
+  - name: fake-label3
+    min-ready: 0
+
+providers:
+  - name: fake-provider
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 1
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+          - name: fake-label2
+            diskimage: fake-image
+            min-ram: 8192
+  - name: fake-provider2
+    cloud: fake
+    driver: fake
+    region-name: fake-region
+    rate: 0.0001
+    diskimages:
+      - name: fake-image
+    pools:
+      - name: main
+        max-servers: 1
+        labels:
+          - name: fake-label
+            diskimage: fake-image
+            min-ram: 8192
+          - name: fake-label3
+            diskimage: fake-image
+            min-ram: 8192
+
+diskimages:
+  - name: fake-image
+    elements:
+      - fedora
+      - vm
+    release: 21
+    env-vars:
+      TMPDIR: /opt/dib_tmp
+      DIB_IMAGE_CACHE: /opt/dib_cache
+      DIB_CLOUD_IMAGES: http://download.fedoraproject.org/pub/fedora/linux/releases/test/21-Beta/Cloud/Images/x86_64/
+      BASE_IMAGE_FILE: Fedora-Cloud-Base-20141029-21_Beta.x86_64.qcow2
diff --git a/nodepool/tests/test_launcher.py b/nodepool/tests/test_launcher.py
index 9d65e25ef..77f19ff50 100644
--- a/nodepool/tests/test_launcher.py
+++ b/nodepool/tests/test_launcher.py
@@ -903,3 +903,103 @@ class TestLauncher(tests.DBTestCase):
         # wait longer than our watermark_sleep time for the config to change
         time.sleep(1)
         self.assertEqual(1, len(pool._pool_threads))
+
+    def test_failed_provider(self):
+        """Test that broken provider doesn't fail node requests."""
+        configfile = self.setup_config('launcher_two_provider_max_1.yaml')
+        self.useBuilder(configfile)
+        pool = self.useNodepool(configfile, watermark_sleep=.5)
+        pool.start()
+        self.wait_for_config(pool)
+
+        # Steady state at images available.
+        self.waitForImage('fake-provider', 'fake-image')
+        self.waitForImage('fake-provider2', 'fake-image')
+        # We have now reached steady state and can manipulate the system to
+        # test failing cloud behavior.
+
+        # Make two requests so that the next requests are paused.
+        # Note we use different provider specific labels here to avoid
+        # a race where a single provider fulfills both of these initial
+        # requests.
+        req = zk.NodeRequest()
+        req.state = zk.REQUESTED
+        # fake-provider
+        req.node_types.append('fake-label2')
+        self.zk.storeNodeRequest(req)
+        req = self.waitForNodeRequest(req, zk.FULFILLED)
+        req = zk.NodeRequest()
+        req.state = zk.REQUESTED
+        # fake-provider2
+        req.node_types.append('fake-label3')
+        self.zk.storeNodeRequest(req)
+        req = self.waitForNodeRequest(req, zk.FULFILLED)
+        nodes = map(pool.zk.getNode, pool.zk.getNodes())
+        provider1_first = None
+        provider2_first = None
+        for node in nodes:
+            if node.provider == 'fake-provider2':
+                provider2_first = node
+            elif node.provider == 'fake-provider':
+                provider1_first = node
+
+        # Next two requests will go pending one for each provider.
+        req1 = zk.NodeRequest()
+        req1.state = zk.REQUESTED
+        req1.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req1)
+        req1 = self.waitForNodeRequest(req1, zk.PENDING)
+
+        req2 = zk.NodeRequest()
+        req2.state = zk.REQUESTED
+        req2.node_types.append('fake-label')
+        self.zk.storeNodeRequest(req2)
+        req2 = self.waitForNodeRequest(req2, zk.PENDING)
+
+        # Delete node attached to provider2 this will cause provider2 to
+        # fulfill the request it had pending.
+        self.zk.deleteNode(provider2_first)
+
+        while True:
+            # Wait for provider2 node to be created. Also find the request
+            # that was not fulfilled. This is the request that fake-provider
+            # is pending on.
+            req = self.zk.getNodeRequest(req1.id)
+            if req.state == zk.FULFILLED:
+                final_req = req2
+                break
+            req = self.zk.getNodeRequest(req2.id)
+            if req.state == zk.FULFILLED:
+                final_req = req1
+                break
+
+        provider2_second = None
+        nodes = map(pool.zk.getNode, pool.zk.getNodes())
+        for node in nodes:
+            if node.provider == 'fake-provider2':
+                provider2_second = node
+
+        # Now delete the new node we had provider2 build. At this point
+        # The only provider with any requests is fake-provider.
+        self.zk.deleteNode(provider2_second)
+
+        # Set provider1 run_handler to throw exception to simulate a
+        # broken cloud. Note the pool worker instantiates request handlers on
+        # demand which is why we have a somewhat convoluted monkey patch here.
+        # We must patch deep enough in the request handler that
+        # despite being paused fake-provider will still trip over this code.
+        pool_worker = pool.getPoolWorkers('fake-provider')[0]
+        request_handler = pool_worker.request_handlers[0]
+
+        def raise_KeyError(self, node):
+            raise KeyError('fake-provider')
+
+        request_handler.launch_manager.launch = raise_KeyError
+        # Delete instance in fake-provider. This should cause provider2
+        # to service the request that was held pending by fake-provider.
+        self.zk.deleteNode(provider1_first)
+        # Request is fulfilled by provider 2
+        req = self.waitForNodeRequest(final_req)
+        self.assertEqual(req.state, zk.FULFILLED)
+        self.assertEqual(1, len(req.declined_by))
+        self.assertIn('fake-provider-main', req.declined_by[0])