Small improvements for cluster verify
[ganeti-local] / lib / config.py
1 #
2 #
3
4 # Copyright (C) 2006, 2007, 2008, 2009, 2010, 2011 Google Inc.
5 #
6 # This program is free software; you can redistribute it and/or modify
7 # it under the terms of the GNU General Public License as published by
8 # the Free Software Foundation; either version 2 of the License, or
9 # (at your option) any later version.
10 #
11 # This program is distributed in the hope that it will be useful, but
12 # WITHOUT ANY WARRANTY; without even the implied warranty of
13 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14 # General Public License for more details.
15 #
16 # You should have received a copy of the GNU General Public License
17 # along with this program; if not, write to the Free Software
18 # Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
19 # 02110-1301, USA.
20
21
22 """Configuration management for Ganeti
23
24 This module provides the interface to the Ganeti cluster configuration.
25
26 The configuration data is stored on every node but is updated on the master
27 only. After each update, the master distributes the data to the other nodes.
28
29 Currently, the data storage format is JSON. YAML was slow and consuming too
30 much memory.
31
32 """
33
34 # pylint: disable-msg=R0904
35 # R0904: Too many public methods
36
37 import os
38 import random
39 import logging
40 import time
41
42 from ganeti import errors
43 from ganeti import locking
44 from ganeti import utils
45 from ganeti import constants
46 from ganeti import rpc
47 from ganeti import objects
48 from ganeti import serializer
49 from ganeti import uidpool
50 from ganeti import netutils
51 from ganeti import runtime
52
53
54 _config_lock = locking.SharedLock("ConfigWriter")
55
56 # job id used for resource management at config upgrade time
57 _UPGRADE_CONFIG_JID = "jid-cfg-upgrade"
58
59
60 def _ValidateConfig(data):
61   """Verifies that a configuration objects looks valid.
62
63   This only verifies the version of the configuration.
64
65   @raise errors.ConfigurationError: if the version differs from what
66       we expect
67
68   """
69   if data.version != constants.CONFIG_VERSION:
70     raise errors.ConfigVersionMismatch(constants.CONFIG_VERSION, data.version)
71
72
73 class TemporaryReservationManager:
74   """A temporary resource reservation manager.
75
76   This is used to reserve resources in a job, before using them, making sure
77   other jobs cannot get them in the meantime.
78
79   """
80   def __init__(self):
81     self._ec_reserved = {}
82
83   def Reserved(self, resource):
84     for holder_reserved in self._ec_reserved.values():
85       if resource in holder_reserved:
86         return True
87     return False
88
89   def Reserve(self, ec_id, resource):
90     if self.Reserved(resource):
91       raise errors.ReservationError("Duplicate reservation for resource '%s'"
92                                     % str(resource))
93     if ec_id not in self._ec_reserved:
94       self._ec_reserved[ec_id] = set([resource])
95     else:
96       self._ec_reserved[ec_id].add(resource)
97
98   def DropECReservations(self, ec_id):
99     if ec_id in self._ec_reserved:
100       del self._ec_reserved[ec_id]
101
102   def GetReserved(self):
103     all_reserved = set()
104     for holder_reserved in self._ec_reserved.values():
105       all_reserved.update(holder_reserved)
106     return all_reserved
107
108   def Generate(self, existing, generate_one_fn, ec_id):
109     """Generate a new resource of this type
110
111     """
112     assert callable(generate_one_fn)
113
114     all_elems = self.GetReserved()
115     all_elems.update(existing)
116     retries = 64
117     while retries > 0:
118       new_resource = generate_one_fn()
119       if new_resource is not None and new_resource not in all_elems:
120         break
121     else:
122       raise errors.ConfigurationError("Not able generate new resource"
123                                       " (last tried: %s)" % new_resource)
124     self.Reserve(ec_id, new_resource)
125     return new_resource
126
127
128 def _MatchNameComponentIgnoreCase(short_name, names):
129   """Wrapper around L{utils.text.MatchNameComponent}.
130
131   """
132   return utils.MatchNameComponent(short_name, names, case_sensitive=False)
133
134
135 class ConfigWriter:
136   """The interface to the cluster configuration.
137
138   @ivar _temporary_lvs: reservation manager for temporary LVs
139   @ivar _all_rms: a list of all temporary reservation managers
140
141   """
142   def __init__(self, cfg_file=None, offline=False, _getents=runtime.GetEnts,
143                accept_foreign=False):
144     self.write_count = 0
145     self._lock = _config_lock
146     self._config_data = None
147     self._offline = offline
148     if cfg_file is None:
149       self._cfg_file = constants.CLUSTER_CONF_FILE
150     else:
151       self._cfg_file = cfg_file
152     self._getents = _getents
153     self._temporary_ids = TemporaryReservationManager()
154     self._temporary_drbds = {}
155     self._temporary_macs = TemporaryReservationManager()
156     self._temporary_secrets = TemporaryReservationManager()
157     self._temporary_lvs = TemporaryReservationManager()
158     self._all_rms = [self._temporary_ids, self._temporary_macs,
159                      self._temporary_secrets, self._temporary_lvs]
160     # Note: in order to prevent errors when resolving our name in
161     # _DistributeConfig, we compute it here once and reuse it; it's
162     # better to raise an error before starting to modify the config
163     # file than after it was modified
164     self._my_hostname = netutils.Hostname.GetSysName()
165     self._last_cluster_serial = -1
166     self._cfg_id = None
167     self._OpenConfig(accept_foreign)
168
169   # this method needs to be static, so that we can call it on the class
170   @staticmethod
171   def IsCluster():
172     """Check if the cluster is configured.
173
174     """
175     return os.path.exists(constants.CLUSTER_CONF_FILE)
176
177   def _GenerateOneMAC(self):
178     """Generate one mac address
179
180     """
181     prefix = self._config_data.cluster.mac_prefix
182     byte1 = random.randrange(0, 256)
183     byte2 = random.randrange(0, 256)
184     byte3 = random.randrange(0, 256)
185     mac = "%s:%02x:%02x:%02x" % (prefix, byte1, byte2, byte3)
186     return mac
187
188   @locking.ssynchronized(_config_lock, shared=1)
189   def GetNdParams(self, node):
190     """Get the node params populated with cluster defaults.
191
192     @type node: L{objects.Node}
193     @param node: The node we want to know the params for
194     @return: A dict with the filled in node params
195
196     """
197     nodegroup = self._UnlockedGetNodeGroup(node.group)
198     return self._config_data.cluster.FillND(node, nodegroup)
199
200   @locking.ssynchronized(_config_lock, shared=1)
201   def GenerateMAC(self, ec_id):
202     """Generate a MAC for an instance.
203
204     This should check the current instances for duplicates.
205
206     """
207     existing = self._AllMACs()
208     return self._temporary_ids.Generate(existing, self._GenerateOneMAC, ec_id)
209
210   @locking.ssynchronized(_config_lock, shared=1)
211   def ReserveMAC(self, mac, ec_id):
212     """Reserve a MAC for an instance.
213
214     This only checks instances managed by this cluster, it does not
215     check for potential collisions elsewhere.
216
217     """
218     all_macs = self._AllMACs()
219     if mac in all_macs:
220       raise errors.ReservationError("mac already in use")
221     else:
222       self._temporary_macs.Reserve(ec_id, mac)
223
224   @locking.ssynchronized(_config_lock, shared=1)
225   def ReserveLV(self, lv_name, ec_id):
226     """Reserve an VG/LV pair for an instance.
227
228     @type lv_name: string
229     @param lv_name: the logical volume name to reserve
230
231     """
232     all_lvs = self._AllLVs()
233     if lv_name in all_lvs:
234       raise errors.ReservationError("LV already in use")
235     else:
236       self._temporary_lvs.Reserve(ec_id, lv_name)
237
238   @locking.ssynchronized(_config_lock, shared=1)
239   def GenerateDRBDSecret(self, ec_id):
240     """Generate a DRBD secret.
241
242     This checks the current disks for duplicates.
243
244     """
245     return self._temporary_secrets.Generate(self._AllDRBDSecrets(),
246                                             utils.GenerateSecret,
247                                             ec_id)
248
249   def _AllLVs(self):
250     """Compute the list of all LVs.
251
252     """
253     lvnames = set()
254     for instance in self._config_data.instances.values():
255       node_data = instance.MapLVsByNode()
256       for lv_list in node_data.values():
257         lvnames.update(lv_list)
258     return lvnames
259
260   def _AllIDs(self, include_temporary):
261     """Compute the list of all UUIDs and names we have.
262
263     @type include_temporary: boolean
264     @param include_temporary: whether to include the _temporary_ids set
265     @rtype: set
266     @return: a set of IDs
267
268     """
269     existing = set()
270     if include_temporary:
271       existing.update(self._temporary_ids.GetReserved())
272     existing.update(self._AllLVs())
273     existing.update(self._config_data.instances.keys())
274     existing.update(self._config_data.nodes.keys())
275     existing.update([i.uuid for i in self._AllUUIDObjects() if i.uuid])
276     return existing
277
278   def _GenerateUniqueID(self, ec_id):
279     """Generate an unique UUID.
280
281     This checks the current node, instances and disk names for
282     duplicates.
283
284     @rtype: string
285     @return: the unique id
286
287     """
288     existing = self._AllIDs(include_temporary=False)
289     return self._temporary_ids.Generate(existing, utils.NewUUID, ec_id)
290
291   @locking.ssynchronized(_config_lock, shared=1)
292   def GenerateUniqueID(self, ec_id):
293     """Generate an unique ID.
294
295     This is just a wrapper over the unlocked version.
296
297     @type ec_id: string
298     @param ec_id: unique id for the job to reserve the id to
299
300     """
301     return self._GenerateUniqueID(ec_id)
302
303   def _AllMACs(self):
304     """Return all MACs present in the config.
305
306     @rtype: list
307     @return: the list of all MACs
308
309     """
310     result = []
311     for instance in self._config_data.instances.values():
312       for nic in instance.nics:
313         result.append(nic.mac)
314
315     return result
316
317   def _AllDRBDSecrets(self):
318     """Return all DRBD secrets present in the config.
319
320     @rtype: list
321     @return: the list of all DRBD secrets
322
323     """
324     def helper(disk, result):
325       """Recursively gather secrets from this disk."""
326       if disk.dev_type == constants.DT_DRBD8:
327         result.append(disk.logical_id[5])
328       if disk.children:
329         for child in disk.children:
330           helper(child, result)
331
332     result = []
333     for instance in self._config_data.instances.values():
334       for disk in instance.disks:
335         helper(disk, result)
336
337     return result
338
339   def _CheckDiskIDs(self, disk, l_ids, p_ids):
340     """Compute duplicate disk IDs
341
342     @type disk: L{objects.Disk}
343     @param disk: the disk at which to start searching
344     @type l_ids: list
345     @param l_ids: list of current logical ids
346     @type p_ids: list
347     @param p_ids: list of current physical ids
348     @rtype: list
349     @return: a list of error messages
350
351     """
352     result = []
353     if disk.logical_id is not None:
354       if disk.logical_id in l_ids:
355         result.append("duplicate logical id %s" % str(disk.logical_id))
356       else:
357         l_ids.append(disk.logical_id)
358     if disk.physical_id is not None:
359       if disk.physical_id in p_ids:
360         result.append("duplicate physical id %s" % str(disk.physical_id))
361       else:
362         p_ids.append(disk.physical_id)
363
364     if disk.children:
365       for child in disk.children:
366         result.extend(self._CheckDiskIDs(child, l_ids, p_ids))
367     return result
368
369   def _UnlockedVerifyConfig(self):
370     """Verify function.
371
372     @rtype: list
373     @return: a list of error messages; a non-empty list signifies
374         configuration errors
375
376     """
377     # pylint: disable-msg=R0914
378     result = []
379     seen_macs = []
380     ports = {}
381     data = self._config_data
382     cluster = data.cluster
383     seen_lids = []
384     seen_pids = []
385
386     # global cluster checks
387     if not cluster.enabled_hypervisors:
388       result.append("enabled hypervisors list doesn't have any entries")
389     invalid_hvs = set(cluster.enabled_hypervisors) - constants.HYPER_TYPES
390     if invalid_hvs:
391       result.append("enabled hypervisors contains invalid entries: %s" %
392                     invalid_hvs)
393     missing_hvp = (set(cluster.enabled_hypervisors) -
394                    set(cluster.hvparams.keys()))
395     if missing_hvp:
396       result.append("hypervisor parameters missing for the enabled"
397                     " hypervisor(s) %s" % utils.CommaJoin(missing_hvp))
398
399     if cluster.master_node not in data.nodes:
400       result.append("cluster has invalid primary node '%s'" %
401                     cluster.master_node)
402
403     def _helper(owner, attr, value, template):
404       try:
405         utils.ForceDictType(value, template)
406       except errors.GenericError, err:
407         result.append("%s has invalid %s: %s" % (owner, attr, err))
408
409     def _helper_nic(owner, params):
410       try:
411         objects.NIC.CheckParameterSyntax(params)
412       except errors.ConfigurationError, err:
413         result.append("%s has invalid nicparams: %s" % (owner, err))
414
415     # check cluster parameters
416     _helper("cluster", "beparams", cluster.SimpleFillBE({}),
417             constants.BES_PARAMETER_TYPES)
418     _helper("cluster", "nicparams", cluster.SimpleFillNIC({}),
419             constants.NICS_PARAMETER_TYPES)
420     _helper_nic("cluster", cluster.SimpleFillNIC({}))
421     _helper("cluster", "ndparams", cluster.SimpleFillND({}),
422             constants.NDS_PARAMETER_TYPES)
423
424     # per-instance checks
425     for instance_name in data.instances:
426       instance = data.instances[instance_name]
427       if instance.name != instance_name:
428         result.append("instance '%s' is indexed by wrong name '%s'" %
429                       (instance.name, instance_name))
430       if instance.primary_node not in data.nodes:
431         result.append("instance '%s' has invalid primary node '%s'" %
432                       (instance_name, instance.primary_node))
433       for snode in instance.secondary_nodes:
434         if snode not in data.nodes:
435           result.append("instance '%s' has invalid secondary node '%s'" %
436                         (instance_name, snode))
437       for idx, nic in enumerate(instance.nics):
438         if nic.mac in seen_macs:
439           result.append("instance '%s' has NIC %d mac %s duplicate" %
440                         (instance_name, idx, nic.mac))
441         else:
442           seen_macs.append(nic.mac)
443         if nic.nicparams:
444           filled = cluster.SimpleFillNIC(nic.nicparams)
445           owner = "instance %s nic %d" % (instance.name, idx)
446           _helper(owner, "nicparams",
447                   filled, constants.NICS_PARAMETER_TYPES)
448           _helper_nic(owner, filled)
449
450       # parameter checks
451       if instance.beparams:
452         _helper("instance %s" % instance.name, "beparams",
453                 cluster.FillBE(instance), constants.BES_PARAMETER_TYPES)
454
455       # gather the drbd ports for duplicate checks
456       for dsk in instance.disks:
457         if dsk.dev_type in constants.LDS_DRBD:
458           tcp_port = dsk.logical_id[2]
459           if tcp_port not in ports:
460             ports[tcp_port] = []
461           ports[tcp_port].append((instance.name, "drbd disk %s" % dsk.iv_name))
462       # gather network port reservation
463       net_port = getattr(instance, "network_port", None)
464       if net_port is not None:
465         if net_port not in ports:
466           ports[net_port] = []
467         ports[net_port].append((instance.name, "network port"))
468
469       # instance disk verify
470       for idx, disk in enumerate(instance.disks):
471         result.extend(["instance '%s' disk %d error: %s" %
472                        (instance.name, idx, msg) for msg in disk.Verify()])
473         result.extend(self._CheckDiskIDs(disk, seen_lids, seen_pids))
474
475     # cluster-wide pool of free ports
476     for free_port in cluster.tcpudp_port_pool:
477       if free_port not in ports:
478         ports[free_port] = []
479       ports[free_port].append(("cluster", "port marked as free"))
480
481     # compute tcp/udp duplicate ports
482     keys = ports.keys()
483     keys.sort()
484     for pnum in keys:
485       pdata = ports[pnum]
486       if len(pdata) > 1:
487         txt = utils.CommaJoin(["%s/%s" % val for val in pdata])
488         result.append("tcp/udp port %s has duplicates: %s" % (pnum, txt))
489
490     # highest used tcp port check
491     if keys:
492       if keys[-1] > cluster.highest_used_port:
493         result.append("Highest used port mismatch, saved %s, computed %s" %
494                       (cluster.highest_used_port, keys[-1]))
495
496     if not data.nodes[cluster.master_node].master_candidate:
497       result.append("Master node is not a master candidate")
498
499     # master candidate checks
500     mc_now, mc_max, _ = self._UnlockedGetMasterCandidateStats()
501     if mc_now < mc_max:
502       result.append("Not enough master candidates: actual %d, target %d" %
503                     (mc_now, mc_max))
504
505     # node checks
506     for node_name, node in data.nodes.items():
507       if node.name != node_name:
508         result.append("Node '%s' is indexed by wrong name '%s'" %
509                       (node.name, node_name))
510       if [node.master_candidate, node.drained, node.offline].count(True) > 1:
511         result.append("Node %s state is invalid: master_candidate=%s,"
512                       " drain=%s, offline=%s" %
513                       (node.name, node.master_candidate, node.drained,
514                        node.offline))
515       if node.group not in data.nodegroups:
516         result.append("Node '%s' has invalid group '%s'" %
517                       (node.name, node.group))
518       else:
519         _helper("node %s" % node.name, "ndparams",
520                 cluster.FillND(node, data.nodegroups[node.group]),
521                 constants.NDS_PARAMETER_TYPES)
522
523     # nodegroups checks
524     nodegroups_names = set()
525     for nodegroup_uuid in data.nodegroups:
526       nodegroup = data.nodegroups[nodegroup_uuid]
527       if nodegroup.uuid != nodegroup_uuid:
528         result.append("node group '%s' (uuid: '%s') indexed by wrong uuid '%s'"
529                       % (nodegroup.name, nodegroup.uuid, nodegroup_uuid))
530       if utils.UUID_RE.match(nodegroup.name.lower()):
531         result.append("node group '%s' (uuid: '%s') has uuid-like name" %
532                       (nodegroup.name, nodegroup.uuid))
533       if nodegroup.name in nodegroups_names:
534         result.append("duplicate node group name '%s'" % nodegroup.name)
535       else:
536         nodegroups_names.add(nodegroup.name)
537       if nodegroup.ndparams:
538         _helper("group %s" % nodegroup.name, "ndparams",
539                 cluster.SimpleFillND(nodegroup.ndparams),
540                 constants.NDS_PARAMETER_TYPES)
541
542
543     # drbd minors check
544     _, duplicates = self._UnlockedComputeDRBDMap()
545     for node, minor, instance_a, instance_b in duplicates:
546       result.append("DRBD minor %d on node %s is assigned twice to instances"
547                     " %s and %s" % (minor, node, instance_a, instance_b))
548
549     # IP checks
550     default_nicparams = cluster.nicparams[constants.PP_DEFAULT]
551     ips = {}
552
553     def _AddIpAddress(ip, name):
554       ips.setdefault(ip, []).append(name)
555
556     _AddIpAddress(cluster.master_ip, "cluster_ip")
557
558     for node in data.nodes.values():
559       _AddIpAddress(node.primary_ip, "node:%s/primary" % node.name)
560       if node.secondary_ip != node.primary_ip:
561         _AddIpAddress(node.secondary_ip, "node:%s/secondary" % node.name)
562
563     for instance in data.instances.values():
564       for idx, nic in enumerate(instance.nics):
565         if nic.ip is None:
566           continue
567
568         nicparams = objects.FillDict(default_nicparams, nic.nicparams)
569         nic_mode = nicparams[constants.NIC_MODE]
570         nic_link = nicparams[constants.NIC_LINK]
571
572         if nic_mode == constants.NIC_MODE_BRIDGED:
573           link = "bridge:%s" % nic_link
574         elif nic_mode == constants.NIC_MODE_ROUTED:
575           link = "route:%s" % nic_link
576         else:
577           raise errors.ProgrammerError("NIC mode '%s' not handled" % nic_mode)
578
579         _AddIpAddress("%s/%s" % (link, nic.ip),
580                       "instance:%s/nic:%d" % (instance.name, idx))
581
582     for ip, owners in ips.items():
583       if len(owners) > 1:
584         result.append("IP address %s is used by multiple owners: %s" %
585                       (ip, utils.CommaJoin(owners)))
586
587     return result
588
589   @locking.ssynchronized(_config_lock, shared=1)
590   def VerifyConfig(self):
591     """Verify function.
592
593     This is just a wrapper over L{_UnlockedVerifyConfig}.
594
595     @rtype: list
596     @return: a list of error messages; a non-empty list signifies
597         configuration errors
598
599     """
600     return self._UnlockedVerifyConfig()
601
602   def _UnlockedSetDiskID(self, disk, node_name):
603     """Convert the unique ID to the ID needed on the target nodes.
604
605     This is used only for drbd, which needs ip/port configuration.
606
607     The routine descends down and updates its children also, because
608     this helps when the only the top device is passed to the remote
609     node.
610
611     This function is for internal use, when the config lock is already held.
612
613     """
614     if disk.children:
615       for child in disk.children:
616         self._UnlockedSetDiskID(child, node_name)
617
618     if disk.logical_id is None and disk.physical_id is not None:
619       return
620     if disk.dev_type == constants.LD_DRBD8:
621       pnode, snode, port, pminor, sminor, secret = disk.logical_id
622       if node_name not in (pnode, snode):
623         raise errors.ConfigurationError("DRBD device not knowing node %s" %
624                                         node_name)
625       pnode_info = self._UnlockedGetNodeInfo(pnode)
626       snode_info = self._UnlockedGetNodeInfo(snode)
627       if pnode_info is None or snode_info is None:
628         raise errors.ConfigurationError("Can't find primary or secondary node"
629                                         " for %s" % str(disk))
630       p_data = (pnode_info.secondary_ip, port)
631       s_data = (snode_info.secondary_ip, port)
632       if pnode == node_name:
633         disk.physical_id = p_data + s_data + (pminor, secret)
634       else: # it must be secondary, we tested above
635         disk.physical_id = s_data + p_data + (sminor, secret)
636     else:
637       disk.physical_id = disk.logical_id
638     return
639
640   @locking.ssynchronized(_config_lock)
641   def SetDiskID(self, disk, node_name):
642     """Convert the unique ID to the ID needed on the target nodes.
643
644     This is used only for drbd, which needs ip/port configuration.
645
646     The routine descends down and updates its children also, because
647     this helps when the only the top device is passed to the remote
648     node.
649
650     """
651     return self._UnlockedSetDiskID(disk, node_name)
652
653   @locking.ssynchronized(_config_lock)
654   def AddTcpUdpPort(self, port):
655     """Adds a new port to the available port pool.
656
657     """
658     if not isinstance(port, int):
659       raise errors.ProgrammerError("Invalid type passed for port")
660
661     self._config_data.cluster.tcpudp_port_pool.add(port)
662     self._WriteConfig()
663
664   @locking.ssynchronized(_config_lock, shared=1)
665   def GetPortList(self):
666     """Returns a copy of the current port list.
667
668     """
669     return self._config_data.cluster.tcpudp_port_pool.copy()
670
671   @locking.ssynchronized(_config_lock)
672   def AllocatePort(self):
673     """Allocate a port.
674
675     The port will be taken from the available port pool or from the
676     default port range (and in this case we increase
677     highest_used_port).
678
679     """
680     # If there are TCP/IP ports configured, we use them first.
681     if self._config_data.cluster.tcpudp_port_pool:
682       port = self._config_data.cluster.tcpudp_port_pool.pop()
683     else:
684       port = self._config_data.cluster.highest_used_port + 1
685       if port >= constants.LAST_DRBD_PORT:
686         raise errors.ConfigurationError("The highest used port is greater"
687                                         " than %s. Aborting." %
688                                         constants.LAST_DRBD_PORT)
689       self._config_data.cluster.highest_used_port = port
690
691     self._WriteConfig()
692     return port
693
694   def _UnlockedComputeDRBDMap(self):
695     """Compute the used DRBD minor/nodes.
696
697     @rtype: (dict, list)
698     @return: dictionary of node_name: dict of minor: instance_name;
699         the returned dict will have all the nodes in it (even if with
700         an empty list), and a list of duplicates; if the duplicates
701         list is not empty, the configuration is corrupted and its caller
702         should raise an exception
703
704     """
705     def _AppendUsedPorts(instance_name, disk, used):
706       duplicates = []
707       if disk.dev_type == constants.LD_DRBD8 and len(disk.logical_id) >= 5:
708         node_a, node_b, _, minor_a, minor_b = disk.logical_id[:5]
709         for node, port in ((node_a, minor_a), (node_b, minor_b)):
710           assert node in used, ("Node '%s' of instance '%s' not found"
711                                 " in node list" % (node, instance_name))
712           if port in used[node]:
713             duplicates.append((node, port, instance_name, used[node][port]))
714           else:
715             used[node][port] = instance_name
716       if disk.children:
717         for child in disk.children:
718           duplicates.extend(_AppendUsedPorts(instance_name, child, used))
719       return duplicates
720
721     duplicates = []
722     my_dict = dict((node, {}) for node in self._config_data.nodes)
723     for instance in self._config_data.instances.itervalues():
724       for disk in instance.disks:
725         duplicates.extend(_AppendUsedPorts(instance.name, disk, my_dict))
726     for (node, minor), instance in self._temporary_drbds.iteritems():
727       if minor in my_dict[node] and my_dict[node][minor] != instance:
728         duplicates.append((node, minor, instance, my_dict[node][minor]))
729       else:
730         my_dict[node][minor] = instance
731     return my_dict, duplicates
732
733   @locking.ssynchronized(_config_lock)
734   def ComputeDRBDMap(self):
735     """Compute the used DRBD minor/nodes.
736
737     This is just a wrapper over L{_UnlockedComputeDRBDMap}.
738
739     @return: dictionary of node_name: dict of minor: instance_name;
740         the returned dict will have all the nodes in it (even if with
741         an empty list).
742
743     """
744     d_map, duplicates = self._UnlockedComputeDRBDMap()
745     if duplicates:
746       raise errors.ConfigurationError("Duplicate DRBD ports detected: %s" %
747                                       str(duplicates))
748     return d_map
749
750   @locking.ssynchronized(_config_lock)
751   def AllocateDRBDMinor(self, nodes, instance):
752     """Allocate a drbd minor.
753
754     The free minor will be automatically computed from the existing
755     devices. A node can be given multiple times in order to allocate
756     multiple minors. The result is the list of minors, in the same
757     order as the passed nodes.
758
759     @type instance: string
760     @param instance: the instance for which we allocate minors
761
762     """
763     assert isinstance(instance, basestring), \
764            "Invalid argument '%s' passed to AllocateDRBDMinor" % instance
765
766     d_map, duplicates = self._UnlockedComputeDRBDMap()
767     if duplicates:
768       raise errors.ConfigurationError("Duplicate DRBD ports detected: %s" %
769                                       str(duplicates))
770     result = []
771     for nname in nodes:
772       ndata = d_map[nname]
773       if not ndata:
774         # no minors used, we can start at 0
775         result.append(0)
776         ndata[0] = instance
777         self._temporary_drbds[(nname, 0)] = instance
778         continue
779       keys = ndata.keys()
780       keys.sort()
781       ffree = utils.FirstFree(keys)
782       if ffree is None:
783         # return the next minor
784         # TODO: implement high-limit check
785         minor = keys[-1] + 1
786       else:
787         minor = ffree
788       # double-check minor against current instances
789       assert minor not in d_map[nname], \
790              ("Attempt to reuse allocated DRBD minor %d on node %s,"
791               " already allocated to instance %s" %
792               (minor, nname, d_map[nname][minor]))
793       ndata[minor] = instance
794       # double-check minor against reservation
795       r_key = (nname, minor)
796       assert r_key not in self._temporary_drbds, \
797              ("Attempt to reuse reserved DRBD minor %d on node %s,"
798               " reserved for instance %s" %
799               (minor, nname, self._temporary_drbds[r_key]))
800       self._temporary_drbds[r_key] = instance
801       result.append(minor)
802     logging.debug("Request to allocate drbd minors, input: %s, returning %s",
803                   nodes, result)
804     return result
805
806   def _UnlockedReleaseDRBDMinors(self, instance):
807     """Release temporary drbd minors allocated for a given instance.
808
809     @type instance: string
810     @param instance: the instance for which temporary minors should be
811                      released
812
813     """
814     assert isinstance(instance, basestring), \
815            "Invalid argument passed to ReleaseDRBDMinors"
816     for key, name in self._temporary_drbds.items():
817       if name == instance:
818         del self._temporary_drbds[key]
819
820   @locking.ssynchronized(_config_lock)
821   def ReleaseDRBDMinors(self, instance):
822     """Release temporary drbd minors allocated for a given instance.
823
824     This should be called on the error paths, on the success paths
825     it's automatically called by the ConfigWriter add and update
826     functions.
827
828     This function is just a wrapper over L{_UnlockedReleaseDRBDMinors}.
829
830     @type instance: string
831     @param instance: the instance for which temporary minors should be
832                      released
833
834     """
835     self._UnlockedReleaseDRBDMinors(instance)
836
837   @locking.ssynchronized(_config_lock, shared=1)
838   def GetConfigVersion(self):
839     """Get the configuration version.
840
841     @return: Config version
842
843     """
844     return self._config_data.version
845
846   @locking.ssynchronized(_config_lock, shared=1)
847   def GetClusterName(self):
848     """Get cluster name.
849
850     @return: Cluster name
851
852     """
853     return self._config_data.cluster.cluster_name
854
855   @locking.ssynchronized(_config_lock, shared=1)
856   def GetMasterNode(self):
857     """Get the hostname of the master node for this cluster.
858
859     @return: Master hostname
860
861     """
862     return self._config_data.cluster.master_node
863
864   @locking.ssynchronized(_config_lock, shared=1)
865   def GetMasterIP(self):
866     """Get the IP of the master node for this cluster.
867
868     @return: Master IP
869
870     """
871     return self._config_data.cluster.master_ip
872
873   @locking.ssynchronized(_config_lock, shared=1)
874   def GetMasterNetdev(self):
875     """Get the master network device for this cluster.
876
877     """
878     return self._config_data.cluster.master_netdev
879
880   @locking.ssynchronized(_config_lock, shared=1)
881   def GetFileStorageDir(self):
882     """Get the file storage dir for this cluster.
883
884     """
885     return self._config_data.cluster.file_storage_dir
886
887   @locking.ssynchronized(_config_lock, shared=1)
888   def GetSharedFileStorageDir(self):
889     """Get the shared file storage dir for this cluster.
890
891     """
892     return self._config_data.cluster.shared_file_storage_dir
893
894   @locking.ssynchronized(_config_lock, shared=1)
895   def GetHypervisorType(self):
896     """Get the hypervisor type for this cluster.
897
898     """
899     return self._config_data.cluster.enabled_hypervisors[0]
900
901   @locking.ssynchronized(_config_lock, shared=1)
902   def GetHostKey(self):
903     """Return the rsa hostkey from the config.
904
905     @rtype: string
906     @return: the rsa hostkey
907
908     """
909     return self._config_data.cluster.rsahostkeypub
910
911   @locking.ssynchronized(_config_lock, shared=1)
912   def GetDefaultIAllocator(self):
913     """Get the default instance allocator for this cluster.
914
915     """
916     return self._config_data.cluster.default_iallocator
917
918   @locking.ssynchronized(_config_lock, shared=1)
919   def GetPrimaryIPFamily(self):
920     """Get cluster primary ip family.
921
922     @return: primary ip family
923
924     """
925     return self._config_data.cluster.primary_ip_family
926
927   @locking.ssynchronized(_config_lock)
928   def AddNodeGroup(self, group, ec_id, check_uuid=True):
929     """Add a node group to the configuration.
930
931     This method calls group.UpgradeConfig() to fill any missing attributes
932     according to their default values.
933
934     @type group: L{objects.NodeGroup}
935     @param group: the NodeGroup object to add
936     @type ec_id: string
937     @param ec_id: unique id for the job to use when creating a missing UUID
938     @type check_uuid: bool
939     @param check_uuid: add an UUID to the group if it doesn't have one or, if
940                        it does, ensure that it does not exist in the
941                        configuration already
942
943     """
944     self._UnlockedAddNodeGroup(group, ec_id, check_uuid)
945     self._WriteConfig()
946
947   def _UnlockedAddNodeGroup(self, group, ec_id, check_uuid):
948     """Add a node group to the configuration.
949
950     """
951     logging.info("Adding node group %s to configuration", group.name)
952
953     # Some code might need to add a node group with a pre-populated UUID
954     # generated with ConfigWriter.GenerateUniqueID(). We allow them to bypass
955     # the "does this UUID" exist already check.
956     if check_uuid:
957       self._EnsureUUID(group, ec_id)
958
959     try:
960       existing_uuid = self._UnlockedLookupNodeGroup(group.name)
961     except errors.OpPrereqError:
962       pass
963     else:
964       raise errors.OpPrereqError("Desired group name '%s' already exists as a"
965                                  " node group (UUID: %s)" %
966                                  (group.name, existing_uuid),
967                                  errors.ECODE_EXISTS)
968
969     group.serial_no = 1
970     group.ctime = group.mtime = time.time()
971     group.UpgradeConfig()
972
973     self._config_data.nodegroups[group.uuid] = group
974     self._config_data.cluster.serial_no += 1
975
976   @locking.ssynchronized(_config_lock)
977   def RemoveNodeGroup(self, group_uuid):
978     """Remove a node group from the configuration.
979
980     @type group_uuid: string
981     @param group_uuid: the UUID of the node group to remove
982
983     """
984     logging.info("Removing node group %s from configuration", group_uuid)
985
986     if group_uuid not in self._config_data.nodegroups:
987       raise errors.ConfigurationError("Unknown node group '%s'" % group_uuid)
988
989     assert len(self._config_data.nodegroups) != 1, \
990             "Group '%s' is the only group, cannot be removed" % group_uuid
991
992     del self._config_data.nodegroups[group_uuid]
993     self._config_data.cluster.serial_no += 1
994     self._WriteConfig()
995
996   def _UnlockedLookupNodeGroup(self, target):
997     """Lookup a node group's UUID.
998
999     @type target: string or None
1000     @param target: group name or UUID or None to look for the default
1001     @rtype: string
1002     @return: nodegroup UUID
1003     @raises errors.OpPrereqError: when the target group cannot be found
1004
1005     """
1006     if target is None:
1007       if len(self._config_data.nodegroups) != 1:
1008         raise errors.OpPrereqError("More than one node group exists. Target"
1009                                    " group must be specified explicitely.")
1010       else:
1011         return self._config_data.nodegroups.keys()[0]
1012     if target in self._config_data.nodegroups:
1013       return target
1014     for nodegroup in self._config_data.nodegroups.values():
1015       if nodegroup.name == target:
1016         return nodegroup.uuid
1017     raise errors.OpPrereqError("Node group '%s' not found" % target,
1018                                errors.ECODE_NOENT)
1019
1020   @locking.ssynchronized(_config_lock, shared=1)
1021   def LookupNodeGroup(self, target):
1022     """Lookup a node group's UUID.
1023
1024     This function is just a wrapper over L{_UnlockedLookupNodeGroup}.
1025
1026     @type target: string or None
1027     @param target: group name or UUID or None to look for the default
1028     @rtype: string
1029     @return: nodegroup UUID
1030
1031     """
1032     return self._UnlockedLookupNodeGroup(target)
1033
1034   def _UnlockedGetNodeGroup(self, uuid):
1035     """Lookup a node group.
1036
1037     @type uuid: string
1038     @param uuid: group UUID
1039     @rtype: L{objects.NodeGroup} or None
1040     @return: nodegroup object, or None if not found
1041
1042     """
1043     if uuid not in self._config_data.nodegroups:
1044       return None
1045
1046     return self._config_data.nodegroups[uuid]
1047
1048   @locking.ssynchronized(_config_lock, shared=1)
1049   def GetNodeGroup(self, uuid):
1050     """Lookup a node group.
1051
1052     @type uuid: string
1053     @param uuid: group UUID
1054     @rtype: L{objects.NodeGroup} or None
1055     @return: nodegroup object, or None if not found
1056
1057     """
1058     return self._UnlockedGetNodeGroup(uuid)
1059
1060   @locking.ssynchronized(_config_lock, shared=1)
1061   def GetAllNodeGroupsInfo(self):
1062     """Get the configuration of all node groups.
1063
1064     """
1065     return dict(self._config_data.nodegroups)
1066
1067   @locking.ssynchronized(_config_lock, shared=1)
1068   def GetNodeGroupList(self):
1069     """Get a list of node groups.
1070
1071     """
1072     return self._config_data.nodegroups.keys()
1073
1074   @locking.ssynchronized(_config_lock, shared=1)
1075   def GetNodeGroupMembersByNodes(self, nodes):
1076     """Get nodes which are member in the same nodegroups as the given nodes.
1077
1078     """
1079     ngfn = lambda node_name: self._UnlockedGetNodeInfo(node_name).group
1080     return frozenset(member_name
1081                      for node_name in nodes
1082                      for member_name in
1083                        self._UnlockedGetNodeGroup(ngfn(node_name)).members)
1084
1085   @locking.ssynchronized(_config_lock)
1086   def AddInstance(self, instance, ec_id):
1087     """Add an instance to the config.
1088
1089     This should be used after creating a new instance.
1090
1091     @type instance: L{objects.Instance}
1092     @param instance: the instance object
1093
1094     """
1095     if not isinstance(instance, objects.Instance):
1096       raise errors.ProgrammerError("Invalid type passed to AddInstance")
1097
1098     if instance.disk_template != constants.DT_DISKLESS:
1099       all_lvs = instance.MapLVsByNode()
1100       logging.info("Instance '%s' DISK_LAYOUT: %s", instance.name, all_lvs)
1101
1102     all_macs = self._AllMACs()
1103     for nic in instance.nics:
1104       if nic.mac in all_macs:
1105         raise errors.ConfigurationError("Cannot add instance %s:"
1106                                         " MAC address '%s' already in use." %
1107                                         (instance.name, nic.mac))
1108
1109     self._EnsureUUID(instance, ec_id)
1110
1111     instance.serial_no = 1
1112     instance.ctime = instance.mtime = time.time()
1113     self._config_data.instances[instance.name] = instance
1114     self._config_data.cluster.serial_no += 1
1115     self._UnlockedReleaseDRBDMinors(instance.name)
1116     self._WriteConfig()
1117
1118   def _EnsureUUID(self, item, ec_id):
1119     """Ensures a given object has a valid UUID.
1120
1121     @param item: the instance or node to be checked
1122     @param ec_id: the execution context id for the uuid reservation
1123
1124     """
1125     if not item.uuid:
1126       item.uuid = self._GenerateUniqueID(ec_id)
1127     elif item.uuid in self._AllIDs(include_temporary=True):
1128       raise errors.ConfigurationError("Cannot add '%s': UUID %s already"
1129                                       " in use" % (item.name, item.uuid))
1130
1131   def _SetInstanceStatus(self, instance_name, status):
1132     """Set the instance's status to a given value.
1133
1134     """
1135     assert isinstance(status, bool), \
1136            "Invalid status '%s' passed to SetInstanceStatus" % (status,)
1137
1138     if instance_name not in self._config_data.instances:
1139       raise errors.ConfigurationError("Unknown instance '%s'" %
1140                                       instance_name)
1141     instance = self._config_data.instances[instance_name]
1142     if instance.admin_up != status:
1143       instance.admin_up = status
1144       instance.serial_no += 1
1145       instance.mtime = time.time()
1146       self._WriteConfig()
1147
1148   @locking.ssynchronized(_config_lock)
1149   def MarkInstanceUp(self, instance_name):
1150     """Mark the instance status to up in the config.
1151
1152     """
1153     self._SetInstanceStatus(instance_name, True)
1154
1155   @locking.ssynchronized(_config_lock)
1156   def RemoveInstance(self, instance_name):
1157     """Remove the instance from the configuration.
1158
1159     """
1160     if instance_name not in self._config_data.instances:
1161       raise errors.ConfigurationError("Unknown instance '%s'" % instance_name)
1162     del self._config_data.instances[instance_name]
1163     self._config_data.cluster.serial_no += 1
1164     self._WriteConfig()
1165
1166   @locking.ssynchronized(_config_lock)
1167   def RenameInstance(self, old_name, new_name):
1168     """Rename an instance.
1169
1170     This needs to be done in ConfigWriter and not by RemoveInstance
1171     combined with AddInstance as only we can guarantee an atomic
1172     rename.
1173
1174     """
1175     if old_name not in self._config_data.instances:
1176       raise errors.ConfigurationError("Unknown instance '%s'" % old_name)
1177     inst = self._config_data.instances[old_name]
1178     del self._config_data.instances[old_name]
1179     inst.name = new_name
1180
1181     for disk in inst.disks:
1182       if disk.dev_type == constants.LD_FILE:
1183         # rename the file paths in logical and physical id
1184         file_storage_dir = os.path.dirname(os.path.dirname(disk.logical_id[1]))
1185         disk_fname = "disk%s" % disk.iv_name.split("/")[1]
1186         disk.physical_id = disk.logical_id = (disk.logical_id[0],
1187                                               utils.PathJoin(file_storage_dir,
1188                                                              inst.name,
1189                                                              disk_fname))
1190
1191     # Force update of ssconf files
1192     self._config_data.cluster.serial_no += 1
1193
1194     self._config_data.instances[inst.name] = inst
1195     self._WriteConfig()
1196
1197   @locking.ssynchronized(_config_lock)
1198   def MarkInstanceDown(self, instance_name):
1199     """Mark the status of an instance to down in the configuration.
1200
1201     """
1202     self._SetInstanceStatus(instance_name, False)
1203
1204   def _UnlockedGetInstanceList(self):
1205     """Get the list of instances.
1206
1207     This function is for internal use, when the config lock is already held.
1208
1209     """
1210     return self._config_data.instances.keys()
1211
1212   @locking.ssynchronized(_config_lock, shared=1)
1213   def GetInstanceList(self):
1214     """Get the list of instances.
1215
1216     @return: array of instances, ex. ['instance2.example.com',
1217         'instance1.example.com']
1218
1219     """
1220     return self._UnlockedGetInstanceList()
1221
1222   def ExpandInstanceName(self, short_name):
1223     """Attempt to expand an incomplete instance name.
1224
1225     """
1226     # Locking is done in L{ConfigWriter.GetInstanceList}
1227     return _MatchNameComponentIgnoreCase(short_name, self.GetInstanceList())
1228
1229   def _UnlockedGetInstanceInfo(self, instance_name):
1230     """Returns information about an instance.
1231
1232     This function is for internal use, when the config lock is already held.
1233
1234     """
1235     if instance_name not in self._config_data.instances:
1236       return None
1237
1238     return self._config_data.instances[instance_name]
1239
1240   @locking.ssynchronized(_config_lock, shared=1)
1241   def GetInstanceInfo(self, instance_name):
1242     """Returns information about an instance.
1243
1244     It takes the information from the configuration file. Other information of
1245     an instance are taken from the live systems.
1246
1247     @param instance_name: name of the instance, e.g.
1248         I{instance1.example.com}
1249
1250     @rtype: L{objects.Instance}
1251     @return: the instance object
1252
1253     """
1254     return self._UnlockedGetInstanceInfo(instance_name)
1255
1256   @locking.ssynchronized(_config_lock, shared=1)
1257   def GetInstanceNodeGroups(self, instance_name, primary_only=False):
1258     """Returns set of node group UUIDs for instance's nodes.
1259
1260     @rtype: frozenset
1261
1262     """
1263     instance = self._UnlockedGetInstanceInfo(instance_name)
1264     if not instance:
1265       raise errors.ConfigurationError("Unknown instance '%s'" % instance_name)
1266
1267     if primary_only:
1268       nodes = [instance.primary_node]
1269     else:
1270       nodes = instance.all_nodes
1271
1272     return frozenset(self._UnlockedGetNodeInfo(node_name).group
1273                      for node_name in nodes)
1274
1275   @locking.ssynchronized(_config_lock, shared=1)
1276   def GetMultiInstanceInfo(self, instances):
1277     """Get the configuration of multiple instances.
1278
1279     @param instances: list of instance names
1280     @rtype: list
1281     @return: list of tuples (instance, instance_info), where
1282         instance_info is what would GetInstanceInfo return for the
1283         node, while keeping the original order
1284
1285     """
1286     return [(name, self._UnlockedGetInstanceInfo(name)) for name in instances]
1287
1288   @locking.ssynchronized(_config_lock, shared=1)
1289   def GetAllInstancesInfo(self):
1290     """Get the configuration of all instances.
1291
1292     @rtype: dict
1293     @return: dict of (instance, instance_info), where instance_info is what
1294               would GetInstanceInfo return for the node
1295
1296     """
1297     my_dict = dict([(instance, self._UnlockedGetInstanceInfo(instance))
1298                     for instance in self._UnlockedGetInstanceList()])
1299     return my_dict
1300
1301   @locking.ssynchronized(_config_lock)
1302   def AddNode(self, node, ec_id):
1303     """Add a node to the configuration.
1304
1305     @type node: L{objects.Node}
1306     @param node: a Node instance
1307
1308     """
1309     logging.info("Adding node %s to configuration", node.name)
1310
1311     self._EnsureUUID(node, ec_id)
1312
1313     node.serial_no = 1
1314     node.ctime = node.mtime = time.time()
1315     self._UnlockedAddNodeToGroup(node.name, node.group)
1316     self._config_data.nodes[node.name] = node
1317     self._config_data.cluster.serial_no += 1
1318     self._WriteConfig()
1319
1320   @locking.ssynchronized(_config_lock)
1321   def RemoveNode(self, node_name):
1322     """Remove a node from the configuration.
1323
1324     """
1325     logging.info("Removing node %s from configuration", node_name)
1326
1327     if node_name not in self._config_data.nodes:
1328       raise errors.ConfigurationError("Unknown node '%s'" % node_name)
1329
1330     self._UnlockedRemoveNodeFromGroup(self._config_data.nodes[node_name])
1331     del self._config_data.nodes[node_name]
1332     self._config_data.cluster.serial_no += 1
1333     self._WriteConfig()
1334
1335   def ExpandNodeName(self, short_name):
1336     """Attempt to expand an incomplete node name.
1337
1338     """
1339     # Locking is done in L{ConfigWriter.GetNodeList}
1340     return _MatchNameComponentIgnoreCase(short_name, self.GetNodeList())
1341
1342   def _UnlockedGetNodeInfo(self, node_name):
1343     """Get the configuration of a node, as stored in the config.
1344
1345     This function is for internal use, when the config lock is already
1346     held.
1347
1348     @param node_name: the node name, e.g. I{node1.example.com}
1349
1350     @rtype: L{objects.Node}
1351     @return: the node object
1352
1353     """
1354     if node_name not in self._config_data.nodes:
1355       return None
1356
1357     return self._config_data.nodes[node_name]
1358
1359   @locking.ssynchronized(_config_lock, shared=1)
1360   def GetNodeInfo(self, node_name):
1361     """Get the configuration of a node, as stored in the config.
1362
1363     This is just a locked wrapper over L{_UnlockedGetNodeInfo}.
1364
1365     @param node_name: the node name, e.g. I{node1.example.com}
1366
1367     @rtype: L{objects.Node}
1368     @return: the node object
1369
1370     """
1371     return self._UnlockedGetNodeInfo(node_name)
1372
1373   @locking.ssynchronized(_config_lock, shared=1)
1374   def GetNodeInstances(self, node_name):
1375     """Get the instances of a node, as stored in the config.
1376
1377     @param node_name: the node name, e.g. I{node1.example.com}
1378
1379     @rtype: (list, list)
1380     @return: a tuple with two lists: the primary and the secondary instances
1381
1382     """
1383     pri = []
1384     sec = []
1385     for inst in self._config_data.instances.values():
1386       if inst.primary_node == node_name:
1387         pri.append(inst.name)
1388       if node_name in inst.secondary_nodes:
1389         sec.append(inst.name)
1390     return (pri, sec)
1391
1392   @locking.ssynchronized(_config_lock, shared=1)
1393   def GetNodeGroupInstances(self, uuid, primary_only=False):
1394     """Get the instances of a node group.
1395
1396     @param uuid: Node group UUID
1397     @param primary_only: Whether to only consider primary nodes
1398     @rtype: frozenset
1399     @return: List of instance names in node group
1400
1401     """
1402     if primary_only:
1403       nodes_fn = lambda inst: [inst.primary_node]
1404     else:
1405       nodes_fn = lambda inst: inst.all_nodes
1406
1407     return frozenset(inst.name
1408                      for inst in self._config_data.instances.values()
1409                      for node_name in nodes_fn(inst)
1410                      if self._UnlockedGetNodeInfo(node_name).group == uuid)
1411
1412   def _UnlockedGetNodeList(self):
1413     """Return the list of nodes which are in the configuration.
1414
1415     This function is for internal use, when the config lock is already
1416     held.
1417
1418     @rtype: list
1419
1420     """
1421     return self._config_data.nodes.keys()
1422
1423   @locking.ssynchronized(_config_lock, shared=1)
1424   def GetNodeList(self):
1425     """Return the list of nodes which are in the configuration.
1426
1427     """
1428     return self._UnlockedGetNodeList()
1429
1430   def _UnlockedGetOnlineNodeList(self):
1431     """Return the list of nodes which are online.
1432
1433     """
1434     all_nodes = [self._UnlockedGetNodeInfo(node)
1435                  for node in self._UnlockedGetNodeList()]
1436     return [node.name for node in all_nodes if not node.offline]
1437
1438   @locking.ssynchronized(_config_lock, shared=1)
1439   def GetOnlineNodeList(self):
1440     """Return the list of nodes which are online.
1441
1442     """
1443     return self._UnlockedGetOnlineNodeList()
1444
1445   @locking.ssynchronized(_config_lock, shared=1)
1446   def GetVmCapableNodeList(self):
1447     """Return the list of nodes which are not vm capable.
1448
1449     """
1450     all_nodes = [self._UnlockedGetNodeInfo(node)
1451                  for node in self._UnlockedGetNodeList()]
1452     return [node.name for node in all_nodes if node.vm_capable]
1453
1454   @locking.ssynchronized(_config_lock, shared=1)
1455   def GetNonVmCapableNodeList(self):
1456     """Return the list of nodes which are not vm capable.
1457
1458     """
1459     all_nodes = [self._UnlockedGetNodeInfo(node)
1460                  for node in self._UnlockedGetNodeList()]
1461     return [node.name for node in all_nodes if not node.vm_capable]
1462
1463   @locking.ssynchronized(_config_lock, shared=1)
1464   def GetMultiNodeInfo(self, nodes):
1465     """Get the configuration of multiple nodes.
1466
1467     @param nodes: list of node names
1468     @rtype: list
1469     @return: list of tuples of (node, node_info), where node_info is
1470         what would GetNodeInfo return for the node, in the original
1471         order
1472
1473     """
1474     return [(name, self._UnlockedGetNodeInfo(name)) for name in nodes]
1475
1476   @locking.ssynchronized(_config_lock, shared=1)
1477   def GetAllNodesInfo(self):
1478     """Get the configuration of all nodes.
1479
1480     @rtype: dict
1481     @return: dict of (node, node_info), where node_info is what
1482               would GetNodeInfo return for the node
1483
1484     """
1485     my_dict = dict([(node, self._UnlockedGetNodeInfo(node))
1486                     for node in self._UnlockedGetNodeList()])
1487     return my_dict
1488
1489   @locking.ssynchronized(_config_lock, shared=1)
1490   def GetNodeGroupsFromNodes(self, nodes):
1491     """Returns groups for a list of nodes.
1492
1493     @type nodes: list of string
1494     @param nodes: List of node names
1495     @rtype: frozenset
1496
1497     """
1498     return frozenset(self._UnlockedGetNodeInfo(name).group for name in nodes)
1499
1500   def _UnlockedGetMasterCandidateStats(self, exceptions=None):
1501     """Get the number of current and maximum desired and possible candidates.
1502
1503     @type exceptions: list
1504     @param exceptions: if passed, list of nodes that should be ignored
1505     @rtype: tuple
1506     @return: tuple of (current, desired and possible, possible)
1507
1508     """
1509     mc_now = mc_should = mc_max = 0
1510     for node in self._config_data.nodes.values():
1511       if exceptions and node.name in exceptions:
1512         continue
1513       if not (node.offline or node.drained) and node.master_capable:
1514         mc_max += 1
1515       if node.master_candidate:
1516         mc_now += 1
1517     mc_should = min(mc_max, self._config_data.cluster.candidate_pool_size)
1518     return (mc_now, mc_should, mc_max)
1519
1520   @locking.ssynchronized(_config_lock, shared=1)
1521   def GetMasterCandidateStats(self, exceptions=None):
1522     """Get the number of current and maximum possible candidates.
1523
1524     This is just a wrapper over L{_UnlockedGetMasterCandidateStats}.
1525
1526     @type exceptions: list
1527     @param exceptions: if passed, list of nodes that should be ignored
1528     @rtype: tuple
1529     @return: tuple of (current, max)
1530
1531     """
1532     return self._UnlockedGetMasterCandidateStats(exceptions)
1533
1534   @locking.ssynchronized(_config_lock)
1535   def MaintainCandidatePool(self, exceptions):
1536     """Try to grow the candidate pool to the desired size.
1537
1538     @type exceptions: list
1539     @param exceptions: if passed, list of nodes that should be ignored
1540     @rtype: list
1541     @return: list with the adjusted nodes (L{objects.Node} instances)
1542
1543     """
1544     mc_now, mc_max, _ = self._UnlockedGetMasterCandidateStats(exceptions)
1545     mod_list = []
1546     if mc_now < mc_max:
1547       node_list = self._config_data.nodes.keys()
1548       random.shuffle(node_list)
1549       for name in node_list:
1550         if mc_now >= mc_max:
1551           break
1552         node = self._config_data.nodes[name]
1553         if (node.master_candidate or node.offline or node.drained or
1554             node.name in exceptions or not node.master_capable):
1555           continue
1556         mod_list.append(node)
1557         node.master_candidate = True
1558         node.serial_no += 1
1559         mc_now += 1
1560       if mc_now != mc_max:
1561         # this should not happen
1562         logging.warning("Warning: MaintainCandidatePool didn't manage to"
1563                         " fill the candidate pool (%d/%d)", mc_now, mc_max)
1564       if mod_list:
1565         self._config_data.cluster.serial_no += 1
1566         self._WriteConfig()
1567
1568     return mod_list
1569
1570   def _UnlockedAddNodeToGroup(self, node_name, nodegroup_uuid):
1571     """Add a given node to the specified group.
1572
1573     """
1574     if nodegroup_uuid not in self._config_data.nodegroups:
1575       # This can happen if a node group gets deleted between its lookup and
1576       # when we're adding the first node to it, since we don't keep a lock in
1577       # the meantime. It's ok though, as we'll fail cleanly if the node group
1578       # is not found anymore.
1579       raise errors.OpExecError("Unknown node group: %s" % nodegroup_uuid)
1580     if node_name not in self._config_data.nodegroups[nodegroup_uuid].members:
1581       self._config_data.nodegroups[nodegroup_uuid].members.append(node_name)
1582
1583   def _UnlockedRemoveNodeFromGroup(self, node):
1584     """Remove a given node from its group.
1585
1586     """
1587     nodegroup = node.group
1588     if nodegroup not in self._config_data.nodegroups:
1589       logging.warning("Warning: node '%s' has unknown node group '%s'"
1590                       " (while being removed from it)", node.name, nodegroup)
1591     nodegroup_obj = self._config_data.nodegroups[nodegroup]
1592     if node.name not in nodegroup_obj.members:
1593       logging.warning("Warning: node '%s' not a member of its node group '%s'"
1594                       " (while being removed from it)", node.name, nodegroup)
1595     else:
1596       nodegroup_obj.members.remove(node.name)
1597
1598   def _BumpSerialNo(self):
1599     """Bump up the serial number of the config.
1600
1601     """
1602     self._config_data.serial_no += 1
1603     self._config_data.mtime = time.time()
1604
1605   def _AllUUIDObjects(self):
1606     """Returns all objects with uuid attributes.
1607
1608     """
1609     return (self._config_data.instances.values() +
1610             self._config_data.nodes.values() +
1611             self._config_data.nodegroups.values() +
1612             [self._config_data.cluster])
1613
1614   def _OpenConfig(self, accept_foreign):
1615     """Read the config data from disk.
1616
1617     """
1618     raw_data = utils.ReadFile(self._cfg_file)
1619
1620     try:
1621       data = objects.ConfigData.FromDict(serializer.Load(raw_data))
1622     except Exception, err:
1623       raise errors.ConfigurationError(err)
1624
1625     # Make sure the configuration has the right version
1626     _ValidateConfig(data)
1627
1628     if (not hasattr(data, 'cluster') or
1629         not hasattr(data.cluster, 'rsahostkeypub')):
1630       raise errors.ConfigurationError("Incomplete configuration"
1631                                       " (missing cluster.rsahostkeypub)")
1632
1633     if data.cluster.master_node != self._my_hostname and not accept_foreign:
1634       msg = ("The configuration denotes node %s as master, while my"
1635              " hostname is %s; opening a foreign configuration is only"
1636              " possible in accept_foreign mode" %
1637              (data.cluster.master_node, self._my_hostname))
1638       raise errors.ConfigurationError(msg)
1639
1640     # Upgrade configuration if needed
1641     data.UpgradeConfig()
1642
1643     self._config_data = data
1644     # reset the last serial as -1 so that the next write will cause
1645     # ssconf update
1646     self._last_cluster_serial = -1
1647
1648     # And finally run our (custom) config upgrade sequence
1649     self._UpgradeConfig()
1650
1651     self._cfg_id = utils.GetFileID(path=self._cfg_file)
1652
1653   def _UpgradeConfig(self):
1654     """Run upgrade steps that cannot be done purely in the objects.
1655
1656     This is because some data elements need uniqueness across the
1657     whole configuration, etc.
1658
1659     @warning: this function will call L{_WriteConfig()}, but also
1660         L{DropECReservations} so it needs to be called only from a
1661         "safe" place (the constructor). If one wanted to call it with
1662         the lock held, a DropECReservationUnlocked would need to be
1663         created first, to avoid causing deadlock.
1664
1665     """
1666     modified = False
1667     for item in self._AllUUIDObjects():
1668       if item.uuid is None:
1669         item.uuid = self._GenerateUniqueID(_UPGRADE_CONFIG_JID)
1670         modified = True
1671     if not self._config_data.nodegroups:
1672       default_nodegroup_name = constants.INITIAL_NODE_GROUP_NAME
1673       default_nodegroup = objects.NodeGroup(name=default_nodegroup_name,
1674                                             members=[])
1675       self._UnlockedAddNodeGroup(default_nodegroup, _UPGRADE_CONFIG_JID, True)
1676       modified = True
1677     for node in self._config_data.nodes.values():
1678       if not node.group:
1679         node.group = self.LookupNodeGroup(None)
1680         modified = True
1681       # This is technically *not* an upgrade, but needs to be done both when
1682       # nodegroups are being added, and upon normally loading the config,
1683       # because the members list of a node group is discarded upon
1684       # serializing/deserializing the object.
1685       self._UnlockedAddNodeToGroup(node.name, node.group)
1686     if modified:
1687       self._WriteConfig()
1688       # This is ok even if it acquires the internal lock, as _UpgradeConfig is
1689       # only called at config init time, without the lock held
1690       self.DropECReservations(_UPGRADE_CONFIG_JID)
1691
1692   def _DistributeConfig(self, feedback_fn):
1693     """Distribute the configuration to the other nodes.
1694
1695     Currently, this only copies the configuration file. In the future,
1696     it could be used to encapsulate the 2/3-phase update mechanism.
1697
1698     """
1699     if self._offline:
1700       return True
1701
1702     bad = False
1703
1704     node_list = []
1705     addr_list = []
1706     myhostname = self._my_hostname
1707     # we can skip checking whether _UnlockedGetNodeInfo returns None
1708     # since the node list comes from _UnlocketGetNodeList, and we are
1709     # called with the lock held, so no modifications should take place
1710     # in between
1711     for node_name in self._UnlockedGetNodeList():
1712       if node_name == myhostname:
1713         continue
1714       node_info = self._UnlockedGetNodeInfo(node_name)
1715       if not node_info.master_candidate:
1716         continue
1717       node_list.append(node_info.name)
1718       addr_list.append(node_info.primary_ip)
1719
1720     result = rpc.RpcRunner.call_upload_file(node_list, self._cfg_file,
1721                                             address_list=addr_list)
1722     for to_node, to_result in result.items():
1723       msg = to_result.fail_msg
1724       if msg:
1725         msg = ("Copy of file %s to node %s failed: %s" %
1726                (self._cfg_file, to_node, msg))
1727         logging.error(msg)
1728
1729         if feedback_fn:
1730           feedback_fn(msg)
1731
1732         bad = True
1733
1734     return not bad
1735
1736   def _WriteConfig(self, destination=None, feedback_fn=None):
1737     """Write the configuration data to persistent storage.
1738
1739     """
1740     assert feedback_fn is None or callable(feedback_fn)
1741
1742     # Warn on config errors, but don't abort the save - the
1743     # configuration has already been modified, and we can't revert;
1744     # the best we can do is to warn the user and save as is, leaving
1745     # recovery to the user
1746     config_errors = self._UnlockedVerifyConfig()
1747     if config_errors:
1748       errmsg = ("Configuration data is not consistent: %s" %
1749                 (utils.CommaJoin(config_errors)))
1750       logging.critical(errmsg)
1751       if feedback_fn:
1752         feedback_fn(errmsg)
1753
1754     if destination is None:
1755       destination = self._cfg_file
1756     self._BumpSerialNo()
1757     txt = serializer.Dump(self._config_data.ToDict())
1758
1759     getents = self._getents()
1760     try:
1761       fd = utils.SafeWriteFile(destination, self._cfg_id, data=txt,
1762                                close=False, gid=getents.confd_gid, mode=0640)
1763     except errors.LockError:
1764       raise errors.ConfigurationError("The configuration file has been"
1765                                       " modified since the last write, cannot"
1766                                       " update")
1767     try:
1768       self._cfg_id = utils.GetFileID(fd=fd)
1769     finally:
1770       os.close(fd)
1771
1772     self.write_count += 1
1773
1774     # and redistribute the config file to master candidates
1775     self._DistributeConfig(feedback_fn)
1776
1777     # Write ssconf files on all nodes (including locally)
1778     if self._last_cluster_serial < self._config_data.cluster.serial_no:
1779       if not self._offline:
1780         result = rpc.RpcRunner.call_write_ssconf_files(
1781           self._UnlockedGetOnlineNodeList(),
1782           self._UnlockedGetSsconfValues())
1783
1784         for nname, nresu in result.items():
1785           msg = nresu.fail_msg
1786           if msg:
1787             errmsg = ("Error while uploading ssconf files to"
1788                       " node %s: %s" % (nname, msg))
1789             logging.warning(errmsg)
1790
1791             if feedback_fn:
1792               feedback_fn(errmsg)
1793
1794       self._last_cluster_serial = self._config_data.cluster.serial_no
1795
1796   def _UnlockedGetSsconfValues(self):
1797     """Return the values needed by ssconf.
1798
1799     @rtype: dict
1800     @return: a dictionary with keys the ssconf names and values their
1801         associated value
1802
1803     """
1804     fn = "\n".join
1805     instance_names = utils.NiceSort(self._UnlockedGetInstanceList())
1806     node_names = utils.NiceSort(self._UnlockedGetNodeList())
1807     node_info = [self._UnlockedGetNodeInfo(name) for name in node_names]
1808     node_pri_ips = ["%s %s" % (ninfo.name, ninfo.primary_ip)
1809                     for ninfo in node_info]
1810     node_snd_ips = ["%s %s" % (ninfo.name, ninfo.secondary_ip)
1811                     for ninfo in node_info]
1812
1813     instance_data = fn(instance_names)
1814     off_data = fn(node.name for node in node_info if node.offline)
1815     on_data = fn(node.name for node in node_info if not node.offline)
1816     mc_data = fn(node.name for node in node_info if node.master_candidate)
1817     mc_ips_data = fn(node.primary_ip for node in node_info
1818                      if node.master_candidate)
1819     node_data = fn(node_names)
1820     node_pri_ips_data = fn(node_pri_ips)
1821     node_snd_ips_data = fn(node_snd_ips)
1822
1823     cluster = self._config_data.cluster
1824     cluster_tags = fn(cluster.GetTags())
1825
1826     hypervisor_list = fn(cluster.enabled_hypervisors)
1827
1828     uid_pool = uidpool.FormatUidPool(cluster.uid_pool, separator="\n")
1829
1830     nodegroups = ["%s %s" % (nodegroup.uuid, nodegroup.name) for nodegroup in
1831                   self._config_data.nodegroups.values()]
1832     nodegroups_data = fn(utils.NiceSort(nodegroups))
1833
1834     ssconf_values = {
1835       constants.SS_CLUSTER_NAME: cluster.cluster_name,
1836       constants.SS_CLUSTER_TAGS: cluster_tags,
1837       constants.SS_FILE_STORAGE_DIR: cluster.file_storage_dir,
1838       constants.SS_SHARED_FILE_STORAGE_DIR: cluster.shared_file_storage_dir,
1839       constants.SS_MASTER_CANDIDATES: mc_data,
1840       constants.SS_MASTER_CANDIDATES_IPS: mc_ips_data,
1841       constants.SS_MASTER_IP: cluster.master_ip,
1842       constants.SS_MASTER_NETDEV: cluster.master_netdev,
1843       constants.SS_MASTER_NODE: cluster.master_node,
1844       constants.SS_NODE_LIST: node_data,
1845       constants.SS_NODE_PRIMARY_IPS: node_pri_ips_data,
1846       constants.SS_NODE_SECONDARY_IPS: node_snd_ips_data,
1847       constants.SS_OFFLINE_NODES: off_data,
1848       constants.SS_ONLINE_NODES: on_data,
1849       constants.SS_PRIMARY_IP_FAMILY: str(cluster.primary_ip_family),
1850       constants.SS_INSTANCE_LIST: instance_data,
1851       constants.SS_RELEASE_VERSION: constants.RELEASE_VERSION,
1852       constants.SS_HYPERVISOR_LIST: hypervisor_list,
1853       constants.SS_MAINTAIN_NODE_HEALTH: str(cluster.maintain_node_health),
1854       constants.SS_UID_POOL: uid_pool,
1855       constants.SS_NODEGROUPS: nodegroups_data,
1856       }
1857     bad_values = [(k, v) for k, v in ssconf_values.items()
1858                   if not isinstance(v, (str, basestring))]
1859     if bad_values:
1860       err = utils.CommaJoin("%s=%s" % (k, v) for k, v in bad_values)
1861       raise errors.ConfigurationError("Some ssconf key(s) have non-string"
1862                                       " values: %s" % err)
1863     return ssconf_values
1864
1865   @locking.ssynchronized(_config_lock, shared=1)
1866   def GetSsconfValues(self):
1867     """Wrapper using lock around _UnlockedGetSsconf().
1868
1869     """
1870     return self._UnlockedGetSsconfValues()
1871
1872   @locking.ssynchronized(_config_lock, shared=1)
1873   def GetVGName(self):
1874     """Return the volume group name.
1875
1876     """
1877     return self._config_data.cluster.volume_group_name
1878
1879   @locking.ssynchronized(_config_lock)
1880   def SetVGName(self, vg_name):
1881     """Set the volume group name.
1882
1883     """
1884     self._config_data.cluster.volume_group_name = vg_name
1885     self._config_data.cluster.serial_no += 1
1886     self._WriteConfig()
1887
1888   @locking.ssynchronized(_config_lock, shared=1)
1889   def GetDRBDHelper(self):
1890     """Return DRBD usermode helper.
1891
1892     """
1893     return self._config_data.cluster.drbd_usermode_helper
1894
1895   @locking.ssynchronized(_config_lock)
1896   def SetDRBDHelper(self, drbd_helper):
1897     """Set DRBD usermode helper.
1898
1899     """
1900     self._config_data.cluster.drbd_usermode_helper = drbd_helper
1901     self._config_data.cluster.serial_no += 1
1902     self._WriteConfig()
1903
1904   @locking.ssynchronized(_config_lock, shared=1)
1905   def GetMACPrefix(self):
1906     """Return the mac prefix.
1907
1908     """
1909     return self._config_data.cluster.mac_prefix
1910
1911   @locking.ssynchronized(_config_lock, shared=1)
1912   def GetClusterInfo(self):
1913     """Returns information about the cluster
1914
1915     @rtype: L{objects.Cluster}
1916     @return: the cluster object
1917
1918     """
1919     return self._config_data.cluster
1920
1921   @locking.ssynchronized(_config_lock, shared=1)
1922   def HasAnyDiskOfType(self, dev_type):
1923     """Check if in there is at disk of the given type in the configuration.
1924
1925     """
1926     return self._config_data.HasAnyDiskOfType(dev_type)
1927
1928   @locking.ssynchronized(_config_lock)
1929   def Update(self, target, feedback_fn):
1930     """Notify function to be called after updates.
1931
1932     This function must be called when an object (as returned by
1933     GetInstanceInfo, GetNodeInfo, GetCluster) has been updated and the
1934     caller wants the modifications saved to the backing store. Note
1935     that all modified objects will be saved, but the target argument
1936     is the one the caller wants to ensure that it's saved.
1937
1938     @param target: an instance of either L{objects.Cluster},
1939         L{objects.Node} or L{objects.Instance} which is existing in
1940         the cluster
1941     @param feedback_fn: Callable feedback function
1942
1943     """
1944     if self._config_data is None:
1945       raise errors.ProgrammerError("Configuration file not read,"
1946                                    " cannot save.")
1947     update_serial = False
1948     if isinstance(target, objects.Cluster):
1949       test = target == self._config_data.cluster
1950     elif isinstance(target, objects.Node):
1951       test = target in self._config_data.nodes.values()
1952       update_serial = True
1953     elif isinstance(target, objects.Instance):
1954       test = target in self._config_data.instances.values()
1955     elif isinstance(target, objects.NodeGroup):
1956       test = target in self._config_data.nodegroups.values()
1957     else:
1958       raise errors.ProgrammerError("Invalid object type (%s) passed to"
1959                                    " ConfigWriter.Update" % type(target))
1960     if not test:
1961       raise errors.ConfigurationError("Configuration updated since object"
1962                                       " has been read or unknown object")
1963     target.serial_no += 1
1964     target.mtime = now = time.time()
1965
1966     if update_serial:
1967       # for node updates, we need to increase the cluster serial too
1968       self._config_data.cluster.serial_no += 1
1969       self._config_data.cluster.mtime = now
1970
1971     if isinstance(target, objects.Instance):
1972       self._UnlockedReleaseDRBDMinors(target.name)
1973
1974     self._WriteConfig(feedback_fn=feedback_fn)
1975
1976   @locking.ssynchronized(_config_lock)
1977   def DropECReservations(self, ec_id):
1978     """Drop per-execution-context reservations
1979
1980     """
1981     for rm in self._all_rms:
1982       rm.DropECReservations(ec_id)