Add gnt-instance start --pause
[ganeti-local] / lib / config.py
1 #
2 #
3
4 # Copyright (C) 2006, 2007, 2008, 2009, 2010, 2011 Google Inc.
5 #
6 # This program is free software; you can redistribute it and/or modify
7 # it under the terms of the GNU General Public License as published by
8 # the Free Software Foundation; either version 2 of the License, or
9 # (at your option) any later version.
10 #
11 # This program is distributed in the hope that it will be useful, but
12 # WITHOUT ANY WARRANTY; without even the implied warranty of
13 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14 # General Public License for more details.
15 #
16 # You should have received a copy of the GNU General Public License
17 # along with this program; if not, write to the Free Software
18 # Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
19 # 02110-1301, USA.
20
21
22 """Configuration management for Ganeti
23
24 This module provides the interface to the Ganeti cluster configuration.
25
26 The configuration data is stored on every node but is updated on the master
27 only. After each update, the master distributes the data to the other nodes.
28
29 Currently, the data storage format is JSON. YAML was slow and consuming too
30 much memory.
31
32 """
33
34 # pylint: disable-msg=R0904
35 # R0904: Too many public methods
36
37 import os
38 import random
39 import logging
40 import time
41
42 from ganeti import errors
43 from ganeti import locking
44 from ganeti import utils
45 from ganeti import constants
46 from ganeti import rpc
47 from ganeti import objects
48 from ganeti import serializer
49 from ganeti import uidpool
50 from ganeti import netutils
51 from ganeti import runtime
52
53
54 _config_lock = locking.SharedLock("ConfigWriter")
55
56 # job id used for resource management at config upgrade time
57 _UPGRADE_CONFIG_JID = "jid-cfg-upgrade"
58
59
60 def _ValidateConfig(data):
61   """Verifies that a configuration objects looks valid.
62
63   This only verifies the version of the configuration.
64
65   @raise errors.ConfigurationError: if the version differs from what
66       we expect
67
68   """
69   if data.version != constants.CONFIG_VERSION:
70     raise errors.ConfigVersionMismatch(constants.CONFIG_VERSION, data.version)
71
72
73 class TemporaryReservationManager:
74   """A temporary resource reservation manager.
75
76   This is used to reserve resources in a job, before using them, making sure
77   other jobs cannot get them in the meantime.
78
79   """
80   def __init__(self):
81     self._ec_reserved = {}
82
83   def Reserved(self, resource):
84     for holder_reserved in self._ec_reserved.values():
85       if resource in holder_reserved:
86         return True
87     return False
88
89   def Reserve(self, ec_id, resource):
90     if self.Reserved(resource):
91       raise errors.ReservationError("Duplicate reservation for resource '%s'"
92                                     % str(resource))
93     if ec_id not in self._ec_reserved:
94       self._ec_reserved[ec_id] = set([resource])
95     else:
96       self._ec_reserved[ec_id].add(resource)
97
98   def DropECReservations(self, ec_id):
99     if ec_id in self._ec_reserved:
100       del self._ec_reserved[ec_id]
101
102   def GetReserved(self):
103     all_reserved = set()
104     for holder_reserved in self._ec_reserved.values():
105       all_reserved.update(holder_reserved)
106     return all_reserved
107
108   def Generate(self, existing, generate_one_fn, ec_id):
109     """Generate a new resource of this type
110
111     """
112     assert callable(generate_one_fn)
113
114     all_elems = self.GetReserved()
115     all_elems.update(existing)
116     retries = 64
117     while retries > 0:
118       new_resource = generate_one_fn()
119       if new_resource is not None and new_resource not in all_elems:
120         break
121     else:
122       raise errors.ConfigurationError("Not able generate new resource"
123                                       " (last tried: %s)" % new_resource)
124     self.Reserve(ec_id, new_resource)
125     return new_resource
126
127
128 def _MatchNameComponentIgnoreCase(short_name, names):
129   """Wrapper around L{utils.text.MatchNameComponent}.
130
131   """
132   return utils.MatchNameComponent(short_name, names, case_sensitive=False)
133
134
135 class ConfigWriter:
136   """The interface to the cluster configuration.
137
138   @ivar _temporary_lvs: reservation manager for temporary LVs
139   @ivar _all_rms: a list of all temporary reservation managers
140
141   """
142   def __init__(self, cfg_file=None, offline=False, _getents=runtime.GetEnts,
143                accept_foreign=False):
144     self.write_count = 0
145     self._lock = _config_lock
146     self._config_data = None
147     self._offline = offline
148     if cfg_file is None:
149       self._cfg_file = constants.CLUSTER_CONF_FILE
150     else:
151       self._cfg_file = cfg_file
152     self._getents = _getents
153     self._temporary_ids = TemporaryReservationManager()
154     self._temporary_drbds = {}
155     self._temporary_macs = TemporaryReservationManager()
156     self._temporary_secrets = TemporaryReservationManager()
157     self._temporary_lvs = TemporaryReservationManager()
158     self._all_rms = [self._temporary_ids, self._temporary_macs,
159                      self._temporary_secrets, self._temporary_lvs]
160     # Note: in order to prevent errors when resolving our name in
161     # _DistributeConfig, we compute it here once and reuse it; it's
162     # better to raise an error before starting to modify the config
163     # file than after it was modified
164     self._my_hostname = netutils.Hostname.GetSysName()
165     self._last_cluster_serial = -1
166     self._cfg_id = None
167     self._OpenConfig(accept_foreign)
168
169   # this method needs to be static, so that we can call it on the class
170   @staticmethod
171   def IsCluster():
172     """Check if the cluster is configured.
173
174     """
175     return os.path.exists(constants.CLUSTER_CONF_FILE)
176
177   def _GenerateOneMAC(self):
178     """Generate one mac address
179
180     """
181     prefix = self._config_data.cluster.mac_prefix
182     byte1 = random.randrange(0, 256)
183     byte2 = random.randrange(0, 256)
184     byte3 = random.randrange(0, 256)
185     mac = "%s:%02x:%02x:%02x" % (prefix, byte1, byte2, byte3)
186     return mac
187
188   @locking.ssynchronized(_config_lock, shared=1)
189   def GetNdParams(self, node):
190     """Get the node params populated with cluster defaults.
191
192     @type node: L{object.Node}
193     @param node: The node we want to know the params for
194     @return: A dict with the filled in node params
195
196     """
197     nodegroup = self._UnlockedGetNodeGroup(node.group)
198     return self._config_data.cluster.FillND(node, nodegroup)
199
200   @locking.ssynchronized(_config_lock, shared=1)
201   def GenerateMAC(self, ec_id):
202     """Generate a MAC for an instance.
203
204     This should check the current instances for duplicates.
205
206     """
207     existing = self._AllMACs()
208     return self._temporary_ids.Generate(existing, self._GenerateOneMAC, ec_id)
209
210   @locking.ssynchronized(_config_lock, shared=1)
211   def ReserveMAC(self, mac, ec_id):
212     """Reserve a MAC for an instance.
213
214     This only checks instances managed by this cluster, it does not
215     check for potential collisions elsewhere.
216
217     """
218     all_macs = self._AllMACs()
219     if mac in all_macs:
220       raise errors.ReservationError("mac already in use")
221     else:
222       self._temporary_macs.Reserve(ec_id, mac)
223
224   @locking.ssynchronized(_config_lock, shared=1)
225   def ReserveLV(self, lv_name, ec_id):
226     """Reserve an VG/LV pair for an instance.
227
228     @type lv_name: string
229     @param lv_name: the logical volume name to reserve
230
231     """
232     all_lvs = self._AllLVs()
233     if lv_name in all_lvs:
234       raise errors.ReservationError("LV already in use")
235     else:
236       self._temporary_lvs.Reserve(ec_id, lv_name)
237
238   @locking.ssynchronized(_config_lock, shared=1)
239   def GenerateDRBDSecret(self, ec_id):
240     """Generate a DRBD secret.
241
242     This checks the current disks for duplicates.
243
244     """
245     return self._temporary_secrets.Generate(self._AllDRBDSecrets(),
246                                             utils.GenerateSecret,
247                                             ec_id)
248
249   def _AllLVs(self):
250     """Compute the list of all LVs.
251
252     """
253     lvnames = set()
254     for instance in self._config_data.instances.values():
255       node_data = instance.MapLVsByNode()
256       for lv_list in node_data.values():
257         lvnames.update(lv_list)
258     return lvnames
259
260   def _AllIDs(self, include_temporary):
261     """Compute the list of all UUIDs and names we have.
262
263     @type include_temporary: boolean
264     @param include_temporary: whether to include the _temporary_ids set
265     @rtype: set
266     @return: a set of IDs
267
268     """
269     existing = set()
270     if include_temporary:
271       existing.update(self._temporary_ids.GetReserved())
272     existing.update(self._AllLVs())
273     existing.update(self._config_data.instances.keys())
274     existing.update(self._config_data.nodes.keys())
275     existing.update([i.uuid for i in self._AllUUIDObjects() if i.uuid])
276     return existing
277
278   def _GenerateUniqueID(self, ec_id):
279     """Generate an unique UUID.
280
281     This checks the current node, instances and disk names for
282     duplicates.
283
284     @rtype: string
285     @return: the unique id
286
287     """
288     existing = self._AllIDs(include_temporary=False)
289     return self._temporary_ids.Generate(existing, utils.NewUUID, ec_id)
290
291   @locking.ssynchronized(_config_lock, shared=1)
292   def GenerateUniqueID(self, ec_id):
293     """Generate an unique ID.
294
295     This is just a wrapper over the unlocked version.
296
297     @type ec_id: string
298     @param ec_id: unique id for the job to reserve the id to
299
300     """
301     return self._GenerateUniqueID(ec_id)
302
303   def _AllMACs(self):
304     """Return all MACs present in the config.
305
306     @rtype: list
307     @return: the list of all MACs
308
309     """
310     result = []
311     for instance in self._config_data.instances.values():
312       for nic in instance.nics:
313         result.append(nic.mac)
314
315     return result
316
317   def _AllDRBDSecrets(self):
318     """Return all DRBD secrets present in the config.
319
320     @rtype: list
321     @return: the list of all DRBD secrets
322
323     """
324     def helper(disk, result):
325       """Recursively gather secrets from this disk."""
326       if disk.dev_type == constants.DT_DRBD8:
327         result.append(disk.logical_id[5])
328       if disk.children:
329         for child in disk.children:
330           helper(child, result)
331
332     result = []
333     for instance in self._config_data.instances.values():
334       for disk in instance.disks:
335         helper(disk, result)
336
337     return result
338
339   def _CheckDiskIDs(self, disk, l_ids, p_ids):
340     """Compute duplicate disk IDs
341
342     @type disk: L{objects.Disk}
343     @param disk: the disk at which to start searching
344     @type l_ids: list
345     @param l_ids: list of current logical ids
346     @type p_ids: list
347     @param p_ids: list of current physical ids
348     @rtype: list
349     @return: a list of error messages
350
351     """
352     result = []
353     if disk.logical_id is not None:
354       if disk.logical_id in l_ids:
355         result.append("duplicate logical id %s" % str(disk.logical_id))
356       else:
357         l_ids.append(disk.logical_id)
358     if disk.physical_id is not None:
359       if disk.physical_id in p_ids:
360         result.append("duplicate physical id %s" % str(disk.physical_id))
361       else:
362         p_ids.append(disk.physical_id)
363
364     if disk.children:
365       for child in disk.children:
366         result.extend(self._CheckDiskIDs(child, l_ids, p_ids))
367     return result
368
369   def _UnlockedVerifyConfig(self):
370     """Verify function.
371
372     @rtype: list
373     @return: a list of error messages; a non-empty list signifies
374         configuration errors
375
376     """
377     # pylint: disable-msg=R0914
378     result = []
379     seen_macs = []
380     ports = {}
381     data = self._config_data
382     cluster = data.cluster
383     seen_lids = []
384     seen_pids = []
385
386     # global cluster checks
387     if not cluster.enabled_hypervisors:
388       result.append("enabled hypervisors list doesn't have any entries")
389     invalid_hvs = set(cluster.enabled_hypervisors) - constants.HYPER_TYPES
390     if invalid_hvs:
391       result.append("enabled hypervisors contains invalid entries: %s" %
392                     invalid_hvs)
393     missing_hvp = (set(cluster.enabled_hypervisors) -
394                    set(cluster.hvparams.keys()))
395     if missing_hvp:
396       result.append("hypervisor parameters missing for the enabled"
397                     " hypervisor(s) %s" % utils.CommaJoin(missing_hvp))
398
399     if cluster.master_node not in data.nodes:
400       result.append("cluster has invalid primary node '%s'" %
401                     cluster.master_node)
402
403     def _helper(owner, attr, value, template):
404       try:
405         utils.ForceDictType(value, template)
406       except errors.GenericError, err:
407         result.append("%s has invalid %s: %s" % (owner, attr, err))
408
409     def _helper_nic(owner, params):
410       try:
411         objects.NIC.CheckParameterSyntax(params)
412       except errors.ConfigurationError, err:
413         result.append("%s has invalid nicparams: %s" % (owner, err))
414
415     # check cluster parameters
416     _helper("cluster", "beparams", cluster.SimpleFillBE({}),
417             constants.BES_PARAMETER_TYPES)
418     _helper("cluster", "nicparams", cluster.SimpleFillNIC({}),
419             constants.NICS_PARAMETER_TYPES)
420     _helper_nic("cluster", cluster.SimpleFillNIC({}))
421     _helper("cluster", "ndparams", cluster.SimpleFillND({}),
422             constants.NDS_PARAMETER_TYPES)
423
424     # per-instance checks
425     for instance_name in data.instances:
426       instance = data.instances[instance_name]
427       if instance.name != instance_name:
428         result.append("instance '%s' is indexed by wrong name '%s'" %
429                       (instance.name, instance_name))
430       if instance.primary_node not in data.nodes:
431         result.append("instance '%s' has invalid primary node '%s'" %
432                       (instance_name, instance.primary_node))
433       for snode in instance.secondary_nodes:
434         if snode not in data.nodes:
435           result.append("instance '%s' has invalid secondary node '%s'" %
436                         (instance_name, snode))
437       for idx, nic in enumerate(instance.nics):
438         if nic.mac in seen_macs:
439           result.append("instance '%s' has NIC %d mac %s duplicate" %
440                         (instance_name, idx, nic.mac))
441         else:
442           seen_macs.append(nic.mac)
443         if nic.nicparams:
444           filled = cluster.SimpleFillNIC(nic.nicparams)
445           owner = "instance %s nic %d" % (instance.name, idx)
446           _helper(owner, "nicparams",
447                   filled, constants.NICS_PARAMETER_TYPES)
448           _helper_nic(owner, filled)
449
450       # parameter checks
451       if instance.beparams:
452         _helper("instance %s" % instance.name, "beparams",
453                 cluster.FillBE(instance), constants.BES_PARAMETER_TYPES)
454
455       # gather the drbd ports for duplicate checks
456       for dsk in instance.disks:
457         if dsk.dev_type in constants.LDS_DRBD:
458           tcp_port = dsk.logical_id[2]
459           if tcp_port not in ports:
460             ports[tcp_port] = []
461           ports[tcp_port].append((instance.name, "drbd disk %s" % dsk.iv_name))
462       # gather network port reservation
463       net_port = getattr(instance, "network_port", None)
464       if net_port is not None:
465         if net_port not in ports:
466           ports[net_port] = []
467         ports[net_port].append((instance.name, "network port"))
468
469       # instance disk verify
470       for idx, disk in enumerate(instance.disks):
471         result.extend(["instance '%s' disk %d error: %s" %
472                        (instance.name, idx, msg) for msg in disk.Verify()])
473         result.extend(self._CheckDiskIDs(disk, seen_lids, seen_pids))
474
475     # cluster-wide pool of free ports
476     for free_port in cluster.tcpudp_port_pool:
477       if free_port not in ports:
478         ports[free_port] = []
479       ports[free_port].append(("cluster", "port marked as free"))
480
481     # compute tcp/udp duplicate ports
482     keys = ports.keys()
483     keys.sort()
484     for pnum in keys:
485       pdata = ports[pnum]
486       if len(pdata) > 1:
487         txt = utils.CommaJoin(["%s/%s" % val for val in pdata])
488         result.append("tcp/udp port %s has duplicates: %s" % (pnum, txt))
489
490     # highest used tcp port check
491     if keys:
492       if keys[-1] > cluster.highest_used_port:
493         result.append("Highest used port mismatch, saved %s, computed %s" %
494                       (cluster.highest_used_port, keys[-1]))
495
496     if not data.nodes[cluster.master_node].master_candidate:
497       result.append("Master node is not a master candidate")
498
499     # master candidate checks
500     mc_now, mc_max, _ = self._UnlockedGetMasterCandidateStats()
501     if mc_now < mc_max:
502       result.append("Not enough master candidates: actual %d, target %d" %
503                     (mc_now, mc_max))
504
505     # node checks
506     for node_name, node in data.nodes.items():
507       if node.name != node_name:
508         result.append("Node '%s' is indexed by wrong name '%s'" %
509                       (node.name, node_name))
510       if [node.master_candidate, node.drained, node.offline].count(True) > 1:
511         result.append("Node %s state is invalid: master_candidate=%s,"
512                       " drain=%s, offline=%s" %
513                       (node.name, node.master_candidate, node.drained,
514                        node.offline))
515       if node.group not in data.nodegroups:
516         result.append("Node '%s' has invalid group '%s'" %
517                       (node.name, node.group))
518       else:
519         _helper("node %s" % node.name, "ndparams",
520                 cluster.FillND(node, data.nodegroups[node.group]),
521                 constants.NDS_PARAMETER_TYPES)
522
523     # nodegroups checks
524     nodegroups_names = set()
525     for nodegroup_uuid in data.nodegroups:
526       nodegroup = data.nodegroups[nodegroup_uuid]
527       if nodegroup.uuid != nodegroup_uuid:
528         result.append("node group '%s' (uuid: '%s') indexed by wrong uuid '%s'"
529                       % (nodegroup.name, nodegroup.uuid, nodegroup_uuid))
530       if utils.UUID_RE.match(nodegroup.name.lower()):
531         result.append("node group '%s' (uuid: '%s') has uuid-like name" %
532                       (nodegroup.name, nodegroup.uuid))
533       if nodegroup.name in nodegroups_names:
534         result.append("duplicate node group name '%s'" % nodegroup.name)
535       else:
536         nodegroups_names.add(nodegroup.name)
537       if nodegroup.ndparams:
538         _helper("group %s" % nodegroup.name, "ndparams",
539                 cluster.SimpleFillND(nodegroup.ndparams),
540                 constants.NDS_PARAMETER_TYPES)
541
542
543     # drbd minors check
544     _, duplicates = self._UnlockedComputeDRBDMap()
545     for node, minor, instance_a, instance_b in duplicates:
546       result.append("DRBD minor %d on node %s is assigned twice to instances"
547                     " %s and %s" % (minor, node, instance_a, instance_b))
548
549     # IP checks
550     default_nicparams = cluster.nicparams[constants.PP_DEFAULT]
551     ips = {}
552
553     def _AddIpAddress(ip, name):
554       ips.setdefault(ip, []).append(name)
555
556     _AddIpAddress(cluster.master_ip, "cluster_ip")
557
558     for node in data.nodes.values():
559       _AddIpAddress(node.primary_ip, "node:%s/primary" % node.name)
560       if node.secondary_ip != node.primary_ip:
561         _AddIpAddress(node.secondary_ip, "node:%s/secondary" % node.name)
562
563     for instance in data.instances.values():
564       for idx, nic in enumerate(instance.nics):
565         if nic.ip is None:
566           continue
567
568         nicparams = objects.FillDict(default_nicparams, nic.nicparams)
569         nic_mode = nicparams[constants.NIC_MODE]
570         nic_link = nicparams[constants.NIC_LINK]
571
572         if nic_mode == constants.NIC_MODE_BRIDGED:
573           link = "bridge:%s" % nic_link
574         elif nic_mode == constants.NIC_MODE_ROUTED:
575           link = "route:%s" % nic_link
576         else:
577           raise errors.ProgrammerError("NIC mode '%s' not handled" % nic_mode)
578
579         _AddIpAddress("%s/%s" % (link, nic.ip),
580                       "instance:%s/nic:%d" % (instance.name, idx))
581
582     for ip, owners in ips.items():
583       if len(owners) > 1:
584         result.append("IP address %s is used by multiple owners: %s" %
585                       (ip, utils.CommaJoin(owners)))
586
587     return result
588
589   @locking.ssynchronized(_config_lock, shared=1)
590   def VerifyConfig(self):
591     """Verify function.
592
593     This is just a wrapper over L{_UnlockedVerifyConfig}.
594
595     @rtype: list
596     @return: a list of error messages; a non-empty list signifies
597         configuration errors
598
599     """
600     return self._UnlockedVerifyConfig()
601
602   def _UnlockedSetDiskID(self, disk, node_name):
603     """Convert the unique ID to the ID needed on the target nodes.
604
605     This is used only for drbd, which needs ip/port configuration.
606
607     The routine descends down and updates its children also, because
608     this helps when the only the top device is passed to the remote
609     node.
610
611     This function is for internal use, when the config lock is already held.
612
613     """
614     if disk.children:
615       for child in disk.children:
616         self._UnlockedSetDiskID(child, node_name)
617
618     if disk.logical_id is None and disk.physical_id is not None:
619       return
620     if disk.dev_type == constants.LD_DRBD8:
621       pnode, snode, port, pminor, sminor, secret = disk.logical_id
622       if node_name not in (pnode, snode):
623         raise errors.ConfigurationError("DRBD device not knowing node %s" %
624                                         node_name)
625       pnode_info = self._UnlockedGetNodeInfo(pnode)
626       snode_info = self._UnlockedGetNodeInfo(snode)
627       if pnode_info is None or snode_info is None:
628         raise errors.ConfigurationError("Can't find primary or secondary node"
629                                         " for %s" % str(disk))
630       p_data = (pnode_info.secondary_ip, port)
631       s_data = (snode_info.secondary_ip, port)
632       if pnode == node_name:
633         disk.physical_id = p_data + s_data + (pminor, secret)
634       else: # it must be secondary, we tested above
635         disk.physical_id = s_data + p_data + (sminor, secret)
636     else:
637       disk.physical_id = disk.logical_id
638     return
639
640   @locking.ssynchronized(_config_lock)
641   def SetDiskID(self, disk, node_name):
642     """Convert the unique ID to the ID needed on the target nodes.
643
644     This is used only for drbd, which needs ip/port configuration.
645
646     The routine descends down and updates its children also, because
647     this helps when the only the top device is passed to the remote
648     node.
649
650     """
651     return self._UnlockedSetDiskID(disk, node_name)
652
653   @locking.ssynchronized(_config_lock)
654   def AddTcpUdpPort(self, port):
655     """Adds a new port to the available port pool.
656
657     """
658     if not isinstance(port, int):
659       raise errors.ProgrammerError("Invalid type passed for port")
660
661     self._config_data.cluster.tcpudp_port_pool.add(port)
662     self._WriteConfig()
663
664   @locking.ssynchronized(_config_lock, shared=1)
665   def GetPortList(self):
666     """Returns a copy of the current port list.
667
668     """
669     return self._config_data.cluster.tcpudp_port_pool.copy()
670
671   @locking.ssynchronized(_config_lock)
672   def AllocatePort(self):
673     """Allocate a port.
674
675     The port will be taken from the available port pool or from the
676     default port range (and in this case we increase
677     highest_used_port).
678
679     """
680     # If there are TCP/IP ports configured, we use them first.
681     if self._config_data.cluster.tcpudp_port_pool:
682       port = self._config_data.cluster.tcpudp_port_pool.pop()
683     else:
684       port = self._config_data.cluster.highest_used_port + 1
685       if port >= constants.LAST_DRBD_PORT:
686         raise errors.ConfigurationError("The highest used port is greater"
687                                         " than %s. Aborting." %
688                                         constants.LAST_DRBD_PORT)
689       self._config_data.cluster.highest_used_port = port
690
691     self._WriteConfig()
692     return port
693
694   def _UnlockedComputeDRBDMap(self):
695     """Compute the used DRBD minor/nodes.
696
697     @rtype: (dict, list)
698     @return: dictionary of node_name: dict of minor: instance_name;
699         the returned dict will have all the nodes in it (even if with
700         an empty list), and a list of duplicates; if the duplicates
701         list is not empty, the configuration is corrupted and its caller
702         should raise an exception
703
704     """
705     def _AppendUsedPorts(instance_name, disk, used):
706       duplicates = []
707       if disk.dev_type == constants.LD_DRBD8 and len(disk.logical_id) >= 5:
708         node_a, node_b, _, minor_a, minor_b = disk.logical_id[:5]
709         for node, port in ((node_a, minor_a), (node_b, minor_b)):
710           assert node in used, ("Node '%s' of instance '%s' not found"
711                                 " in node list" % (node, instance_name))
712           if port in used[node]:
713             duplicates.append((node, port, instance_name, used[node][port]))
714           else:
715             used[node][port] = instance_name
716       if disk.children:
717         for child in disk.children:
718           duplicates.extend(_AppendUsedPorts(instance_name, child, used))
719       return duplicates
720
721     duplicates = []
722     my_dict = dict((node, {}) for node in self._config_data.nodes)
723     for instance in self._config_data.instances.itervalues():
724       for disk in instance.disks:
725         duplicates.extend(_AppendUsedPorts(instance.name, disk, my_dict))
726     for (node, minor), instance in self._temporary_drbds.iteritems():
727       if minor in my_dict[node] and my_dict[node][minor] != instance:
728         duplicates.append((node, minor, instance, my_dict[node][minor]))
729       else:
730         my_dict[node][minor] = instance
731     return my_dict, duplicates
732
733   @locking.ssynchronized(_config_lock)
734   def ComputeDRBDMap(self):
735     """Compute the used DRBD minor/nodes.
736
737     This is just a wrapper over L{_UnlockedComputeDRBDMap}.
738
739     @return: dictionary of node_name: dict of minor: instance_name;
740         the returned dict will have all the nodes in it (even if with
741         an empty list).
742
743     """
744     d_map, duplicates = self._UnlockedComputeDRBDMap()
745     if duplicates:
746       raise errors.ConfigurationError("Duplicate DRBD ports detected: %s" %
747                                       str(duplicates))
748     return d_map
749
750   @locking.ssynchronized(_config_lock)
751   def AllocateDRBDMinor(self, nodes, instance):
752     """Allocate a drbd minor.
753
754     The free minor will be automatically computed from the existing
755     devices. A node can be given multiple times in order to allocate
756     multiple minors. The result is the list of minors, in the same
757     order as the passed nodes.
758
759     @type instance: string
760     @param instance: the instance for which we allocate minors
761
762     """
763     assert isinstance(instance, basestring), \
764            "Invalid argument '%s' passed to AllocateDRBDMinor" % instance
765
766     d_map, duplicates = self._UnlockedComputeDRBDMap()
767     if duplicates:
768       raise errors.ConfigurationError("Duplicate DRBD ports detected: %s" %
769                                       str(duplicates))
770     result = []
771     for nname in nodes:
772       ndata = d_map[nname]
773       if not ndata:
774         # no minors used, we can start at 0
775         result.append(0)
776         ndata[0] = instance
777         self._temporary_drbds[(nname, 0)] = instance
778         continue
779       keys = ndata.keys()
780       keys.sort()
781       ffree = utils.FirstFree(keys)
782       if ffree is None:
783         # return the next minor
784         # TODO: implement high-limit check
785         minor = keys[-1] + 1
786       else:
787         minor = ffree
788       # double-check minor against current instances
789       assert minor not in d_map[nname], \
790              ("Attempt to reuse allocated DRBD minor %d on node %s,"
791               " already allocated to instance %s" %
792               (minor, nname, d_map[nname][minor]))
793       ndata[minor] = instance
794       # double-check minor against reservation
795       r_key = (nname, minor)
796       assert r_key not in self._temporary_drbds, \
797              ("Attempt to reuse reserved DRBD minor %d on node %s,"
798               " reserved for instance %s" %
799               (minor, nname, self._temporary_drbds[r_key]))
800       self._temporary_drbds[r_key] = instance
801       result.append(minor)
802     logging.debug("Request to allocate drbd minors, input: %s, returning %s",
803                   nodes, result)
804     return result
805
806   def _UnlockedReleaseDRBDMinors(self, instance):
807     """Release temporary drbd minors allocated for a given instance.
808
809     @type instance: string
810     @param instance: the instance for which temporary minors should be
811                      released
812
813     """
814     assert isinstance(instance, basestring), \
815            "Invalid argument passed to ReleaseDRBDMinors"
816     for key, name in self._temporary_drbds.items():
817       if name == instance:
818         del self._temporary_drbds[key]
819
820   @locking.ssynchronized(_config_lock)
821   def ReleaseDRBDMinors(self, instance):
822     """Release temporary drbd minors allocated for a given instance.
823
824     This should be called on the error paths, on the success paths
825     it's automatically called by the ConfigWriter add and update
826     functions.
827
828     This function is just a wrapper over L{_UnlockedReleaseDRBDMinors}.
829
830     @type instance: string
831     @param instance: the instance for which temporary minors should be
832                      released
833
834     """
835     self._UnlockedReleaseDRBDMinors(instance)
836
837   @locking.ssynchronized(_config_lock, shared=1)
838   def GetConfigVersion(self):
839     """Get the configuration version.
840
841     @return: Config version
842
843     """
844     return self._config_data.version
845
846   @locking.ssynchronized(_config_lock, shared=1)
847   def GetClusterName(self):
848     """Get cluster name.
849
850     @return: Cluster name
851
852     """
853     return self._config_data.cluster.cluster_name
854
855   @locking.ssynchronized(_config_lock, shared=1)
856   def GetMasterNode(self):
857     """Get the hostname of the master node for this cluster.
858
859     @return: Master hostname
860
861     """
862     return self._config_data.cluster.master_node
863
864   @locking.ssynchronized(_config_lock, shared=1)
865   def GetMasterIP(self):
866     """Get the IP of the master node for this cluster.
867
868     @return: Master IP
869
870     """
871     return self._config_data.cluster.master_ip
872
873   @locking.ssynchronized(_config_lock, shared=1)
874   def GetMasterNetdev(self):
875     """Get the master network device for this cluster.
876
877     """
878     return self._config_data.cluster.master_netdev
879
880   @locking.ssynchronized(_config_lock, shared=1)
881   def GetFileStorageDir(self):
882     """Get the file storage dir for this cluster.
883
884     """
885     return self._config_data.cluster.file_storage_dir
886
887   @locking.ssynchronized(_config_lock, shared=1)
888   def GetSharedFileStorageDir(self):
889     """Get the shared file storage dir for this cluster.
890
891     """
892     return self._config_data.cluster.shared_file_storage_dir
893
894   @locking.ssynchronized(_config_lock, shared=1)
895   def GetHypervisorType(self):
896     """Get the hypervisor type for this cluster.
897
898     """
899     return self._config_data.cluster.enabled_hypervisors[0]
900
901   @locking.ssynchronized(_config_lock, shared=1)
902   def GetHostKey(self):
903     """Return the rsa hostkey from the config.
904
905     @rtype: string
906     @return: the rsa hostkey
907
908     """
909     return self._config_data.cluster.rsahostkeypub
910
911   @locking.ssynchronized(_config_lock, shared=1)
912   def GetDefaultIAllocator(self):
913     """Get the default instance allocator for this cluster.
914
915     """
916     return self._config_data.cluster.default_iallocator
917
918   @locking.ssynchronized(_config_lock, shared=1)
919   def GetPrimaryIPFamily(self):
920     """Get cluster primary ip family.
921
922     @return: primary ip family
923
924     """
925     return self._config_data.cluster.primary_ip_family
926
927   @locking.ssynchronized(_config_lock)
928   def AddNodeGroup(self, group, ec_id, check_uuid=True):
929     """Add a node group to the configuration.
930
931     This method calls group.UpgradeConfig() to fill any missing attributes
932     according to their default values.
933
934     @type group: L{objects.NodeGroup}
935     @param group: the NodeGroup object to add
936     @type ec_id: string
937     @param ec_id: unique id for the job to use when creating a missing UUID
938     @type check_uuid: bool
939     @param check_uuid: add an UUID to the group if it doesn't have one or, if
940                        it does, ensure that it does not exist in the
941                        configuration already
942
943     """
944     self._UnlockedAddNodeGroup(group, ec_id, check_uuid)
945     self._WriteConfig()
946
947   def _UnlockedAddNodeGroup(self, group, ec_id, check_uuid):
948     """Add a node group to the configuration.
949
950     """
951     logging.info("Adding node group %s to configuration", group.name)
952
953     # Some code might need to add a node group with a pre-populated UUID
954     # generated with ConfigWriter.GenerateUniqueID(). We allow them to bypass
955     # the "does this UUID" exist already check.
956     if check_uuid:
957       self._EnsureUUID(group, ec_id)
958
959     try:
960       existing_uuid = self._UnlockedLookupNodeGroup(group.name)
961     except errors.OpPrereqError:
962       pass
963     else:
964       raise errors.OpPrereqError("Desired group name '%s' already exists as a"
965                                  " node group (UUID: %s)" %
966                                  (group.name, existing_uuid),
967                                  errors.ECODE_EXISTS)
968
969     group.serial_no = 1
970     group.ctime = group.mtime = time.time()
971     group.UpgradeConfig()
972
973     self._config_data.nodegroups[group.uuid] = group
974     self._config_data.cluster.serial_no += 1
975
976   @locking.ssynchronized(_config_lock)
977   def RemoveNodeGroup(self, group_uuid):
978     """Remove a node group from the configuration.
979
980     @type group_uuid: string
981     @param group_uuid: the UUID of the node group to remove
982
983     """
984     logging.info("Removing node group %s from configuration", group_uuid)
985
986     if group_uuid not in self._config_data.nodegroups:
987       raise errors.ConfigurationError("Unknown node group '%s'" % group_uuid)
988
989     assert len(self._config_data.nodegroups) != 1, \
990             "Group '%s' is the only group, cannot be removed" % group_uuid
991
992     del self._config_data.nodegroups[group_uuid]
993     self._config_data.cluster.serial_no += 1
994     self._WriteConfig()
995
996   def _UnlockedLookupNodeGroup(self, target):
997     """Lookup a node group's UUID.
998
999     @type target: string or None
1000     @param target: group name or UUID or None to look for the default
1001     @rtype: string
1002     @return: nodegroup UUID
1003     @raises errors.OpPrereqError: when the target group cannot be found
1004
1005     """
1006     if target is None:
1007       if len(self._config_data.nodegroups) != 1:
1008         raise errors.OpPrereqError("More than one node group exists. Target"
1009                                    " group must be specified explicitely.")
1010       else:
1011         return self._config_data.nodegroups.keys()[0]
1012     if target in self._config_data.nodegroups:
1013       return target
1014     for nodegroup in self._config_data.nodegroups.values():
1015       if nodegroup.name == target:
1016         return nodegroup.uuid
1017     raise errors.OpPrereqError("Node group '%s' not found" % target,
1018                                errors.ECODE_NOENT)
1019
1020   @locking.ssynchronized(_config_lock, shared=1)
1021   def LookupNodeGroup(self, target):
1022     """Lookup a node group's UUID.
1023
1024     This function is just a wrapper over L{_UnlockedLookupNodeGroup}.
1025
1026     @type target: string or None
1027     @param target: group name or UUID or None to look for the default
1028     @rtype: string
1029     @return: nodegroup UUID
1030
1031     """
1032     return self._UnlockedLookupNodeGroup(target)
1033
1034   def _UnlockedGetNodeGroup(self, uuid):
1035     """Lookup a node group.
1036
1037     @type uuid: string
1038     @param uuid: group UUID
1039     @rtype: L{objects.NodeGroup} or None
1040     @return: nodegroup object, or None if not found
1041
1042     """
1043     if uuid not in self._config_data.nodegroups:
1044       return None
1045
1046     return self._config_data.nodegroups[uuid]
1047
1048   @locking.ssynchronized(_config_lock, shared=1)
1049   def GetNodeGroup(self, uuid):
1050     """Lookup a node group.
1051
1052     @type uuid: string
1053     @param uuid: group UUID
1054     @rtype: L{objects.NodeGroup} or None
1055     @return: nodegroup object, or None if not found
1056
1057     """
1058     return self._UnlockedGetNodeGroup(uuid)
1059
1060   @locking.ssynchronized(_config_lock, shared=1)
1061   def GetAllNodeGroupsInfo(self):
1062     """Get the configuration of all node groups.
1063
1064     """
1065     return dict(self._config_data.nodegroups)
1066
1067   @locking.ssynchronized(_config_lock, shared=1)
1068   def GetNodeGroupList(self):
1069     """Get a list of node groups.
1070
1071     """
1072     return self._config_data.nodegroups.keys()
1073
1074   @locking.ssynchronized(_config_lock, shared=1)
1075   def GetNodeGroupMembersByNodes(self, nodes):
1076     """Get nodes which are member in the same nodegroups as the given nodes.
1077
1078     """
1079     ngfn = lambda node_name: self._UnlockedGetNodeInfo(node_name).group
1080     return frozenset(member_name
1081                      for node_name in nodes
1082                      for member_name in
1083                        self._UnlockedGetNodeGroup(ngfn(node_name)).members)
1084
1085   @locking.ssynchronized(_config_lock)
1086   def AddInstance(self, instance, ec_id):
1087     """Add an instance to the config.
1088
1089     This should be used after creating a new instance.
1090
1091     @type instance: L{objects.Instance}
1092     @param instance: the instance object
1093
1094     """
1095     if not isinstance(instance, objects.Instance):
1096       raise errors.ProgrammerError("Invalid type passed to AddInstance")
1097
1098     if instance.disk_template != constants.DT_DISKLESS:
1099       all_lvs = instance.MapLVsByNode()
1100       logging.info("Instance '%s' DISK_LAYOUT: %s", instance.name, all_lvs)
1101
1102     all_macs = self._AllMACs()
1103     for nic in instance.nics:
1104       if nic.mac in all_macs:
1105         raise errors.ConfigurationError("Cannot add instance %s:"
1106                                         " MAC address '%s' already in use." %
1107                                         (instance.name, nic.mac))
1108
1109     self._EnsureUUID(instance, ec_id)
1110
1111     instance.serial_no = 1
1112     instance.ctime = instance.mtime = time.time()
1113     self._config_data.instances[instance.name] = instance
1114     self._config_data.cluster.serial_no += 1
1115     self._UnlockedReleaseDRBDMinors(instance.name)
1116     self._WriteConfig()
1117
1118   def _EnsureUUID(self, item, ec_id):
1119     """Ensures a given object has a valid UUID.
1120
1121     @param item: the instance or node to be checked
1122     @param ec_id: the execution context id for the uuid reservation
1123
1124     """
1125     if not item.uuid:
1126       item.uuid = self._GenerateUniqueID(ec_id)
1127     elif item.uuid in self._AllIDs(include_temporary=True):
1128       raise errors.ConfigurationError("Cannot add '%s': UUID %s already"
1129                                       " in use" % (item.name, item.uuid))
1130
1131   def _SetInstanceStatus(self, instance_name, status):
1132     """Set the instance's status to a given value.
1133
1134     """
1135     assert isinstance(status, bool), \
1136            "Invalid status '%s' passed to SetInstanceStatus" % (status,)
1137
1138     if instance_name not in self._config_data.instances:
1139       raise errors.ConfigurationError("Unknown instance '%s'" %
1140                                       instance_name)
1141     instance = self._config_data.instances[instance_name]
1142     if instance.admin_up != status:
1143       instance.admin_up = status
1144       instance.serial_no += 1
1145       instance.mtime = time.time()
1146       self._WriteConfig()
1147
1148   @locking.ssynchronized(_config_lock)
1149   def MarkInstanceUp(self, instance_name):
1150     """Mark the instance status to up in the config.
1151
1152     """
1153     self._SetInstanceStatus(instance_name, True)
1154
1155   @locking.ssynchronized(_config_lock)
1156   def RemoveInstance(self, instance_name):
1157     """Remove the instance from the configuration.
1158
1159     """
1160     if instance_name not in self._config_data.instances:
1161       raise errors.ConfigurationError("Unknown instance '%s'" % instance_name)
1162     del self._config_data.instances[instance_name]
1163     self._config_data.cluster.serial_no += 1
1164     self._WriteConfig()
1165
1166   @locking.ssynchronized(_config_lock)
1167   def RenameInstance(self, old_name, new_name):
1168     """Rename an instance.
1169
1170     This needs to be done in ConfigWriter and not by RemoveInstance
1171     combined with AddInstance as only we can guarantee an atomic
1172     rename.
1173
1174     """
1175     if old_name not in self._config_data.instances:
1176       raise errors.ConfigurationError("Unknown instance '%s'" % old_name)
1177     inst = self._config_data.instances[old_name]
1178     del self._config_data.instances[old_name]
1179     inst.name = new_name
1180
1181     for disk in inst.disks:
1182       if disk.dev_type == constants.LD_FILE:
1183         # rename the file paths in logical and physical id
1184         file_storage_dir = os.path.dirname(os.path.dirname(disk.logical_id[1]))
1185         disk_fname = "disk%s" % disk.iv_name.split("/")[1]
1186         disk.physical_id = disk.logical_id = (disk.logical_id[0],
1187                                               utils.PathJoin(file_storage_dir,
1188                                                              inst.name,
1189                                                              disk_fname))
1190
1191     # Force update of ssconf files
1192     self._config_data.cluster.serial_no += 1
1193
1194     self._config_data.instances[inst.name] = inst
1195     self._WriteConfig()
1196
1197   @locking.ssynchronized(_config_lock)
1198   def MarkInstanceDown(self, instance_name):
1199     """Mark the status of an instance to down in the configuration.
1200
1201     """
1202     self._SetInstanceStatus(instance_name, False)
1203
1204   def _UnlockedGetInstanceList(self):
1205     """Get the list of instances.
1206
1207     This function is for internal use, when the config lock is already held.
1208
1209     """
1210     return self._config_data.instances.keys()
1211
1212   @locking.ssynchronized(_config_lock, shared=1)
1213   def GetInstanceList(self):
1214     """Get the list of instances.
1215
1216     @return: array of instances, ex. ['instance2.example.com',
1217         'instance1.example.com']
1218
1219     """
1220     return self._UnlockedGetInstanceList()
1221
1222   def ExpandInstanceName(self, short_name):
1223     """Attempt to expand an incomplete instance name.
1224
1225     """
1226     # Locking is done in L{ConfigWriter.GetInstanceList}
1227     return _MatchNameComponentIgnoreCase(short_name, self.GetInstanceList())
1228
1229   def _UnlockedGetInstanceInfo(self, instance_name):
1230     """Returns information about an instance.
1231
1232     This function is for internal use, when the config lock is already held.
1233
1234     """
1235     if instance_name not in self._config_data.instances:
1236       return None
1237
1238     return self._config_data.instances[instance_name]
1239
1240   @locking.ssynchronized(_config_lock, shared=1)
1241   def GetInstanceInfo(self, instance_name):
1242     """Returns information about an instance.
1243
1244     It takes the information from the configuration file. Other information of
1245     an instance are taken from the live systems.
1246
1247     @param instance_name: name of the instance, e.g.
1248         I{instance1.example.com}
1249
1250     @rtype: L{objects.Instance}
1251     @return: the instance object
1252
1253     """
1254     return self._UnlockedGetInstanceInfo(instance_name)
1255
1256   @locking.ssynchronized(_config_lock, shared=1)
1257   def GetInstanceNodeGroups(self, instance_name, primary_only=False):
1258     """Returns set of node group UUIDs for instance's nodes.
1259
1260     @rtype: frozenset
1261
1262     """
1263     instance = self._UnlockedGetInstanceInfo(instance_name)
1264     if not instance:
1265       raise errors.ConfigurationError("Unknown instance '%s'" % instance_name)
1266
1267     if primary_only:
1268       nodes = [instance.primary_node]
1269     else:
1270       nodes = instance.all_nodes
1271
1272     return frozenset(self._UnlockedGetNodeInfo(node_name).group
1273                      for node_name in nodes)
1274
1275   @locking.ssynchronized(_config_lock, shared=1)
1276   def GetAllInstancesInfo(self):
1277     """Get the configuration of all instances.
1278
1279     @rtype: dict
1280     @return: dict of (instance, instance_info), where instance_info is what
1281               would GetInstanceInfo return for the node
1282
1283     """
1284     my_dict = dict([(instance, self._UnlockedGetInstanceInfo(instance))
1285                     for instance in self._UnlockedGetInstanceList()])
1286     return my_dict
1287
1288   @locking.ssynchronized(_config_lock)
1289   def AddNode(self, node, ec_id):
1290     """Add a node to the configuration.
1291
1292     @type node: L{objects.Node}
1293     @param node: a Node instance
1294
1295     """
1296     logging.info("Adding node %s to configuration", node.name)
1297
1298     self._EnsureUUID(node, ec_id)
1299
1300     node.serial_no = 1
1301     node.ctime = node.mtime = time.time()
1302     self._UnlockedAddNodeToGroup(node.name, node.group)
1303     self._config_data.nodes[node.name] = node
1304     self._config_data.cluster.serial_no += 1
1305     self._WriteConfig()
1306
1307   @locking.ssynchronized(_config_lock)
1308   def RemoveNode(self, node_name):
1309     """Remove a node from the configuration.
1310
1311     """
1312     logging.info("Removing node %s from configuration", node_name)
1313
1314     if node_name not in self._config_data.nodes:
1315       raise errors.ConfigurationError("Unknown node '%s'" % node_name)
1316
1317     self._UnlockedRemoveNodeFromGroup(self._config_data.nodes[node_name])
1318     del self._config_data.nodes[node_name]
1319     self._config_data.cluster.serial_no += 1
1320     self._WriteConfig()
1321
1322   def ExpandNodeName(self, short_name):
1323     """Attempt to expand an incomplete node name.
1324
1325     """
1326     # Locking is done in L{ConfigWriter.GetNodeList}
1327     return _MatchNameComponentIgnoreCase(short_name, self.GetNodeList())
1328
1329   def _UnlockedGetNodeInfo(self, node_name):
1330     """Get the configuration of a node, as stored in the config.
1331
1332     This function is for internal use, when the config lock is already
1333     held.
1334
1335     @param node_name: the node name, e.g. I{node1.example.com}
1336
1337     @rtype: L{objects.Node}
1338     @return: the node object
1339
1340     """
1341     if node_name not in self._config_data.nodes:
1342       return None
1343
1344     return self._config_data.nodes[node_name]
1345
1346   @locking.ssynchronized(_config_lock, shared=1)
1347   def GetNodeInfo(self, node_name):
1348     """Get the configuration of a node, as stored in the config.
1349
1350     This is just a locked wrapper over L{_UnlockedGetNodeInfo}.
1351
1352     @param node_name: the node name, e.g. I{node1.example.com}
1353
1354     @rtype: L{objects.Node}
1355     @return: the node object
1356
1357     """
1358     return self._UnlockedGetNodeInfo(node_name)
1359
1360   @locking.ssynchronized(_config_lock, shared=1)
1361   def GetNodeInstances(self, node_name):
1362     """Get the instances of a node, as stored in the config.
1363
1364     @param node_name: the node name, e.g. I{node1.example.com}
1365
1366     @rtype: (list, list)
1367     @return: a tuple with two lists: the primary and the secondary instances
1368
1369     """
1370     pri = []
1371     sec = []
1372     for inst in self._config_data.instances.values():
1373       if inst.primary_node == node_name:
1374         pri.append(inst.name)
1375       if node_name in inst.secondary_nodes:
1376         sec.append(inst.name)
1377     return (pri, sec)
1378
1379   @locking.ssynchronized(_config_lock, shared=1)
1380   def GetNodeGroupInstances(self, uuid, primary_only=False):
1381     """Get the instances of a node group.
1382
1383     @param uuid: Node group UUID
1384     @param primary_only: Whether to only consider primary nodes
1385     @rtype: frozenset
1386     @return: List of instance names in node group
1387
1388     """
1389     if primary_only:
1390       nodes_fn = lambda inst: [inst.primary_node]
1391     else:
1392       nodes_fn = lambda inst: inst.all_nodes
1393
1394     return frozenset(inst.name
1395                      for inst in self._config_data.instances.values()
1396                      for node_name in nodes_fn(inst)
1397                      if self._UnlockedGetNodeInfo(node_name).group == uuid)
1398
1399   def _UnlockedGetNodeList(self):
1400     """Return the list of nodes which are in the configuration.
1401
1402     This function is for internal use, when the config lock is already
1403     held.
1404
1405     @rtype: list
1406
1407     """
1408     return self._config_data.nodes.keys()
1409
1410   @locking.ssynchronized(_config_lock, shared=1)
1411   def GetNodeList(self):
1412     """Return the list of nodes which are in the configuration.
1413
1414     """
1415     return self._UnlockedGetNodeList()
1416
1417   def _UnlockedGetOnlineNodeList(self):
1418     """Return the list of nodes which are online.
1419
1420     """
1421     all_nodes = [self._UnlockedGetNodeInfo(node)
1422                  for node in self._UnlockedGetNodeList()]
1423     return [node.name for node in all_nodes if not node.offline]
1424
1425   @locking.ssynchronized(_config_lock, shared=1)
1426   def GetOnlineNodeList(self):
1427     """Return the list of nodes which are online.
1428
1429     """
1430     return self._UnlockedGetOnlineNodeList()
1431
1432   @locking.ssynchronized(_config_lock, shared=1)
1433   def GetVmCapableNodeList(self):
1434     """Return the list of nodes which are not vm capable.
1435
1436     """
1437     all_nodes = [self._UnlockedGetNodeInfo(node)
1438                  for node in self._UnlockedGetNodeList()]
1439     return [node.name for node in all_nodes if node.vm_capable]
1440
1441   @locking.ssynchronized(_config_lock, shared=1)
1442   def GetNonVmCapableNodeList(self):
1443     """Return the list of nodes which are not vm capable.
1444
1445     """
1446     all_nodes = [self._UnlockedGetNodeInfo(node)
1447                  for node in self._UnlockedGetNodeList()]
1448     return [node.name for node in all_nodes if not node.vm_capable]
1449
1450   @locking.ssynchronized(_config_lock, shared=1)
1451   def GetAllNodesInfo(self):
1452     """Get the configuration of all nodes.
1453
1454     @rtype: dict
1455     @return: dict of (node, node_info), where node_info is what
1456               would GetNodeInfo return for the node
1457
1458     """
1459     my_dict = dict([(node, self._UnlockedGetNodeInfo(node))
1460                     for node in self._UnlockedGetNodeList()])
1461     return my_dict
1462
1463   @locking.ssynchronized(_config_lock, shared=1)
1464   def GetNodeGroupsFromNodes(self, nodes):
1465     """Returns groups for a list of nodes.
1466
1467     @type nodes: list of string
1468     @param nodes: List of node names
1469     @rtype: frozenset
1470
1471     """
1472     return frozenset(self._UnlockedGetNodeInfo(name).group for name in nodes)
1473
1474   def _UnlockedGetMasterCandidateStats(self, exceptions=None):
1475     """Get the number of current and maximum desired and possible candidates.
1476
1477     @type exceptions: list
1478     @param exceptions: if passed, list of nodes that should be ignored
1479     @rtype: tuple
1480     @return: tuple of (current, desired and possible, possible)
1481
1482     """
1483     mc_now = mc_should = mc_max = 0
1484     for node in self._config_data.nodes.values():
1485       if exceptions and node.name in exceptions:
1486         continue
1487       if not (node.offline or node.drained) and node.master_capable:
1488         mc_max += 1
1489       if node.master_candidate:
1490         mc_now += 1
1491     mc_should = min(mc_max, self._config_data.cluster.candidate_pool_size)
1492     return (mc_now, mc_should, mc_max)
1493
1494   @locking.ssynchronized(_config_lock, shared=1)
1495   def GetMasterCandidateStats(self, exceptions=None):
1496     """Get the number of current and maximum possible candidates.
1497
1498     This is just a wrapper over L{_UnlockedGetMasterCandidateStats}.
1499
1500     @type exceptions: list
1501     @param exceptions: if passed, list of nodes that should be ignored
1502     @rtype: tuple
1503     @return: tuple of (current, max)
1504
1505     """
1506     return self._UnlockedGetMasterCandidateStats(exceptions)
1507
1508   @locking.ssynchronized(_config_lock)
1509   def MaintainCandidatePool(self, exceptions):
1510     """Try to grow the candidate pool to the desired size.
1511
1512     @type exceptions: list
1513     @param exceptions: if passed, list of nodes that should be ignored
1514     @rtype: list
1515     @return: list with the adjusted nodes (L{objects.Node} instances)
1516
1517     """
1518     mc_now, mc_max, _ = self._UnlockedGetMasterCandidateStats(exceptions)
1519     mod_list = []
1520     if mc_now < mc_max:
1521       node_list = self._config_data.nodes.keys()
1522       random.shuffle(node_list)
1523       for name in node_list:
1524         if mc_now >= mc_max:
1525           break
1526         node = self._config_data.nodes[name]
1527         if (node.master_candidate or node.offline or node.drained or
1528             node.name in exceptions or not node.master_capable):
1529           continue
1530         mod_list.append(node)
1531         node.master_candidate = True
1532         node.serial_no += 1
1533         mc_now += 1
1534       if mc_now != mc_max:
1535         # this should not happen
1536         logging.warning("Warning: MaintainCandidatePool didn't manage to"
1537                         " fill the candidate pool (%d/%d)", mc_now, mc_max)
1538       if mod_list:
1539         self._config_data.cluster.serial_no += 1
1540         self._WriteConfig()
1541
1542     return mod_list
1543
1544   def _UnlockedAddNodeToGroup(self, node_name, nodegroup_uuid):
1545     """Add a given node to the specified group.
1546
1547     """
1548     if nodegroup_uuid not in self._config_data.nodegroups:
1549       # This can happen if a node group gets deleted between its lookup and
1550       # when we're adding the first node to it, since we don't keep a lock in
1551       # the meantime. It's ok though, as we'll fail cleanly if the node group
1552       # is not found anymore.
1553       raise errors.OpExecError("Unknown node group: %s" % nodegroup_uuid)
1554     if node_name not in self._config_data.nodegroups[nodegroup_uuid].members:
1555       self._config_data.nodegroups[nodegroup_uuid].members.append(node_name)
1556
1557   def _UnlockedRemoveNodeFromGroup(self, node):
1558     """Remove a given node from its group.
1559
1560     """
1561     nodegroup = node.group
1562     if nodegroup not in self._config_data.nodegroups:
1563       logging.warning("Warning: node '%s' has unknown node group '%s'"
1564                       " (while being removed from it)", node.name, nodegroup)
1565     nodegroup_obj = self._config_data.nodegroups[nodegroup]
1566     if node.name not in nodegroup_obj.members:
1567       logging.warning("Warning: node '%s' not a member of its node group '%s'"
1568                       " (while being removed from it)", node.name, nodegroup)
1569     else:
1570       nodegroup_obj.members.remove(node.name)
1571
1572   def _BumpSerialNo(self):
1573     """Bump up the serial number of the config.
1574
1575     """
1576     self._config_data.serial_no += 1
1577     self._config_data.mtime = time.time()
1578
1579   def _AllUUIDObjects(self):
1580     """Returns all objects with uuid attributes.
1581
1582     """
1583     return (self._config_data.instances.values() +
1584             self._config_data.nodes.values() +
1585             self._config_data.nodegroups.values() +
1586             [self._config_data.cluster])
1587
1588   def _OpenConfig(self, accept_foreign):
1589     """Read the config data from disk.
1590
1591     """
1592     raw_data = utils.ReadFile(self._cfg_file)
1593
1594     try:
1595       data = objects.ConfigData.FromDict(serializer.Load(raw_data))
1596     except Exception, err:
1597       raise errors.ConfigurationError(err)
1598
1599     # Make sure the configuration has the right version
1600     _ValidateConfig(data)
1601
1602     if (not hasattr(data, 'cluster') or
1603         not hasattr(data.cluster, 'rsahostkeypub')):
1604       raise errors.ConfigurationError("Incomplete configuration"
1605                                       " (missing cluster.rsahostkeypub)")
1606
1607     if data.cluster.master_node != self._my_hostname and not accept_foreign:
1608       msg = ("The configuration denotes node %s as master, while my"
1609              " hostname is %s; opening a foreign configuration is only"
1610              " possible in accept_foreign mode" %
1611              (data.cluster.master_node, self._my_hostname))
1612       raise errors.ConfigurationError(msg)
1613
1614     # Upgrade configuration if needed
1615     data.UpgradeConfig()
1616
1617     self._config_data = data
1618     # reset the last serial as -1 so that the next write will cause
1619     # ssconf update
1620     self._last_cluster_serial = -1
1621
1622     # And finally run our (custom) config upgrade sequence
1623     self._UpgradeConfig()
1624
1625     self._cfg_id = utils.GetFileID(path=self._cfg_file)
1626
1627   def _UpgradeConfig(self):
1628     """Run upgrade steps that cannot be done purely in the objects.
1629
1630     This is because some data elements need uniqueness across the
1631     whole configuration, etc.
1632
1633     @warning: this function will call L{_WriteConfig()}, but also
1634         L{DropECReservations} so it needs to be called only from a
1635         "safe" place (the constructor). If one wanted to call it with
1636         the lock held, a DropECReservationUnlocked would need to be
1637         created first, to avoid causing deadlock.
1638
1639     """
1640     modified = False
1641     for item in self._AllUUIDObjects():
1642       if item.uuid is None:
1643         item.uuid = self._GenerateUniqueID(_UPGRADE_CONFIG_JID)
1644         modified = True
1645     if not self._config_data.nodegroups:
1646       default_nodegroup_name = constants.INITIAL_NODE_GROUP_NAME
1647       default_nodegroup = objects.NodeGroup(name=default_nodegroup_name,
1648                                             members=[])
1649       self._UnlockedAddNodeGroup(default_nodegroup, _UPGRADE_CONFIG_JID, True)
1650       modified = True
1651     for node in self._config_data.nodes.values():
1652       if not node.group:
1653         node.group = self.LookupNodeGroup(None)
1654         modified = True
1655       # This is technically *not* an upgrade, but needs to be done both when
1656       # nodegroups are being added, and upon normally loading the config,
1657       # because the members list of a node group is discarded upon
1658       # serializing/deserializing the object.
1659       self._UnlockedAddNodeToGroup(node.name, node.group)
1660     if modified:
1661       self._WriteConfig()
1662       # This is ok even if it acquires the internal lock, as _UpgradeConfig is
1663       # only called at config init time, without the lock held
1664       self.DropECReservations(_UPGRADE_CONFIG_JID)
1665
1666   def _DistributeConfig(self, feedback_fn):
1667     """Distribute the configuration to the other nodes.
1668
1669     Currently, this only copies the configuration file. In the future,
1670     it could be used to encapsulate the 2/3-phase update mechanism.
1671
1672     """
1673     if self._offline:
1674       return True
1675
1676     bad = False
1677
1678     node_list = []
1679     addr_list = []
1680     myhostname = self._my_hostname
1681     # we can skip checking whether _UnlockedGetNodeInfo returns None
1682     # since the node list comes from _UnlocketGetNodeList, and we are
1683     # called with the lock held, so no modifications should take place
1684     # in between
1685     for node_name in self._UnlockedGetNodeList():
1686       if node_name == myhostname:
1687         continue
1688       node_info = self._UnlockedGetNodeInfo(node_name)
1689       if not node_info.master_candidate:
1690         continue
1691       node_list.append(node_info.name)
1692       addr_list.append(node_info.primary_ip)
1693
1694     result = rpc.RpcRunner.call_upload_file(node_list, self._cfg_file,
1695                                             address_list=addr_list)
1696     for to_node, to_result in result.items():
1697       msg = to_result.fail_msg
1698       if msg:
1699         msg = ("Copy of file %s to node %s failed: %s" %
1700                (self._cfg_file, to_node, msg))
1701         logging.error(msg)
1702
1703         if feedback_fn:
1704           feedback_fn(msg)
1705
1706         bad = True
1707
1708     return not bad
1709
1710   def _WriteConfig(self, destination=None, feedback_fn=None):
1711     """Write the configuration data to persistent storage.
1712
1713     """
1714     assert feedback_fn is None or callable(feedback_fn)
1715
1716     # Warn on config errors, but don't abort the save - the
1717     # configuration has already been modified, and we can't revert;
1718     # the best we can do is to warn the user and save as is, leaving
1719     # recovery to the user
1720     config_errors = self._UnlockedVerifyConfig()
1721     if config_errors:
1722       errmsg = ("Configuration data is not consistent: %s" %
1723                 (utils.CommaJoin(config_errors)))
1724       logging.critical(errmsg)
1725       if feedback_fn:
1726         feedback_fn(errmsg)
1727
1728     if destination is None:
1729       destination = self._cfg_file
1730     self._BumpSerialNo()
1731     txt = serializer.Dump(self._config_data.ToDict())
1732
1733     getents = self._getents()
1734     try:
1735       fd = utils.SafeWriteFile(destination, self._cfg_id, data=txt,
1736                                close=False, gid=getents.confd_gid, mode=0640)
1737     except errors.LockError:
1738       raise errors.ConfigurationError("The configuration file has been"
1739                                       " modified since the last write, cannot"
1740                                       " update")
1741     try:
1742       self._cfg_id = utils.GetFileID(fd=fd)
1743     finally:
1744       os.close(fd)
1745
1746     self.write_count += 1
1747
1748     # and redistribute the config file to master candidates
1749     self._DistributeConfig(feedback_fn)
1750
1751     # Write ssconf files on all nodes (including locally)
1752     if self._last_cluster_serial < self._config_data.cluster.serial_no:
1753       if not self._offline:
1754         result = rpc.RpcRunner.call_write_ssconf_files(
1755           self._UnlockedGetOnlineNodeList(),
1756           self._UnlockedGetSsconfValues())
1757
1758         for nname, nresu in result.items():
1759           msg = nresu.fail_msg
1760           if msg:
1761             errmsg = ("Error while uploading ssconf files to"
1762                       " node %s: %s" % (nname, msg))
1763             logging.warning(errmsg)
1764
1765             if feedback_fn:
1766               feedback_fn(errmsg)
1767
1768       self._last_cluster_serial = self._config_data.cluster.serial_no
1769
1770   def _UnlockedGetSsconfValues(self):
1771     """Return the values needed by ssconf.
1772
1773     @rtype: dict
1774     @return: a dictionary with keys the ssconf names and values their
1775         associated value
1776
1777     """
1778     fn = "\n".join
1779     instance_names = utils.NiceSort(self._UnlockedGetInstanceList())
1780     node_names = utils.NiceSort(self._UnlockedGetNodeList())
1781     node_info = [self._UnlockedGetNodeInfo(name) for name in node_names]
1782     node_pri_ips = ["%s %s" % (ninfo.name, ninfo.primary_ip)
1783                     for ninfo in node_info]
1784     node_snd_ips = ["%s %s" % (ninfo.name, ninfo.secondary_ip)
1785                     for ninfo in node_info]
1786
1787     instance_data = fn(instance_names)
1788     off_data = fn(node.name for node in node_info if node.offline)
1789     on_data = fn(node.name for node in node_info if not node.offline)
1790     mc_data = fn(node.name for node in node_info if node.master_candidate)
1791     mc_ips_data = fn(node.primary_ip for node in node_info
1792                      if node.master_candidate)
1793     node_data = fn(node_names)
1794     node_pri_ips_data = fn(node_pri_ips)
1795     node_snd_ips_data = fn(node_snd_ips)
1796
1797     cluster = self._config_data.cluster
1798     cluster_tags = fn(cluster.GetTags())
1799
1800     hypervisor_list = fn(cluster.enabled_hypervisors)
1801
1802     uid_pool = uidpool.FormatUidPool(cluster.uid_pool, separator="\n")
1803
1804     nodegroups = ["%s %s" % (nodegroup.uuid, nodegroup.name) for nodegroup in
1805                   self._config_data.nodegroups.values()]
1806     nodegroups_data = fn(utils.NiceSort(nodegroups))
1807
1808     ssconf_values = {
1809       constants.SS_CLUSTER_NAME: cluster.cluster_name,
1810       constants.SS_CLUSTER_TAGS: cluster_tags,
1811       constants.SS_FILE_STORAGE_DIR: cluster.file_storage_dir,
1812       constants.SS_SHARED_FILE_STORAGE_DIR: cluster.shared_file_storage_dir,
1813       constants.SS_MASTER_CANDIDATES: mc_data,
1814       constants.SS_MASTER_CANDIDATES_IPS: mc_ips_data,
1815       constants.SS_MASTER_IP: cluster.master_ip,
1816       constants.SS_MASTER_NETDEV: cluster.master_netdev,
1817       constants.SS_MASTER_NODE: cluster.master_node,
1818       constants.SS_NODE_LIST: node_data,
1819       constants.SS_NODE_PRIMARY_IPS: node_pri_ips_data,
1820       constants.SS_NODE_SECONDARY_IPS: node_snd_ips_data,
1821       constants.SS_OFFLINE_NODES: off_data,
1822       constants.SS_ONLINE_NODES: on_data,
1823       constants.SS_PRIMARY_IP_FAMILY: str(cluster.primary_ip_family),
1824       constants.SS_INSTANCE_LIST: instance_data,
1825       constants.SS_RELEASE_VERSION: constants.RELEASE_VERSION,
1826       constants.SS_HYPERVISOR_LIST: hypervisor_list,
1827       constants.SS_MAINTAIN_NODE_HEALTH: str(cluster.maintain_node_health),
1828       constants.SS_UID_POOL: uid_pool,
1829       constants.SS_NODEGROUPS: nodegroups_data,
1830       }
1831     bad_values = [(k, v) for k, v in ssconf_values.items()
1832                   if not isinstance(v, (str, basestring))]
1833     if bad_values:
1834       err = utils.CommaJoin("%s=%s" % (k, v) for k, v in bad_values)
1835       raise errors.ConfigurationError("Some ssconf key(s) have non-string"
1836                                       " values: %s" % err)
1837     return ssconf_values
1838
1839   @locking.ssynchronized(_config_lock, shared=1)
1840   def GetSsconfValues(self):
1841     """Wrapper using lock around _UnlockedGetSsconf().
1842
1843     """
1844     return self._UnlockedGetSsconfValues()
1845
1846   @locking.ssynchronized(_config_lock, shared=1)
1847   def GetVGName(self):
1848     """Return the volume group name.
1849
1850     """
1851     return self._config_data.cluster.volume_group_name
1852
1853   @locking.ssynchronized(_config_lock)
1854   def SetVGName(self, vg_name):
1855     """Set the volume group name.
1856
1857     """
1858     self._config_data.cluster.volume_group_name = vg_name
1859     self._config_data.cluster.serial_no += 1
1860     self._WriteConfig()
1861
1862   @locking.ssynchronized(_config_lock, shared=1)
1863   def GetDRBDHelper(self):
1864     """Return DRBD usermode helper.
1865
1866     """
1867     return self._config_data.cluster.drbd_usermode_helper
1868
1869   @locking.ssynchronized(_config_lock)
1870   def SetDRBDHelper(self, drbd_helper):
1871     """Set DRBD usermode helper.
1872
1873     """
1874     self._config_data.cluster.drbd_usermode_helper = drbd_helper
1875     self._config_data.cluster.serial_no += 1
1876     self._WriteConfig()
1877
1878   @locking.ssynchronized(_config_lock, shared=1)
1879   def GetMACPrefix(self):
1880     """Return the mac prefix.
1881
1882     """
1883     return self._config_data.cluster.mac_prefix
1884
1885   @locking.ssynchronized(_config_lock, shared=1)
1886   def GetClusterInfo(self):
1887     """Returns information about the cluster
1888
1889     @rtype: L{objects.Cluster}
1890     @return: the cluster object
1891
1892     """
1893     return self._config_data.cluster
1894
1895   @locking.ssynchronized(_config_lock, shared=1)
1896   def HasAnyDiskOfType(self, dev_type):
1897     """Check if in there is at disk of the given type in the configuration.
1898
1899     """
1900     return self._config_data.HasAnyDiskOfType(dev_type)
1901
1902   @locking.ssynchronized(_config_lock)
1903   def Update(self, target, feedback_fn):
1904     """Notify function to be called after updates.
1905
1906     This function must be called when an object (as returned by
1907     GetInstanceInfo, GetNodeInfo, GetCluster) has been updated and the
1908     caller wants the modifications saved to the backing store. Note
1909     that all modified objects will be saved, but the target argument
1910     is the one the caller wants to ensure that it's saved.
1911
1912     @param target: an instance of either L{objects.Cluster},
1913         L{objects.Node} or L{objects.Instance} which is existing in
1914         the cluster
1915     @param feedback_fn: Callable feedback function
1916
1917     """
1918     if self._config_data is None:
1919       raise errors.ProgrammerError("Configuration file not read,"
1920                                    " cannot save.")
1921     update_serial = False
1922     if isinstance(target, objects.Cluster):
1923       test = target == self._config_data.cluster
1924     elif isinstance(target, objects.Node):
1925       test = target in self._config_data.nodes.values()
1926       update_serial = True
1927     elif isinstance(target, objects.Instance):
1928       test = target in self._config_data.instances.values()
1929     elif isinstance(target, objects.NodeGroup):
1930       test = target in self._config_data.nodegroups.values()
1931     else:
1932       raise errors.ProgrammerError("Invalid object type (%s) passed to"
1933                                    " ConfigWriter.Update" % type(target))
1934     if not test:
1935       raise errors.ConfigurationError("Configuration updated since object"
1936                                       " has been read or unknown object")
1937     target.serial_no += 1
1938     target.mtime = now = time.time()
1939
1940     if update_serial:
1941       # for node updates, we need to increase the cluster serial too
1942       self._config_data.cluster.serial_no += 1
1943       self._config_data.cluster.mtime = now
1944
1945     if isinstance(target, objects.Instance):
1946       self._UnlockedReleaseDRBDMinors(target.name)
1947
1948     self._WriteConfig(feedback_fn=feedback_fn)
1949
1950   @locking.ssynchronized(_config_lock)
1951   def DropECReservations(self, ec_id):
1952     """Drop per-execution-context reservations
1953
1954     """
1955     for rm in self._all_rms:
1956       rm.DropECReservations(ec_id)