Ensure connections we consider dead are actually closed
[irker.git] / irkerd
1 #!/usr/bin/env python
2 """
3 irkerd - a simple IRC multiplexer daemon
4
5 Listens for JSON objects of the form {'to':<irc-url>, 'privmsg':<text>}
6 and relays messages to IRC channels. Each request must be followed by
7 a newline.
8
9 The <text> must be a string.  The value of the 'to' attribute can be a
10 string containing an IRC URL (e.g. 'irc://chat.freenet.net/botwar') or
11 a list of such strings; in the latter case the message is broadcast to
12 all listed channels.  Note that the channel portion of the URL need
13 *not* have a leading '#' unless the channel name itself does.
14
15 Options: -d sets the debug-message level (probably only of interest to
16 developers). The -V option prints the program version and exits.
17
18 Design and code by Eric S. Raymond <esr@thyrsus.com>. See the project
19 resource page at <http://www.catb.org/~esr/irker/>.
20
21 Requires Python 2.6 or 2.5 with the simplejson library installed, and
22 the irc client library at version >= 3.4 which requires 2.6: see
23
24 http://pypi.python.org/pypi/irc/
25 """
26 # These things might need tuning
27
28 HOST = "localhost"
29 PORT = 6659
30
31 NAMESTYLE = "irker%03d"         # IRC nick template - must contain '%d'
32 XMIT_TTL = (3 * 60 * 60)        # Time to live, seconds from last transmit
33 PING_TTL = (15 * 60)            # Time to live, seconds from last PING
34 HANDSHAKE_TTL = 60              # Time to live, seconds from nick transmit
35 CHANNEL_TTL = (3 * 60 * 60)     # Time to live, seconds from last transmit
36 DISCONNECT_TTL = (24 * 60 * 60) # Time to live, seconds from last connect
37 UNSEEN_TTL = 60                 # Time to live, seconds since first request
38 CHANNEL_MAX = 18                # Max channels open per socket (default)
39 ANTI_FLOOD_DELAY = 0.5          # Anti-flood delay after transmissions, seconds
40 ANTI_BUZZ_DELAY = 0.09          # Anti-buzz delay after queue-empty check
41 CONNECTION_MAX = 200            # To avoid hitting a thread limit
42
43 # No user-serviceable parts below this line
44
45 version = "1.16"
46
47 import sys, getopt, urlparse, time, random, socket, signal
48 import threading, Queue, SocketServer
49 import irc.client, logging
50 try:
51     import simplejson as json   # Faster, also makes us Python-2.4-compatible
52 except ImportError:
53     import json
54
55 # Sketch of implementation:
56 #
57 # One Irker object manages multiple IRC sessions.  It holds a map of
58 # Dispatcher objects, one per (server, port) combination, which are
59 # responsible for routing messages to one of any number of Connection
60 # objects that do the actual socket conversations.  The reason for the
61 # Dispatcher layer is that IRC daemons limit the number of channels a
62 # client (that is, from the daemon's point of view, a socket) can be
63 # joined to, so each session to a server needs a flock of Connection
64 # instances each with its own socket.
65 #
66 # Connections are timed out and removed when either they haven't seen a
67 # PING for a while (indicating that the server may be stalled or down)
68 # or there has been no message traffic to them for a while, or
69 # even if the queue is nonempty but efforts to connect have failed for
70 # a long time.
71 #
72 # There are multiple threads. One accepts incoming traffic from all
73 # servers.  Each Connection also has a consumer thread and a
74 # thread-safe message queue.  The program main appends messages to
75 # queues as JSON requests are received; the consumer threads try to
76 # ship them to servers.  When a socket write stalls, it only blocks an
77 # individual consumer thread; if it stalls long enough, the session
78 # will be timed out. This solves the biggest problem with a
79 # single-threaded implementation, which is that you can't count on a
80 # single stalled write not hanging all other traffic - you're at the
81 # mercy of the length of the buffers in the TCP/IP layer.
82 #
83 # Message delivery is thus not reliable in the face of network stalls,
84 # but this was considered acceptable because IRC (notoriously) has the
85 # same problem - there is little point in reliable delivery to a relay
86 # that is down or unreliable.
87 #
88 # This code uses only NICK, JOIN, PART, MODE, and PRIVMSG. It is strictly
89 # compliant to RFC1459, except for the interpretation and use of the
90 # DEAF and CHANLIMIT and (obsolete) MAXCHANNELS features.  CHANLIMIT
91 # is as described in the Internet RFC draft
92 # draft-brocklesby-irc-isupport-03 at <http://www.mirc.com/isupport.html>.
93 # The ",isnick" feature is as described in
94 # <http://ftp.ics.uci.edu/pub/ietf/uri/draft-mirashi-url-irc-01.txt>.
95
96 class Connection:
97     def __init__(self, irkerd, servername, port):
98         self.irker = irkerd
99         self.servername = servername
100         self.port = port
101         self.nick_trial = None
102         self.connection = None
103         self.status = None
104         self.last_xmit = time.time()
105         self.last_ping = time.time()
106         self.channels_joined = {}
107         self.channel_limits = {}
108         # The consumer thread
109         self.queue = Queue.Queue()
110         self.thread = None
111     def nickname(self, n=None):
112         "Return a name for the nth server connection."
113         if n is None:
114             n = self.nick_trial
115         return (NAMESTYLE % n)
116     def handle_ping(self):
117         "Register the fact that the server has pinged this connection."
118         self.last_ping = time.time()
119     def handle_welcome(self):
120         "The server says we're OK, with a non-conflicting nick."
121         self.status = "ready"
122         self.irker.debug(1, "nick %s accepted" % self.nickname())
123     def handle_badnick(self):
124         "The server says our nick has a conflict."
125         self.irker.debug(1, "nick %s rejected" % self.nickname())
126         # Randomness prevents a malicious user or bot from antcipating the
127         # next trial name in order to block us from completing the handshake.
128         self.nick_trial += random.randint(1, 3)
129         self.last_xmit = time.time()
130         self.connection.nick(self.nickname())
131     def handle_disconnect(self):
132         "Server disconnected us for flooding or some other reason."
133         self.connection = None
134         self.status = "disconnected"
135     def handle_kick(self, outof):
136         "We've been kicked."
137         self.status = "handshaking"
138         try:
139             del self.channels_joined[outof]
140         except KeyError:
141             self.irker.logerr("kicked by %s from %s that's not joined"
142                               % (self.servername, outof))
143         qcopy = []
144         while not self.queue.empty():
145             (channel, message) = self.queue.get()
146             if channel != outof:
147                 qcopy.append((channel, message))
148         for (channel, message) in qcopy:
149             self.queue.put((channel, message))
150         self.status = "ready"
151     def enqueue(self, channel, message):
152         "Enque a message for transmission."
153         if self.thread is None or not self.thread.is_alive():
154             self.status = "unseen"
155             self.thread = threading.Thread(target=self.dequeue)
156             self.thread.setDaemon(True)
157             self.thread.start()
158         self.queue.put((channel, message))
159     def dequeue(self):
160         "Try to ship pending messages from the queue."
161         try:
162             while True:
163                 # We want to be kind to the IRC servers and not hold unused
164                 # sockets open forever, so they have a time-to-live.  The
165                 # loop is coded this particular way so that we can drop
166                 # the actual server connection when its time-to-live
167                 # expires, then reconnect and resume transmission if the
168                 # queue fills up again.
169                 if self.queue.empty():
170                     # Queue is empty, at some point we want to time out
171                     # the connection rather than holding a socket open in
172                     # the server forever.
173                     now = time.time()
174                     xmit_timeout = now > self.last_xmit + XMIT_TTL
175                     ping_timeout = now > self.last_ping + PING_TTL
176                     if self.status == "disconnected":
177                         # If the queue is empty, we can drop this connection.
178                         self.status = "expired"
179                         break
180                     elif xmit_timeout or ping_timeout:
181                         self.irker.debug(1, "timing out connection to %s at %s (ping_timeout=%s, xmit_timeout=%s)" % (self.servername, time.asctime(), ping_timeout, xmit_timeout))
182                         with self.irker.irc.mutex:
183                             self.connection.context = None
184                             self.connection.quit("transmission timeout")
185                             self.connection = None
186                         self.status = "disconnected"
187                     else:
188                         # Prevent this thread from hogging the CPU by pausing
189                         # for just a little bit after the queue-empty check.
190                         # As long as this is less that the duration of a human
191                         # reflex arc it is highly unlikely any human will ever
192                         # notice.
193                         time.sleep(ANTI_BUZZ_DELAY)
194                 elif self.status == "disconnected" \
195                          and time.time() > self.last_xmit + DISCONNECT_TTL:
196                     # Queue is nonempty, but the IRC server might be
197                     # down. Letting failed connections retain queue
198                     # space forever would be a memory leak.
199                     self.status = "expired"
200                     break
201                 elif not self.connection:
202                     # Queue is nonempty but server isn't connected.
203                     with self.irker.irc.mutex:
204                         self.connection = self.irker.irc.server()
205                         self.connection.context = self
206                         # Try to avoid colliding with other instances
207                         self.nick_trial = random.randint(1, 990)
208                         self.channels_joined = {}
209                         try:
210                             # This will throw
211                             # irc.client.ServerConnectionError on failure
212                             self.connection.connect(self.servername,
213                                                 self.port,
214                                                 nickname=self.nickname(),
215                                                 username="irker",
216                                                 ircname="irker relaying client")
217                             if hasattr(self.connection, "buffer"):
218                                 self.connection.buffer.errors = 'replace'
219                             self.status = "handshaking"
220                             self.irker.debug(1, "XMIT_TTL bump (%s connection) at %s" % (self.servername, time.asctime()))
221                             self.last_xmit = time.time()
222                             self.last_ping = time.time()
223                         except irc.client.ServerConnectionError:
224                             self.status = "disconnected"
225                 elif self.status == "handshaking":
226                     if time.time() > self.last_xmit + HANDSHAKE_TTL:
227                         self.status = "expired"
228                         break
229                     else:
230                         # Don't buzz on the empty-queue test while we're
231                         # handshaking
232                         time.sleep(ANTI_BUZZ_DELAY)
233                 elif self.status == "unseen" \
234                          and time.time() > self.last_xmit + UNSEEN_TTL:
235                     # Nasty people could attempt a denial-of-service
236                     # attack by flooding us with requests with invalid
237                     # servernames. We guard against this by rapidly
238                     # expiring connections that have a nonempty queue but
239                     # have never had a successful open.
240                     self.status = "expired"
241                     break
242                 elif self.status == "ready":
243                     (channel, message) = self.queue.get()
244                     if channel not in self.channels_joined:
245                         self.connection.join(channel)
246                         self.irker.debug(1, "joining %s on %s." % (channel, self.servername))
247                     for segment in message.split("\n"):
248                         # Truncate the message if it's too long,
249                         # but we're working with characters here,
250                         # not bytes, so we could be off.
251                         # 500 = 512 - CRLF - 'PRIVMSG ' - ' :'
252                         maxlength = 500 - len(channel)
253                         if len(segment) > maxlength:
254                             segment = segment[:maxlength]
255                         try:
256                             self.connection.privmsg(channel, segment)
257                         except ValueError as err:
258                             self.irker.debug(1, "irclib rejected a message to %s on %s because: %s" % (channel, self.servername, str(err)))
259                         time.sleep(ANTI_FLOOD_DELAY)
260                     self.last_xmit = self.channels_joined[channel] = time.time()
261                     self.irker.debug(1, "XMIT_TTL bump (%s transmission) at %s" % (self.servername, time.asctime()))
262                     self.queue.task_done()
263         except:
264             (exc_type, _exc_value, exc_traceback) = sys.exc_info()
265             self.irker.logerr("exception %s in thread for %s" % \
266                               (exc_type, self.servername))
267
268             # Maybe this should have its own status?
269             self.status = "expired"
270
271             # This is so we can see tracebacks for errors inside the thread
272             # when we need to be able to for debugging purposes.
273             if debuglvl > 0:
274                 raise exc_type, _exc_value, exc_traceback
275         finally:
276             try:
277                 # Make sure we don't leave any zombies behind
278                 self.connection.close()
279             except:
280                 # Irclib has a habit of throwing fresh exceptions here. Ignore that
281                 pass
282     def live(self):
283         "Should this connection not be scavenged?"
284         return self.status != "expired"
285     def joined_to(self, channel):
286         "Is this connection joined to the specified channel?"
287         return channel in self.channels_joined
288     def accepting(self, channel):
289         "Can this connection accept a join of this channel?"
290         if self.channel_limits:
291             match_count = 0
292             for already in self.channels_joined:
293                 # This obscure code is because the RFCs allow separate limits
294                 # by channel type (indicated by the first character of the name)
295                 # a feature that is almost never actually used.
296                 if already[0] == channel[0]:
297                     match_count += 1
298             return match_count < self.channel_limits.get(channel[0], CHANNEL_MAX)
299         else:
300             return len(self.channels_joined) < CHANNEL_MAX
301
302 class Target():
303     "Represent a transmission target."
304     def __init__(self, url):
305         # Pre-2.6 Pythons don't recognize irc: as a valid URL prefix.
306         url = url.replace("irc://", "http://")
307         parsed = urlparse.urlparse(url)
308         irchost, _, ircport = parsed.netloc.partition(':')
309         if not ircport:
310             ircport = 6667
311         self.servername = irchost
312         # IRC channel names are case-insensitive.  If we don't smash
313         # case here we may run into problems later. There was a bug
314         # observed on irc.rizon.net where an irkerd user specified #Channel,
315         # got kicked, and irkerd crashed because the server returned
316         # "#channel" in the notification that our kick handler saw.
317         self.channel = parsed.path.lstrip('/').lower()
318         # This deals with a tweak in recent versions of urlparse.
319         if parsed.fragment:
320             self.channel += "#" + parsed.fragment
321         isnick = self.channel.endswith(",isnick")
322         if isnick:
323             self.channel = self.channel[:-7]
324         if self.channel and not isnick and self.channel[0] not in "#&+":
325             self.channel = "#" + self.channel
326         self.port = int(ircport)
327     def valid(self):
328         "Both components must be present for a valid target."
329         return self.servername and self.channel
330     def server(self):
331         "Return a hashable tuple representing the destination server."
332         return (self.servername, self.port)
333
334 class Dispatcher:
335     "Manage connections to a particular server-port combination."
336     def __init__(self, irkerd, servername, port):
337         self.irker = irkerd
338         self.servername = servername
339         self.port = port
340         self.connections = []
341     def dispatch(self, channel, message):
342         "Dispatch messages for our server-port combination."
343         # First, check if there is room for another channel
344         # on any of our existing connections.
345         connections = [x for x in self.connections if x.live()]
346         eligibles = [x for x in connections if x.joined_to(channel)] \
347                     or [x for x in connections if x.accepting(channel)]
348         if eligibles:
349             eligibles[0].enqueue(channel, message)
350             return
351         # All connections are full up. Look for one old enough to be
352         # scavenged.
353         ancients = []
354         for connection in connections:
355             for (chan, age) in connections.channels_joined.items():
356                 if age < time.time() - CHANNEL_TTL:
357                     ancients.append((connection, chan, age))
358         if ancients:
359             ancients.sort(key=lambda x: x[2]) 
360             (found_connection, drop_channel, _drop_age) = ancients[0]
361             found_connection.part(drop_channel, "scavenged by irkerd")
362             del found_connection.channels_joined[drop_channel]
363             #time.sleep(ANTI_FLOOD_DELAY)
364             found_connection.enqueue(channel, message)
365             return
366         # Didn't find any channels with no recent activity
367         newconn = Connection(self.irker,
368                              self.servername,
369                              self.port)
370         self.connections.append(newconn)
371         newconn.enqueue(channel, message)
372     def live(self):
373         "Does this server-port combination have any live connections?"
374         self.connections = [x for x in self.connections if x.live()]
375         return len(self.connections) > 0
376     def last_xmit(self):
377         "Return the time of the most recent transmission."
378         return max(x.last_xmit for x in self.connections)
379
380 class Irker:
381     "Persistent IRC multiplexer."
382     def __init__(self, debuglevel=0):
383         self.debuglevel = debuglevel
384         self.irc = irc.client.IRC()
385         self.irc.add_global_handler("ping", self._handle_ping)
386         self.irc.add_global_handler("welcome", self._handle_welcome)
387         self.irc.add_global_handler("erroneusnickname", self._handle_badnick)
388         self.irc.add_global_handler("nicknameinuse", self._handle_badnick)
389         self.irc.add_global_handler("nickcollision", self._handle_badnick)
390         self.irc.add_global_handler("unavailresource", self._handle_badnick)
391         self.irc.add_global_handler("featurelist", self._handle_features)
392         self.irc.add_global_handler("disconnect", self._handle_disconnect)
393         self.irc.add_global_handler("kick", self._handle_kick)
394         thread = threading.Thread(target=self.irc.process_forever)
395         thread.setDaemon(True)
396         self.irc._thread = thread
397         thread.start()
398         self.servers = {}
399     def logerr(self, errmsg):
400         "Log a processing error."
401         sys.stderr.write("irkerd: " + errmsg + "\n")
402     def debug(self, level, errmsg):
403         "Debugging information."
404         if self.debuglevel >= level:
405             sys.stderr.write("irkerd: %s\n" % errmsg)
406     def _handle_ping(self, connection, _event):
407         "PING arrived, bump the last-received time for the connection."
408         if connection.context:
409             connection.context.handle_ping()
410     def _handle_welcome(self, connection, _event):
411         "Welcome arrived, nick accepted for this connection."
412         if connection.context:
413             connection.context.handle_welcome()
414     def _handle_badnick(self, connection, _event):
415         "Nick not accepted for this connection."
416         if connection.context:
417             connection.context.handle_badnick()
418     def _handle_features(self, connection, event):
419         "Determine if and how we can set deaf mode."
420         if connection.context:
421             cxt = connection.context
422             arguments = event.arguments
423             # irclib 5.0 compatibility, because the maintainer is a fool
424             if callable(arguments):
425                 arguments = arguments()
426             for lump in arguments:
427                 if lump.startswith("DEAF="):
428                     connection.mode(cxt.nickname(), "+"+lump[5:])
429                 elif lump.startswith("MAXCHANNELS="):
430                     m = int(lump[12:])
431                     for pref in "#&+":
432                         cxt.channel_limits[pref] = m
433                     self.debug(1, "%s maxchannels is %d"
434                                % (connection.server, m))
435                 elif lump.startswith("CHANLIMIT=#:"):
436                     limits = lump[10:].split(",")
437                     try:
438                         for token in limits:
439                             (prefixes, limit) = token.split(":")
440                             limit = int(limit)
441                             for c in prefixes:
442                                 cxt.channel_limits[c] = limit
443                         self.debug(1, "%s channel limit map is %s"
444                                    % (connection.server, cxt.channel_limits))
445                     except ValueError:
446                         self.logerr("ill-formed CHANLIMIT property")
447     def _handle_disconnect(self, connection, _event):
448         "Server hung up the connection."
449         self.debug(1, "server %s disconnected" % connection.server)
450         connection.close()
451         if connection.context:
452             connection.context.handle_disconnect()
453     def _handle_kick(self, connection, event):
454         "Server hung up the connection."
455         target = event.target
456         # irclib 5.0 compatibility, because the maintainer continues to be a
457         # fool.
458         if callable(target):
459             target = target()
460         self.debug(1, "irker has been kicked from %s on %s" % (target, connection.server))
461         if connection.context:
462             connection.context.handle_kick(target)
463     def handle(self, line):
464         "Perform a JSON relay request."
465         try:
466             request = json.loads(line.strip())
467             if not isinstance(request, dict):
468                 self.logerr("request is not a JSON dictionary: %r" % request)
469             elif "to" not in request or "privmsg" not in request:
470                 self.logerr("malformed request - 'to' or 'privmsg' missing: %r" % request)
471             else:
472                 channels = request['to']
473                 message = request['privmsg']
474                 if not isinstance(channels, (list, basestring)):
475                     self.logerr("malformed request - unexpected channel type: %r" % channels)
476                 if not isinstance(message, basestring):
477                     self.logerr("malformed request - unexpected message type: %r" % message)
478                 else:
479                     if not isinstance(channels, list):
480                         channels = [channels]
481                     for url in channels:
482                         if not isinstance(url, basestring):
483                             self.logerr("malformed request - URL has unexpected type: %r" % url)
484                         else:
485                             target = Target(url)
486                             if not target.valid():
487                                 return
488                             if target.server() not in self.servers:
489                                 self.servers[target.server()] = Dispatcher(self, target.servername, target.port)
490                             self.servers[target.server()].dispatch(target.channel, message)
491                             # GC dispatchers with no active connections
492                             servernames = self.servers.keys()
493                             for servername in servernames:
494                                 if not self.servers[servername].live():
495                                     del self.servers[servername]
496                             # If we might be pushing a resource limit
497                             # even after garbage collection, remove a
498                             # session.  The goal here is to head off
499                             # DoS attacks that aim at exhausting
500                             # thread space or file descriptors.  The
501                             # cost is that attempts to DoS this
502                             # service will cause lots of join/leave
503                             # spam as we scavenge old channels after
504                             # connecting to new ones. The particular
505                             # method used for selecting a session to
506                             # be terminated doesn't matter much; we
507                             # choose the one longest idle on the
508                             # assumption that message activity is likely
509                             # to be clumpy.
510                             if len(self.servers) >= CONNECTION_MAX:
511                                 oldest = min(self.servers.keys(), key=lambda name: self.servers[name].last_xmit())
512                                 del self.servers[oldest]
513         except ValueError:
514             self.logerr("can't recognize JSON on input: %r" % line)
515         except RuntimeError:
516             self.logerr("wildly malformed JSON blew the parser stack.")
517
518 class IrkerTCPHandler(SocketServer.StreamRequestHandler):
519     def handle(self):
520         while True:
521             line = self.rfile.readline()
522             if not line:
523                 break
524             irker.handle(line.strip())
525
526 class IrkerUDPHandler(SocketServer.BaseRequestHandler):
527     def handle(self):
528         data = self.request[0].strip()
529         #socket = self.request[1]
530         irker.handle(data)
531
532 if __name__ == '__main__':
533     debuglvl = 0
534     (options, arguments) = getopt.getopt(sys.argv[1:], "d:V")
535     for (opt, val) in options:
536         if opt == '-d':         # Enable debug/progress messages
537             debuglvl = int(val)
538             if debuglvl > 1:
539                 logging.basicConfig(level=logging.DEBUG)
540         elif opt == '-V':       # Emit version and exit
541             sys.stdout.write("irkerd version %s\n" % version)
542             sys.exit(0)
543     irker = Irker(debuglevel=debuglvl)
544     irker.debug(1, "irkerd version %s" % version)
545     try:
546         tcpserver = SocketServer.TCPServer((HOST, PORT), IrkerTCPHandler)
547         udpserver = SocketServer.UDPServer((HOST, PORT), IrkerUDPHandler)
548         for server in [tcpserver, udpserver]:
549             server = threading.Thread(target=server.serve_forever)
550             server.setDaemon(True)
551             server.start()
552         try:
553             signal.pause()
554         except KeyboardInterrupt:
555             raise SystemExit(1)
556     except socket.error, e:
557         sys.stderr.write("irkerd: server launch failed: %r\n" % e)
558
559 # end