mkogg.py: Fix 'self.get_mp4_metadata(self, source)'
[blog.git] / posts / I27-synthesis.mdwn
1 Over the last few days I've been trying to teach myself enough
2 genetics to reconstruct [Carrion-Vazquez's poly-I27 synthesis
3 procedure][cv99].  I'm not quite there yet, but I feel like I've made
4 enough progress that it's worth posting my notes somewhere public in
5 case they are useful to others.
6
7 Overview
8 ========
9
10 We buy our poly-I27 from [AthenaES][], who market it as [I27O™][I27O].
11 Perusing their [technical brief][I27O-tb], makes it clear that I2O7™
12 corresponds to Carrion-Vazquez's I27<sup>RS</sup>₈.  In
13 [Carrion-Vazquez' original paper][cv99] they describe the synthesis of
14 both I27<sup>RS</sup>₈ and a variant I27<sup>GLG</sup>₁₂.  Their
15 I27<sup>RS</sup>₈ procedure is:
16
17 * Human cardiac muscle used to generate a [cDNA][] library ([Rief 1997][r97])
18 * cDNA library amplified with [PCR][]
19   - 5' primer contained a BamHI restriction site that permitted
20     in-frame cloning of the monomer into the expression vector pQE30.
21   - The 3' primer contained a BglII restriction site, two Cys codons
22     located 3' to the BglII site and in-frame with the I27 domain,
23     and two in-frame stop codons.
24 * The PCR product was cloned into pUC19 linearized with BamHI and SmaI.
25 * The 8-domain synthetic gene was constructed by iterative cloning
26   of monomer into monomer, dimer into dimer, and tetramer into
27   tetramer.
28 * The final construct contained eight direct repeats of the I27
29   domain, an amino-terminal His tag for purification, and two
30   carboxyl-terminal Cys codons used for covalent attachment to the
31   gold-covered coverslips.
32
33 They also give the full-length sequence of I27<sup>RS</sup>₈:
34
35     Met-Arg-Gly-Ser-(His)₆-Gly-Ser-(I27-Arg-Ser)₇-I27-...-Cys-Cys
36
37 They point out the Arg-Ser (RS) amino acid sequence is the BglII/BamHI
38 hybrid site, [which makes sense](#BglII-BamHI-joint).
39
40 Back on the Athena site, they have a [page describing their
41 procedure][I27O-syn] (they reference the Carrion-Vazquez paper).  They
42 claim to use the restriction enzyme KpnI in addition to BamHI, BglII,
43 and SmaI.
44
45 Carrion-Vazquez points to the following references:
46
47 * [Kempe et al. 1985][k85] (CV16), the source of the multi-step cloning technique.
48 * [Rief et al.][r97] (CV10), for I27 subcloning.
49
50 Rief
51 ----
52
53 In their note 11, Rief et al. explain their synthesis procedure:
54
55 * [λ][] cDNA library
56 * Titin fragments of interest were amplified by PCR
57 * cloned into pET 9d
58 * NH₂-terminal domain boundaries were as in [Politou 1996][p96].
59 * The clones were fused with an NH₂-terminal His₆ tag and a
60   COOH-terminal Cys₂ tag for immobilization on solid surfaces.
61
62 which doesn't help me very much.
63
64 Kemp
65 ----
66
67 The [Kempe article][k85] is more informative, focusing entirely on the
68 synthesis procedure (albiet for a different gene).  Their figure 2
69 outlines the general approach, and used the following restriction
70 enzymes: PstI, BamHI, PstI, and BglII.  I'll walk through their
71 procedure in detail below.
72
73 Genetic code
74 ------------
75
76 Wikipedia has a good page on the [genetic code][gcode] for converting
77 between DNA/mRNA codons and amino acids.  I've written up a little
78 [[Python]] script, [[mRNAcode.py]], to automate the conversion of
79 various sequences, which helped me while I was writing this post.  I'm
80 sure there are tons of similar programs out there, so don't feel
81 pressured to use mine ;).
82
83 Restriction enzymes
84 -------------------
85
86 We'll use the following [restriction enzymes][renz]:
87
88 [BamHI][]
89
90     5' G|GATC C 3'
91     3' C CTAG|G 5'
92
93 [BglI][] (N is any nucleotide)
94
95     5' GCCN NNN|NGGC 3'
96     3' CGGN|NNN NCCG 5'
97
98 [BglII][]
99
100     5' A|GATC T 3'
101     3' T CTAG|A 5'
102
103 [HindIII][]
104
105     5' A|AGCT T 3'
106     3' T TCGA|A 5'
107
108 [KpnI][]
109
110     5' G GTAC|C 3'
111     3' C|CATG G 5'
112
113 [PstI][]
114
115     5' C TGCA|G 3'
116     3' G|ACGT C 5'
117
118 [SmaI][]
119
120     5' CCC|GGG 3'
121     3' GGG|CCC 5'
122
123 Details
124 =======
125
126 Here's my attempt to reconstruct the details of the polymer-cloning
127 reactions, where they splice several copies of I27 into the expression
128 plasmid.
129
130 Kempe procedure
131 ---------------
132
133 Inserted their poly-SP into pHK414 (I haven't been able to find any
134 online sources for pHK414.  Kempe cites [R.J. Watson et al.
135 *Expression of Herpes simplex virus type 1 and type 2 glyco-protein D
136 genes using the Escherichia coli lac promoter.* Y. Becker (Ed.),
137 *Recombinant DNA Research and Viruses.* Nijhoff, The Hague, 1985,
138 pp. 327-352.][w85])
139
140 ### Synthetic SP
141
142          HindIII.                                                ,BamHI_.
143          |      |  Met Arg Pro Lys Pro Gln Gln Phe Phe Gly Leu Met      |
144      5’ GA AGC TTC ATG CGT CCG AAG CCG CAG CAG TTC TTC GGT CTC ATG GAT CCG
145         CT TCG AAG TAC GCA GGC TTC GGC GTC GTC AAG AAG CCA GAG TAC CTA GGC 5’
146
147 ### pHK414
148
149               _______Linker_sequence______
150              /                            \
151                    HindIII    BamHI
152     ,PstI.   BglII.|    |,SmaI.    |
153     CTGCAG...AGATCTAAGCTTCCCGGGGATCCAAGATCC
154     GACGTC...TCTAGATTCGAAGGGCCCCTAGGTTCTAGG
155     .                                     .
156     .......................................
157
158 ### Synthesizing pSP4-1
159
160 #### pHK414 + HindIII + BamHI
161
162 They cut a hole in the plasmid…
163
164                    HindIII    BamHI.
165     (PstI)   BglII,|               |
166     CTGCAG...AGATCTA           GATCCAAGATCC
167     GACGTC...TCTAGATTCGA           GTTCTAGG
168     .                                     .
169     .......................................
170
171 #### SP + HindIII + BamHI
172
173 … and cut matching snips off their SP gene.
174
175     HindIII.                                                ,BamHI_.
176     |      |  Met Arg Pro Lys Pro Gln Gln Phe Phe Gly Leu Met      |
177       AGC TTC ATG CGT CCG AAG CCG CAG CAG TTC TTC GGT CTC ATG
178            AG TAC GCA GGC TTC GGC GTC GTC AAG AAG CCA GAG TAC CTA G
179
180 #### pSP4-1
181
182 Mixing the snips together gives the plasmid with a single SP.
183
184                    HindIII                                   BamHI.
185     ,PstI.   BglII.|    | MetArgProLysProGlnGlnPhePheGlyLeuMet    |
186     CTGCAG...AGATCTAAGCTTCATGCGTCCGAAGCCGCAGCAGTTCTTCGGTCTCATGGATCCAAGATCC
187     GACGTC...TCTAGATTCGAAGTACGCAGGCTTCGGCGTCGTCAAGAAGCCAGAGTACCTAGGTTCTAGG
188     .                                                                    .
189     ......................................................................
190
191 Using `-SP-` to abbreviate the HindIII→Met→Met portion (less the
192 terminal G, which is part of the BamHI match sequence).
193
194     ,PstI.   BglII.    BamHI.
195     CTGCAG...AGATCT-SP-GGATCC
196     GACGTC...TCTAGA-SP-CCTAGG
197     .                       .
198     .........................
199
200 ### Synthesizing pSP4-2
201
202 The single-SP plasmid, pSP4-1, is split in two parallel reactions.
203
204 #### PstI + BamHI
205
206         G...AGATCT-SP-G
207     ACGTC...TCTAGA-SP-CCTAG
208
209 #### PstI + BglII
210
211     CTGCA     GATCT-SP-GGATCC
212     G             A-SP-CCTAGG
213     .                       .
214     .........................
215
216 #### pSP4-2
217
218 Then the SP-containing fragments (shown above) are isolated and mixed
219 together to form pSP4-2.
220
221     ,PstI.   BglII.    other.    BamHI.
222     CTGCAG...AGATCT-SP-GGATCT-SP-GGATCC
223     GACGTC...TCTAGA-SP-CCTAGA-SP-CCTAGG
224     .                                 .
225     ...................................
226
227 where the "other" sequence is the result of the BamHI/BglII splice.
228 Expanding the `-SP-` abbreviation around the SP joint:
229
230     ....SP,other_.HindIII.  SP.....
231     Leu Met Asp Leu Ser Phe Met Arg
232     CTC ATG GAT CTA AGC TTC ATG CGT
233     AGA CGT TCG AGC CTA GGA CGT ATG
234
235 So the resulting poly-SP will have Asp-Leu-Ser-Phe linking amino
236 acids.
237
238 By repeating the PstI + BamHI / PstI + BglII split-and-join, you can
239 synthesize plasmids with any number of SP repeats.
240
241 I27<sup>RS</sup>₈ procedure
242 ---------------------------
243
244 Like Kempe, Carrion-Vazquez et al. flank the I27 gene with BglII and
245 BamHI, but they reverse the order.  Here's the output of their PCR:
246
247     BamHI-I27-BglII-Cys-Cys-STOP-STOP
248
249 From the PDB entry for I27 ([1TIT][]), the amino acid sequence is:
250
251     ,leader_.
252     MHHHHHHSSLIEVEKPLYGVEVFVGETAHFEIELSEPDVHGQWKLKGQPLTASPDCEIIEDGKKHILI
253     LHNCQLGMTGEVSFQAANAKSAANLKVKEL
254
255 To translate this into cDNA, I've scanned thorough the sequence of
256 [NM_003319.4][], and found a close match from nucleotides 15991
257 through 16248.
258
259     15982 CTAATAAAAG TGGAAAAGCC TCTGTACGGA GTAGAGGTGT TTGTTGGTGA
260     16032 AACAGCCCAC TTTGAAATTG AACTTTCTGA ACCTGATGTT CACGGCCAGT
261     16082 GGAAGCTGAA AGGACAGCCT TTGACAGCTT CCCCTGACTG TGAAATCATT
262     16132 GAGGATGGAA AGAAGCATAT TCTGATCCTT CATAACTGTC AGCTGGGTAT
263     16182 GACAGGAGAG GTTTCCTTCC AGGCTGCTAA TGCCAAATCT GCAGCCAATC
264     16232 TGAAAGTGAA AGAATTG
265
266 This cDNA match generates an amino acid starting with LIKVEK instead
267 of the expected LIEVEK, but the LIKVEK version matches amino acids
268 12677-12765 in [Q8WZ42][] (canonical titin), and there is a natural
269 variant listed for [12679 K→E][var].
270
271 Interestingly, this sequence contains a PstI site at nucleotides 16220
272 through 16225.  None of our other restriction enzymes have sites in
273 the I27 sequence.
274
275 Carrion-Vazquez et al. list two vectors in their procedure, but I'm
276 not sure about their respective roles.
277
278 ### pQE30
279
280 [pQE30][pQE30-a] ([sequence][pQE30-b]) is listed as the "expression
281 vector", but I'm not sure why they would need a non-expression vector,
282 as they don't reference cross-vector subcloning after inserting their
283 I27 monomer into the plasmid.
284
285 From the [Qiagen site][pQE30-b], the section around the linker
286 nucleotides 115 through 203 is:
287
288         ,RGS-His epitope__________________. ,BamHI.
289     Met Arg Gly Ser His His His His His His Gly Ser Ala Cys Glu Leu
290     ATG AGA GGA TCG CAT CAC CAT CAC CAT CAC GGA TCC GCA TGC GAG CTC
291     CGT CTC TTC GAT ACG ACA ACG ACA ACG ACA TTC GAA TAC GTA TCT AGA
292
293           ,SmaI__.
294     ,KpnI_.                         HindIII
295     Gly Thr Pro Gly Arg Pro Ala Ala Lys Leu Asn STOP
296     GGT ACC CCG GGT CGA CCT GCA GCC AAG CTT AAT TAG CTG AG
297     TTG CAA AAT TTG ATC AAG TAC TAA CCT AGG CCG GCT AGT CT
298
299 However, there is no BglII site in this linker.  In fact, there is no
300 BglII site in the entire pQE30 plasmid, so they'd need to use a third
301 restiction enzyme to insert their I27 (which does contain a trailing
302 BglII).
303
304 ### pUC19
305
306 From [BCCM/LMBP][pUC19-a] and [GenBank][pUC19-b], the section around
307 the linker nucleotides 233 through 289 is:
308
309                                                      ,SmaI_.
310     HindIII.        ,PstI__.                ,BamHI_.    ,KpnI__.
311                Met                     STOP
312     AA GCT TGC ATG CCT GCA GGT CGA CTC TAG AGG ATC CCC GGG TAC CGA
313
314     GCT CGA ATT C
315
316 However, there is no BglII the entire pUC19 plasmid either, so they'd
317 need to use a third restiction enzyme to insert their I27.
318
319 ### Questions
320
321 1. Why do Carrion-Vazquez et al. list two different plasmids?
322 2. What is the 3'-side restiction enzyme that Carrion-Vazquez et
323   al. use to insert their I27 into their plasmid?
324 3. What is the remote restriction enzyme that Carrion-Vazquez et
325   al. use to break their opened plasmids (Kempe PstI equivalent).
326 4. The BamHI and SmaI sites in pUC19 overlap, so it is unclear how you
327   could use both to "linearize" pUC19.  It would seem that either one
328   would open the plasmid on its own, although I'm not sure you could
329   "heal" the blunt-ended SmaI cut.
330 5. Since the Arg-Ser joint is formed by a BglII/BamHI overlap, why are
331   there no BglII-coded amino acids after the last I27 in the I27<sup>RS</sup>₈
332   sequence?  If there is, why do Carrion-Vazquez et al. not
333   acknowledge it when they write [3]:
334
335   > The full-length construct, I27<sup>RS</sup>₈, results in the
336   > following amino acid additions: (i) the amino-terminal sequence is
337   > Met-Arg-Gly-Ser-(His)6-Gly-Ser-I27 codons; (ii) the junction
338   > between the domains (BamHI-BglII hybrid site) is Arg-Ser; and
339   > (iii) the protein terminates in Cys-Cys.
340
341   Since they don't acknowledge an I27-Arg-Ser-Cys-Cys ending, might
342   there be more amino acids in the C terminal addition?
343
344 ### Working backward
345
346 Since I'm stuck trying to get I27 into either plasmid, let's try and
347 work backward from
348
349     Met-Arg-Gly-Ser-(His)₆-Gly-Ser-(I27-Arg-Ser)₇-I27-...-Cys-Cys
350
351 #### <a id="BglII-BamHI-joint">BglII/BamHI joint</a>
352
353 The BglII/BamHI overlap would produce the expected Arg-Ser joint.
354
355     BglII   BamHI
356     A     + GATCC = AGATCC = Arg-Ser
357     TCTAG       G   TCTAGG
358
359 #### Final plasmid (pI27-8)
360
361 The beginning of this sequence looks like the start of pQE30's linker,
362 so we'll assume the final plasmid was:
363
364     remote ...    ,RGS-His epitope__________________. ,BamHI. I27...
365            ... Met Arg Gly Ser His His His His His His Gly Ser Leu Ile ...
366     ???    ... ATG AGA GGA TCG CAT CAC CAT CAC CAT CAC GGA TCC CTA ATA ...
367     ???    ... CGT CTC TTC GAT ACG ACA ACG ACA ACG ACA TTC GAA GAT TAT ...
368
369     ........I27 joint_. I27 ... final I27 ,BglII.                 continuation of pQE30?
370     ... Glu Leu         Leu ...       Leu Arg Ser Cys Cys STOPSTOP...
371     ... GAA TTG AGA TCC CTA ...       TTG AGA TCT TGC TGC TAG TAG ...
372     ... CTT AAC TCT AGG GAT ...       GAT CTC GAG GTA GTA GCT GCT ...
373
374 #### Penultimate plasmid (pI27-4)
375
376     remote ...    ,RGS-His epitope__________________. ,BamHI. I27...
377                Met Arg Gly Ser His His His His His His Gly Ser Leu Ile ...
378     ???    ... ATG AGA GGA TCG CAT CAC CAT CAC CAT CAC GGA TCC CTA ATA ...
379     ???    ... CGT CTC TTC GAT ACG ACA ACG ACA ACG ACA TTC GAA GAT TAT ...
380
381         ... I27 joint_. I27 ... fourth I27 ,BglII.                 continuation of pQE30?
382     ... Glu Leu         Leu ...        Leu Arg Ser Cys Cys STOPSTOP...
383     ... GAA TTG AGA TCC CTA ...        TTG AGA TCT TGC TGC TAG TAG ...
384     ... CTT AAC TCT AGG GAT ...        GAT CTC GAG GTA GTA GCT GCT ...
385
386 ##### pI27-4 + BamHI + remote
387
388     remote                                             ,BamHI. I27...
389                                                                Leu Ile ...
390     ?                                                   GA TCC CTA ATA ...
391     ??                                                       A GAT TAT ...
392
393     ....... I27 joint_. I27 ... fourth I27 ,BglII.                 continuation of pQE30?
394     ... Glu Leu         Leu ...        Leu Arg Ser Cys Cys STOPSTOP...
395     ... GAA TTG AGA TCC CTA ...        TTG AGA TCT TGC TGC TAG TAG ...
396     ... CTT AAC TCT AGG GAT ...        GAT CTC GAG GTA GTA GCT GCT ...
397
398 ##### pI27-4 + BglII + remote
399
400     remote ...    ,RGS-His epitope__________________. ,BamHI. I27...
401                Met Arg Gly Ser His His His His His His Gly Ser Leu Ile ...
402      ??    ... ATG AGA GGA TCG CAT CAC CAT CAC CAT CAC GGA TCC CTA ATA ...
403       ?    ... CGT CTC TTC GAT ACG ACA ACG ACA ACG ACA TTC GAA GAT TAT ...
404
405     ....... I27 joint_. I27 ... fourth I27 ,BglII.
406     ... Glu Leu         Leu ...        Leu
407     ... GAA TTG AGA TCC CTA ...        TTG A
408     ... CTT AAC TCT AGG GAT ...        GAT CTC GA
409
410 ##### pI27-8
411
412     remote ...    ,RGS-His epitope__________________. ,BamHI. I27...
413                Met Arg Gly Ser His His His His His His Gly Ser Leu Ile ...
414     ???    ... ATG AGA GGA TCG CAT CAC CAT CAC CAT CAC GGA TCC CTA ATA ...
415     ???    ... CGT CTC TTC GAT ACG ACA ACG ACA ACG ACA TTC GAA GAT TAT ...
416
417     ....... I27 joint_. I27 ... fourth I27 ,other. I27...
418     ... Glu Leu         Leu ...        Leu Gly Ser Leu Ile ...
419     ... GAA TTG AGA TCC CTA ...        TTG AGA TCC CTA ATA ...
420     ... CTT AAC TCT AGG GAT ...        GAT CTC GAA GAT TAT ...
421
422     ....... I27 joint_. I27 ... fourth I27 ,BglII.                 continuation of pQE30?
423     ... Glu Leu         Leu ...        Leu Arg Ser Cys Cys STOPSTOP...
424     ... GAA TTG AGA TCC CTA ...        TTG AGA TCT TGC TGC TAG TAG ...
425     ... CTT AAC TCT AGG GAT ...        GAT CTC GAG GTA GTA GCT GCT ...
426
427 #### Continuing to the first plasmid, pI27-1 must have been
428
429     remote ...    ,RGS-His epitope__________________. ,BamHI. I27...
430            ... Met Arg Gly Ser His His His His His His Gly Ser Leu Ile ...
431     ???    ... ATG AGA GGA TCG CAT CAC CAT CAC CAT CAC GGA TCC CTA ATA ...
432     ???    ... CGT CTC TTC GAT ACG ACA ACG ACA ACG ACA TTC GAA GAT TAT ...
433
434     ........I27 ,BglII.                 continuation of pQE30?
435     ... Glu Leu Arg Ser Cys Cys STOPSTOP...
436     ... GAA TTG AGA TCT TGC TGC TAG TAG ...
437     ... CTT AAC CTC GAG GTA GTA GCT GCT ...
438
439 ### Potential pQE30 insertion points
440
441 * Kpn1 (present after BamHI in both plasmids)
442
443 ### Potential remote restriction enzymes
444
445 * BglI (pQE30 nucleotides 2583-2593 (GCCGGAAGGGC), Amp-resistance
446   3256-2396; pUC19 has two BglI sites (bad idea))
447
448
449 [cv99]: http://dx.doi.org/10.1073/pnas.96.7.3694
450 [r97]: http://dx.doi.org/10.1126/science.276.5315.1109
451 [PCR]: http://en.wikipedia.org/wiki/Polymerase_chain_reaction
452 [cDNA]: http://en.wikipedia.org/wiki/Complementary_DNA
453 [λ]: http://en.wikipedia.org/wiki/Lambda_phage
454 [AthenaES]: http://www.athenaes.com/
455 [I27O]: http://www.athenaes.com/I27OAFMReferenceProtein.php
456 [I27O-tb]: http://www.athenaes.com/tech_brief_I27O_protein.php
457 [I27O-syn]: http://www.athenaes.com/Projects_Polyproteins.php
458 [k85]: http://dx.doi.org/10.1016/0378-1119(85)90318-X
459 [p96]: http://dx.doi.org/10.1006/jmbi.1996.0050
460 [gcode]: http://en.wikipedia.org/wiki/Genetic_code
461 [renz]: http://en.wikipedia.org/wiki/Restriction_enzyme
462 [BamHI]: http://en.wikipedia.org/wiki/BamHI
463 [BglI]: http://en.wikipedia.org/wiki/List_of_restriction_enzyme_cutting_sites:_Bd-Bp#Bd_-_Bp
464 [BglII]: http://en.wikipedia.org/wiki/BglII
465 [HindIII]: http://en.wikipedia.org/wiki/HindIII
466 [KpnI]: http://en.wikipedia.org/wiki/List_of_restriction_enzyme_cutting_sites:_G-K#K
467 [PstI]: http://en.wikipedia.org/wiki/PstI
468 [SmaI]: http://en.wikipedia.org/wiki/List_of_restriction_enzyme_cutting_sites:_S#S
469 [w85]: http://books.google.com/books?id=eA6iSmR0I4wC
470 [1TIT]: http://www.pdb.org/pdb/explore/explore.do?structureId=1TIT
471 [NM_003319.4]: http://www.ncbi.nlm.nih.gov/nuccore/NM_003319
472 [Q8WZ42]: http://www.uniprot.org/blast/?about=Q8WZ42[12677-12765]
473 [var]: http://web.expasy.org/cgi-bin/variant_pages/get-sprot-variant.pl?VAR_040140
474 [pQE30-a]: http://www.qiagen.com/literature/vectors_pqe.aspx
475 [pQE30-b]: http://www.qiagen.com/literature/pqesequences/pqe-30w.txt
476 [pUC19-a]: http://bccm.belspo.be/db/lmbp_plasmid_details.php?NM=pUC19
477 [pUC19-b]: http://www.ncbi.nlm.nih.gov/nucleotide/M77789?report=genbank
478
479 [[!tag tags/theory]]