Remove silly tex/ directory.
[thesis.git] / src / sawsim / discussion.tex
1 \section{Results and Discussion}
2 \label{sec:sawsim:results}
3
4 \subsection{Force curves generated by simulation}
5 \label{sec:sawsim:results-force_curves}
6
7 \Cref{fig:sawsim:sim-sawtooth} shows three simulated force curves from
8 pulling a polymer composed of eight identical protein molecules using
9 parameters from typical experimental settings.  The order of the peaks
10 in the force curves reflects the temporal sequence of the unfolding
11 events instead of the positions of the protein molecules in the
12 polymer\citep{li00}.  As observed experimentally
13 (\cref{fig:expt-sawtooth}), the forces at which identical protein
14 molecules unfold fluctuate, revealing the stochastic nature of protein
15 unfolding since no instrumental noise is included in the simulation.
16 \Cref{fig:sawsim:sim-hist} shows the distribution of the unfolding forces,
17 \ie, the highest force in each peak (except the last peak in a force
18 curve), from a total of $400$ force curves ($3200$ force values).  The
19 unfolding forces have an average of $281\U{pN}$ with a standard
20 deviation of $25\U{pN}$.
21 % DONE: discuss noise? no.
22
23 \begin{figure}
24 \vspace{-1in}
25 \begin{center}
26 \subfloat[][]{\asyinclude{figures/sim-sawtooth/sim-sawtooth}%
27   \label{fig:sawsim:sim-sawtooth}%
28 }\\
29 \subfloat[][]{\asyinclude{figures/sim-hist/sim-hist}%
30   \label{fig:sawsim:sim-hist}%
31 }
32 \caption{(a) Three simulated force curves from pulling a polymer of
33   eight identical protein molecules.  The simulation was carried out
34   using the parameters: pulling speed $v=1\U{$\mu$m/s}$, cantilever
35   spring constant $\kappa_c=50\U{pN/nm}$, temperature $T=300\U{K}$,
36   persistence length of unfolded proteins $p_u=0.40\U{nm}$, $\Delta
37   x_u=0.225\U{nm}$, and $k_{u0}=5\E{-5}\U{s$^{-1}$}$.  The contour
38   length between the two linking points on a protein molecule is
39   $L_{f1}=3.7\U{nm}$ in the folded form and $L_{u1}=28.1\U{nm}$ in the
40   unfolded form.  These parameters are those of ubiquitin molecules
41   connected through the N-C termini\citep{chyan04,carrion-vazquez03}.
42   Detachment from the tip or substrate is assumed to occur at a force
43   of $400\U{pN}$.  In experiments, detachments have been observed to
44   occur at a variety of forces.  For clarity, the green and blue
45   curves are offset by $200$ and $400\U{pN}$ respectively.  (b) The
46   distribution of the unfolding forces from $400$ simulated force
47   curves ($3200$ data points) such as that shown in (a). The frequency
48   is normalized by the total number of points, \ie, the height of each
49   bin is equal to the number of data points in that bin divided by the
50   total number of data points ($3200$, for this
51   histogram).\label{fig:sawsim:sim-all}}
52 \end{center}
53 \end{figure}
54
55 \subsection{Dependence of the unfolding force on the unfolding order
56 and polymer length}
57 \label{sec:sawsim:results-scaffold}
58
59 Analysis of the mechanical unfolding data is complicated by the
60 dependence of the average unfolding force on the unfolding order due
61 to the serial linkage of the molecules.  Under an external stretching
62 force $F$, the probability of some domain unfolding in a polymer with
63 $N_f$ folded domains is $N_fP_1$ (\cref{eq:sawsim:prob-n}), which is higher
64 than the unfolding probability for a single molecule $P_1$.
65 Consequently, the average unfolding force is lower for the earlier
66 unfolding events when $N_f$ is larger, and the force should increase
67 as more and more molecules become unfolded.  However, there is a
68 competing factor that opposes this trend.  As the protein molecules
69 unfold, the chain becomes softer and the force loading rate becomes
70 lower when the pulling speed is constant, leading to a decrease in the
71 unfolding force.  The dependence of the average unfolding force on the
72 unfolding order is the result of these two opposing effects.
73 \Cref{fig:sawsim:order-dep} shows the dependence of the average unfolding
74 force on the unfolding force peak order (the temporal order of
75 unfolding events) for four polymers with $4$, $8$, $12$, and $16$
76 identical protein molecules.  The effect of polymer chain softening
77 dominates the initial unfolding events, and the average unfolding
78 force decreases as more molecules unfold.  After several molecules
79 have unfolded, the softening for each additional unfolding event
80 becomes less significant, the change in unfolding probability becomes
81 dominant, and the unfolding force increases upon each subsequent
82 unfolding event\citep{zinober02}.
83
84 We validate this explanation by calculating the unfolding force
85 probability distribution's depending on the two competing factors.
86 The rate of unfolding events with respect to force is
87 \begin{align}
88   r_{uF} &= -\deriv{F}{N_f}
89     = -\frac{\dd N_f/\dd t}{\dd F/\dd t}
90     = \frac{N_f k_u}{\kappa v} \\
91     &= \frac{N_f k_{u0}}{\kappa v}\exp\p({\frac{F\Delta x_u}{k_B T}})
92     = \frac{1}{\rho}\exp\p({\frac{F-\alpha}{\rho}}) \;,
93 \end{align}
94 where $N_f$ is the number of folded domain,
95 $\kappa=(1/\kappa_c+N_u/\kappa_\text{WLC})^{-1}$ is the spring
96 constant of the cantilever-polymer system ($\kappa_\text{WLC}$ is the
97 effective spring constant of one unfolded domain, assumed constant for
98 a particular polymer/cantilever combination), $\kappa v$ is the force
99 loading rate, and $k_u$ is the unfolding rate constant
100 (\cref{eq:sawsim:bell}).  In the last expression, $\rho\equiv k_BT/\Delta
101 x_u$, and $\alpha\equiv-\rho\ln(N_fk_{u0}\rho/\kappa v)$.  The event
102 probability density for events with an exponentially increasing
103 likelihood function follows the Gumbel (minimum) probability
104 density\citep{NIST:gumbel}, with $\rho$ and $\alpha$ being the scale
105 and location parameters, respectively
106 \begin{equation}
107   \mathcal{P}(F) = \frac{1}{\rho} \exp\p[{\frac{F-\alpha}{\rho}
108                                            -\exp\p({\frac{F-\alpha}{\rho}})
109                                            }] \;.  \label{eq:sawsim:gumbel}
110 \end{equation}
111 The distribution has a mean $\avg{F}=\alpha-\gamma_e\rho$ and a
112 variance $\sigma^2=\pi^2\rho^2/6$, where $\gamma_e=0.577\ldots$ is the
113 Euler-Mascheroni constant.  Therefore, the unfolding force
114 distribution has a variance $\sigma^2 = (\pi k_BT/\Delta x_u)^2/6$,
115 and and average
116 \begin{equation}
117   \avg{F(i)} = \frac{k_BT}{\Delta x_u}
118                \p[{-\ln\p({\frac{N_fk_{u0}k_BT}{\kappa v\Delta x_u}})
119                    -\gamma_e}] \;,  \label{eq:sawsim:order-dep}
120 \end{equation}
121 where $N_f$ and $\kappa$ depend on the domain index $i=N_u$.  Curves based
122 on this formula fit the simulated data remarkably well considering the
123 effective WLC\index{WLC} stiffness $\kappa_\text{WLC}$ is the only fitted
124 parameter, and that the actual WLC stiffness is not constant, as we
125 have assumed here, but a non-linear function of $F$.
126
127 From \cref{fig:sawsim:order-dep}, it can be seen that the proper way to
128 process data from mechanical unfolding experiments is to group the
129 curves according to the length of the polymer and to perform
130 statistical analysis separately for peaks with the same unfolding
131 order.  However, in most experiments, the tethering of the polymer to
132 the AFM tip is by nonspecific adsorption; as a result, the polymers
133 being stretched between the tip and the substrate have various
134 lengths.  In addition, the interactions between the tip and the
135 surface often cause irregular features in the beginning of the force
136 curve (\cref{fig:expt-sawtooth}), making the identification of the
137 first peak uncertain.  Furthermore, it is often difficult to acquire a
138 large amount of data in single molecule experiments.  These
139 difficulties make the aforementioned data analysis approach unfeasible
140 for many mechanical unfolding experiments.  As a result, the values of
141 all force peaks from polymers of different lengths are often pooled
142 together for statistical analysis.  To assess the errors caused by
143 such pooling, simulation data were analyzed using different pooling
144 methods and the results were compared.  \Cref{fig:sawsim:sim-hist} shows
145 that, for a polymer with eight protein molecules, the average
146 unfolding force is $281\U{pN}$ with a standard deviation of $25\U{pN}$
147 when all data is pooled.  If only the first peaks in the force curves
148 are analyzed, the average force is $279\U{pN}$ with a standard
149 deviation of $22\U{pN}$.  While for the fourth and eighth peaks, the
150 average force are $275\U{pN}$ and $300\U{pN}$, respectively, and the
151 standard deviations are $23\U{pN}$ and $25\U{pN}$, respectively.  As
152 expected from the Gumbel distribution, the width of the unfolding
153 force distribution (insets in \cref{fig:sawsim:order-dep}) is only weakly
154 effected by unfolding order, but the average unfolding force can be
155 quite different for the same protein because of the differences in
156 unfolding order and polymer length.
157
158 \begin{figure}
159   \begin{center}
160   \asyinclude{figures/order-dep/order-dep}
161   \caption{The dependence of the unfolding force on the temporal
162     unfolding order for four polymers with $4$, $8$, $12$, and $16$
163     identical protein domains.  Each point in the figure is the
164     average of $400$ data points.  The first point in each curve
165     represents the average of only the first peak in each of the $400$
166     simulated force curves, the second point represents the average of
167     only the second peak, and so on.  The solid lines are fits of
168     \cref{eq:sawsim:order-dep} to the simulated data, with best fit
169     $\kappa_\text{WLC}=203$, $207$, $161$, and $157\U{pN/nm}$,
170     respectively, for lengths $4$ through $16$.  The insets show the
171     force distributions of the first, fourth, and eighth peaks, left
172     to right, for the polymer with eight protein domains.  The
173     parameters used for generating the data were the same as those
174     used for \cref{fig:sawsim:sim-sawtooth}, except for the number of
175     domains.  The histogram insets were normalized in the same way as
176     in \cref{fig:sawsim:sim-hist}.\label{fig:sawsim:order-dep}}
177   \end{center}
178 \end{figure}
179
180
181 \subsection{The effect of cantilever force constant}
182 \label{sec:sawsim:cantilever}
183
184 In mechanical unfolding experiments, the ability to observe the
185 unfolding of a single protein molecule depends on the tension drop
186 after an unfolding event such that another molecule does not unfold
187 immediately.  The magnitude of this drop is determined by many
188 factors, including the magnitude of the unfolding force, the contour
189 and persistence lengths of the protein polymer, the contour length
190 increase from unfolding, and the stiffness (force constant) of the
191 cantilever.  Among these, the effect of the cantilever force constant
192 is particularly interesting because cantilevers with a wide range of
193 force constants are available.  In addition, different single molecule
194 manipulation techniques, such as the AFM and laser tweezers, differ
195 mainly in the range of the spring constants of their force
196 transducers.  \Cref{fig:sawsim:kappa-sawteeth} shows the simulated force
197 curves from pulling an octamer of protein molecules using cantilevers
198 with different force constants, while other parameters are identical.
199 For this model protein, the appearance of the force curve does not
200 change much until the force constant of the cantilever reaches a
201 certain value ($\kappa_c=50\U{pN/nm}$).  When $\kappa_c$ is lower than
202 this value, the individual unfolding events become less identifiable.
203 In order to observe individual unfolding events, the cantilever needs
204 to have a force constant high enough so that the bending at the
205 maximum force is small in comparison with the contour length increment
206 from the unfolding of a single molecule.  \Cref{fig:sawsim:kappa-sawteeth}
207 also shows that the back side of the force peaks becomes more tilted
208 as the cantilever becomes softer.  This is due to the fact that the
209 extension (end-to-end distance) of the protein polymer has a large
210 sudden increase as the tension rebalances after an unfolding event.
211
212 It should also be mentioned that the contour length increment from
213 each unfolding event is not equal to the distance between adjacent
214 peaks in the force curve because the chain is never fully stretched.
215 This contour length increase can only be obtained by fitting the curve
216 to WLC\index{WLC} or other polymer models (\cref{fig:expt-sawtooth}).
217
218 \begin{figure}
219 \begin{center}
220 \asyinclude{figures/kappa-sawteeth/kappa-sawteeth}
221 \caption{Simulated force curves obtained from pulling a polymer with
222   eight protein molecules using cantilevers with different force
223   constants $\kappa_c$.  Parameters used in generating these curves
224   are the same as those used in \cref{fig:sawsim:sim-all}, except the
225   cantilever force constant.  Successive force curves are offset by
226   $300\U{pN}$ for clarity.\label{fig:sawsim:kappa-sawteeth}}
227 \end{center}
228 \end{figure}
229
230 \subsection{Determination of $\Delta x_u$ and $k_{u0}$}
231 \label{sec:sawsim:results-fitting}
232
233 The zero-force unfolding rate $k_{u0}$ and the distance $\Delta x_u$
234 from the native state to the transition state are the two kinetic
235 parameters obtainable for mechanical unfolding experiments by matching
236 the simulated data with measured results.  \cref{fig:sawsim:v-dep} shows the
237 dependence of the unfolding force on the pulling speed for different
238 values of $k_{u0}$ and $\Delta x_u$.  As expected, the unfolding force
239 increases linearly with the pulling speed in the linear-log
240 plot\citep{evans99}.  While the magnitude of the unfolding forces is
241 affected by both $k_{u0}$ and $\Delta x_u$, the slope of speed
242 dependence is primarily determined by $\Delta x_u$.
243 \Cref{fig:sawsim:width-v-dep} shows that the width of the unfolding force
244 distribution is very sensitive to $\Delta x_u$, as expected from the
245 Gumbel distribution discussed in \cref{sec:sawsim:results-scaffold}.  To
246 obtain the values of $k_{u0}$ and $\Delta x_u$ for the protein, the
247 pulling speed dependence and the distribution of the unfolding forces
248 from simulation, such as those shown in \cref{fig:sawsim:v-dep} and the
249 insets of \cref{fig:sawsim:width-v-dep}, are compared with the experimentally
250 measured results.  The values of $k_{u0}$ and $\Delta x_u$ that
251 provide the best match are designated as the parameters describing the
252 protein under study.  Since $k_{u0}$ and $\Delta x_u$ affect the
253 unfolding forces differently, the values of both parameters can be
254 determined simultaneously.  The data used in plotting
255 \cref{fig:sawsim:all-v-dep} includes all force peaks from the simulated force
256 curves because most experimental data is analyzed that way.
257
258 In most published literature, determination of the values of $k_{u0}$
259 and $\Delta x_u$ was mostly done by carrying out simulations using a
260 handful of possible unfolding parameters and selected the best fit by
261 eye%
262 %\citep{us,CV1999}
263 .  This approach does not allow estimation of uncertainties in the
264 fitting parameters, as shown by \citet{best02}.  A more rigorous
265 approach involves quantifying the quality of fit between the
266 experimental and simulated force distributions, allowing the use of a
267 numerical minimization algorithm to pick the best fit parameters.  We
268 use the Jensen-Shannon divergence\citep{sims09,lin91}, a measure of
269 the similarity between two probability distributions.
270 \begin{equation}
271   D_\text{JS}(p_e, p_s)
272     = D_\text{KL}(p_e, p_m) + D_\text{KL}(p_s, p_m) \;,  \label{eq:sawsim:D_JS}
273 \end{equation}
274 where $p_e(i)$ and $p_s(i)$ are the the values of the $i^\text{th}$
275 bin in the experimental and simulated unfolding force histograms,
276 respectively.  $D_\text{KL}$ is the Kullback-Leibler divergence
277 \begin{equation}
278   D_\text{KL}(p_p,p_q)
279     = \sum_i p_p(i) \log_2\p({\frac{p_p(i)}{p_q(i)}}) \;,  \label{eq:sawsim:D_KL}
280 \end{equation}
281 where the sum is over all unfolding force histogram bins.  $p_m$ is
282 the symmetrized probability distribution
283 \begin{equation}
284   p_m(i) \equiv [p_e(i)+p_s(i)]/2 \;.
285 \end{equation}
286 % DONE: Mention inter-histogram normalization? no.
287 %  For experiments carried out over a series of pulling velocities, we
288 %  simply sum residuals computed for each velocity, although it would
289 %  also be reasonable to weight this sum according to the number of
290 %  experimental unfolding events recorded for each velocity.
291 % DONE: mention $D_\text{JS}$ features to explains selection over $\chi^2$? no.
292 \Cref{fig:sawsim:fit-space} shows the Jensen-Shannon divergence calculated
293 using \cref{eq:sawsim:D_JS} between an experimental data set and simulation
294 results obtained using a range of values of $k_{u0}$ and $\Delta x_u$.
295 There is an order of magnitude range of $k_{u0}$ that produce
296 reasonable fits to experimental data (\cref{fig:sawsim:fit-space}), which is
297 consistent with the results \citet{best02} obtained using a chi-square
298 test.  The values of $k_{u0}$ and $\Delta x_u$ can be determined to
299 higher precision by using both the pulling speed dependent data and
300 the unfolding force distribution, as well as any relevant information
301 about the protein from other sources.
302
303 \begin{figure}
304   \begin{center}
305   \subfloat[][]{\asyinclude{figures/v-dep/v-dep}%
306     \label{fig:sawsim:v-dep}%
307   } \\
308   \subfloat[][]{\asyinclude{figures/v-dep/v-dep-sd}%
309     \label{fig:sawsim:width-v-dep}%
310   }
311   \caption{(a) The dependence of the unfolding forces on the pulling
312     speed for three different model protein molecules characterized by
313     the parameters $k_{u0}$ and $\Delta x_u$.  The polymer length is
314     eight molecules, and each symbol is the average of $3200$ data
315     points.  (b) The dependence of standard deviation of the unfolding
316     force distribution on the pulling speed for the simulation data
317     shown in (a), using the same symbols.  The insets show the force
318     distribution histograms for the three proteins at the pulling
319     speed of $1\U{$\mu$m/s}$.  The left, middle and right histograms
320     are for the proteins represented by the top, middle, and bottom
321     lines in (a), respectively.\label{fig:sawsim:all-v-dep}}
322   \end{center}
323 \end{figure}
324
325 \begin{figure}
326   \begin{center}
327   \asyinclude{figures/fit-space/fit-valley}
328   \caption{Fit quality between an experimental data set and simulated
329     data sets obtained using various values of unfolding rate
330     parameters $k_{u0}$ and $\Delta x_u$.  The experimental data are
331     from octameric ubiquitin pulled at $1\U{$\mu$m/s}$\citep{chyan04},
332     and the other model parameters are the same as those in
333     \cref{fig:sawsim:sim-all}.  The best fit parameters are $\Delta
334     x_u=0.17\U{nm}$ and $k_{u0}=1.2\E{-2}\U{s$^{-1}$}$.  The
335     simulation histograms were built from $400$ pulls at for each
336     parameter pair.\label{fig:sawsim:fit-space}}
337   \end{center}
338 \end{figure}