WWW.KNIGA.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Книги, пособия, учебники, издания, публикации

 


Фрагменты из заключительного отчета по проекту белорусского республиканского фонда

фундаментальных исследований по теме «Исследование задачи сворачивания белка

методами комбинаторной оптимизации»

Руководитель проекта А.В.Тузиков

Работа выполнена в объединенном институте проблем информатики академии наук

Беларуси.

Текст подготовил С.Феранчук

при участии В.Галатенко, Т.Кирис, В.Дулько, Д.Войтеховского март 2008, г. Минск Содержание 1. Предсказание структуры белка макромицина методом предсказания пути сворачивания

Введение

Исследуемый белок

Функционал энергии

Оптимизация

Результаты и обсуждение

Литература

2. Алгоритм структурного выравнивания белков на основе сравнения путей сворачивания

Введение

Построение пути сворачивания

Сравнение деревьев

Последний шаг: сравнение белков на уровне остатков

Алгоритм сравнения белков на основе принципа максимизации математического ожидания (EM-SVD).

Результаты

3. Исследование задачи об энтропии фрагмента цепи между двумя бета-складками.......... Литература

4. Моделирование конформации белка 1nci, гомологичного белку 2mcm

5. Применение метода предсказания третичной структуры белка по анализу пути сворачивания к предсказанию третичной структуры белков, подобных иммуноглобулинам

Введение

Семейство белков

Свободная энергия

Результаты

Литература

1. Предсказание структуры белка макромицина методом предсказания пути сворачивания Введение Работа посвящена задаче сворачивания белка, то есть в ней исследуются возможности построения третичной структуры белка по первичной. По мере накопления информации о третичной структуре белков стало известно, что многие не связанные эволюционным родством белки имеют схожую третичную структуру и можно говорить о существовании ограниченного количества укладок белков [1]. Более узким направлением работы является попытка объяснить, исходя из физических принципов, почему белок во время процесса сворачивания выбирает свою конкретную укладку. К настоящему времени известно [2], что нативную структуру белка предваряет состояние расплавленной глобулы, в котором уже определилась укладка белка, но еще не установлены характерные взаимодействия боковых групп. Из этого следует, что баланс энергии на этом шаге достаточен, чтобы определить укладку, но еще является приближенным. В связи с этим в работе делается попытка ввести грубое схематичное описание трехмерной структуры белка с упрощенным функционалом энергии и доказать в этом приближении, что нативная укладка белка является оптимальной.



Анализ трехмерной укладки белков показывает, что для многих белков можно описать множество путей в фазовом пространстве, ведущих к свернутой структуре, в виде иерархического дерева [3]. Листьями этого дерева являются элементы вторичной структуры белка, и по мере формирования окончательной третичной структуры они соединяются между собой в промежуточные узлы. Если можно говорить о конечном количестве укладок всего белка, то тем более можно говорить об ограниченном количестве типов таких промежуточных узлов. Тогда задачу предсказания сворачивания белка можно свести к задаче комбинаторной оптимизации, которая состоит в переборе различных элементов вторичной структуры и различных вариантов их сочетания между собой. Чтобы проверить идею подхода, был выбран один белок с несложной структурой, который содержит только бета-складки и является достаточно компактным. При построении третичной структуры этого белка из бета-отрезков, как из строительных блоков, эти бета-отрезки необходимо определенным образом последовательно соединить между собой, чем и определяются промежуточные узлы в пути сворачивания. Типы этих узлов, то есть правила сочетания бета-отрезков, можно перечислить комбинаторно, но в настоящей работе были отобраны только те типы, которые необходимо использовать, чтобы построить третичную структуру выбранного белка.

Предлагаемая концепция имеет сходство с известной задачей выравнивания первичной последовательности белка по шаблону, задаваемому третичной структурой другого белка[1], то есть задачей «протягивания». Так же как и в задаче протягивания, для оптимизации поиска удобно использовать метод динамического программирования. В данном случае использование этого метода обусловлено тем, что взаимодействия свернутого фрагмента белка можно приближенно считать не зависящими от способа укладки этого фрагмента, и поэтому можно независимо выбрать для него оптимальный способ укладки. Метод динамического программирования в задаче протягивания имеет ограничение, связанное с тем, что выбранный фрагмент белка может связываться с другими фрагментами, и поэтому невозможно определить его энергию отдельно от остальной части. В предлагаемом подходе, однако, удается обойти эту трудность, введя дополнительное измерение, характеризуемое некоторым номером фрагмента, а также благодаря простоте функционала энергии.

Какой бы простой ни был функционал энергии, он должен учитывать баланс между взаимодействиями между остатками в свернутой (или частично свернутой) структуре и увеличением энтропии при движении несвернутых фрагментов цепи. При этом, как показано в работах [4-6], происходит переход по принципу "все-или-ничего" из-за взаимодействия между остатками, образующими ядро, что и объясняет путь сворачивания для данного белка. Алгоритм, использованный в настоящей работе, позволяет рассмотреть наряду с нативными взаимодействиями между остатками, также и некоторые ненативные взаимодействия, то есть пространство перебора оказывается более широким. При этом все равно выделяется ядро остатков, определяющих оптимальную укладку, и эта укладка совпадает с укладкой, наблюдающейся в нативном состоянии данного белка.





Исследуемый белок В качестве образца для исследования был выбран белок макромицин с кодом 2mcm в банке трехмерных структур. В базе SCOP [7] этот белок характеризуется типом укладки «бета-сэндвич, подобный иммуноглобулину». Белки этого типа состоят из двух сложенных параллельно бета-листов. Логически очень просто описать такую структуру соединения бета-отрезков, но в то же время при предсказании структуры этого белка существует нетривиальное пространство перебора, включающее в себя различный порядок бета-отрезков в бета-листах. Задача проведения такого перебора и определила выбор данного белка.

Третичная структура белка, построенная с помощью пакета «UCSF Chimera»[8], приведена на рис. 1. Нечетные остатки в бета-отрезках, составляющих бета-листы, оказываются ориентированными внутрь структуры. Если эти остатки являются гидрофобными, то это является энергетически выгодным. На рисунке более светлым помечены гидрофобные остатки, и видно, как они чередуются с гидрофильными. Кроме двух сложенных бета-листов, в данном белке существуют две бета-шпильки, которые касаются основной структуры.

На рис.2 схематически изображено, из каких бета-отрезков состоит исследуемый белок и как они связаны между собой. Эта достаточно сложная схема определяется только аминокислотной последовательностью белка.

Даже если считать известным то, что белок состоит только из бета-листов, остается неочевидным, почему в природе реализуется именно такая структура соединения бета-отрезков между собой. Задача данной работы – попытаться объяснить это.

На рис. 3 изображены шаги сворачивания, с помощью которых можно построить иерархический путь сворачивания для данного белка, а на рис. 4 – собственно иерархическая схема, где промежуточные шаги соответствуют типам, описанным на рис. 3. Шаг 1 на рис. 3, соответствующий образованию бета-шпильки из двух соседних бета-отрезков, происходит в нескольких местах при образовании окончательной структуры. Затем последовательно происходят шаги свертки 2, 3 и 4, в которых участвуют по три смежных отрезка последовательности. Приведенная схема – не единственная схема, которую можно построить из данных блоков, однако именно она при некотором наборе параметров является схемой с наибольшей свободной энергией, как показывают наши вычисления.

Предложенный подход в принципе позволяет восстановить третичную структуру по первичной вплоть до координат для любой схемы применения шагов сворачивания, с точностью до свободы движения остатков в петлях.

Каждый шаг сворачивания уточняет положение элементов вторичной структуры друг относительно друга до такой степени, что можно с определенной точностью выписать их относительные координаты. В реальном анализе подхода такая процедура не проводилась. Вместо этого предсказанная вторичная структура и путь укладки сравнивались с нативными для данного белка. Функционал энергии при моделировании был выбран достаточно простым, однако в него все равно входит опосредованная зависимость от относительных координат остатков. А именно, в функционал энергии входит зависимость от расстояния между концами петли, соединяющей бета-отрезки – от этого зависит энтропия петли. Однако каждый шаг сворачивания, определяя относительное положение бетаотрезков, определяет тем самым заранее и относительные координаты остатков, входящих в эти бета-отрезки. Поэтому каждый применяемый при моделировании шаг сворачивания уточняет относительные координаты остатков и эту информацию можно использовать в функционале энергии.

Функционал энергии Для выбора лучшей из моделируемых структур при переборе необходимо сравнить их свободные энергии. При формировании структуры белка происходит выигрыш в энергии из-за образования вторичной структуры и гидрофобных взаимодействий, но это сопровождается проигрышем в энтропии из-за уменьшения свободы движения несвернутой цепи. Вторичная структура белка возникает за счет водородных связей между атомами главной цепи. Кроме того, когда полярные атомы боковых цепей находятся на поверхности белка, возникают водородные связи между этими атомами и молекулами воды, окружающими белок. Выигрыш в энергии за счет этих водородных связей можно приближенно учесть за счет рассмотрения гидрофобных взаимодействий. Для этого всякий раз, когда гидрофобная боковая цепь (то есть боковая цепь, не содержащая полярных атомов) оказывается спрятана внутри молекулы белка, к функционалу энергии добавляется энергия одной водородной связи. Энергия водородной связи составляет приблизительно 5 ккал/моль и эта величина принята за единицу при проведении расчетов.

Функционал свободной энергии включает в себя четыре члена:

Энергия бета-листов FH H пропорциональна количеству водородных связей.

Количество водородных связей между двумя бета-отрезками с количеством считается равной количеству гидрофобных остатков на нечетных позициях от начала в бета-отрезках, поскольку именно боковые цепи этих остатков оказываются спрятанными внутри белка при формировании сэндвича.

Гидрофобными остатками считались, в однобуквенном коде, остатки A,C,F,G,I,L,M,V,W. Третий член функционала энергии FS = S – это энергия ковалентной связи между атомами серы в паре остатков цистеина. Эта связь может возникать как между остатками, которые оказались друг напротив друга в бета-листе, так и между остатками в петле, соединяющей бетаотрезки. Энергия одной такой связи считалась равной 5 ед.

Свободная энергия структуры зависит также от энтропии белковой цепи, то есть от того, насколько свободна цепь в своем движении. При формировании вторичной структуры часть этой свободы пропадает за счет образования дополнительных связей. Участки, соединяющие бета-отрезки, остаются свободными, и их энтропия зависит от длины участка и от расстояния между концами:

Вопрос о свободной энергии таких петель рассматривался в [9]. Мы исследуем вопрос об абсолютной энтропии петли, введя в рассмотрение ряд дополнительных членов.

В первом приближении белковую цепь можно моделировать цепочкой из шарниров со звеньями постоянной длины. Энтропию одной степени свободы в шарнире можно оценить как движении свободного звена, w - фазовый объем при движении звена, входящего во вторичную структуру (в настоящей работе обсуждаются только бета-складки). Эти фазовые объемы были оценены из результата анализа траекторий молекулярной динамики и было получено значение b порядка 6R.

Когда концы цепочки фиксированы в некотором объеме пространства w, энтропия системы уменьшается на Rln w. В случае, когда все углы в шарнирах равновероятны, вероятность того, что концы цепочки находятся на расстояниии d ( количество звеньев в цепочке l, длина звена a ) равна [1] однако, неравномерное. Для получения реального распределения нами с помощью пакета GROMACS [10] была просчитана траектория пептидной цепочки в воде в течении некоторого времени, определено распределение углов в шарнире и промоделировано распределение расстояния между концами у цепочки с таким распределением углов. Из сравнения с гауссовой цепочкой видно, что вероятности расстояний между концами существенно отличаются. По результатам моделирования была составлена таблица зависимости вероятности p(d,l) нахождения конца цепочки длины l в слое конечной толщины на расстоянии d от начала (таблица 1).

Таблица 1. Распределение вероятности расстояния между концами белковой цепочки в зависимости от ее длины.

По горизонтали отложено расстояние между концами цепочки ( в единицах длины одного звена), а по вертикали – количество звеньев.

11 0.00087 0.0011 0.0018 0.0028 0.0042 0.0058 0.0091 0.0107 0.0140 0.0171 0.0197 0.0208 0.0196 0.0167 0.0098 0.0029 0. 12 0.00084 0.0014 0.0018 0.0029 0.0036 0.0053 0.0072 0.0087 0.0108 0.0133 0.0158 0.0171 0.0170 0.0159 0.0141 0.0092 0. Логарифм этой вероятности следует прибавить к функционалу свободной энергии для каждого звена. В итоге получаем Оптимизация Если следовать идее подхода, то для определения наилучшей укладки исследуемого белка следует перебирать все деревья наподобие изображенного на рис. 3 в направлении снизу вверх, то есть перебирать все возможные положения бета-отрезков и все возможные способы их объединения. Допустим, однако, что нами фиксирован ряд бета-отрезков в направлении от левого конца до произвольной позиции в середине белка и выбран способ их объединения. Энергия всего белка в этом случае складывается из трех частей: энергии свернутого участка, максимально возможной из энергий несвернутого участка и максимально возможной энергии взаимодействия между свернутой и несвернутой частью.

Наша цель – выбрать из всех вариантов укладки для данной позиции наилучший и отбросить все остальные варианты. Поступая так, мы сможем реализовать процедуру динамического программирования. При введении оптимизации мы считаем, что энергия взаимодействия между свернутой и несвернутой частью зависит от типа вершин в свернутой части, но не от их внутренней структуры. Если сгруппировать все структуры с одним и тем же типом вершин, то для этой группы можно выбрать для дальнейшего перебора только одну структуру, оптимальную в смысле энергии свернутой части.

Поскольку рассматривается 4 типа шагов сворачивания, то на каждом уровне следует рассмотреть и четыре типа вершин. Для дерева с уровнем вложенности n следует рассмотреть 2 вариантов. Каждому из вариантов можно присвоить свой уникальный номер, который можно использовать при группировке. После этого можно добавлять бета-отрезки справа, и снова выбирать на каждом шаге лучшую структуру как функцию позиции и номера варианта. Когда позиция перебора дойдет до правого конца белка, можно считать перебор законченным и выбрать структуру с лучшей свободной энергией.

Предложенный способ группировки промежуточных структур, однако, не учитывает все возможные отличия между структурами. Энергия объединения двух бета-отрезков зависит, например, от количества остатков в каждом из них. Пока бета-отрезок не вступил во взаимодействие, эту энергию предсказать нельзя. Далее, выигрыш в гидрофобной энергии проявляется только при наложении бета-листов. До этого различные бетаотрезки одинаковой длины никак не различаются по энергии.

Чтобы как-то учесть в рамках алгоритма подобные отличия между структурами, для каждой структуры подсчитывалась, кроме свободной энергии F, и другая величина, p, как сумма свободных энергий всех возможных еще не учтенных взаимодействий свернутой части структуры с несвернутой частью. При выборе лучшей структуры сравнивались не сами свободные энергии структур, а величины t. Результат работы алгоритма, таким образом, зависит от эмпирического параметра. Его величина должна по порядку соответствовать отношению окончательно реализованной свободной энергии к p. Это отношение можно оценить, если считать, что каждый остаток потенциально может участвовать в двух водородных связях своей главной цепью, а участвует в среднем менее чем в одной. При реальных расчетах выбиралось = 0.35. В некоторых пределах выбора алгоритм дает одинаковый результат.

Если в свернутой части белка больше одной вершины, то следует учесть свободную энергию участков, соединяющих эти блоки. Эта энергия зависит от расстояния между концами петли, которую будет иметь этот участок в свернутой структуре. В исследуемом белке, однако, это расстояние может принимать только два значения. Поэтому при переборе два типа расстояний между концами заранее присваивались двум вариантам структуры, для каждого из вариантов рассчитывалась энергия и эти варианты различались своим номерами и рассматривались отдельно при переборе.

Результаты и обсуждение В результате моделирования при определенных значениях параметров алгоритм предсказывал в качестве оптимальной ту структуру, которая по количеству бета-отрезков и схеме их соединения соответствовала природной укладке данного белка. Незначительные отличия проявились в положениях бета-отрезков. Эти результаты суммированы в таблице 2.

Таблица 2. Результаты предсказания положения бета-отрезков.

Вторичная структура белка состоит из 11 бета-отрезков. Позиция в структуре – это номер остатка в первичной последовательности, с которого начинается данный бета-отрезок. Длина в структуре – это количество остатков в бета-отрезке. Предсказанная позиция и предсказанная длина – это аналогичные величины, полученные по результатам работы программы.

Входом алгоритма являлась первичная последовательность исследуемого белка, и представляло интерес, какие будут предсказания, если подставить в алгоритм первичную последовательность другого белка. Для белков из того же типа укладки согласно SCOP со схожими размерами результаты суммированы в таблице 3.

Таблица 3. Результаты применения алгоритма к различным белкам.

Количество правильно предсказанных водородных связей 40 15 5 Количество пар в структурном выравнивании белка с 2mcm 108 94 21 Если программа правильно предсказывала положение бета-отрезков во вторичной структуре и правильно предсказывала и объединение в бета-лист, то это засчитывалось как некоторое количество правильно предсказанных водородных связей. Для белка из того же семейства (1acx) программа правильно предсказывала путь укладки, в остальных случаях дело ограничивалось некоторыми локальными совпадениями. Если подставить на вход программы последовательность, не имеющую отношения к исследуемому белку, то в результате получалась структура, подобная структуре 2mcm и не имеющая отношения к реальной укладке исходного белка.

Анализ баланса энергий в свернутой структуре показывает, что правильный результат достигается в большой степени из-за наличия двух цистеиновых мостиков и из-за специфичной формы шага сворачивания номер 4. Впрочем, наши последние неопубликованные исследования показывают, что подход может применяться и к другим белкам, в которых отсутствует указанная специфика.

Описанный подход может иметь два направления развития. Во-первых, его можно применить к задаче выравнивания последовательности по структуре. Для этого для каждой трехмерной структуры нужно построить иерархическое дерево, листьями которого являются элементы вторичной структуры, и с помощью описанного алгоритма оптимальным образом расположить эти листья на исследуемой первичной последовательности. Вовторых, если собрать достаточно большую библиотеку типов промежуточных узлов, можно говорить о предсказании трехмерной структуры белка ab initio, хотя, возможно, это потребует больших вычислительных ресурсов. Во всяком случае, даже в представленном виде подход позволяет рассматривать новые возможные структуры белков наряду с уже существующими.

Литература 1. Godzik A. 2003. Fold Recognition Methods. In: Structural Bioinformatics. Eds Bourne P., Weissig H.: Hoboken, New Jersey :Wiley, 525 -546.

2. Finkelstein A.V., Galzitskaya O.V. 2004. Physics of Protein Folding. Physics Life Rev. 1, 23–56.

3. Tsai C.-J., Maizel J.V., Nussinov R. 2000. Anatomy of protein structures:

Visualizing how a one-dimensional protein chain folds into a three-dimensional shape. Proc. Natl. Acad. Sci. 97, 12038-12043.

4. Скугарев А.В., Галзитская О.В., Финкельштейн А.В. 1999. Поиск ядер сворачивания в пространственных структурах белков. Молекуляр. биология.

33, 1016-1026.

5. Galzitskaya O.V., Finkelstein A.V. 1999. A theoretical search for folding/unfolding nuclei in three-dimensional protein structures. Proc. Natl. Acad.

Sci. USA. 96, 11299-11304.

6. Garbuzynskiy S.O., Finkelstein A.V., Galzitskaya O.V. 2004. Outlining folding nuclei in globular proteins. J. Mol. Biol. 336, 509-525.

7. Murzin A.G., Brenner S.E., Hubbard T., Chothia C. 1995. SCOP: a structural classification of proteins database for the investigation of sequences and structures.

J. Mol. Biol. 247, 536-540.

8. Pettersen, E.F., Goddard, T.D., Huang, C.C., Couch, G.S., Greenblatt, D.M., Meng, E.C., and Ferrin, T.E. 2004 UCSF Chimera - A Visualization System for Exploratory Research and Analysis." J. Comput. Chem. 25:1605-1612.

9. Финкельштейн А.В., Бадретдинов А.Я. 1997. Физические причины быстрой самоорганизации стабильной пространственной структуры белков:

решение парадокса Левинталя. Молекуляр. биология. 31, 469-477.

10. Lindahl E., Hess B., van der Spoel D. 2001. GROMACS 3.0: A package for molecular simulation and trajectory analysis. J. Mol. Mod. 7, 306-317.

2. Алгоритм структурного выравнивания белков на основе сравнения путей сворачивания Введение Алгоритмы структурного выравнивания имеют одну особенность по сравнению с алгоритмами выравнивания первичных последовательностей. А именно, чтобы выровнять структуры, необходимо совместить их в пространстве. Это совмещение возможно, только когда выбрано несколько пар соответствий между остатками двух белков. Когда сравнивают первичные структуры, возможно определить качество сравнения даже для коротких фрагментов последовательности, и затем объединить лучшие отрезки в выравнивание. Когда сравнивают третичные структуры, какое-то глобальное решение должно предшествовать процессу сравнения, так что теряется локальная природа попарного сравнения.

Обычным решением здесь является определение локальных сходств на основе сравнения матриц расстояний [Dali], или на основе попарного перебора вторичных структур [Matras], и затем эти локальные сходства объединяются в кластеры. Другое очевидное решение – это итерационные приближения по точкам соответствия.

В нашем подходе используется некоторый дополнительный уровень описания белков. А именно, существует идея [Nussinov] что путь сворачивания белка может быть описан путем комбинирования элементов вторичной структуры в гидрофобные единицы свертки (hydrophobic folding units) и дальше до уровня доменов. Формально, путь сворачивания может быть описан как дерево, где листьями являются элементы вторичной структуры.

Затем, сравнение деревьев является алгоритмически более простым, чем сравнение произвольного списка вторичных структур. И этот способ сравнения кажется естественным, если исходное дерево имеет биологический смысл. На следующем шаге результаты сравнения вторичных структур используются на входе итерационного алгоритма, который совмещает белки на уровне остатков.

Описанный алгоритм зависит от определения вторичных структур в сравниваемых белках. В течение наших исследований мы разработали другой алгоритм, для работы которого необходимо задание лишь наборов точек в пространстве. Он основан на алгоритме EM-SVD в обработке изображений [Hancock]. На каждом шаге производится сингуляное разложение матрицы, так что для больших белков этот алгоритм работает достаточно медленно.

Вторым его недостатком является то, что пространство поиска при сравнении больших белков достаточно велико и трудно найти правильное решение, не используя какого-нибудь дополнительного уровня описания. Однако в случае небольших белков, где информация о вторичной структуре ограничена, этот алгоритм может демонстрировать удовлетворительную производительность.

Построение пути сворачивания Чтобы определить вторичную структуру в файлах трехмерных структур формата pdb, использовался алгоритм DSSP. Затем из файлов pdb и dssp извлекался список элементов вторичной структуры с указанием координат первого и последнего остатка в каждом элементе и информацией о количестве контактов между этими элементами.

Затем в направлении снизу вверх начиналось построение дерева, исходя из элементов вторичной структуры, рассматриваемых как листовые узлы дерева. Алгоритм получает на вход список листовых узлов и итерационно соединяет выбранную пару смежных (в смысле близости в первичной последовательности) узлов в новый узел, который замещает все соединяемые узлы в списке, что приводит к его сокращению. Таким образом, список промежуточных узлов всегда следует порядку первичной последовательности. Чтобы выбрать узлы для объединения, во-первых, используется следующее правило (1): любая пара смежных узлов, между которыми есть водородные связи, объединяется в новый узел. Например, если два смежных бета-отрезка находятся в одном и том же бета-листе, они соединяются. Это правило имеет неоднозначность в применении, когда последовательность нескольких смежных бета-отрезков (например, {S1,S2,S3,S4}) соединена водородными связями. В этом случае алгоритм использует принцип того, что первой соединяется пара, лежащая ближе к началу последовательности (так что в предложенном примере получится дерево со структурой {{{S1,S2}S3}S4}). Этот принцип вводит небиологический смысл в алгоритм, но когда один и тот же принцип применяется к двум сравниваемым структурам, неоднозначность частично устраняется.

Таким же образом определяются остальные применяемые правила, в порядке очередности: (2) два узла, соединенные водородной связью и находящиеся в первичной последовательности на расстоянии в два остатка, соединяются; (3) два узла, смежные в первичной последовательности и контактирующие любой парой атомов, соединяются; (4) соединяются любые два узла, смежные в первичной последовательности.

Описанный алгоритм кажется очень простым, но он разработан чтобы отразить иерархию взаимодействий в белках, начиная от водородных связей ( правила 1 и 2 ) через гидрофобные единицы сворачивания ( правило 3 ) к уровню доменов ( правило 4 ). Естественно предположить, что в процессе сворачивания в частично свернутой цепи первыми взаимодействуют элементы, смежные в первичной структуре. Единственным вопросом остается выбор приоритета между правилами (2) и (3), но в большинстве случаев выбранный порядок кажется правильным.

Сравнение деревьев Алгоритм сравнения путей сворачивания исполняется рекурсивно в направлении сверху вниз, от корней к листьям. Результатам сравнения является схема соответствия между узлами-листьями. Предположим, что на вход алгоритма поступило два узла из двух деревьев, назовем их n 1 и n 2.

Детьми узла n 1 являются n 1 и n 1, а детьми узла n 2 - n 2 и n 2. Каждый из узлов может быть пропущен при сравнении. Это означает, что с пропущенным узлом не сопоставляется ни один узел из сравниваемого дерева, как для узла a2 на рисунке.

Во-первых, процедура сравнения пытается пропустить каждого из детей, то есть она рекурсивно сравнивает узлы ( n 1, n 2 ), ( n 1, n 2 ) и наоборот.

Затем процедура пытается установить соответствие между парами детей:

( n 1, n 1 ), ( n 12, n 2 ). Совмещение узлов верхнего уровня в этом случае будет суммой совмещений более низкого уровня. Рекурсивная процедура, производя перебор, применяется лишь единожды к каждой паре узлов.

Результат сравнения запоминается в матрице и затем используется при необходимости.

Функционал цели при сравнении может быть применен к любому соответствию, то есть к любой паре узлов, и он состоит из трех частей:

E = E rmsd + E leafs + E missed структур в пространстве. Для этого каждый лист (то есть каждый элемент вторичной структуры) описывается парой точек: положениями первого и последнего остатков в пространстве. Так мы получаем для сравнения узлов два набора точек: листья наследников одного узла и листья наследников другого узла, между листьями установлено соответствие, которое можно использовать при совмещении. Далее подсчитывается среднеквадратичное отклонение расстояний между точками (rmsd) для лучшего совмещения всех этих точек. Функционал цели имеет размерность логарифма правдоподобия.

Чтобы преобразовать среднеквадратичное отклонение к этим единицам, мы промоделировали распределение среднеквадратичного отклонения для набора случайных пар векторов как функцию от количества пар и использовали логарифм этой вероятности в форме таблицы.

Только с помощью E rmsd мы не можем отличить альфа-спираль от бетаотрезка, а так же сравнить альфа-спирали различных длин. Чтобы преобразовать эту качественную меру в единицы логарифма правдоподобия, мы использовали гомологичные белки из тестового набора DALI, находили с помощью алгоритма DALI структурное выравнивание и затем исследовали распределение зависимости от разности длин в парах соответствующих элементов вторичной структуры. Логарифм вероятности оказался анализа распределения, k 1 = 0. 05 было выбрано эмпирически. Когда альфаспираль сравнивалась с бета-отрезком, энергия бралась как Когда какой-либо узел пропускается при сравнении и его потомки не имеют соответствий в другом белке, то это должно повлиять на функционал цели. Этот член ( E missed ) был также получен из анализа набора структурных выравниваний: E missed = k 1 k 3 (1 exp( l / k 3 )), ( где l – полное количество остатков, относящихся к пропущенному узлу, k 3 = 20 ). Эта часть алгоритма оказалась чувствительной к параметру k 1, который переводит единицы длины в единицы распределения среднеквадратичного отклонения, однако в некотором интервале его значений процедура сравнения показывала одинаково хороший результат.

Для каждой пары узлов результат сравнения запоминался во вспомогательной матрице и использовался, когда эта пара сравнивалась снова. Так что в алгоритме происходит не больше чем O ( m n ) сравнений узлов, где n,m – количество элементов вторичной структуры в двух белках.

Насколько нам известно, это наименьшее количество операций для сравнения элементов вторичной структуры, поскольку каждая новая комбинация соответствий между ними в двух белках требует отдельного сравнения. И, также, предложенный метод представляется естественным, поскольку деревья сворачивания имеют биологический смысл.

Последний шаг: сравнение белков на уровне остатков Результатом сравнения путей сворачивания является список сопоставленных пар элементов вторичной структуры. Затем должно быть выполнено более детальное сравнение, чтобы получить соответствия на уровне остатков. Этот этап происходит итерациями. На каждом шаге, вопервых, два белка совмещаются в пространстве, используя выравнивание с предыдущего шага. На первой итерации в качестве выравнивания берутся максимальное возможное количество остатков из каждого из сопоставленных элементов вторичной структуре, начиная с начала элементов. Затем строится матрица V размерности M N, где M, N – количество остатков в белках.

Чтобы построить матрицу V, используется вспомогательная матрица X с элементами exp( d ij / K 1 ), где d ij - расстояние между остатком i в одном белке и остатком j в другом белке в совмещенных наилучшим образом из получающегося выравнивания. Чтобы найти выравнивание для порядка в выравнивании ( m k im ik j m j k ), и максимизируют сумму матрице V из верхнего левого угла в правый нижний. Эта задача решается простым динамическим программированием. Параметры были выбраны Алгоритм сравнения белков на основе принципа максимизации математического ожидания (EM-SVD).

Ключевой величиной описываемого алгоритма является вероятность p ( i | j ) того, что остаток i в одном белке соответствует остатку j в другом белке. Имея выражение для этой вероятности, можно максимизировать математическое ожидание перехода одного белка в другой и так найти желаемое соответствие между остатками. Пусть количество остатков в белках будет M и N. Пусть выравнивание записывается в виде матрицы S и в противном случае. Алгоритм является итерационным: это означает, что по выравниванию S на следующей итерации вычисляется выравнивание S P(i,j,k,l) того события, что когда k соответствует l, i соответствует j. Затем мы можем использовать матрицу S и записать только два значения: 0 или 1.

расстояний между остатками в двух белках. Если элементы s ij и s kl являются двумя парами соответствий ( i j, k l ) между остатками двух сходных белков, то соответствующие им расстояния в матрицах будут схожи:

будет иметь некоторое случайное распределение со средним большим, чем, потому что это будет просто пара расстояний из двух матриц, которые не имеют отношения друг к другу. Когда i соответствует j, и k соответствует l, значение тензора W(i,j,k,l) должно быть равно 1, иначе оно должно быть равно нулю. Поэтому естественно способом определить этот тензор, установив Целевой функцией в процедуре максимизации математического ожидания является функционал логарифма правдоподобия помощью формул Используя матрицу Q из вероятностей p(i|j,S(n+1)), минимизируя функционал правдоподобия, который может быть записан как Решение S(n+1)’ может быть найдено из приведенной формулы средствами линейной алгебры, используя сингулярное разложение матрицы Z. А именно, если Z будет представлено как произведение U X V, где U,V – унитарные матрицы (размерностей M M и N N ), а X – матрица собственных значений, тогда оптимальное S’ должно вычисляться по формуле S ' = U E V T, где в матрице E каждое собственное значение из X заменено единицей.

Следующей проблемой является преобразование матрицы S’, элементами которой могут быть любые числа, в матрицу выравнивания S.

Согласно начальной постановке задачи, мы пытаемся найти наилучшее выравнивание для пары белков. И не все остатки белков могут быть включены в выравнивание, но лишь некоторые фрагменты каждого из белков. Чтобы найти эти фрагменты, можно рассматривать матрицу S’ как матрицу попарных соответствий между остатками. В этом случае набор соответствий, смежных в смысле порядка в первичной последовательности, будет представлен в матрице как отрезок из элементов матрицы, параллельный главной диагонали. Из этих отрезков может быть затем построено выравнивание. Когда мы рассматриваем отдельно такой отрезок гомологии, уровень схожести для него пропорционален сумме элементов матрицы. Альтернативная гипотеза подразумевает, что все эти элементы – случайные, и их сумма подчиняется законам распределения случайной величины. В этом случае для отрезка длины l можно ожидать, что среднеквадратичное отклонение суммы, то есть уровень шума, будет пропорционально l. Нашей целью является выбрать отрезки с высоким отношением сигнала к шуму.

Чтобы реализовать эту идею, была использована процедура dothelix из пакета Genebee. Входом этой процедуры является любая из диагоналей матрицы S’ (обозначим ее как {xi}), а выходом – набор отрезков {[lk,mk], lk xi mk }, причем выбранные отрезки характеризуются большой величиной отношения Эта техника была достаточно эффективна при нахождении гомологий в первичных последовательностях, так что она является отработанной. Как результат применения процедуры dothelix ко всем диагоналям матрицы S’ мы получим набор отрезков с хорошим локальным сходством. Отрезки на параллельных диагоналях могут быть объединены, так что каждый кластер отрезков представляет собой локальное выравнивание. Когда алгоритм тестировался, было принято решение не форсировать объединение кластеров в одно большое выравнивание, а рассматривать каждый хороший кластер отдельно. Так что выравнивание строилось по каждому кластеру, в наших обозначениях это подразумевает, что образовывалось несколько новых матриц {S(n+1)}. В итерационной процедуре в алгоритме сохранялись только несколько лучших кластеров.

Поскольку алгоритм является итерационным, необходимо выбрать начальное приближение. Вышеописанная процедура не слишком чувствительна к начальному приближению, поскольку на каждом шаге из одного старого решения получается несколько новых, но с какой-то точки надо начать. Для этого была использована идея локального сравнения отрезков. Матрица Z(0) считалась по формуле Эта формула выражает собой лишь принцип локального сравнения матриц расстояний. Затем матрица Z использовалась как входная в выражении (2).

Несколько слов стоит сказать о сложности алгоритма. Если длины белков имеют порядок n, процедура сингулярного разложения занимает O(n3) операций, а вычисления по формулам (1) и (2) имеют порядок n4. Сложность формулы (1) легко преобразуется к n3, потому что в матрице S всего лишь n ненулевых компонент. Чтобы упростит вычисления матрицы Z в формуле (2), использовалась следующая идея: Пусть набор пар остатков одного белка X ( d ) : {i, j } X, 1 i, j N соответствуют элементам матрицы как Вычисления по этой формуле по-прежнему требуют O(n4) операций, но они более легкие, потому что количество операций пропорционально множителю Результаты Обе версии описанного алгоритма (сравнение путей сворачивания и максимизация математического ожидания) были реализованы в виде программ. Второй из вариантов на больших белках, то есть на большинстве белков, демонстрировал неудовлетворительное быстродействие, поэтому большие тесты на нем не проводились; на малых белках, впрочем, оказалось, что он способен обнаруживать интересные сходства. Первый из вариантов тестировался на тестовом наборе белков Dali и сравнивался с другими программами. Для задачи сравнения путей сворачивания при этом важно было распознать правильное с биологической точки зрения начальное приближение, в то время как выравнивание на уровне остатков должно обеспечить качество, то есть хорошее среднеквадратичное отклонение или какой-либо другой критерий качества (их проверялось несколько). Во время тестирования оказалось, что при сравнении с другими программами первая часть работает сравнительно хуже и в ряде случаев не распознает нужные сходства. Вторая же часть дает качество в ряде случаев более высокое, чем сравниваемые алгоритмы, хотя критерии качества являются трудно определяемыми.

3. Исследование задачи об энтропии фрагмента цепи между двумя бета-складками Исследовалась задача о вычислении свободной энергии белка, если рассматривать упрощенную схему описания структуры белка как состоящего из элементов вторичной структуры и свободно двигающихся петель, соединяющих эти элементы.

Свободная энергия структуры зависит от энтропии белковой цепи, то есть от того, насколько свободна цепь в своем движении. При формировании вторичной структуры часть этой свободы пропадает за счет образования дополнительных связей. Участки, соединяющие бета-отрезки, остаются свободными, и их энтропия зависит от длины участка и от расстояния между концами:

Вопрос о свободной энергии таких петель рассматривался в [1]. Мы исследовали вопрос об абсолютной энтропии петли, введя в рассмотрение ряд дополнительных членов.

В первом приближении белковую цепь можно моделировать цепочкой из шарниров со звеньями постоянной длины. Энтропию одной степени свободы в шарнире можно оценить как движении свободного звена, w - фазовый объем при движении звена, входящего во вторичную структуру (в настоящей работе обсуждаются только бета-складки). Эти фазовые объемы были оценены из результата анализа траекторий молекулярной динамики и было получено значение b порядка 6R.

Вклад в свободную энергию, который вносит эта энтропия, как раз приблизительно равен энергии одной водородной связи, и, значит, промежуточные состояния белка, в которых уже сформировались бетаскладки, по энергии не имеет преимущества по сравнению с развернутой цепью.

Когда концы цепочки фиксированы в некотором объеме пространства w, энтропия системы уменьшается на Rln w. В случае, когда все углы в шарнирах равновероятны, вероятность того, что концы цепочки находятся на расстояниии d ( количество звеньев в цепочке l, длина звена a ) равна [1] Распределение вероятности углов в шарнире у белка, однако, неравномерное.

Для получения реального распределения нами с помощью пакета GROMACS [2] была просчитана траектория пептидной цепочки в воде в течение некоторого времени, определено распределение углов в шарнире и промоделировано распределение расстояния между концами у цепочки с таким распределением углов. Результаты приведены на рис. 1. Как видно из сравнения с гауссовой цепочкой, вероятности расстояний между концами существенно отличаются. По результатам моделирования была составлена таблица зависимости вероятности p(d,l) нахождения конца цепочки длины l в слое конечной толщины на расстоянии d от начала (таблица 1). Логарифм этой вероятности следует прибавить к функционалу свободной энергии для каждого звена. В итоге получаем Полученный результат был реализован в виде алгоритма и использовался при расчетах структур различных белков, а также при оценке энергии для построения иерархического пути сворачивания. По результатам работы подготовлена статья и отправлена в журнал «Вести НАН Беларуси, серия физ.-мат. наук.» и представлены доклады на - 3 Московской конференции по вычислительной молекулярной биологии, Москва, 27-31 июля 2007г.;

- международном семинаре ИНТАС по геномике и протеомике (INTAS Genomics and Proteomics Workshop), Киев, 6-8 сентября, 2007.

Рис. 1. Сравнение распределения расстояний между концами для цепочки длины 7: 1 – гауссова цепочка, 2 – цепочка с распределением углов, как в белке. По оси x – расстояние между концами, по оси y – частота встречаемости данного расстояния в слое ограниченной толщины.

Литература 1. Финкельштейн А.В., Бадретдинов А.Я. 1997. Физические причины быстрой самоорганизации стабильной пространственной структуры белков:

решение парадокса Левинталя. Молекуляр. биология. 31, 469-477.

2. Lindahl E., Hess B., van der Spoel D. 2001. GROMACS 3.0: A package for molecular simulation and trajectory analysis. J. Mol. Mod. 7, 306-317.

Публикации: авторов S. Feranchuk, A. Tuzikov, V. Dulko, T. Kirys, J.Rocha. A threading of immunoglobulin-like proteins with simple energy function. Proceedings of the 3-rd Moscow conference on computational molecular biology, Moscow, Russia, July 27-31, 2007, p. 86-87.

T. Kirys, S. Feranchuk, A. Tuzikov, J. Rocha. Iterative protein alignment algorithm (IPA). Proceedings of the 3-rd Moscow conference on computational molecular biology, Moscow, Russia, July 27-31, 2007, p. 145-147.

4. Моделирование конформации белка 1nci, гомологичного белку 2mcm.

Белок, имеющий в банке трехмерных структур код 1nci (его название cadherin) принадлежит к тому же типу свертки, что и белок 2mcm (macromycin). Название этого типа свертки – «бета-сэндвич, подобный иммуноглобулину». Белки этого типа состоят из двух наложенных друг на друга бета-листов, в каждом из листов 3 или 4 бета-отрезка; в белке 2mcm к тому же имеется две бета-шпильки (см. рисунок). Третичная структура этих белков является очень устойчивой по отношению к изменению первичной структуры. Известно, что иммуноглобулины, которые также принадлежат к этому типу свертки, содержат гипервариабельный участок, состоящий из произвольного набора аминокислот и определяющий гипервариабельность формы поверхности; однако, трехмерный скелет всех иммуноглобулинов совпадает между собой.

Конформация такого белка, как обычно, исследуется методом моделирования пути сворачивания. Этот метод состоит в том, что перебираются все возможные варианты расположения бета-отрезков на первичной структуре;

эти бета-отрезки затем последовательно объединяются в бета-листы, следуя энергетическому критерию, и таким образом в результате перебираются всевозможные варианты трехмерной структуры белка. Из этих вариантов в результате выбирается структура с наименьшей свободной энергией. Таким образом, при правильном применении этот метод должен представлять из себя алгоритм предсказания третичной структуры белка по первичной. Путь сворачивания при этом представляет последовательность, по которой объединяются между собой элементы третичной структуры, и соответствует физической картине процесса сворачивания.

В этом алгоритме один шаг в процессе перебора означает объединение между собой двух подструктур в одну более крупную структуру;

подструктурами здесь могут быть бета-отрезки или результат их объединения. Сложность моделирования пути сворачивания белка 1nci по сравнению с белком 2mcm заключается в том, что для белка 2mcm, как это было проделано ранее, структуры, которые подлежат объединению, всегда находились в голове процесса сворачивания, и обработка свернутых подструктур велась как обработка стека – объединению подлежали только верхние структуры стека. Такой подход можно, в принципе, применить и к белку 1nci, но в этом случае стек оказывается слишком большим, что делает время перебора неприемлемым. Это обусловлено тем, что затравочное ядро сворачивания, то есть первая бета-шпилька, с которой начинается сворачивание, в этом случае находится не в голове первичной последовательности, а в хвосте.

С другой стороны, перебор следует организовывать так, чтобы оставаться в рамках подхода динамического программирования. В этом подходе нужно выбрать две координаты, характеризующие перебор. Для движения от начала последовательности, как в случае белка 2mcm, такими координатами были длина свернутой структуры (от начала последовательности) и вариант сворачивания, то есть какие именно шаги сворачивания были применены. Поскольку длина свернутой структуры на протяжении процесса сворачивания возрастает, то становится возможным применение динамического программирования. Решением в случае белка 1nci явился выбор в качестве этой координаты разности между конечной и начальной позицией в свернутой структуре. Эта величина также все время возрастает во время процесса сворачивания.

Предложенный метод дает возможность применить подход динамического программирования, однако объем вычислений возрастает на порядок длины последовательности. Если ранее было возможным пользоваться персональным компьютером, то сейчас встал вопрос о выходе на суперкомпьютер и программировании параллельного алгоритма. Для параллельной реализации алгоритма динамического программирования, было предложено особое решение, как изображено на рисунке:

Область определения второй переменной в процессе перебора (не той, которая все время возрастает, а той, которая характеризует многообразие вариантов) была разбита на подмножества. В случае рассмотренной задачи это было легко сделать, поскольку в эту переменную входит позиция свернутого отрезка относительно начала последовательности. Далее, каждому подмножеству соответствует два процесса. Первый процесс (квадрат на схеме) накапливает лучшие варианты сворачивания в рамках своего подмножества. Второй процесс (кружок на схеме) производит с каждым из вариантов дальнейшие шаги сворачивания и распределяет полученные варианты в соответствующие им накопители.

Предложенный алгоритм был реализован на суперкомпьютере «Скиф»

и показал хорошую производительность. Время счета на 20 процессорах составляло 10 минут по сравнению с несколькими часами на PC.

В результате исследования поставленной задачи оказалось, что при некоторых значениях параметров функционала энергии алгоритм правильно предсказывает структуру белка 1nci. Однако имеется тенденция предсказывать большее количество бета-отрезков, чем их реальное количество в природной структуре. Вот результат последнего запуска программы: природная структура имеет бета-отрезки в следующих положениях (позиция, длина): {(6,4),(19,5),(34,5),(50,4),(59,4),(73,8),(91,8)}, а предсказанная: {(1,4),(21,4),(33,3),(50,4)(61,3),(75,3),(82,3),(93,4),(100,4)}. В связи с этим встал вопрос об изменении подхода от перебора всех возможных вариантов к задаче выравнивания последовательности по 5. Применение метода предсказания третичной структуры белка по анализу пути сворачивания к предсказанию третичной структуры белков, подобных иммуноглобулинам.

Введение Следующая тема посвящена, как и ранее, исследованию подхода к задаче сворачивания белка, называемому предсказанием из первых принципов. Обычно при предсказании структуры принято считать, что физические взаимодействия в белке являются слишком сложными, чтобы быть полностью учтенными. Но здесь мы исследуем возможность отделить основной баланс энергии от членов, которыми можно пренебречь, как это часто делается в физике. Несомненно, что задача сворачивания не имеет простого решения, которое можно непосредственно найти из первых принципов. Так что требованием к эффективному физическому приближению является комбинаторная сложность задачи. Одним из таких приближений является так называемая HP-модель, про которую доказано, что она NP-сложна. В отличии от этой модели, здесь мы рассмотрим реальные белки, но только один специфический тип сворачивания, который подразумевает ясное комбинаторное пространство для возможных структур.

Мы запишем простой функционал свободной энергии для такого рода структур и попытаемся совместить первичную последовательность белка со всеми возможными образцами, как это обычно делается в алгоритме протягивания. Наш критерий наилучшего совпадения будет основан исключительно на функции свободной энергии, и будет показано, что иногда этот критерий работает.

Семейство белков В базе SCOP рассматриваемый тип сворачивания принадлежит к классу бета-складчатых белков и называется «бета-сэндвич, подобный иммуноглобулинам». Сэндвич формируется из двух бета-листов. Боковые цепи четных (или нечетных) остатков на каждом бета-листе ориентированы внутрь белка, так что из соображений минимума свободной энергии имеется предпочтение, чтобы эти боковые цепи были гидрофобными. Можно ожидать, что в бета-отрезках гидрофильные остатки будут чередоваться с гидрофобными, как можно видеть на изображении структуры белка Тропамина (рис.1) Но, хотя положения бета-отрезков в трехмерном пространстве постоянны, порядок этих отрезков в первичной последовательности может меняться. Это продемонстрировано на рис. 2, где нарисована схема сворачивания белка, изображенного выше.

На этом рисунке стрелки изображают петли, которые соединяют бетаотрезки. Если следовать направлению стрелок, можно восстановить порядок отрезков в первичной последовательности. В принципе этот порядок может быть произвольным, и в реальных белках он меняется от одного семейства к другому. Все возможные варианты этого порядка образуют пространство перебора при предсказании структуры. Ниже мы рассмотрим, однако, только задачу протягивания, то есть мы сравниваем первичную последовательность с определенной третичной структурой. Информация, которую мы можем получить от различных структур – это длины бета-отрезков и расстояния между концами петель. Затем мы можем приписать произвольное количество остатков к определенной петле и оценить полученную энергию, как это будет показано ниже.

Свободная энергия Протеин приобретает свою структуру как результат гидрофобных взаимодействий и образования вторичной структуры. Когда образуется вторичная структура, появляются водородные связи между атомами главной цепи, но цепь при этом теряет свободу движения, что выражается в уменьшении энтропии, и эти два члена почти компенсируют друг друга в функции свободной энергии. Так что часть структуры приобретает некоторую устойчивость, только если внутри этой части происходят гидрофобные взаимодействия. Мы можем выписать функцию свободной энергии, используемую в работе, как сумму двух членов:

E представляет собой энергию гидрофобных взаимодействий. В развернутой структуре гидрофобные остатки находятся в контакте с молекулами воды, но не образуют с ними водородных связей, что приводит к потере свободной энергии по сравнению со свернутой структурой, когда эти остатки спрятаны внутри белка. Мы использовали нижеприведенные эмпирические веса для остатков, находящихся на четных позициях в бетаотрезках, чтобы подсчитать E hydr, на основе доступной площади поверхности остатка. Гидрофильный остаток, будучи ориентированным внутрь белка, приводит к потере энергии за счет потери возможных водородных связей с окружением, поэтому в таблице присутствуют отрицательные веса. Единицей энергии здесь является энергия одной водородной связи.

A C D E F G H I K L M N P Q R S T V W Y

В свободной цепи свобода, которую имеет один остаток по отношению к другому, больше, чем в бета-отрезке. Относительная свобода может быть охарактеризована среднеквадратичным отклонением в трех направлениях.

Произведение этих среднеквадратичных отклонений имеет размерность объёма. Чем больше объём, тем больше энтропия, и можно преобразовать этот объем к энергетическим единицам, используя принципы статистической механики (амплитуда флуктуаций пропорциональна exp( E / kT ) ). Мы вычислили отношение этих объемов в свободой цепи и в бета-отрезке на основании молекулярно-динамического моделирования и получили При комнатной температуре это приводит к энергии в 4 ккал/моль на остаток или приблизительно 0.8 от энергии водородной связи. Так что мы допускаем, что эта часть компенсируется энергией водородных связей в бета-складках.

Однако, чтобы определить E coil мы отметим, что когда оба конца свободной цепочки закреплены, свобода частично теряется и некоторая часть вычитается из энтропии свободной цепочки. Мы пренебрегаем основной энтропией, но обращаем внимание на эту разность. Вопрос об энтропии белковой петли с фиксированными концами был обсужден выше в этом отчете, так что мы просто используем полученный результат.

Результаты Предметом теста было совпадение между шаблоном сворачивания и первичной последовательностью. Шаблон сворачивания представлял собой набор длин бета-отрезков, и расстояния между концами бета-отрезков ( чтобы оценить E coil ). Чтобы определить бета-отрезки в исходных структурах, использовался алгоритм DSSP. Первый численный эксперимент проверял возможность предсказания правильной структуры, когда шаблон сворачивания применяется к соответствующей ему первичной последовательности. Чтобы подсчитать точность предсказания, мы сравнивали положения предсказанных бета-отрезков на первичной последовательности по сравнению с природной структурой. Положительный результат для данного остатка состоит в том, что он находится в правильном бета-отрезке как в предсказанной, так и в природной структурах.

Тестировались белки – представители всех суперсемейств рассматриваемого типа. Результаты сведены в таблице ниже.

Во втором численном эксперименте все выбранные шаблоны сравнивались со всеми выбранными первичными последовательностями, и можно было бы ожидать, что энергия полученной структуры будет наилучшей, когда первичная последовательность сравнивается со своим природным шаблоном. Все те случаи, когда это предположение нарушается, выделены в таблице ниже курсивом. Как можно видеть, существуют последовательности, для которых предсказание делается правильно ( например, 1bww, 2hft, 2mcm и другие ) 1bww 15.0494 13.0773 12.6028 11.8557 9.67018 10.2788 13.288 12.6284 12.5724 9.86152 12.4954 11.459 14. 1a02 15.2701 11.4803 11.3735 11.6037 5.37024 8.64046 13.4355 4.59805 10.0228 7.18924 9.60668 10.6467 12. 2hft 10.3845 9.70656 10.747 8.58431 7.3891 7.9442 9.26372 6.47908 10.5781 9.88454 9.44281 10.3514 9. 1jz7 18.1449 19.1362 18.2366 15.2614 17.722 16.2049 14.9927 19.1016 20.8079 15.3223 17.8143 17.7853 18. 1f13 20.3007 20.4966 21.1694 18.7476 18.8097 19.6383 16.2352 19.7458 19.32 18.5357 20.4914 21.2416 19. 1nci 16.4999 15.6595 15.4802 15.4088 13.9275 15.679 16.3276 14.4681 16.3058 14.1808 15.3936 17.4342 17. 2mcm 17.0034 16.3843 14.9869 14.7327 13.8312 15.1697 13.7258 18.7866 16.1944 16.0209 15.8428 15.4749 16. 1cbj 16.1271 16.3075 16.1091 13.6586 14.2973 14.7286 13.9678 19.9394 17.3345 15.7193 18.659 16.5035 15. 1kyf 18.9202 19.5526 16.122 15.4662 19.7726 20.0146 16.8829 20.573 19.59 20.9141 22.416 19.6052 19. 1qpx 16.6029 14.7643 15.5179 13.6013 14.2411 14.386 13.7892 15.4362 15.1855 14.6602 16.9626 16.0515 15. 1dqi 15.9981 15.0577 15.2021 14.8311 13.6309 15.0576 13.4465 16.9392 15.1578 14.2908 14.3098 14.1524 16. 1f00 12.173 8.98808 11.1905 11.0342 0 6.25819 12.3312 0 0 0 10.0145 10.1046 12. Делая вывод, можно сказать, что представленное приближение дает хорошую основу для дальнейшего развития. Мы не анализировали схему сворачивания для представленных белков, полностью полагаясь на классификацию авторов SCOP; возможно, с точки зрения схемы сворачивания классификация должна отличаться. Некоторые белки являются лишь доменами в более сложных структурах, и те гидрофобные остатки, которые с нашей точки зрения кажутся доступными воде, в полной структуре спрятаны. Главная стратегия для развития, возможно, должна состоять в уточнении функции энергии и определении пути сворачивания, то есть выделения взаимодействий, которые появляются самыми первыми в окончательной структуре. После этого можно обобщить понятие шаблона сворачивания и приступить к настоящей работе по предсказанию сворачивания.

Литература Berger, B., and Leighton T. 1998. Protein folding in the hydrophobichydrophilic (HP) model is NP-complete. Journal of Computational Biology, 5(1):27-40.

Finkelstein, A. V., Badretdinov, A. Ya. (1997) Physical Reason for Fast Folding of the Stable Spatial Structure of Proteins: A Solution of the Levinthal Paradox Mol. Biol. (Engl. Transl.) 31, 391-398.

W.Kabsch and C.Sander, 1983 Dictionary of protein secondary structure:

Pattern recognition of hydrogen-bonded and geometrical features Biopolymers (1983) 2577-2637.

Lindahl E., Hess B., van der Spoel D. 2001. GROMACS 3.0: A package for molecular simulation and trajectory analysis. J. Mol. Mod. 7, 306-317.

Murzin A.G., Brenner S.E., Hubbard T., Chothia C. 1995. SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol. 247, 536-540.

Pettersen, E.F., Goddard, T.D., Huang, C.C., Couch, G.S., Greenblatt, D.M., Meng, E.C., and Ferrin, T.E. 2004 UCSF Chimera - A Visualization System for



Похожие работы:

«Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт И.А. Киселева Моделирование рисковых ситуаций Учебно-практическое пособие Москва 2007 1 519.86 УДК 65.050 ББК 44 К Киселева И.А. МОДЕЛИРОВАНИЕ РИСКОВЫХ СИТУАЦИЙ: Учебно-практическое пособие / Евразийский открытый институт. – М.: МЭСИ, 2007. – 102 с. Данное пособие предназначено для студентов экономических вузов. Большое внимание в нем уделено...»

«Министерство по образованию и науке Российской Федерации Владивостокский государственный университет экономики и сервиса _ А.А. СТЕПАНОВА Т.Ю. ПЛЕШКОВА Е.Г. ГУСЕВ МАТЕМАТИЧЕСКАЯ ЛОГИКА И ТЕОРИЯ АЛГОРИТМОВ Практикум Владивосток Издательство ВГУЭС 2010 ББК 22.12 С 79 Рецензенты: Г.К. Пак, канд. физ.-мат наук, проф. каф. алгебры и логики (ДВГУ); А.А. Ушаков, канд. физ.-мат. наук, доцент каф. математического моделирования и информатики (ДВГТУ) Степанова, А.А., Плешкова, Т.Ю., Гусев, Е.Г. С 79...»

«МЕТОД ПРЕДСКАЗАНИЯ В ЗЫКЕ ПЕРВОГО ПОРЯДКА Демин1 А.В., Витяев2 Е.Е. 1 Институт систем информатики имени А. П. Ершова СО РАН г. Новосибирск 2 Институт математики СО РАН г. Новосибирск, e-mail: vityaev@math.nsc.ru Аннотация В работе продолжается рассмотрение метода и программной системы Discovery обнаружений знаний в данных, реализующие разработанный ранее реляционный подход к обнаружению знаний. Рассматривается метод предсказания, использующий обнаруженные системой Discovery закономерности в...»

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования САМАРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРИКАЗ 19 октября 2009 г. городской округ Самара № 568-01-6 Об обеспечении защиты персональных данных В целях обеспечения защиты персональных данных и выполнения требований Федерального закона О персональных данных ПРИКАЗЫВАЮ 1. Утвердить Положение об организации работы с персональными данными работников и обучающихся в Самарском...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Филиал федерального государственного бюджетного образовательного учреждения высшего профессионального образования Кемеровский государственный университет в г. Анжеро-Судженске 1 марта 2013 г. РАБОЧАЯ ПРОГРАММА по дисциплине Отечественная история (ГСЭ.Ф.3) для специальности 080116.65 Математические методы в экономике факультет информатики, экономики и математики курс: 1 экзамен: 1 семестр семестр: 1 лекции: 36 часов практические занятия: 18...»

«Annotation Русская рулетка и лидеры бизнеса, классическая история и финансовые спекуляции, поэзия и математика, Шерлок Холмс и научные войны - все есть в этом очаровательном проникновении в к), как мы соприкасаемся и взаимодействуем с госпожой Удачей. 1.сли ваш сосед достигает успеха на фондовой бирже, это потому, что он гений или везунчик? Когда мы ошибочно принимаем удачу (а мастерство, мы превращаемся в одураченных случайностью, предостерегает математик и менеджер по страхованию рисков...»

«Министерство образования и науки Республики Казахстан Институт математики Институт проблем информатики и управления И.Т. ПАК ИЗ ИСТОРИИ РАЗВИТИЯ ИНФОРМАТИКИ В КАЗАХСТАНЕ Алматы 2012 УДК 004:510 ББК 32.973:22.1 П 13 Рекомендована к печати решением ученых советов Института математики Института проблем информатики и управления МОН РК Рецензенты доктор физико-математических наук М.Н. Калимолдаев доктор технических наук Р.Г. Бияшев Редактор В.В. Литвиненко Пак И.Т. П 13 Из истории развития...»

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Пермский государственный технический университет В.С. Кирчанов, А.И. Цаплин КОНЦЕПЦИИ СОВРЕМЕННОГО ЕСТЕСТВОЗНАНИЯ Под общей редакцией доктора технических наук, профессора А.И. Цаплина Утверждено Редакционно-издательским советом университета в качестве учебного пособия для студентов очного и заочного отделений всех специальностей Издательство Пермского государственного...»

«Закрытое акционерное общество НАУЧНО-ПРОИЗВОДСТВЕННЫЙ ЦЕНТР 109377, г. Москва, 1-ая Новокузьминская ул., д. 8/2, тел./факс 101-33-74 (многоканальный) Интернет: http://www.nelk.ru E-mail: nelk@aha.ru КОМПЛЕКСЫ ВИБРОАКУСТИЧЕСКОЙ ЗАЩИТЫ серии БАРОН Информационные материалы Москва, 2003 г. Научно-производственный центр НЕЛК, ведущий российский производитель технических систем защиты информации, предлагает Вашему вниманию систему виброакустической защиты объектов информатизации первой категории...»

«КНИГИ – 2013 Предлагаем вашему вниманию презентацию – обзор новых книг. Презентация содержит информацию об всех изданиях, поступивших в библиотеку в дар и по заявкам кафедр в 2013 году. Материал расположен в систематическом порядке. Данные о книгах содержат: уменьшенную фотографию издания, полное библиографическое описание и аннотацию. Сведения о количестве и месте хранения издания вы можете получить, обратившись к электронному каталогу библиотеки. Шимукович, Петр Николаевич. ТРИЗ-противоречия...»

«Harold Abelson Gerald Jay Sussman and Julie Sussman with Structure and Interpretation of Computer Programs The MIT Press Cambridge, Massatchusetts London, England The McGraw-Hill Companies, Inc. New York St.Louis San Francisco Montreal Toronto Харольд Абельсон Джеральд Джей Сассман Джули Сассман при участии Структура и интерпретация компьютерных программ Добросвет, 2006 3 Эта книга посвящается, с уважением и любовью, духу, который живет внутри компьютера. “Мне кажется, чрезвычайно важно, чтобы...»

«Осин А.В. Предпосылки концепции образовательных электронных изданий. Эволюция модели образования В настоящее время информатизация сферы образования вступает на качественно новый уровень: решается задача массового использования компьютерных технологий в общем и профессиональном образовании. Рассматривается проблема создания единой для всех образовательных учреждений информационной среды. По существу это означает, что время пилотных проектов, разных подходов и диаметральных мнений, исходящих из...»

«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА ХИМИЧЕСКИЙ ФАКУЛЬТЕТ КАФЕДРА ОРГАНИЧЕСКОЙ ХИМИИ И.Э.НИФАНТЬЕВ, П.В.ИВЧЕНКО ПРАКТИКУМ ПО ОРГАНИЧЕСКОЙ ХИМИИ Методическая разработка для студентов факультета биоинженерии и биоинформатики Москва 2006 г. Введение Настоящее пособи предназначено для изучающих органическую химию студентов второго курса факультета биоинженерии и биоинформатики МГУ им. М.В.Ломоносова. Оно состоит из двух частей. Первая часть знакомит студентов с основными...»

«СЕТЬ АСПИРАНТУР “БИОТЕХНОЛОГИИ В НЕЙРОНАУКАХ” (БИОН) НАЦИОНАЛЬНАЯ СЕТЬ АСПИРАНТУР ПО БИОТЕХНОЛОГИЯМ В НЕЙРОНАУКАХ (БИОН) Национальная Сеть Аспирантур по Био- ной системы, заменяя работу не только технологиям в Нейронауках (БиоН) – это моторных, но и сенсорных систем, через программа последипломного обучения в создание слуховых и зрительных протезов. области нейробиологии, объединяющая ведущие научно-образовательные центры Мозг–компьютер-интерфейсы (МКИ) поРоссийской Федерации с целью создания...»

«Материалы сайта www.mednet.ru ФГУ ЦЕНТРАЛЬНЫЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ОРГАНИЗАЦИИ И ИНФОРМАТИЗАЦИИ ЗДРАВООХРАНЕНИЯ ФЕДЕРАЛЬНОГО АГЕНТСТВА ПО ЗДРАВООХРАНЕНИЮ И СОЦИАЛЬНОМУ РАЗВИТИЮ РУКОВОДСТВО ПО СТАТИСТИЧЕСКОМУ КОДИРОВАНИЮ ЗАБОЛЕВАЕМОСТИ ПО ДАННЫМ ОБРАЩАЕМОСТИ г. Москва, 2008г. УДК ББК Основное учреждение разработчик: ФГУ Центральный научноисследовательский институт организации и информатизации здравоохранения Федерального агентства по здравоохранению и социальному развитию...»

«Федеральное агентство по образованию АМУРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ГОУВПО АмГУ УТВЕРЖДАЮ Зав. кафедрой МАиМ Т. В. Труфанова _ 2007 г. ЧИСЛЕННЫЕ МЕТОДЫ РЕШЕНИЯ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС ПО ДИСЦИПЛИНЕ для специальности 010501 – Прикладная математика Составитель: Н.Н. Кушнирук Благовещенск 2007 г. Печатается по решению редакционно-издательского совета факультета математики и информатики Амурского государственного университета Кушнирук Н.Н....»

«РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ НАУЧНОЙ ИНФОРМАЦИИ ПО ОБЩЕСТВЕННЫМ НАУКАМ РОССИЕВЕДЕНИЕ: ОТЕЧЕСТВЕННЫЕ ИССЛЕДОВАТЕЛИ СПРАВОЧНИК МОСКВА 2014 ББК 6/8 Р 76 Центр россиеведения, Центр информатизации Ответственный редактор: д-р полит. наук И.И. Глебова Составители: канд. экон. наук М.С. Пальников, канд. ист. наук В.И. Плющев, канд. филос. наук О.В. Хмелевская Редакторы библиографических описаний: К.Р. Долгова, Г.Н. Папылева Россиеведение: Отечественные исследователи: СпраР 76 вочник / РАН. ИНИОН....»

«Исполнительный совет 177 EX/66 Сто семьдесят седьмая сессия Париж, 5 октября 2007 г. Оригинал: английский Пункт 66 предварительной повестки дня Предложение о создании Международного центра по гидроинформатике в интересах комплексного управления водными ресурсами при организации Итаипу бинасиональ (Парагвай) в качестве центра категории 2 под эгидой ЮНЕСКО РЕЗЮМЕ В ответ на первоначальное предложение правительств Бразилии и Парагвая о создании на их территориях Международного центра по...»

«Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт Н.М. Чепурнова Муниципальное право Российской Федерации Учебно-практическое пособие Москва 2007 1 Муниципальное право Российской Федерации УДК 342.9 ББК 67.401 Ч 446 Автор Чепурнова Наталья Михайловна, доктор юридических наук, профессор Чепурнова Н.М. Ч 446 МУНИЦИПАЛЬНОЕ ПРАВО РОССИЙСКОЙ ФЕДЕРАЦИИ: Учебнопрактическое пособие/Евразийский...»

«Утверждено на заседании Ученого совета факультета математики и информатики (протокол №6 от 29.02.2012) КОНЦЕПЦИЯ РАЗВИТИЯ ФАКУЛЬТЕТА МАТЕМАТИКИ И ИНФОРМАТИКИ ТАВРИЧЕСКОГО НАЦИОНАЛЬНОГО УНИВЕРСИТЕТА ИМЕНИ В.И. ВЕРНАДСКОГО НА 2011 – 2018 гг. Содержание 1. История факультета математики информатики 2. Основные результаты деятельности и развития факультета математики информатики до 2011 г. 3. Общие положения Концепции развития факультета математики информатики Таврического национального университета...»






 
© 2014 www.kniga.seluk.ru - «Бесплатная электронная библиотека - Книги, пособия, учебники, издания, публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.