На главную ДЛЯ НОВИЧКОВДЛЯ НОВИЧКОВ СОБЫТИЯ КАРТА САЙТА ПРЕСС-СЛУЖБА
ДЛЯ СПЕЦИАЛИСТОВДЛЯ СПЕЦИАЛИСТОВ ДАТЫ ПОЛЕЗНЫЕ ССЫЛКИ О ПРОЕКТЕ
ДЛЯ ИНВЕСТОРОВДЛЯ ИНВЕСТОРОВ КОМПАНИИ ГОСТЕВАЯ НАГРАДЫ
SWITCH TO ENGLISH СТАТЬИСТАТЬИ БАЗА ДАННЫХ ФОРУМ КОНТАКТЫ
поиск по сайту  
подписка  



 

ПРОГРАММА "ГЕНОМ ЧЕЛОВЕКА". ОБРАБОТКА ДАННЫХ.

В любой соматической (не половой) клетке человека 23 пары хромосом (22 пары соматические и одна пара - половые: XX хромосомы у женщин и XY хромосомы у мужчин). Каждая хромосома представляет из себя молекулу ДНК. Все молекулы ДНК одной клетки человека состоят в общей сложности из 3,2 млрд. пар нуклеотидов (или по-другому, пар оснований).

Для определения нуклеотидной последовательности используются специальные приборы - секвенаторы, позволяющие проводить процесс "чтения" образцов ДНК в автоматическом или полуавтоматическом режиме. В данный момент существует два основных подхода к секвенированию геномов: первый заключается в том, что ДНК хромосомы разделяют на небольшие фрагменты, которые затем зачитываются. Это легко применимо для небольших геномов, но в случае генома человека это сложно ввиду большого количества таких маленьких кусочков. Поэтому используют второй подход. Молекулу хромосомной ДНК делят, наоборот, на достаточно большие куски (несколько десятков тысяч нуклеотидов), секвенируют и сравнивают их нуклеотидные последовательности в надежде найти общие концевые участки. Если это удается, куски объединяют и т. д. В дальнейшем, объединенные по принципу перекрывания прочитанные участки молекулы ДНК становятся все крупнее, постепенно приближаясь к целой хромосоме.

Сравнение полученных при секвенировании очередных фрагментов ДНК данных с уже известными нуклеотидными последовательностями производится с помощью стандартных алгоритмов поиска, таких как "Blast" (basic local alignment search tool - "базовый инструментарий поиска локальных блоков"), после чего они помещаются в базу данных. Как уже упоминалось выше, полный геном человека состоит из 3,2 млрд. пар оснований. Если при этом учитывать, что для точного определения структуры и места локализации на хромосоме небольшого фрагмента ДНК он должен быть прочитан несколько раз, то становиться ясно - обработка данных секвенирования геномов является весьма сложной и нетривиальной проблемой. Сюда входят задачи управления данными, хранения значительных объемов информации, адаптации общедоступного программного обеспечения или создание новых программных продуктов, предназначенных для обработки значительных массивов данных, интеграция гетерогенных приложений и т.д.

Обычной лаборатории, занимающейся секвенированием геномов, приходится ежедневно определять нуклеотидную последовательность нескольких сотен тысяч фрагментов ДНК: только это ежедневно дает в среднем несколько десятков Гбайт данных. Безусловно, значительной степени успех работы по составлению генома человека зависит от уровня развития информационной инфраструктуры, способной быстро и точно получать, анализировать и хранить огромные объемы данных. Так, только в распоряжении Центра биомедицинских исследований Уайтхеда Массачусетского технологического института - одной из множества научных организаций, принимающих активное участие в реализации международного проекта "Геном человека" (Human Genome Project) находится 123 секвенсора; 17 четырехпроцессорных SMP-серверов; дисковые массивы Compaq StorageWorks емкостью 5 Тбайт; базы данных Sybase; множество разработанных в самом институте программных приложений. Технической поддержкой исследований и обслуживанием оборудования занимаются девять системных администраторов. Полученные при секвенировании нуклеотидные последовательности хранятся в плоских файлах Unix-систем, в то время как данные, сгенерированные информационными системами, хранятся в реляционных базах данных Sybase. Один раз в сутки вновь собранные и обработанные результаты секвенирования автоматически пересылаются по Internet в GenBank - общедоступную базу данных, обслуживаемую Национальным центром биотехнологической информации США. Оттуда новые данные поступают в другие общедоступные базы данных в Европе и Японии.

Основным конкурентом финансируемому правительствами ряда стран проекту "Геном человека" (Human Genome Project) и является частная американская компания "Celera Genomics" - подразделение корпорации "Applera" (раньше - PE Biosystems), осуществляющая работы по определению структуры генома человека на коммерческой основе. В состав группы "Celera Genomics" (штаб-квартира расположенна в Роквилле, штат Мериленд, США), входит три бизнес-подразделения - On-line Information Business, Discovery Sciences и Discovery Services."Celera" разработала собственную инфраструктуру для генерации, интеграции и анализа биологической информации, ориентированную на электронную коммерцию. Подписчики "Celera", к примеру, обращаются к своим собственным базам данных, работающим на серверах "Celera", через Internet; база данных каждого подписчика обновляется еженедельно. Помимо доступа к оперативным данным, подписчики могут получить аннотации (подробную информацию о том, был ли тот или иной ген обнаружен раньше, запатентован и т. д.), сравнительную информацию о геномах (например, сравнение с геномами плодовой мушки и мыши), доступ к вычислительным ресурсам "Celera" и широкому диапазону программных инструментальных средств.

В распоряжении "Celera" находится 300 секвенаторов 3700 DNA, а также созданный в сотрудничестве с Compaq Computer собственный суперкомпьютерный центр (по мнению специалистов "Celera", второго по размеру в мире). Здесь уже установлено более 200 серверов Compaq AlphaServer ES40, оснащенных процессорами Alpha/500 МГц, 11 серверов GS140 и система хранения StorageWorks емкостью 50 Тбайт, три системы WildFire, одна из которых укомплектована оперативной памятью емкостью 128 Гбайт. Все это оборудование подключено к коммутируемой магистрали, с пропускной способностью 500 Гбайт/сек. Недавно, при посредничестве Министерство энергетики США было заключено соглашение об исследованиях и разработках между работающей в интересах этого ведомства лаборатории Sandia National Laboratories и "Celera Genomics". Технологии для проекта, направленного на разработку нового поколения программных решений и компьютерного оборудования, специально ориентированного на потребности биологии предоставит корпорация Compaq Computer. Альянс будет использовать процессоры Compaq Alpha, объединенные в массово-параллельные конфигурации.

Compaq и Sandia займутся совместной разработкой аппаратного и программного обеспечения систем, а также работать над увеличением вычислительной мощности, стремясь достичь уровня 100 триллионов операций в секунду (100 TeraOPS). Ожидается, что благодаря доступу к некоторым разработанным Sandia компьютерным технологиям участники соглашения смогут в конце концов добиться быстродействия до 1000 TeraOPS (cейчас Sandia Labs. эксплуатирует самый мощный существующий суперкомпьютер CplantTM на базе Linux, который включает свыше 1600 процессоров Alpha). Прототип системы на основе будущих поколений машин серии AlphaServer SC планируется создать к 2004 году.

Совместная работа "Celera" и "Sandia" будет направлена прежде всего на разработку мощных алгоритмов для биологических исследований, а также новых технологий визуализации для анализа огромных массивов экспериментальных данных. Все три группы будут участвовать в интеграции оборудования и программного обеспечения систем, а также в оптимизации производительности. Это позволит объединить возможности трех лидеров в области биоинформатики, высокопроизводительных вычислений и массово-параллельных систем. Необходимость такого глубокого сотрудничества определяются требованиями, предъявляемым программным обеспечением исследований в области функциональной геномики и протеомики к вычислительной мощности и управлению данными. Несомненно, что решаемые в рамках этих научных направлений задачи окажутся гораздо более сложными, чем выяснение нуклеотидной последовательности генома человека.

Обсудить на форуме>.

Использованные материалы:
  1. http://www.osp.ru/cw/2000/11/036_0.htm
    Луиза Фикель, "Биотехнология: создание книги жизни".
  2. http://www.spartacom.ru/text/qews300101.html
    Еженедельный выпуск новостей Московского представительства корпорации Compaq Computer - Compaq Weekly News.

Ссылки по теме:
  • http://www.eimb.relarn.ru/ - Институт Молекулярной Биологии им. Энгельгардта - ведущая организация Российской программы геномных исследований.
  • http://celera.com/ - сервер компании "Celera".
  • http://www.wi.mit.edu - Центр биомедицинских исследований Уайтхеда Массачусетского технологического института.
  • http:/www.ncbi.nlm.nih.gov - Национальный центр биотехнологической информации США (NCBI: обслуживает GenBank, MedLine, BLAST).
  • http://www.nhgri.nih.gov - Национальный институт генома человека.
  • http:/www.embl-heidelberg.de - Европейская Лаборатория Молекулярной Биологии (EMBL). Банк EMBL.
  • http:/www.sandia.gov - Sandia National Laboratories.


Rusbiotech™
Copyright © 2000-2003 Rusbiotech
designed by Интерруссофт © 2003