Publication of gene expression raw data in public repositories made it possible to reuse these data for cross-experiment integrative analysis and make new insights into biological phenomena. However, data uploaded by independent contributors are not standardized, sometimes incomplete and need preprocessing before any further analysis. Aim. To create a specialized database of gene expression profiles, particularly in preeclampsia-affected human placenta as a cause of high rate of morbidity and mortality all over the world with un-known etiology and pathogenesis. Methods. All experiment and sample metadata were automati-cally extracted from ArrayExpress database via Bioservices. NCBI database was used to supple-ment the missing data along with the corresponding scientific articles and authors personal data. The experimental sample attributes were standardized according to MeSH term dictionary and Experimental Factor Ontology. Results. A database of more than 1000 samples of normal and preeclampsia-affected human placenta was created and supplied with metadata containing infor-mation on biological specimen, diagnosis, gestational age, mode of delivery and other sample characteristics. Conclusion. The samples in our newly created database now contain metadata for them to be comparable. The biological samples may be arranged in different case-control groups of larger size than in individual datasets for statistically significant analysis.
Публікація «сирих» результатів у відкритих репозиторіях надає можливість поєднати дані декількох експе-риментів для інтегративного аналізу, який сприятиме підвищенню статистичної значущості висновків, а відтак і кращому розумінню біологічних явищ. Однак, оскільки дані у відкритих репозиторіях були завантажені незалеж-ними дослідниками за відсутності єдиних стандартів, то назви характеристик зразків (атрибути) виявилися не уні-фікованими, часто неповними та потребують додаткової обробки, перш ніж інтеграція стане можливою. Мета. Розробити спеціалізовану базу даних генної експресії в плаценті людини в умовах прееклампсії як причини високої захворюваності та смертності по всьому світу за невідомої етіології захворювання та його патогенезу. Методи. Метадані експериментів та біологічних зразків були автоматично завантажені з ArrayExpress за допомо-гою Bioservices. Відсутні дані були отримані з бази NCBI, а також із текстів відповідних статей та внаслідок спіл-кування з авторами статей. Метадані були стандартизовані за допомогою словника MeSH та Experimental Factor Ontology. Результати. База даних з більш як 1000 зразків плаценти в нормі та за умов прееклампсії була розроблена і доповнена метаданими, які включають характеристику біологічних зразків, клінічний діагноз, вік жінки, стать плоду, характеристику пологів та інші допоміжні ознаки зразків. Висновки. Біологічні зразки розробленої бази даних охарактеризовані максимально можливою кількістю метаданих, що дозволяє створювати різні групи порів-няння профілів генної експресії. Об’єднання профілів генної експресії (інтеграція) різних зразків на підставі ідентичності метаданих з наступним аналізом об’єднаних даних підвищить статистичну значущість висновків в порівнянні з аналізом результатів окремо взятих дослідів.
Публикация «сырых» результатов в публичных репозиториях открывает возможность объединения данных нескольких экспериментов для интегративного анализа, который способен улучшить понимание биологических явлений. Однако, поскольку данные в публичных репозиториях были загружены независимыми исследователями при отсутствии общих стандартов, многие характеристики образцов оказались не унифицированными, часто не-полными и требуют дополнительной обработки, прежде, чем интеграция данных станет возможной. Цель. Создать специализированную базу данных генной экспрессии в плаценте человека в условиях прееклампсии как причины высокой заболеваемости и смертности беременных во всем мире при неизвестной этиологии заболевания и его патогенеза. Методы. Метаданные экспериментов и биологических образцов были автоматически загружены из ArrayExpress с помощью Bioservices. Недостающие данные были получены из базы данных NCBI, а также – из текстов соответствующих статьей и в результате общения с авторами. Атрибуты образцов экспериментов были стандартизированы с помощью словаря медицинских терминов MeSH и Experimental Factor Ontology. Результаты. База данных из более, чем 1000 образцов плаценты человека в норме и при прееклампсии, была разработана и дополнена метаданными, включающими характеристику биологических образцов, клинический диагноз, возраст женщины, пол плода, особенности родоразрешения и другие вспомогательные характеристики. Выводы. Биологические образцы разработанной базы данных охарактеризованы максимально возможным количеством метаданных, что позволяет формировать разные группы сравнения профилей генной экспрессии. Объединение профилей генной экспрессии (интеграция) разных образцов на основе идентичных метаданных с последующим анализом объединенных данных повысит статистическую надежность выводов по сравнению с анализом данных отдельно взятых экспериментов.