Aim. The article presents the researches on the optimization of the DNA microarray data processing, which is aimed at improving the quality of object clustering. Methods. Data preprocessing was performed with program R using Bioconductor package. Modelling the clustering process was made in the software environment KNIME using the program WEKA functions. Results. The data preprocessing is shown to be optimal while using such techniques as the background correction rma method, quantile normalization, mas PM correction and summarization by mas method. The simulation results have demonstrated a high effectiveness of the clustering algorithm Sota for this category of data. Conclusion. The results of the research have shown that improving the quality of biological object clustering is possible by means of hybridization and optimization of the methods and algorithms at different stages of data processing.
Мета. Проведення досліджень щодо оптимізації методів, що використовуються у процесі обробки профілів експресії генів, з метою підвищення якості кластеризації об'єктів. Методи. Передобробка даних була виконана у програмному середовищі R з використанням пакету «Біокондуктор». Моделювання процесу кластеризації було зроблено у програмному середовищі KNIME з використанням функцій програми WEKA. Результати. Показано, що оптимальним є процес передобробки даних з використанням методів: фонова корекція rma методом, квантільна нормалізація, mas РМ корекція і сумарізація mas методом. Результати моделювання показали високу ефективність використання для даного типу даних алгоритму кластеризації Sota. Висновки. Проведені дослідження показали, що підвищення якості розподілу об'єктів біологічної природи на кластери можливо за рахунок гібридизації та оптимізації використання методів і алгоритмів на різних етапах обробки даних.
Цель. Проведение исследований по оптимизации методов, используемых в процессе обработки профилей экспрессии генов, с целью повышения качества кластеризации объектов. Методы. Предобработка данных выполнялась в программной среде R с использованием пакета «Биокондуктор». Моделирование процесса кластеризации производилось в программной среде KNIME с использованием функций программы WEKA. Результаты. Показано, что оптимальным является процесс предобработки данных с использованием методов: фоновая коррекция rma методом, квантильная нормализация, mas РМ коррекция и сумаризация mas методом. Результаты моделирования показали высокую эффективность использования для данного типа данных алгоритма кластеризации Sota. Выводы. Проведенные исследования показали, что повышение качества разделения объектов биологической природы на кластеры возможно за счет гибридизации и оптимизации использования методов и алгоритмов на различных этапах обработки данных.