Предложен новый метод разбиения исходной выборки на обучающую и тестовую, сохраняющий в сгенерированной подвыборке наиболее важные топологические свойства исходной выборки и не требующий ее загрузки в память. Он обеспечивает последовательную обработку экземпляров, а также выполняет преобразование многомерных координат в одномерные и дискретизацию для улучшения обобщающих свойств. Метод позволяет значительно уменьшить размер выборки и снизить требования к ресурсам компьютера.
The new method of training and test sample forming from primary sample is proposed. It preserves in a generated sub-sample the most important topological properties of the original sample and did not even needs to load of the original sample into computer memory. It provides a sequential exemplar processing and performs transformation of the multi-dimensional coordinate set to the one-dimensional, which is also discretized to improve the data generalization properties. This allows to significantly reduce the sample size, and to significantly decrease the requirements to computer resources.