Монастырев  Виталий Викторович   (Аспирант, Санкт-Петербургский политехнический университет Петра Великого)
                
            
            
                Молодяков  Сергей Александрович   (Д.т.н., профессор, Санкт-Петербургский политехнический университет Петра Великого)
                
            
            
    
        
            
            
                
                    
                        |   | 
                        
                         Предлагается методика построения архитектуры обработки данных на основе Spark SQL и Spark MLlib с возможностью интеграции различных языков программирования. Благодаря использованию такой архитектуры можно модульно выстраивать процесс обработки данных, где каждый шаг является отдельной и независимой частью, которую можно добавлять или убирать из процесса обработки. Представлен пример конвейерно-модульной обработки. С использованием Spark MLlib организован конвейер обработки. Spark SQL применен для организации запросов и для обработки данных. Построение собственных классов обработки рассмотрено на языке Scala при помощи базовых классов Transform и Estimator библиотеки Spark MLlib. Приведен пример конвейера обработки, который начинается с подготовки данных и заканчивается обучением модели машинного обучения. На языке Python представлен пример реализации кода модели, к которой происходит обращение напрямую из конвейера. Показана возможность реализации обработки данных на одном языке, а обучение моделей на другом. 
                        Ключевые слова:большие данные, машинное обучение, Spark, конвейер, Spark SQL, Spark MLlib. 
                         | 
                     
                
             
             | 
        
        
            |   | 
        
        
            | 
             Читать полный текст статьи …  
             | 
        
        
             
             
            
                
                    
                         Ссылка для цитирования: Монастырев  В. В., Молодяков  С. А. Методика модульно-конвейерной обработки данных на основе Spark SQL и Spark MLlib с интеграцией языков программирования // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2022. -№06/2. -С. 119-124 DOI 10.37882/2223-2966.2022.06-2.26 | 
                         | 
                     
                
             
             |