Новое программное обеспечение увеличивает скорость анализа больших данных в 100 раз»

Новая система, разработанная для вычислений тензорной алгебры, может обеспечить возрастание скорости в 100 раз по сравнению с программными пакетами, использовавшимися до этого. Учёные из Массачусетского технологического института (Massachusetts Institute of Technology) создали новую программу, которая автоматически генерирует код, оптимизированный для разреженных данных. Этот процесс ведёт к ускорению обработки больших массивов информации.

Для анализа больших данных необходим целый комплекс процессов. Представим, что коммерческий сетевой ресурс, например, Amazon, пожелает сопоставить каждого своего клиента с каждым представленным товаром, поставив «1», если товар был куплен, и «0» в противном случае. Результатом будет невероятно огромная таблица данных, в основном состоящая из нулей. Это то, что называется разреженными данными. Когда такие данные обрабатываются, алгоритм анализа вынужден постоянно складывать нули и умножать их. Это очевидная трата ресурсов: и времени, и мощности компьютера.

Последнее исследование MIT строится вокруг нового программного продукта, автоматически создающего код, оптимизированный под разреженные данные. Систему, которая это делает, назвали Taco по аббревиатуре для компилятора тензорной алгебры (tensor algebra compiler). Тензор — это многомерный аналог матрицы, а данные, которые необходимо обработать, обычно хранятся в матрицах. Эффективностью метод обязан математическим операциям, проводимым на тензорах, они работают быстрее, чем аналогичные операции с матрицами, если каждой последовательности тензорных операций выделено собственное «ядро» (шаблон расчёта).

Чтобы реализовать эту технологию, необходимо было признать важность анализа больших данных. При запуске Taco программист указывает размер тензора — полного или разреженного — и расположение файла с данными, которые необходимо обработать. В работе Taco использует эффективный механизм индексирования, чтобы хранить только ненулевые значения разреженных тензоров. Для сравнения, массив информации с Amazon с нулевыми значениями будет содержать примерно 107 экзабайт, но с системой сжатия Taco он займёт всего 13 гигабайт, которые можно обработать весьма быстро.

Эта разработка интересна многим бизнесам и университетам. Анализ больших данных позволяет исследователям и коммерческим специалистам быть информированными об интересующих их процессах лучше и быстрее принимать эффективные решения, отбрасывая ненужные или неиспользуемые данные. Применяя сложные технологии анализа, такие как анализ текста, машинное обучение, сбор данных, построение прогнозов, обработку статистики, будет возможно фокусироваться на новых, ранее незамеченных источниках данных, и грамотнее расходовать свои ресурсы.

Источник