Авторы:
Валентин Богданов, генеральный директор
Николай Домуховский, заместитель генерального директора по научно-технической работе
Диана Лейчук, руководитель направления аудитов
Алексей Синадский, младший инженер лаборатории DATAPK
Денис Комаров, ведущий аналитик лаборатории DATAPK
Новые вызовы информационной безопасности: глобальная автоматизация и кадровый голод
Количество инцидентов ИБ, происходящих во всем мире, сегодня так велико, что собственникам и высшему руководству организации уже не нужно доказывать необходимость реализации мер по обеспечению ИБ. Развитие требований по обеспечению ИБ в различных сферах, а также рост уровня зрелости процессов обеспечения ИБ организации, сместил основной вектор приложения усилий с внедрения средств предотвращения инцидентов ИБ в сторону средств и процессов выявления инцидентов ИБ и дальнейшего управления ими. При этом число объектов защиты растет значительно быстрее, чем способность систем обеспечения ИБ масштабироваться: цифровизация экономики, индустрия 4.0, «умное все» – это глобальные тренды, приводящие к постоянному внедрению все новых и новых систем автоматизации.
При перечисленных условиях основным дефицитным ресурсом системы обеспечения ИБ становится человек: нужно больше специалистов по ИБ, чтобы компенсировать количественное увеличение объектов защиты, но также эти специалисты должны обладать большей квалификацией, чтобы эффективно справляться с задачами выявления и последующей обработки инцидентов ИБ. По оценке1 на мировом рынке труда сегодня есть спрос на дополнительные 4.5 млн. специалистов по ИБ (при том, что в настоящее время в этой сфере работает лишь чуть более 2 млн. человек).
Дополнительной особенностью, проявляющейся в проблеме персонала, является то, что рост количества требований, угроз и источников информации о событиях ИБ приводит к неэффективному использованию высококвалифицированного персонала, смещая фокус его усилий на рутинные операции, вместо важных системных задач по управлению ИБ организации в целом.
Для повышения эффективности работы квалифицированного персонала и снижения доли рутинных задач необходимо внедрение средств обнаружения инцидентов ИБ нового поколения, способных не только безошибочно выявить инцидент ИБ, но и предоставить максимум информации для последующей его обработки. По мере своего развития такие системы должны реализовать концепцию автономных вычислений2 и функционировать без отвлечения специалиста по ИБ от системных задач (по аналогии с автономной нервной системой человека).
Подобные решения, по нашему мнению, должны стать эффективным связующим звеном инфраструктуры обеспечения ИБ организации и центров управления безопасностью, обеспечивая оперативность принятия решений на базе анализа разнородных массивов информации в динамично изменяющемся ландшафте угроз ИБ, при этом минимально влияя на существующие системы автоматизации за счет использования неинвазивных методов выявления инцидентов ИБ.
Интеллектуальные системы выявления инцидентов ИБ
Под инцидентом ИБ понимают наблюдаемое состояние информационной системы, которое со значительной степенью приводит к нарушению функционирования процесса или создает угрозу нарушения состояния ИБ3.
Одной из проблем автоматизации выявления инцидентов ИБ является то, что невозможно разработать универсальный способ описания состояния информационной системы, а также критерия определения является ли наблюдаемое состояние нарушением ИБ или нет. Данная задача эквивалентна определению соответствия системы политике безопасности в заданный момент времени.
Поэтому при разработке автоматизированных методов выявления инцидентов ИБ (не зависящих от конкретной защищаемой системы) используется подход с выявлением аномалий – т.е. состояний информационной системы, которые явно отличаются от наблюдаемых ранее и находящихся вне соответствия политике безопасности. Указанный подход исходит из предположения, что большую часть времени система находится в безопасном состоянии, т.е. соответствует политике безопасности, тогда можно говорить, что выявление аномалии равноценно выявлению инцидента ИБ. Естественно, что такой подход не защищен от ошибок первого (т.е. отсутствие аномалии, когда имел место инцидент ИБ в защищаемой системе) и второго (т.е. наличие аномалии, когда в защищаемой системе инцидент ИБ не наблюдался). Вероятность обоих родов ошибок зависит от конкретных алгоритмов и методов определения аномалий в работе защищаемой системы.
- Подходы к выявлению аномалий в функционировании защищаемой системы
- Определение входных данных для алгоритма (в большинстве случаев это сетевой трафик или некоторая метаинформация о нем).
- Обработка входных данных (это может быть глубокая инспекция пакетов или вычисление каких-то количественных или качественных характеристик трафика).
- Применение метода обнаружения аномалий (полностью автономного или, опирающегося на фиксированный набор правил или оценку внешним экспертом).
- Выявление аномалии по количественным или качественным характеристикам. Оценка аномалии.
- Проект CyberThymus – система обнаружения аномалий нового поколения
- Анализ сетевого трафика методом глубокой инспекции, но при этом структура протоколов, используемых в сети защищаемой системы, определяется автоматически в процессе обучения.
- Формирование многоагентной модели защищаемой системы, которая прогнозирует состояние защищаемой системы и позволяет анализировать отклонение с реально наблюдаемым состоянием.
- Аномалия трафика: выявление нового адреса, нового значения семантического пакета или нового протокола. При этом, в зависимости от стабильности параметра трафика, для которого выявлено отклонение, можно ранжировать степень аномалии: например, если за все время наблюдений новые адреса в сети не появлялись, то это серьезное отклонение от эталона.
- Аномалия поведения агента: выявлено отклонение выходного сигнала агента от реального выходного сигнала узла. При этом агент соответствует интерфейсу узла, что в реальной системе позволяет указать конечную точку с точностью до исполняемого процесса на сетевом узле – а значит, можно легко выявить причину отклонения при помощи дополнительных средств защиты или путем выполнения предопределенных действий.
Выявление аномалий в защищаемой системе можно описать следующим обобщенным алгоритмом4:
Основные отличия в решениях, выявляющих аномалии в информационных системах, заключаются в реализации шагов 2 – «обработка входных данных» и 3 – «применение метода обнаружения аномалий».
Обработка входных данных (будем рассматривать обработку «сырого» сетевого трафика) может быть реализована с различной степенью детализации: от вычисления метаинформации о трафике (длина пакетов, частота отправляемых/получаемых пакетов, количество пакетов по типам и пр.) без анализа даже заголовков пакетов, до глубокой инспекции пакетов, включающей анализ содержимого пакета всех уровней модели OSI.
Использование метаинформации более универсально, так как не требует знания о структуре передаваемого трафика, но корреляция между метаинформацией о сетевом трафике и состоянием ИБ защищаемой системы может отсутствовать. Как следствие, для аномалий, выявляемых на основе метаинформации о трафике, характерно большое количество ошибок первого и второго рода.
Глубокая инспекция пакетов позволяет более точно выявлять аномалии, но применение этого метода сопряжено с рядом трудностей, одна из которых – необходимость иметь описание синтаксиса анализируемых протоколов.
Метод обнаружения аномалий также делится на два основных типа: это классификация (с применением различных алгоритмов машинного обучения и математической статистики) и моделирование.
Классификация, в общем случае, призвана определить для наблюдаемого состояния защищаемой системы является ли оно нормальным или аномалией (на основе данных, полученных на предыдущем шаге). Классификация может анализировать как мгновенное состояние системы, так и использовать сведения о предыдущих наблюдаемых состояниях системы (например, методом рекуррентной нейронной сети).
Моделирование пытается построить упрощенную модель реальной системы, которая будет прогнозировать наблюдаемое состояние защищаемой системы и, если прогнозное и наблюдаемое состояние расходятся на некоторую пороговую величину, система фиксирует обнаружение аномалии. Подход с моделированием в общем случае сложнее классификации, но он позволяет получить одно важное свойство алгоритма: возможность объяснения происхождения аномалии и ее локализацию (точность которой определяется точностью модели).
Сведения об аномалии, полученные в терминах модели, дают больше информации для последующей оценки аномалии, чем численная или качественная характеристика отклонения от нормального состояния, полученная методом классификации.
Таким образом, создание системы обнаружения аномалий – это поиск эффективного компромисса между точностью и универсальностью алгоритма. Однако, развитие технологий машинного обучения и искусственного интеллекта последних лет позволяет создавать системы обнаружения аномалий нового поколения: которые будут способны использовать максимально точные методы обнаружения аномалий без ущерба их универсальности. Такие системы способны автоматически изучить структуру сетевых протоколов защищаемой системы и сформировать правила глубокой инспекции пакетов, а также сформировать модель защищаемой системы и ее политики безопасности для наиболее точного определение аномального состояния. Новая разработка компании Сайберлимфа – CyberThymus – пример такой системы обнаружения аномалий.
Общие сведения
Проект CyberThymus – перспективная разработка компании Сайберлимфа, в которой планируется реализовать современные методы обучения без учителя, позволяющие изучить защищаемую систему в полностью автоматическом режиме, для последующего эффективного выявления аномалий в ее работе.
Для поиска аномалий в CyberThymus применяется метод многоагентного моделирования, что обеспечивает более высокую точность определения аномалий, а также позволяет анализировать причины, по которым алгоритм отнес зафиксированное состояние к аномальному.
Алгоритм работы CyberThymus состоит из двух основных процессов:
Общий принцип работы CyberThymus представлен на рисунке 1.
Рис. 1. Общая схема ПО CyberThymus
Анализ неизвестного трафика
Задачей анализа сетевого трафика с нулевым знанием плотно занимаются последние 10 лет. Однако большинство работ сводят к задаче классификации: разделения трафика на вредоносный и легитимный или определения типа источника трафика (из фиксированного списка).
Для решения задачи классификации, как правило, используются алгоритмы основанные на нейронных сетях5,6,7 или применяющие статистические подходы8. Методы, основанные на нейронных сетях, позволяют решать только ту задачу, под которую создан конкретный метод. Кроме того, обучение нейронной сети требует на входе «чистые» данные, что можно обеспечить только в лабораторных условиях. Статистические методы (например, метод максимального правдоподобия) сопряжены с крайне высокой вычислительной сложностью.
Элегантное решение задачи анализа неизвестного трафика предложено в9: границы полей протокола определяются на основе анализа информационной энтропии байт пакета. По результатам экспериментов авторов9 информационная энтропия поля пакета растет для каждого последующего байта поля, а на границе наблюдается падение значения энтропии. Описанное наблюдение легло в основу модуля анализа неизвестного трафика CyberThymus.
Однако применение метода информационной энтропии сопряжено с рядом проблем на реальном трафике: если наблюдаемый трафик является смесью протоколов, то энтропия начнет стремиться к максимальному значению и метод перестанет давать адекватный результат, кроме того, наблюдение только за энтропией приводит к большому числу ошибок в определении границ полей.
Авторским коллективом Сайберлимфа метод был доработан: помимо энтропии анализируется также взаимная информация байт пакета, а сам алгоритм применяется итеративно с построением дерева распознанных протоколов (при этом ветвление дерева возможно на каждом выделенном поле протокола) – см. рисунок 2.
Рис. 2. Пример работы итеративного энтропийного алгоритма
Кроме разбиения пакета на поля протокола производится также классификация полей (выделение полей с адресной и семантической частью пакета) с помощью статистического алгоритма.
Алгоритм опирается на ряд эвристик, например, что адресная часть всегда предшествует данным (семантической части). Отличие адресной от семантической частей пакета основано на частотном анализе значений соответствующих полей (количество различных адресов значительно ниже количества различных семантических блоков пакетов).
Алгоритм воссоздает всю иерархию адресов сетевого пакета (например, соответствующую различным уровням модели OSI), на базе чего формируется сетевая топология защищаемой системы и карта коммуникации узлов системы.
Многоагентная модель защищаемой системы
Моделирование реальных объектов может строится на базе некоторого единого математического объекта (например, представление всей системы как одного конечного автомата), но такой подход имеет сильные ограничения в части масштабирования – сложность объекта растет экспоненциально с ростом количества узлов системы.
Поэтому более подходящим методом для моделирования сложных систем является многоагентное моделирование: когда вся система представляется совокупностью более простых объектов (например, сетевых узлов), которые могут взаимодействовать между собой по определенным правилам, создавая тем самым общую модель системы.
Для представления агента могут использоваться различные математические объекты: нейронные сети, конечные автоматы, скрытые Марковские модели и пр. Общим для всех подходов являются исходные данные: детектируемые на основе анализа трафика входные и выходные сигналы. Агенты могут быть представлены различными математическими объектами (даже в рамках одной модели), от чего будет зависеть предсказательная способность агента и алгоритм, с помощью которого будет происходить обучение агента (таблица 1).
Таблица 1. Сравнительная характеристика методов представления агентов (по материалам10,11)
Математический объект |
Метод обучения агента |
Ограничения |
Нейронная сеть | Анализ прецедентов (истории работы компонента системы) | Непрогнозируемое время обучения. Заданная точность может быть получена не всегда |
Скрытая Марковская модель | EM-алгоритмы (алгоритм Баума-Велша) | Высокая вычислительная сложность. Может сходиться к локальному оптимуму, а не глобальному |
Автомат Мили | Генетические алгоритмы | Представляет не все виды реальных объектов (только работающие по строгим алгоритмам) |
Вероятностный автомат | Обучение с подкреплением | Может сходиться к локальному оптимуму, а не глобальному |
На данный момент нельзя сделать однозначный вывод о том, какое из представлений агента дает заведомо лучший результат с точки зрения соотношения затраченных ресурсов к предсказательной способности. Авторский коллектив Сайберлимфа использует сочетания представленных методов для определения наиболее оптимального варианта многоагентного моделирования реальных компьютерных систем.
Выявление инцидентов ИБ с помощью CyberThymus
Описанный подход к реализации CyberThymus обладает одним явным преимуществом над большинством решений обнаружения аномалий: аномалия обнаруживается на модели системы, а не на основе численных отклонений значений характеристического вектора от некоторого эталона.
Модель позволяет описать аномалию, как минимум, в следующем объеме:
Интеграция CyberThymus с системами мониторинга ИБ позволит сопоставить информацию об аномалии с зарегистрированными событиями ИБ за соответствующий временной период, например, зафиксировано ли событие параллельно системой обнаружения вторжений? Если новый трафик не просто ранее не наблюдался, но и имеет явно вредоносные признаки, то обнаружен инцидент ИБ, который может быть легко локализован (опять-таки с точностью до исполняемого процесса на сетевом узле, так как адресная информация строится для всей иерархии модели OSI). Кроме того, с помощью данных об информационных активах системы мониторинга ИБ можно дополнительно получить обогащенную информацию о выявленном узле: сетевое имя, физическое расположение, наименование процесса и пр.
Совмещение информации от систем мониторинга ИБ с выявленными аномалиями средствами CyberThymus повышает эффективность процесса выявления инцидентов ИБ, а также помогает максимально локализовать активы, затронутые инцидентом ИБ. Это позволяет, в том числе, на последующих этапах выполнять автоматические действия по устранению последствий инцидента ИБ и контролировать соответствие системы политике безопасности.
Литература
- Strategies for Building and Growing Strong Cybersecurity Teams, (ISC)2 cybersecurity workforce study, 2019
- Sterritt, R. Autonomic computing. Innovations Syst Softw Eng 1, 79–88 (2005). DOI: 10.1007/s11334-005-0001-5.
- ГОСТ Р ИСО/МЭК 27001-2006 Информационная технология (ИТ). Методы и средства обеспечения безопасности. Системы менеджмента информационной безопасности. Требования.
- Mohiuddin Ahmed, Abdun Naser Mahmood, Jiankun Hu “A survey of network anomaly detection techniques”, Journal of Network and Computer Applications, Volume 60, January 2016, Pages 19-31, DOI:10.1016/j.jnca.2015.11.016.
- Dmitri Bekerman, Bracha Shapira, Lior Rokach, Ariel Bar “Unknown Malware Detection Using Network Traffic Classification”, 2015 IEEE Conference on Communications and Network Security (CNS), Florence, Italy, 28-30 Sept. 2015, pp. 134-142, DOI: 10.1109/CNS.2015.7346821.
- Rui Li, Xi Xiao, Shiguang Ni, Haitao Zheng, Shutao Xia “Byte Segment Neural Network for Network Traffic Classification”, 2018 IEEE/ACM 26th International Symposium on Quality of Service (IWQoS), Banff, AB, Canada, 4-6 June 2018, DOI: 10.1109/IWQoS.2018.8624128.
- Antônio J.Pinheiro, Jeandrode M. Bezerra, Caio A.P.Burgardt, Divanilson R.Campelo “Identifying IoT devices and events based on packet length from encrypted traffic”, Computer Communications, Volume 144, 15 August 2019, Pages 8-17, DOI: 10.1016/j.comcom.2019.05.012
- А.И. Аветисян, А.И. Гетьман. Восстановление структуры бинарных данных по трассам программ. . Труды Института системного программирования РАН, том 22, 2012, стр. 95-118. DOI: 10.15514/ISPRAS-2012-22-7.
- Fanghui Sun Shen Wang, Chunrui Zhang, Hongli Zhang “Unsupervised field segmentation of unknown protocol messages”, Computer Communications, Volume 146, 15 October 2019, Pages 121-130, DOI: 10.1016/j.comcom.2019.06.013.
- Л. Фогель, А. Оуэнс, М. Уолш «Искусственный интеллект и эволюционное моделирование», М.: Издательство «МИР», 1969.
- Самообучающиеся автоматические системы. Сборник. – М.: Издательство «Наука», 1966.
______________________
Источник: Информационно-методический журнал «Защита информации. Инсайд» (№ 3 май–июнь 2020 г.)