Средства, которыми спамеры маскируют нежелательную почту, постоянно усложняются. Одним из наиболее трудных для спам-фильтров случаев является графический спам, который может еще и содержать шум, затрудняющий распознавание текста. Как производители спам-фильтров борются с этой и другими современными уловками спамеров?
|
Количество спама в почтовом трафике постоянно увеличивается. В целом, как сообщает лаборатория Касперского, во втором квартале 2010 г. доля спама в почтовом трафике составила в среднем 84,4%, ссылки на фишинговые сайты содержались в 0,02% всех писем, графические вложения находились в 10,3% спамовых письмах, в тройке лидеров стран – источников спама оказались США, Индия и Вьетнам.
Доля спама в почтовом трафике, 2-й квартал 2010 г. (Источник: Лаборатория Касперского)
Наибольший процент спама в почтовом трафике был зафиксирован в первой половине мая, что связано с уменьшением потока легитимной почты во время праздников и отпусков.
Методы борьбы со спамом
Борьба со спамом начинается на сервере, занимающемся пересылкой сообщений, что выгоднее с точки зрения экономии трафика, дает большую точность работы и эффективнее, чем настраивать спам-фильтр почтового клиента.
Наиболее распространенный и старый способ борьбы со спамом – использование DNSBL (DNS Black Lists). Принцип его действия прост и заключается в блокировке всей почты, приходящей с IP-адреса, занесенного в черный список. Другой устоявшийся и давно прижившийся метод борьбы со спамом – контентная фильтрация. Потенциально нежелательное письмо проверяется на наличие специфических слов, фрагментов текста, картинок и других черт, характерных для спама. Третий метод – грейлистинг – основан на временном отказе. После того как подозрительное письмо пришло, на него автоматически отправляется ответ с кодом ошибки, понятный для всех почтовых систем. Спустя некоторое время система повторно присылает письмо, чего не делают программы, рассылающие спам.
Описанные методы имеют как плюсы, так и существенные недостатки. Например, метод контентной фильтрации может распознать важную информационную рассылку как спам, в результате чего письма не дойдут до получателей. Метод DNSBL хоть и гарантирует 100% блокировку потока с указанных IP-адресов, но спамеру несложно сменить адрес и продолжить рассылку.
Особую сложность для распознавания представляет графический спам, доля которого в общем потоке нежелательных сообщений составляет около 10%. В этом случае текст пишется на изображениях. Для борьбы с графическим спамом было найдено решение - применение систем оптического распознавания символов (OCR). Но у такого подхода есть существенные недостатки. Во–первых, OCR – крайне ресурсоемкая система и требует производительных машин. Во–вторых, подобные системы не обеспечивают должной точности определения. И, в–третьих, в ответ на применение программ, распознающих изображение для фильтрации спама, начали появляться новые "мусорные" письма в виде изображений с большим количеством шума. Шум проявляется в виде символов разного размера, разбиений текста таблицами и линиями. Все это делает практически невозможной регистрацию спама методом OCR.
Заглушить "шум", разобрать текст
Однако и спам-фильтры не стоят на месте. Для фильтрации графического спама, содержащего шум, используется вероятностно-статистический метод. В этом случае решение о том, содержит ли изображение текст, принимается на основании характера расположения вероятных графических образов слов и строк, а также содержания в них выявленных образов букв и слов. Иначе говоря, программа анализирует последовательности пикселей в изображении, прогнозируя вероятность обнаружения букв или слов, и при определенных распознает изображение как спам. Условиями могут служит длина слов, число символов и другие. В отличие от систем оптического распознавания символов, вероятностный метод работает с различными вариантами наклоненных или искаженных букв и слов, что повышает точность детектирования. Кроме того, новый метод обрабатывает изображения быстрее.
В области борьбы с текстовым спамом также появляются новые методы и способы анализа и борьбы с нежелательной почтой.
Все методы контентной фильтрации можно разделить на 2 класса. В первый попадают методы, основанные на анализе содержимого – контента - классическим примером является поиск регулярных фраз и выражений. Во второй – методы, основанные на анализе контекста – метаданных, например, анализ вложений или других атрибутов файла (размера, типа и т. д.). Характеристика любого движка контентной фильтрации связана с качеством принимаемых решений. Возможны 2 типа ошибок: принято "хорошее" решение при "плохом" письме и, наоборот, "плохое" решение при "хорошем". Старые способы реализации методов контекстной фильтрации были медленными, требовали больших библиотек, часто давали сбои и не могли работать с новым, еще не распознанным вручную спамом. Методы же нового поколения используют определенные правила – эвристики. Достоинства такого подхода в повышении скорости обработки письма, увеличении надежности и – существенный плюс - возможности регистрировать новые, еще не распознанные "мусорные" письма.
Сегодня исследования ведутся на основе всего накопленного опыта в борьбе со спамом. "Мы работаем над движком 5-го поколения, в котором много новых "старых" технологий. Старых по принципам работы, новых – по подходам и возможностям. Из самого интересного: создана новая библиотека лингвистики, новые методы работы с графическим спамом, ведется борьба с полиморфным графическим спамом, разбор картинок на составляющие и детектирование отдельных блоков, разработаны новые возможности по написанию правил (эвристик) детектирования, детектирование in-the-Cloud." – говорит Никишин Андрей, руководитель лаборатории облачных и контентных технологий "Лаборатории Касперского".
К сожалению, с каждым днем умнеют не только оборонительные системы, но и системы рассылки спама. Использование шума в графическом спаме, новые контексты сообщений и многое другое, все это уже обманывает или обманет в ближайшее время системы фильтрации писем. Поэтому, ежегодно компании вкладывают огромные средства в развитие антиспам-решений, и снижения цен на такого рода продукты потребителям пока ждать не придется. "Я не маркетолог и полноценно ответить на этот вопрос не берусь. Однако с технической точки зрения снижения ожидать не стоит. Нам постоянно приходиться совершенствовать имеющиеся в наших продуктах технологии для борьбы со спамом, увеличивать штат спам-аналитиков и внедрять новые, более интеллектуальные механизмы фильтрации. Все это требует немалых вложений", - комментирует Александр Матросов, руководитель Центра вирусных исследований и аналитики российского представительства компании ESET.
По мнению аналитика компании "Доктор Веб" Валерия Ледовского, сегодня "спамерам стало сложно противодействовать современным антиспам-технологиям в электронной почте, они все чаще ищут альтернативные каналы передачи спама — социальные сети, популярные системы обмена сообщениями и др". Специалист прогнозирует развитие технологий, позволяющее ограничить поток спама через новые транспорты, отличные от электронной почты. За последние годы уже заметно движение разработок комплексных решений в области информационной безопасности в этом направлении. В антивирусах появляются компоненты, которые могут достаточно детально анализировать интернет-трафик независимо от его источника.
|