Версия для печати
Берт Остерхоф, Informatica: «Компании ищут бизнес-модели для создания новых видов поступлений за счет больших данных»
14 марта 2013 Компания Informatica, один из ведущих мировых поставщиков ПО для промышленной интеграции и повышения качества корпоративных данных, в последнее время активизирует свое присутствие на рынке стран СНГ. Мы предлагаем вашему вниманию интервью с Бертом Остерхофом (Bert Oosterhof), главным техническим директором Informatica в регионе EMEA, и Ником Росситером (Nick Rossiter), региональным директором Informatica в России и странах СНГ.Мы продолжаем жить в турбулентных экономических условиях. ИТ-бюджеты компаний по-прежнему весьма ограничены. Как сейчас идут дела у Informatica?
Б.О.: Не имеет значения, растет экономика или уходит в минус, потребность в интеграции систем и данных есть всегда. Если на рынке благоприятная ситуация, компании хотят получать аналитику, принимать обоснованные решения, проводить маркетинговые кампании и пр., для этого им нужны данные, и наши решения позволяют их собирать. В кризисное время клиенты стремятся сокращать расходы, присутствуют активности вроде слияний и поглощений предприятий, мы помогаем решать возникающие проблемы за счет построения консолидированных систем.
А сейчас всевозможные электронные устройства, смартфоны, социальные медиа производят все больше и больше данных. Клиенты хотят использовать их эффективно, чтобы создавать новые продукты, принимать более оперативные, направленные решения. В общем, данные – это та вещь, которая всегда будет актуальна.
А какие конкретно бизнес-проблемы современных предприятий могут быть решены посредством ПО интеграции данных?
Б.О.: Можно начать со сравнительно простого. Предположим, прошло внедрение ERP-системы (от SAP или Oracle, не важно), нужно построить систему отчетности и бизнес-аналитики. Для этого требуется поместить данные в корпоративное хранилище быстро, экономично и безопасно.
Далее – улучшение качества данных. Скажем, информация о клиентах у вас находится в нескольких системах. Чтобы к отчетам было доверие, при интеграции данных необходимо позаботиться о повышении их качества.
Еще один вызов – проблемы, связанные с объединением предприятий. Например, один банк приобретает другой, одна телеком-структура поглощает другую и пр. При этом у них появляются дублирующие заказные системы. Их совместное использование весьма затратно. Вместе с тем быстрое и надежное объединение в рамках одной системы позволит сэкономить средства и повысить операционную прибыль.
Н.Р.: Появляются новые источники данных, которые ранее не использовались предприятиями. Среди них машинная информация, генерируемая различными датчиками. Например, счетчики потребления коммунальных услуг, фактически объединенные в сетевую систему. Достаточно много информации – не только сведения, которые ранее использовались компаниями для выставления счетов клиентам, – становятся так называемыми длинными данными (long data), основой для анализа поведения потребителей.
К примеру, электрический счетчик измеряет расход электроэнергии. Воспользовавшись им, можно выяснить потребление за минуту, и по ряду признаков определить, что, скажем, человек приобрел электромобиль и в настоящий момент подзаряжает его. Как результат, возникает множество новых способов лучшего понимания клиентов.
Другая актуальная задача состоит в извлечении полезной информации из неструктурированных данных. Взять, к примеру, электронные таблицы Excel, которые использует большинство предприятий. Сфера их реального применения весьма ограниченная, а с помощью ПО интеграции данных можно извлечь из них полезные сведения. Впрочем, как и практически из любых источников, которыми располагает организация.
Наконец, у компаний есть необходимость лучше понимать свою деятельность. Все предприятия хранят сведения о связях с поставщиками, клиентами, розничными торговыми сетями и многими другими. Между ними постоянно происходит информационный обмен. Все больше данных генерируется, все больше данных перемещается между объектами. И наша цель – обеспечить высокий уровень доступности всей этой информации для принятия верных решений.
Какие тенденции в сфере интеграции и повышения качества данных наиболее ярко проявились в последние годы?
Б.О.: Я бы назвал три основных тенденции. Первая заключается в том, что с каждым днем увеличивается число регуляторных норм от правительств разных стран: о хранении персональных данных, о формах предоставления финансовой отчетности и пр. Это новые активности, с которыми компаниям приходится считаться.
Еще одно веяние, которое уже упоминалось, – появление новых типов данных. Взять, к примеру, современные автомобили. Они содержат множество электронных систем и датчиков. Есть техническая возможность отправки информации о состоянии авто его производителю для анализа и выяснения потребности в сервисном обслуживании. В результате чего, допустим, предупреждая скорую аварийную остановку авто, владелец может заранее получать предупреждения. Таким образом, формируется совершенно новая модель сервиса, полезная для клиентов. Но для этого нужно доставать большие объемы неструктурированных данных, преобразовывать и отправлять для обработки в операционные системы автопроизводителей.
Конечно, происходит распространение концепции облачных вычислений. Мы видим, что из соображений экономии заказчики все чаще обращаются к облачным сервисам. Например, они переходят с традиционно развертываемой CRM-системы Oracle Siebel на облачную от salesforce.com. Мы помогаем им с переносом данных и повышением их качества, а также с их интеграцией со сведениями из традиционных финансовых систем.
Появляется все больше систем, разнообразных типов данных (xml, бинарные, данные с сенсоров, табличные), и, безусловно, растут их объемы. Теперь все переходит в цифровую форму: фотографии, видео, документы. Быстрыми темпами растут объемы данных, публикуемых в социальных сетях. На рынке начинает царствовать концепция Big Data.
Почему вокруг больших данных такая большая шумиха?
Б.О.: Ну, чтобы подчеркнуть важность концепции перед ней поставили слово Big… Конечно, оно здесь не главное.
Надо сказать, что уровень корпоративных данных стал реально большим еще несколько лет назад. Сейчас же, если посмотреть на общий объем доступной цифровой информации, на объемы продаваемых систем хранения данных, они просто огромные. Это уж не гигабайты, счет идет на петабайты и даже секстибайты.
Есть изображения со спутников, уличные фотографии, на которых видны номерные знаки авто, все это оцифровывается и требует обработки. Вот почему аналитики из IDC, Gartner и др. предложили концепцию Big Data.
Н.Р.: Мне кажется, здесь уместно говорить об идее превращения данных в информацию. Скажем, системы, которые могут распознавать номера авто, существуют уже довольно давно. Однако раньше эти сведения использовались в очень узкой сфере. Сегодня мы видим, что данные находят более широкие области применения.
Например, данные о продажах, которыми обладают крупнейшие ритейлеры в США, позволяют им лучше управлять ассортиментом, ценообразованием, персоналом и пр. Но сейчас есть возможность извлекать из них сведения совершенно другого рода. Скажем, из того обстоятельства, что люди более активно начали приобретать лекарства от кашля, можно сделать предположение о начале эпидемии.
Очевидно, все больше данных генерируется социальными медиа. И речь идет не о фотографиях котиков… Посредством анализа публикуемой информации определяются настроения населения. Во время последних президентских выборов в США много информации о том, какие инициативы и действия кандидатов поддерживал электорат, а какие – нет, было получено именно из социальных медиа.
Одна из софтверных компаний недавно предложила дополнение к биржевой системе торговли, реализующее механизмы анализа настроений из twitter-сообщений. Это огромные объемы данных. Не секрет, что и раньше можно было хранить такие объемы, но это требовало крупных ИТ-бюджетов (для покупки систем хранения, лицензий на СУБД etc), сейчас же можно не только хранить их гораздо дешевле, но еще и обрабатывать и использовать за разумные средства.
Но для каких целей? Возьмем крупнейшего онлайн-ритейлера Amazon.com. Компания за годы своей деятельности накопила множество данных о том, что я покупаю, когда совершаю покупки, что предпочитаю, что – нет, и т.д. и т.п., и теперь легко может пускать их в ход для тонкой настройки рекламных кампаний, и даже продажи другим розничным организациям. Информация – это уже ценный актив, необходимо лишь найти ему применение.
Б.О.: Компании ищут бизнес-модели для создания новых видов поступлений за счет больших данных. К примеру, телекоммуникационные операторы хотят зарабатывать не только на звонках. Со всей информацией об абонентах, которая у них имеется (местоположение, активность, посещенные сайты), они могут не только создавать сервисы с привязкой к местоположению, но и продавать эту информацию розничным организациям. Это новый способ ведения бизнеса.
Скоро появится тотализатор, работающий в режиме реального времени. Можно будет делать ставки уже во время футбольного мачта о том, будет ли в следующую минуту забит гол. Это один из новых проектов, которые мы помогаем реализовывать нашим клиентам.
Выходит, что большие данные – это не только данные, но и методы их обработки, так?
Б.О.: Концепцию больших данных формируют три составляющих. Первая – так называемые большие транзакционные данные. Главным образом, это структурированные сведения из систем учета и управления, они растут довольно быстрыми темпами, по различным оценкам, ежегодно на 40-60%. Вторая – большие интеракционные данные (от interaction – взаимодействие), сюда входит машинная информация, фотографии, текст, научные сведения, а также социальные медиаданные. Они растут экспоненциально. Третья составляющая – высокомасштабируемая обработка больших данных, реализуемая посредством Hadoop. Вокруг последней построена целая экосистема из компаний, которые реализуют на базе данной архитектуры ПО, и организаций, содействующих развитию платформы.
Какие решения Informatica разработаны специально для работы с большими данными?
Б.О.: У нас есть несколько таких продуктов. Прежде всего стоит отметить, что наша интеграционная платформа Informatica Platform имеет поддержку Hadoop, реализованную в виде коннекторов к распределенной файловой системе.
Также мы разработали HParser. Это первый промышленный инструмент для разбора больших объемов данных. Он позволяет работать практически с любым дистрибутивом Apache Hadoop, применяя механизмы параллельной обработки данных среды MapReduce для эффективного преобразования неструктурированных сложных данных (веб-журналы, информация из социальных медиа, сведения о регистрации вызовов и пр.) в структурированный или полуструктурированный формат Hadoop.
В конце прошлого года мы предложили рынку новый продукт Informatica PowerCenter Big Data Edition. PowerCenter – это ETL-платформа (Extract, Transform and Load), предназначенная для извлечения данных из каких-либо источников, их трансформации и передачи в целевую систему. На ее базе мы создали редакцию для обработки больших данных. В ней применяется та же логика работы, но для исполнения используется Hadoop-архитектура. За счет этого нет потребности вручную писать MapReduce-программы, а можно применять готовые механизмы через графический пользовательский интерфейс среды разработки.
В своем последнем отчете (Magic Quadrant) об инструментах интеграции данных аналитики Gartner указывают, что ценообразование Informatica – слабое место компании, 50% клиентов называет данное обстоятельство одним из главных проблемных мест работы с вами. Что вы думаете по этому поводу? Какие действия предпринимаете для изменения ситуации?
Б.О.: Я всегда верил, что польза исходит не от лицензий. В проектах интеграции данных стоимость лицензий на ПО – лишь малая часть. Грубо говоря, для проекта с бюджетом в 1 млн долл. они обойдутся в 100 тыс. долл. А в результате его реализации будет достигнута такая экономия, что затраты окупятся.
Также, если проводить реальное сравнение сопоставимых продуктов с точки зрения общей стоимости владения (TCO) и учитывать встроенную функциональность наших решений, недоступную у конкурентов и сложную для создания вручную, Informatica демонстрирует очень высокий показатель ROI в проектах по всему миру.
И тем не менее, у нас есть ответ и на этот вопрос. Мы вывели на рынок комплекс продуктов для интеграции данных, реализующий облачную модель, он так и называется – Informatica Cloud. С помощью него можно работать с любыми данными, как локальными, так и размещенными в облаках.
Проект создания корпоративной BI-системы в глазах потребителя – это, как правило, дешборды, формирование отчетов и пр., между тем, порядка 80% времени и ресурсов в рамках инициативы уходит на подготовку данных. Нужно столько всего сделать до того как можно будет их использовать! Интеграция данных – огромная часть проекта.
Вы упомянули облачное предложение Informatica. Какова его фокусная группа? Это SMB-предприятия или более широкий спектр?
Б.О.: Изначально я предполагал, что это будут малые и средние фирмы. Но на практике все не так очевидно. Даже крупные предприятия вроде банковских и страховых учреждений, нефтяных структур и др. используют наши облачные технологии. У нас есть клиент в Японии, Japan Post, у которого 50 тыс. пользователей, и он использует Informatica Cloud для интеграции salesforce.com CRM c традиционно развертываемыми корпоративными системами. Также мы располагаем рядом клиентов, которые используют одновременно и on-premise, и cloud-варианты наших решений. Конечно, SMB-клиентов, использующих только Informatica Cloud, не приобретая лицензий, тоже достаточно много.
Еще одна важная сфера применения облачных вычислений – использование в качестве платформы для анализа больших данных. Дело в том, что вы не знаете, чего вы не знаете… В прошлом много аналитических задач было ориентировано на специфичные бизнес-процессы: мол, дайте мне ответ на запрос о сегментации клиентов, предложите мне оптимальный маршрут для перевозки товаров и пр. Теперь же с огромным объемом неструктурированных данных, сведений из социальных медиа и пр. мы можем построить среду с механизмами типа «песочница», в рамках которой открывать что-то новое. Однако заранее неизвестно, какие технологии, сколько вычислительных мощностей потребуется для этой и подобных ей задач. Для таких ситуаций очень хорошо подходят облачные технологии.
Благодаря присущей им гибкости, большая часть работы по исследованию данных сейчас ведется в них.
С технологиями мы разобрались. Давайте поговорим немного о рынке. Ник, на ваш взгляд, где находится Украина с точки зрения возможностей развития бизнеса корпорации Informatica?
Н.Р.: Мы всецело зависим от того, насколько актуальными для клиентов являются задачи интеграции данных и какие проблемы компании готовы решать. На российском рынке Informatica начала работать в 2004 г. через партнера – компанию Data Integration Services. Сейчас у нас сформировано полноценное представительство (в Москве). Также у нас два центра исследований и разработок: в Санкт-Петербурге находится центр, занимающийся задачами управления основными данными (Master Data Management); в Казани центр сфокусирован на проблемах репликации данных. В общей сложности в России у нас задействовано порядка 100 человек.
В Украине пока немного экспертов Informatica, у нас здесь один партнер (компания Citia BTC) с сертифицированными специалистами. Однако это то место, где мы непременно будем развиваться, в особенности расширяя сеть партнеров и повышая уровень осведомленности о платформе Informatica. Это будет происходить на локальных семинарах и прочих мероприятиях в нынешнем году и в дальнейшем.
Меня постоянно спрашивают: что способствует успеху поставщика ПО на локальном рынке? Мой ответ: три составляющие – партнеры, партнеры и еще раз партнеры… Это ключевой актив для нас. Именно благодаря их работе бизнес растет, когда мы видим этот процесс, начинаем инвестировать в формирование офиса.
В некоторых странах у нас есть офисы, главным образом там, где мы растем. Но бизнес растет только при наличии хорошего канала поставок.
Имея опыт общения с украинскими ИТ- и бизнес-лидерами, можете ли вы озвучить, какое впечатление они на вас производят? На ваш взгляд, у них есть понимание значимости корпоративных данных, правильное видение того, как применять информационные активы?
Н.Р.: Я работал с украинскими компаниями довольно долгое время и считаю, что у них есть правильное понимание. Проблема в том, что у них не всегда есть возможность приобретать желаемые технологии и реализовывать какие-либо инициативы. Кстати, поэтому нередки случаи, когда предприятия прибегают к самостоятельной разработке ПО. Собственная разработка обычно выглядит выходом из множества ситуаций, однако в долгосрочной перспективе такие проекты оказываются намного более дорогостоящими, чем применение промышленных систем.
Вместе с тем, однажды получив выгоду от реализации проекта интеграции данных, компании с большей охотой в дальнейшем вкладывают средства в эту область. В перспективе мы ожидаем, что возможности инвестирования в решение задач интеграции данных будут соответствовать желаниям украинских ИТ-лидеров.
Источник: ko.com.ua
Б.О.: Не имеет значения, растет экономика или уходит в минус, потребность в интеграции систем и данных есть всегда. Если на рынке благоприятная ситуация, компании хотят получать аналитику, принимать обоснованные решения, проводить маркетинговые кампании и пр., для этого им нужны данные, и наши решения позволяют их собирать. В кризисное время клиенты стремятся сокращать расходы, присутствуют активности вроде слияний и поглощений предприятий, мы помогаем решать возникающие проблемы за счет построения консолидированных систем.
А сейчас всевозможные электронные устройства, смартфоны, социальные медиа производят все больше и больше данных. Клиенты хотят использовать их эффективно, чтобы создавать новые продукты, принимать более оперативные, направленные решения. В общем, данные – это та вещь, которая всегда будет актуальна.
А какие конкретно бизнес-проблемы современных предприятий могут быть решены посредством ПО интеграции данных?
Б.О.: Можно начать со сравнительно простого. Предположим, прошло внедрение ERP-системы (от SAP или Oracle, не важно), нужно построить систему отчетности и бизнес-аналитики. Для этого требуется поместить данные в корпоративное хранилище быстро, экономично и безопасно.
Далее – улучшение качества данных. Скажем, информация о клиентах у вас находится в нескольких системах. Чтобы к отчетам было доверие, при интеграции данных необходимо позаботиться о повышении их качества.
Еще один вызов – проблемы, связанные с объединением предприятий. Например, один банк приобретает другой, одна телеком-структура поглощает другую и пр. При этом у них появляются дублирующие заказные системы. Их совместное использование весьма затратно. Вместе с тем быстрое и надежное объединение в рамках одной системы позволит сэкономить средства и повысить операционную прибыль.
Н.Р.: Появляются новые источники данных, которые ранее не использовались предприятиями. Среди них машинная информация, генерируемая различными датчиками. Например, счетчики потребления коммунальных услуг, фактически объединенные в сетевую систему. Достаточно много информации – не только сведения, которые ранее использовались компаниями для выставления счетов клиентам, – становятся так называемыми длинными данными (long data), основой для анализа поведения потребителей.
К примеру, электрический счетчик измеряет расход электроэнергии. Воспользовавшись им, можно выяснить потребление за минуту, и по ряду признаков определить, что, скажем, человек приобрел электромобиль и в настоящий момент подзаряжает его. Как результат, возникает множество новых способов лучшего понимания клиентов.
Другая актуальная задача состоит в извлечении полезной информации из неструктурированных данных. Взять, к примеру, электронные таблицы Excel, которые использует большинство предприятий. Сфера их реального применения весьма ограниченная, а с помощью ПО интеграции данных можно извлечь из них полезные сведения. Впрочем, как и практически из любых источников, которыми располагает организация.
Наконец, у компаний есть необходимость лучше понимать свою деятельность. Все предприятия хранят сведения о связях с поставщиками, клиентами, розничными торговыми сетями и многими другими. Между ними постоянно происходит информационный обмен. Все больше данных генерируется, все больше данных перемещается между объектами. И наша цель – обеспечить высокий уровень доступности всей этой информации для принятия верных решений.
Какие тенденции в сфере интеграции и повышения качества данных наиболее ярко проявились в последние годы?
Б.О.: Я бы назвал три основных тенденции. Первая заключается в том, что с каждым днем увеличивается число регуляторных норм от правительств разных стран: о хранении персональных данных, о формах предоставления финансовой отчетности и пр. Это новые активности, с которыми компаниям приходится считаться.
Еще одно веяние, которое уже упоминалось, – появление новых типов данных. Взять, к примеру, современные автомобили. Они содержат множество электронных систем и датчиков. Есть техническая возможность отправки информации о состоянии авто его производителю для анализа и выяснения потребности в сервисном обслуживании. В результате чего, допустим, предупреждая скорую аварийную остановку авто, владелец может заранее получать предупреждения. Таким образом, формируется совершенно новая модель сервиса, полезная для клиентов. Но для этого нужно доставать большие объемы неструктурированных данных, преобразовывать и отправлять для обработки в операционные системы автопроизводителей.
Конечно, происходит распространение концепции облачных вычислений. Мы видим, что из соображений экономии заказчики все чаще обращаются к облачным сервисам. Например, они переходят с традиционно развертываемой CRM-системы Oracle Siebel на облачную от salesforce.com. Мы помогаем им с переносом данных и повышением их качества, а также с их интеграцией со сведениями из традиционных финансовых систем.
Появляется все больше систем, разнообразных типов данных (xml, бинарные, данные с сенсоров, табличные), и, безусловно, растут их объемы. Теперь все переходит в цифровую форму: фотографии, видео, документы. Быстрыми темпами растут объемы данных, публикуемых в социальных сетях. На рынке начинает царствовать концепция Big Data.
Почему вокруг больших данных такая большая шумиха?
Б.О.: Ну, чтобы подчеркнуть важность концепции перед ней поставили слово Big… Конечно, оно здесь не главное.
Надо сказать, что уровень корпоративных данных стал реально большим еще несколько лет назад. Сейчас же, если посмотреть на общий объем доступной цифровой информации, на объемы продаваемых систем хранения данных, они просто огромные. Это уж не гигабайты, счет идет на петабайты и даже секстибайты.
Есть изображения со спутников, уличные фотографии, на которых видны номерные знаки авто, все это оцифровывается и требует обработки. Вот почему аналитики из IDC, Gartner и др. предложили концепцию Big Data.
Н.Р.: Мне кажется, здесь уместно говорить об идее превращения данных в информацию. Скажем, системы, которые могут распознавать номера авто, существуют уже довольно давно. Однако раньше эти сведения использовались в очень узкой сфере. Сегодня мы видим, что данные находят более широкие области применения.
Например, данные о продажах, которыми обладают крупнейшие ритейлеры в США, позволяют им лучше управлять ассортиментом, ценообразованием, персоналом и пр. Но сейчас есть возможность извлекать из них сведения совершенно другого рода. Скажем, из того обстоятельства, что люди более активно начали приобретать лекарства от кашля, можно сделать предположение о начале эпидемии.
Очевидно, все больше данных генерируется социальными медиа. И речь идет не о фотографиях котиков… Посредством анализа публикуемой информации определяются настроения населения. Во время последних президентских выборов в США много информации о том, какие инициативы и действия кандидатов поддерживал электорат, а какие – нет, было получено именно из социальных медиа.
Одна из софтверных компаний недавно предложила дополнение к биржевой системе торговли, реализующее механизмы анализа настроений из twitter-сообщений. Это огромные объемы данных. Не секрет, что и раньше можно было хранить такие объемы, но это требовало крупных ИТ-бюджетов (для покупки систем хранения, лицензий на СУБД etc), сейчас же можно не только хранить их гораздо дешевле, но еще и обрабатывать и использовать за разумные средства.
Но для каких целей? Возьмем крупнейшего онлайн-ритейлера Amazon.com. Компания за годы своей деятельности накопила множество данных о том, что я покупаю, когда совершаю покупки, что предпочитаю, что – нет, и т.д. и т.п., и теперь легко может пускать их в ход для тонкой настройки рекламных кампаний, и даже продажи другим розничным организациям. Информация – это уже ценный актив, необходимо лишь найти ему применение.
Б.О.: Компании ищут бизнес-модели для создания новых видов поступлений за счет больших данных. К примеру, телекоммуникационные операторы хотят зарабатывать не только на звонках. Со всей информацией об абонентах, которая у них имеется (местоположение, активность, посещенные сайты), они могут не только создавать сервисы с привязкой к местоположению, но и продавать эту информацию розничным организациям. Это новый способ ведения бизнеса.
Скоро появится тотализатор, работающий в режиме реального времени. Можно будет делать ставки уже во время футбольного мачта о том, будет ли в следующую минуту забит гол. Это один из новых проектов, которые мы помогаем реализовывать нашим клиентам.
Выходит, что большие данные – это не только данные, но и методы их обработки, так?
Б.О.: Концепцию больших данных формируют три составляющих. Первая – так называемые большие транзакционные данные. Главным образом, это структурированные сведения из систем учета и управления, они растут довольно быстрыми темпами, по различным оценкам, ежегодно на 40-60%. Вторая – большие интеракционные данные (от interaction – взаимодействие), сюда входит машинная информация, фотографии, текст, научные сведения, а также социальные медиаданные. Они растут экспоненциально. Третья составляющая – высокомасштабируемая обработка больших данных, реализуемая посредством Hadoop. Вокруг последней построена целая экосистема из компаний, которые реализуют на базе данной архитектуры ПО, и организаций, содействующих развитию платформы.
Какие решения Informatica разработаны специально для работы с большими данными?
Б.О.: У нас есть несколько таких продуктов. Прежде всего стоит отметить, что наша интеграционная платформа Informatica Platform имеет поддержку Hadoop, реализованную в виде коннекторов к распределенной файловой системе.
Также мы разработали HParser. Это первый промышленный инструмент для разбора больших объемов данных. Он позволяет работать практически с любым дистрибутивом Apache Hadoop, применяя механизмы параллельной обработки данных среды MapReduce для эффективного преобразования неструктурированных сложных данных (веб-журналы, информация из социальных медиа, сведения о регистрации вызовов и пр.) в структурированный или полуструктурированный формат Hadoop.
В конце прошлого года мы предложили рынку новый продукт Informatica PowerCenter Big Data Edition. PowerCenter – это ETL-платформа (Extract, Transform and Load), предназначенная для извлечения данных из каких-либо источников, их трансформации и передачи в целевую систему. На ее базе мы создали редакцию для обработки больших данных. В ней применяется та же логика работы, но для исполнения используется Hadoop-архитектура. За счет этого нет потребности вручную писать MapReduce-программы, а можно применять готовые механизмы через графический пользовательский интерфейс среды разработки.
В своем последнем отчете (Magic Quadrant) об инструментах интеграции данных аналитики Gartner указывают, что ценообразование Informatica – слабое место компании, 50% клиентов называет данное обстоятельство одним из главных проблемных мест работы с вами. Что вы думаете по этому поводу? Какие действия предпринимаете для изменения ситуации?
Б.О.: Я всегда верил, что польза исходит не от лицензий. В проектах интеграции данных стоимость лицензий на ПО – лишь малая часть. Грубо говоря, для проекта с бюджетом в 1 млн долл. они обойдутся в 100 тыс. долл. А в результате его реализации будет достигнута такая экономия, что затраты окупятся.
Также, если проводить реальное сравнение сопоставимых продуктов с точки зрения общей стоимости владения (TCO) и учитывать встроенную функциональность наших решений, недоступную у конкурентов и сложную для создания вручную, Informatica демонстрирует очень высокий показатель ROI в проектах по всему миру.
И тем не менее, у нас есть ответ и на этот вопрос. Мы вывели на рынок комплекс продуктов для интеграции данных, реализующий облачную модель, он так и называется – Informatica Cloud. С помощью него можно работать с любыми данными, как локальными, так и размещенными в облаках.
Проект создания корпоративной BI-системы в глазах потребителя – это, как правило, дешборды, формирование отчетов и пр., между тем, порядка 80% времени и ресурсов в рамках инициативы уходит на подготовку данных. Нужно столько всего сделать до того как можно будет их использовать! Интеграция данных – огромная часть проекта.
Вы упомянули облачное предложение Informatica. Какова его фокусная группа? Это SMB-предприятия или более широкий спектр?
Б.О.: Изначально я предполагал, что это будут малые и средние фирмы. Но на практике все не так очевидно. Даже крупные предприятия вроде банковских и страховых учреждений, нефтяных структур и др. используют наши облачные технологии. У нас есть клиент в Японии, Japan Post, у которого 50 тыс. пользователей, и он использует Informatica Cloud для интеграции salesforce.com CRM c традиционно развертываемыми корпоративными системами. Также мы располагаем рядом клиентов, которые используют одновременно и on-premise, и cloud-варианты наших решений. Конечно, SMB-клиентов, использующих только Informatica Cloud, не приобретая лицензий, тоже достаточно много.
Еще одна важная сфера применения облачных вычислений – использование в качестве платформы для анализа больших данных. Дело в том, что вы не знаете, чего вы не знаете… В прошлом много аналитических задач было ориентировано на специфичные бизнес-процессы: мол, дайте мне ответ на запрос о сегментации клиентов, предложите мне оптимальный маршрут для перевозки товаров и пр. Теперь же с огромным объемом неструктурированных данных, сведений из социальных медиа и пр. мы можем построить среду с механизмами типа «песочница», в рамках которой открывать что-то новое. Однако заранее неизвестно, какие технологии, сколько вычислительных мощностей потребуется для этой и подобных ей задач. Для таких ситуаций очень хорошо подходят облачные технологии.
Благодаря присущей им гибкости, большая часть работы по исследованию данных сейчас ведется в них.
С технологиями мы разобрались. Давайте поговорим немного о рынке. Ник, на ваш взгляд, где находится Украина с точки зрения возможностей развития бизнеса корпорации Informatica?
Н.Р.: Мы всецело зависим от того, насколько актуальными для клиентов являются задачи интеграции данных и какие проблемы компании готовы решать. На российском рынке Informatica начала работать в 2004 г. через партнера – компанию Data Integration Services. Сейчас у нас сформировано полноценное представительство (в Москве). Также у нас два центра исследований и разработок: в Санкт-Петербурге находится центр, занимающийся задачами управления основными данными (Master Data Management); в Казани центр сфокусирован на проблемах репликации данных. В общей сложности в России у нас задействовано порядка 100 человек.
В Украине пока немного экспертов Informatica, у нас здесь один партнер (компания Citia BTC) с сертифицированными специалистами. Однако это то место, где мы непременно будем развиваться, в особенности расширяя сеть партнеров и повышая уровень осведомленности о платформе Informatica. Это будет происходить на локальных семинарах и прочих мероприятиях в нынешнем году и в дальнейшем.
Меня постоянно спрашивают: что способствует успеху поставщика ПО на локальном рынке? Мой ответ: три составляющие – партнеры, партнеры и еще раз партнеры… Это ключевой актив для нас. Именно благодаря их работе бизнес растет, когда мы видим этот процесс, начинаем инвестировать в формирование офиса.
В некоторых странах у нас есть офисы, главным образом там, где мы растем. Но бизнес растет только при наличии хорошего канала поставок.
Имея опыт общения с украинскими ИТ- и бизнес-лидерами, можете ли вы озвучить, какое впечатление они на вас производят? На ваш взгляд, у них есть понимание значимости корпоративных данных, правильное видение того, как применять информационные активы?
Н.Р.: Я работал с украинскими компаниями довольно долгое время и считаю, что у них есть правильное понимание. Проблема в том, что у них не всегда есть возможность приобретать желаемые технологии и реализовывать какие-либо инициативы. Кстати, поэтому нередки случаи, когда предприятия прибегают к самостоятельной разработке ПО. Собственная разработка обычно выглядит выходом из множества ситуаций, однако в долгосрочной перспективе такие проекты оказываются намного более дорогостоящими, чем применение промышленных систем.
Вместе с тем, однажды получив выгоду от реализации проекта интеграции данных, компании с большей охотой в дальнейшем вкладывают средства в эту область. В перспективе мы ожидаем, что возможности инвестирования в решение задач интеграции данных будут соответствовать желаниям украинских ИТ-лидеров.
Источник: ko.com.ua
Дополнительно
Magic Quadrant for Data Integration ToolsПолный отчет Gartner на английском языке