: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных




Скачать 238.89 Kb.
Название: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных
страница1/3
Дата публикации10.04.2013
Размер238.89 Kb.
ТипДокументы
skachate.ru > Информатика > Документы
  1   2   3
УДК 004.832.3:001.8

О представлении данных и знаний
для интеллектуального анализа социологических данных


М.А. Михеенкова (mmikh@viniti.ru)

В.К. Финн (finn@viniti.ru)

Всероссийский институт научной и технической информации РАН, Москва

В работе рассматриваются проблемы представления данных и знаний для последующей формализации познавательного цикла «анализ данных – предсказание – объяснение» применительно к эмпирическим социологическим данным. Предлагаемое представление позволяет реализовать интеллектуальный анализ социологических данных в интеллектуальных системах типа ДСМ или других системах, опирающихся на поиск структурного сходства объектов.

Введение

Возможности интеллектуального анализа данных в области обнаружения новых знаний и извлечения закономерностей и, соответственно, представления данных и знаний особенно востребованы в областях с обширными массивами исходных фактов, нуждающихся в структурировании, упорядочении и систематизации. Современные социологические исследования во многом ориентированы на получение неколичественных (качественных) данных, соответствующих номинальному или порядковому уровню измерений. Отсутствие же развитых формальных инструментов преобразования таких данных в знания требует интеллектуализации соответствующих исследовательских эвристик с последующей реализацией в современных компьютерных системах.

Исторически развитие методов качественного анализа социологических данных, концентрирующихся на социальных взаимодействиях, личностном повседневном опыте действующего субъекта, связано с возникновением «понимающей» социологии М. Вебера [Вебер, 2006], задача которой – не просто восприятие и описание непосредственно эмпирических явлений, но и объяснение каузальных связей в этих явлениях. Характерный для практики таких исследований отказ от использования формальных средств приводит к прямой зависимости от способностей, здравого смысла и воображения исследователя, а порождаемые эмпирические теории приобретают статус уникальных и невоспроизводимых. Однако объективизация качественных исследований с развитием компьютерной техники первоначально пошла по пути усовершенствования обработки, структурирования и управления данными, и здесь возможности современной генерации пакетов CАQDAS (Computer-Assisted Qualitative Data Analysis Software) выглядят достаточно впечатляющими [Lewins, Silver, 2007].

Большие ожидания в социологии связывались с развитием «кибернетических» методов data mining (DM). Эти средства позволяют одновременно анализировать неоднородные и неполные данные («нерепрезентативные» с точки зрения статистики), причём, нечислового характера, учитывают нелинейные связи. Однако, как убедительно показано в известной работе [Fayyad et al., 1997], DM – применение конкретных алгоритмов для извлечения моделей (образцов) – составляет лишь один из шагов knowledge discovery (KD) – процесса извлечения полезных знаний из данных. Таким образом, собственно интеллектуальным анализ данных оказывается при использовании компьютерных систем, содержащих средства извлечения знаний из баз фактов (БФ), автоматического порождения гипотез и объяснения имеющихся фактов на основании порожденных гипотез, а также способных осуществлять дедуктивный вывод из исходных и полученных знаний (баз знаний, БЗ). [Арский, Финн, 2008]. Современная социологическая наука далека от таких возможностей, а формализация аналитических процедур, прежде всего – процедур выявления причинных зависимостей из анализа имеющихся данных, индуктивных стратегий создания теорий и связанных с этим когнитивных процессов абдукции – рассматривается действующими социологами как подлинный вызов времени [Fielding, 2003; Gobo, 2005].

^ 1. Формальное представление данных и знаний для качественного анализа социологических данных

С точки зрения эпистемологического содержания качественный анализ видится как «восходящая» стратегия «доказательного и последовательного» построения теории на основе эмпирических фактов, т.е. получения нового знания из эмпирического материала. Напомним, что подобным образом (с использованием неформализованного индуктивного вывода) формулируется основная задача в одной из наиболее структурированных и разработанных методологий качественного анализа – обоснованной теории (grounded theory, см. [Страусс, Корбин]). Стало быть, интеллектуальный анализ социологических данных (ИАСД) – построение теории на основе эмпирических фактов средствами формализованных познавательных процедур в компьютерных системах высокого уровня – есть не что иное, как формализованный качественный анализ социологических данных (ФКАСД). Такой анализ предполагает более высокий, чем это принято в качественном анализе, уровень формализации изучаемых психосоциальных явлений и нуждается в первичном структурировании данных и знаний и формировании системы отношений для них. Следующим шагом оказывается выбор адекватных предложенному представлению формальных средств анализа. В совокупности это означает создание формального языка с дескриптивной и аргументативной функциями [Поппер, 2000] – для представления данных и знаний (с возможностью определения их сходства) и формализации рассуждений (и выдвижения гипотез), соответственно 1.

Фундаментальным принципом качественного анализа данных является принцип «сходство фактов влечет наличие (отсутствие) изучаемого эффекта и его повторяемость». Конкретизируя его для реализации идеи причинности, можно сказать, что в рамках качественного анализа исследуется тип каузальности «структура – эффект» (а не «явление – явление»). Гипотетические причины представляются в виде сходств фактов, имеющих определенную структуру, т.е. «сходство» в этой схеме является нестатистическим и может анализироваться в рамках логико-алгебраического подхода (QCA [Rihoux, Ragin, 2009]) и средств интеллектуального анализа данных, включающих формализацию индуктивных процедур (ДСМ-метод автоматического порождения гипотез [Автоматическое порождение …, 2009]).

ДСМ-метод автоматического порождения гипотез (ДСМ-метод или ДСМ-метод АПГ) позволяет реализовать сформулированную в [Арский, Финн, 2008] программу интеллектуального анализа применительно к социологическим данным. Интеллектуальный анализ социологических данных (ИАСД) и реализующая его интеллектуальная система (в частности, интеллектуальная система типа ДСМ, ИС-ДСМ) предполагают возможность решения ряда проблем, связанных с представлениями классической «понимающей социологии» М. Вебера и составляющих круг задач ФКАСД. К ним относятся:

– исследование индивидуального поведения, порождение детерминант поведения и типологизация социума на их основе;

– анализ и прогнозирование мнений респондентов как варианта поведения;

– выяснение влияния ситуации на поведение индивидуума;

– анализ рациональности мнений (в т.ч. степени рациональности мнений данной социальной общности).

Из описанного принципа структурного сходства как источника детерминаций вытекает потребность первичной (до решения собственно задач ФКАСД) структуризациии данных и знаний, т.е. предварительной алгебраической формализации сходства объектов и их свойств. Основной принцип представления знаний в ИС-ДСМ, предназначенных для анализа социологических данных и возможного прогнозирования социальных действий или мнений (решения задач ФКАСД), – «постулат поведения» (Р1). Согласно этому постулату, используемые параметры описания индивида выражают его социальный характер, черты личности и нетривиальные биографические данные, отражающие историю становления личности (или, по крайней мере, адаптацию в социальной среде). Кроме того, в соответствии с исследованиями в социальной и когнитивной психологии, детерминация социального поведения субъекта напрямую связана также и со средовыми факторами [Росс, Нисбетт, 2000]. Соответственно, «постулат ситуационизма» Р3 предполагает включение в анализ ситуационных параметров, позволяющих учесть контекст реализации поведения. Наконец, анализ рационального поведения предполагает возможность формализации мнений субъекта (в том числе, с учётом его социальных установок). Логическая систематизация знаний о субъекте, его поведении и мнениях означает выделение исходных отношений и установление зависимостей между ними на основе формализованных рассуждений. Средством формализации ДСМ-рассуждений, реализующих синтез познавательных процедур – индукции, аналогии и абдукции, – являются бесконечнозначные логики степеней правдоподобия порождаемых гипотез.

ДСМ-метод предназначен для исследования каузальности типа «структура объекта – эффект», что укладывается в рамки перечисленных выше задач ФКСД, направленных на изучение поведения Y субъекта поведения Х, находящегося в ситуации S и обладающего мнением  (отображающим субъективный мир личности – см. [Арский, Финн, 2008]).

Для представления знаний и формализации ДСМ-рассуждений формулируется ДСМ-язык [Финн, 1991], в котором для представления субъектов поведения используются индивидные переменные X, Z, V, ... 1-го сорта (быть может, с нижними индексами) и константы С, С1, С2, ... –, являющиеся значениями переменных для объектов и подобъектов X, Z, V и т.д. Свойства объектов (эффекты, например, эффекты поведения субъектов) представляются индивидными переменными 2-го сорта Y, U, W, ... (быть может, с нижними индексами) и константами Q, Q1, Q2, ..., а также А, А1, А2. Параметры ситуации представлены переменными 3-го сорта S, S1,…, Sn,… и константами .

Пусть даны конечные множества U(i) , i = 1, 2, 3, U(1) = {d1,…, } – множество характеристик социальных субъектов, U(2) = {a1,…, } – множество эффектов их поведения (действий и установок), U(3) = {s1, , } – множество ситуационных параметров. Определим на них 3 булевых алгебры Bi ={, , U(i), , , }. B1 – алгебра объектов, B2 – алгебра свойств, B3 – алгебра ситуаций (внешних обстоятельств). Тогда объекты (субъекты поведения) X, множества свойств (эффекты поведения) Y, ситуации S.

Атомарные формулы ДСМ-языка применительно к задачам ФКАСД интерпретируются следующим образом. В исходном состоянии база фактов (БФ) содержит (+)- и (–)-факты наличия и отсутствия изучаемого эффекта, соответственно, а также неопределённые ()-факты, представляющие предикат X1Y. Предикат означает, что «субъект Х обладает/не обладает эффектом поведения Y», где Х – структурированное описание субъекта, Y – переменная для представления действий и установок (в общем случае – и мнений). Производные предикаты V2W и W 3V означают, что «подмножество характеристик V есть причина эффекта поведения W» и «эффект поведения W есть следствие подмножества характеристик V» (т.е. переменная V принимает значения на множестве возможных характеристик субъектов данного социума). V2W и W 3V представляют собой гипотезы о причинах наличия/отсутствия изучаемых эффектов, порожденные на основании индуктивного анализа предиката X1Y.

Такое представление БФ является базовым для ДСМ-метода и допускает различные модификации с учётом потребностей предметной области. Расширим ДСМ-язык введением терма (см. [Скворцов и др., 1981]), где – полный объект  = X, S, [], Х – субъект поведения, S – контекст (ситуация) поведения,  – мнение субъекта (о ситуации, о возможном поведении).

Отделение мнения от действий и установок обусловлено специфическим характером этого вида поведения, для которого предлагается следующее формальное представление [Гусакова и др, 2001]. Пусть задана некоторая тема опроса Т* такая, что она характеризуется утверждениями p1, …, pn, образующими каркас темы Р. Задана функция оценки v[pi] (i = 1, …, n) с областью значений {1, –1, 0, }, v[pi] = , {1, –1, 0, } (“фактическая истина”, “фактическая ложь”, “фактическое противоречие”, “неопределенность”, соответственно), являющихся типами истинностных значений бесконечнозначной логики ДСМ-метода АПГ. Пусть, далее, ?Jnpi – терм, в котором n – переменная со значениями из {1, –1, 0, t}. Терм ?Jnpi понимается как вопрос «верно ли, что v[pi] = n?». Jnp = t, если v[pi] = n; в противном случае Jnp = f. Положим jjp1&…&pn, где ni(j) Î{±1, 0, t}, i = 1, …, n; j = 1, …, 4n. Будем называть jj – максимальную конъюнкцию атомов pn – мнением индивида, при этом множество членов этой конъюнкции обозначим [jj]={p1, …, pn}.

Общая задача изучения явления, понимаемого, как отношение «объект – эффект», соответствует двум классам задач, которым отвечают два типа ДСМ-рассуждений – прямой и обратный.

(1) Пусть в исходном состоянии БФ представлена предикатами 1Y (X, S, []1Y), где Y – эффект (действие или установка к действию). Тогда применение прямого ДСМ-рассуждения («от причины – к следствию») порождает гипотезы о причинах вида 2Y, где представляет сходство объектов, = 1…k, =V, S, [], где V = X1…Хk, S  S1…Sk, [][1]…[k].

(2) База фактов для анализа такого вида поведения, как мнение, представлена предикатами X, S1 [], Т, где Т – одна из возможных тем опроса (в случае проведения опроса по одной теме представление упрощается до X, S1[]). В этом случае применяется обратный метод и порождаются гипотезы вида W 3V, S, W/[], V = X1…Хk, S  S1…Sk, [] = [1]…[k]. Решение задачи выявления детерминаций мнений с учётом ситуации проведения опроса подробно описано в [Финн и др., 2002].

Отдельным вариантом такой постановки является анализ динамически изменяющихся состояний социума с последующим изучением причин изменений индивидуального поведения и мнений. Рассмотрим п состояний социума, каждому из которых соответствует ситуация Si, i = 1, …, n. Пусть в каждом состоянии проводится закрытый т-значный опрос (когда респонденту предлагается т вариантов ответа) по теме Т* с каркасом Р. В соответствии с предложенным в [Михеенкова и др., 2008] формальным определением закрытый т-значный социологический опрос в i-том состоянии задаётся как Om(i) = Jm, P, , K(i), R (или Om(i) = Jm, P, , K(i), R, Х1Y для предсказательного опроса, в котором анализ и предсказание возможных ответов осуществляется средствами ДСМ-метода). Логическими средствами формализации m-значного (m2) социологического опроса являются m-значные логики Jm и исчисление эквивалентных формул ИЭФ-Jm [Finn, Mikheyenkova, 2011]. Множество оценок переменных Vm = {0, ,…, , 1} должно быть социологически интерпретируемым, что легко достигается для m = 2, 3, 4, 5, 6, 72. R соответствует множеству респондентов, участвующих в опросе, K(i) – множеству мнений респондентов в ситуации Si, i = 1, …, n. Если |R| = r, K(i) = {1(i), …, r(i)}. Множество  = {1, …, s} формул 1, …, s логик Jm, выражает логические зависимости между элементами p1, …, pn каркаса Р.  должно быть непротиворечивым, при этом формула  = (1…s) не должна быть тавтологией логики Jm. Оно неявным образом содержит ценностные ориентации, заложенные исследователем в систему утверждений из каркаса Р, и обеспечивает последовательность взглядов на тему опроса.

В [Finn, Mikheyenkova, 2011] предложен метод аналитических таблиц для логик Jm, позволяющий охарактеризовать степень непротиворечивости опроса. Пусть consis({}) – метапредикат непротиворечивости множества формул ({}). Тогда множество всех  (ответов респондентов) – J-максимальных конъюнкций логики Jm, – не противоречащих , обозначим К+ = {|consis({})(К)}; множество ответов , противоречащих , обозначим  = {|consis({})(К)}, К – множество всех возможных максимальных конъюнкций (мнений). Очевидно, что , т.е. {} противоречиво, если аналитическая таблица ℑ для множества {} замкнута.

Определим следующие функции: (К, К+) = |КК+|/|К| и (К, ) = |К|/|К|, характеризующие, соответственно, степень непротиворечивости и степень противоречивости закрытого m–значного опроса по теме Т*. Здесь К – множество ответов при опросе, |К|, |КК+| и |К| – числа элементов множеств К, КК+ и К, соответственно. Легко показать, что (К, К+) + (К, ) = 1.

Соответственно, для заданного множества  для каждого состояния Si, i = 1, …, n, может быть вычислена степень непротиворечивости (K(i), K+).

Результаты п опросов r респондентов могут быть представлены Таблицей:
















S1

X1, S1, [1(1)]



Xj, S1, [j(1)]



Xr, S1, [r(1)]















Si

X1, Si, [1(i)]



Xj, Si, [j(i)]



Xr, Si, [r(i)]















Sn

X1, Sn, [1(n)]



Xj, Sn, [j(n)]



Xr, Sn, [r(n)]

Если опросы Om(i) отображают влияние индивидуальных особенностей на восприятие темы опроса, изменение мнений j-го индивида (субъекта) в последовательности ситуаций S1,… Sn представляется структурой Omj = Jm, P, , Kj, где Kj = {j(1), …, j(n)}, j = 1, …, r. Соответственно, вычисляется степень непротиворечивости изменяющихся с изменением ситуаций мнений j-го респондента (Kj, K+) для заданного множества .
  1   2   3

Похожие:

: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconРеализация прототипа системы мобильных агентов для решения задач...
Методы интеллектуального анализа данных (иад) сегодня широко применяются для решения актуальной задачи обнаружения в данных ранее...
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconОпыт применения методов интеллектуального анализа данных в компаративистских...
В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета...
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconФормальных понятий для анализа данных социологических опросов
В качестве данных для проведения экспериментов мы воспользовались результатами опроса проведенного в рамках проекта
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconПрограммные системы интеллектуального анализа данных и поддержки принятия решений
В работе описывается функционал и назначение программных систем интеллектуального анализа данных и поддержки принятия решений, разработанных...
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных icon: 510. 66: 159. 955. 5 Словарное шкалирование в медицинской информатике:...
Те описывается экспериментальная процедура словарного шкалирования в применении к массиву описаний клинических проявлений наследственных...
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconНечеткие гибридные системы в задачах интеллектуального анализа данных
В статье предложен гибридный алгоритм нечеткой кластеризации и способ использования нечеткой нейронной сети в качестве dm для нечетких...
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconЕ. В. Дорогонько обработка и анализ социологических данных
Двумерный анализ социологических данных. Парные распределения
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconРассматриваемая в работе формализация качественного анализа социологических...
Дсм-метода автоматического порождения гипотез. Помимо анализа данных об индивидуальном субъекте подход распространяется на данные...
: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconМодуль оценки рациональности в Интеллектуальной системе анализа социологических данных

: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных iconСоздание компьютерной системы интеллектуального анализа фармакологических данных


Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2014
контакты
skachate.ru
Главная страница