Извлечение знаний для определения соционического типа.

**Oleg** · Администратор, клуб "Квадра"

Несколько выдержек из статей, описывающих метод извлечения знаний.

Oracle Data Mining

Опция Oracle Data Mining (ODM) предназначена для анализа данных методами, относящимися к технологии извлечения знаний или "data mining".

Основная задача этой технологии состоит в выявлении в больших наборах данных скрытых закономерностей, зависимостей и взаимосвязей, полезных при принятии решений на различных уровнях управления. Такие закономерности представляются в виде моделей различного типа, позволяющих проводить классификацию ситуаций или объектов, прогнозировать их поведение, выявлять группы сходных объектов и т.п. Существенно, что модели строятся автоматически на основе анализа имеющихся данных об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов.
Методы извлечения знаний применяются в различных областях для решения таких практических задач, как привлечение новых, выявление наиболее перспективных и удержание клиентов, повышение эффективности маркетинговой деятельности по продвижению продуктов и услуг, выявлению причин сбоев оборудования и так далее.

Основу опции составляют процедуры, реализующие различные алгоритмы построения моделей классификации, регрессии, кластеризации. Версия Data Mining 10G поддерживает широкий спектр таких алгоритмов (перечислены в таблице)

Алгоритмы, реализованные в Oracle Data Mining

Классификационные модели Naive Bayes, Adaptive Bayes Network
Классификации и регрессионные модели Support Vector Machine
Поиск существенных атрибутов Minimal Descriptor Length
Кластеризация Enhanced K-means, O-cluster
Поиск ассоциаций Apriory Algorithm
Выделение признаков Non-Negative Matrix Factorization

Важная особенность алгоритмов состоит в том, что все они работают непосредственно с реляционными базами данными и не требуют выгрузки и сохранения данных в специальных форматах. Кроме собственно алгоритмов, в опцию ODM входят средства подготовки данных, оценки результатов, применения моделей к новым наборам данных. Использовать все эти возможности можно как на программном уровне с помощью Java API или PL/SQL API, так и с помощью графической среды ODM Client, ориентированной на работу аналитиков, решающих задачи прогнозирования, выявления тенденций, сегментации и др.

(С) http://oracle.ukrsat.com/products/oradb1-3-4.html
_________________
танцы, английский язык, знакомства

**Oleg** · Администратор, клуб "Квадра"

А вот здесь Ольга Гречинская на конкретных примерах показывает как можно применять Oracle Data Mining. Это одна из лучших статей, которые я сумел найти по данной теме:
http://synthesis.ipi.ac.ru/sigmod/seminar/DataMining.pdf
_________________
танцы, английский язык, знакомства

**Oleg** · Администратор, клуб "Квадра"

Несложно заметить что практически все алгоритмы могут быть полезны для разработки методики определения соционического типа.

Рассмотрим на примере алгоритма анализа текстов.

1. Сначала мы закачиваем 1000 или более книг разных писателей в Oracle. Огромный плюс в том, что в отличии от нескольких абзацев здесь уже будут проявляться тенденции.

2. Делаем частотный анализ слов => получаем для каждой книги матрицу: (слово, частота).

3. Алгоритм кластеризации позволяет разбивать данные на разные группы. Основное понятие "расстояние" между объектами. Под группами в данном случае могут быть как отдельные ТИМы, так и например гуленковские группы (социалы, саентисты, управленцы, гуманитарии).

Здесь http://articles.socionic.ru/psycholingvist_author.php мне удалось введя понятие расстояние как дисперсию между словарями писателей получить достаточно надежное определение авторства текста, но при этом ТИМ автора по такой методики определить не удалось, значит нужно искать другое наполнение понятия "расстояния".

4. Алгоритм выделения признаков может быть полезен для выявления как основных дихотомий, так и признаков Рейнина.

5. Генерация правил => обнаружение правил, которые могут лечь в основу новой методики типирования по тексту.

6. Генетические алгоритмы, нейронные сети - создание самообучающейся программы, чем больше данных она анализирует, тем выше достоверность результата.

и так далее...

Кроме анализа текстов эти алгоритмы можно использовать для анализа результатов различных тестов, биометрических параметров множества людей, интонаций и речи, поиска генов, отвечающих за ТИМ и так далее.

То есть применение может быть очень широкое.

Основные сложности:
- набор огромного количества данных от сотен людей и занесение их в базу данных
- репрезентатитвность выборки
- для начала обработки необходимы люди, чей ТИМ уже определен, причем нужно учитывать что достоверность этого вовсе не 100%, а вряд ли превышает 60-70%
- очень сложное программное обеспечение
_________________
танцы, английский язык, знакомства

__link · Местный

__link · Местный

Интересная идея. Набрать картотеку чего угодно, хоть текстов, хоть кулинарных предпочтений, и натравить на нее самообучалку. Но где мы возьмем достаточное количество данных? Мне так думается, надо не менее 200 достоверных анкет. Sad

_________________
Не спрашивай, по ком гудит трансформатор. Это глупый вопрос; он гудит сам по себе.

**Oleg** · Администратор, клуб "Квадра"

Так как типов 16, а закон больших чисел начинает работоать примерно со 100, то скорее 1600 человек нужно, причем с определенным ТИМом хотя бы с более-менее нормальной достовреностью.

Если без определения ТИМа, то набрать 1000 человек не так сложно например для тестов. У нас на сайте за день на примерно столько там бывает, и каждый из тестов прохоят по крайней мере 100 человек, то есть накопить статистику даже если сделать регистрацию можно будет за вполне реальное время.

С текстами писателей проблем набрать и загнать в базу данных особых нет (за исключением учета переносов и разных форматов файлов), Oracle позволяет работать с миллиардами строк. Но при этом с определенным ТИМом их не так много, наш эталонный список только частично решает эту проблему.

Есть еще один вариант - использовать дневники или сообщения на форуме, многие участники давно изучают соционику и определили свой ТИМ, поэтому этот вариант тоже возможен для тех кто согласится участовать в эксперименте. Желательно конечно больше народу, чем у нас сейчас, но думаю через год здесь будет вполне достаточно людей. В сообщениях нужно отфильтровать quote, или просто цитаты, когда бросаются куски текста, которые можно узнать по (С), если копирайта нет, то уже никак не определишь.

Вообщем варианты есть, но везде достаточно много времени нужно для того чтобы получить адекватный первоначальный результат.
_________________
танцы, английский язык, знакомства

__link · Местный

**Oleg** · Администратор, клуб "Квадра"

__link, по поводу того какой выигрыш дают выделение дихотомий и признаков Рейнина табличку можно посмотреть тут:
http://articles.socionic.ru/reinins.php в пятом пункте. Например, для того чтобы определять ТИМ с вероятностью в 80% нужно уметь определять дихотомии с вероятностью в 95% или признаки Рейнина с вероятностью в 85%.

Пока мне удалось с помощью программы получить точность определения признаков Рейнина по тексту для авторов, которые не участвовали в составлении эталонной выборки: 65%, из таблицы видно, что это дает определение ТИМа с вероятностью всего лишь в 20%. Если же один из текстов автора участвовал в составлении эталонной выборки, то ТИМ правильно определяется примерно в 95% случаев, но это следствие из того, что частотный словарь автора устойчив.

Дихотоими программой определяются несколько лучше чем признаки Рейнина, хотя и ненамного. Основный вывод, к которому я пришел, что лучше сразу пытаться определить 16 кластеров, чем выделять дихотомии. Потом я прочитал, что Таланов и Лытов при составлении своих тестов пришли к тем же выводам.

А вот как с помощью нейронных сетей сделать самообучающую программу я пока слабо представляю. Может у тебя есть идеи по этому поводу?
_________________
танцы, английский язык, знакомства

__link · Местный

**Oleg** · Администратор, клуб "Квадра"

__link · Местный

Igor_Gruzdev · Участник

**Oleg** · Администратор, клуб "Квадра"

Igor_Gruzdev, я именно так и сделал.
_________________
танцы, английский язык, знакомства