achepkunov (achepkunov) wrote,
achepkunov
achepkunov

нечеткое сравнение строк

давно - в 2008 году делал поиск литературы по теме. может пригодится.

В процессе работы постоянно приходится сталкиваться с ситуацией, когда одни и те же списки чего-либо (студентов, преподавателей, литературы, учебных программ и др.) ведутся в разных подразделениях. Для студентов это бухгалтерия, деканаты и отдел кадров, для преподавателей, кроме того – УМУ, для списков литературы, издаваемой сотрудниками вуза – библиотека, РИО, кафедры, ОНТИ. В последнем списке, кроме того, тоже присутствуют данные о преподавателях. Идеальным решением для повышения эффективности работы с этими списками было бы ведение единой информационной среды университета. И работа по интеграции всех данных в эту базу в университете ведется. Однако, работа эта затруднена по самым разным причинам – организационным, политическим, финансовым и другим. И пока не все данные попали в единую информационную среду университета, постоянно приходится сопоставлять списки из различных источников, выявлять различия, соединять, вычищать и т.д. В рамках данной курсовой работы я хочу найти какие-либо программные средства, облегчающие подобную работу и методические рекомендации по проведению таких работ.


3.2 Список материалов, подобранных на открытых Интернет-сайтах.
В результате работы со словарями и анализа результатов выдачи поисковых машин были выделены следующие ключевые слова и запросы: сопоставление/сравнение строк/записей, поиск соответствия, нечеткое сравнение, приближенное сравнение строк, дублирование строк.
В англоязычной литературе эти термины переводятся так: сравнение – comparison; нечеткое(размытое) – fuzzy; строка (запись) – row; дублирование – doubling; база данных database.
В результате поиска были найдены следующие книги и статьи:
1. МакКензи, Дэвид. Сравнение и объединение файлов diff, diff3, sdiff, cmp, patch [электронный ресурс] / Дэвид МакКензи (David MacKenzie), Поль Эггерт (Paul Eggert), Ричард Столлман (Richard Stallman) . – 1993. Режим доступа: http://linux.yaroslavl.ru/docs/conf/gnu-util/diff/diff.html
2. Смит, Билл. Методы и алгоритмы вычислений на строках. Теоретические основы регулярных вычислений (в оригинале - "Computing Patterns in String") [текст] : научно-популярное издание / Билл Смит (William F. (Bill) Smyth). – СПб. : Вильямс, 2006.(англ. 2003) – 496 с. ISBN 5-8459-1081-1, ISBN оригинала 0-201-39839-7
УДК: 681.3.07 ББК: 32.973.26-018.2.75
3. Тарасов, Сергей. Как избавиться от дубликатов в базе данных. Управление качеством данных на основе алгоритмов нечеткого поиска / Сергей Тарасов // Мир ПК. – 2007. - №11. Режим доступа: http://www.arbinada.com/main/node/20
4. Карпов, В.Э. Об одной задаче очистки и синхронизации данных / В.Э. Карпов, И.П. Карпова. Московский Государственный институт электроники и математики (Технический университет) // Информационные технологии. – 2002. – №9. Режим доступа: URL:http://www.raai.org/about/persons/karpov/pages/dscrubb/dscrubb.html. УДК 004.451.23
5. Шетухин, Андрей Владимирович. Система проверки опечаток Oniks Spell / Андрей Владимирович Шетухин. – 2004 Режим доступа: http://www.havoc.ru/products/oniks/oniks.html
Кроме статей и книг был найден коммерческий программный продукт на сайте компании HFLabs (http://www.hflabs.ru/products.htm)


3.3. Список материалов, подобранных по данной теме через НТБ СГАУ по подписке
Материалы взяты из коллекции Engineering издательства Elsevier и коллекции журналов Кембриджского университета. Поиск в коллекции Elsevier более удобный. Кроме обычного поиска там есть очень полезная ссылка «Related Articles». Следует отметить, что при поиске по журнальным статьям нужно задавать меньшее количество поисковых слов, чем при поиске по всему интернету. Так, например, в моем случае наиболее результативным был поиск по словам «compare string» при указании тематики или при поиске по тематической коллекции.
1. Hu, Yi-Chung. Determining membership functions and minimum fuzzy support in finding fuzzy association rules for classification problems / Yi-Chung Hu // The Knowledge Engineering Review. ¬– 2006. – Vol. 19, N 3. – P. 57-66.
2. Neuhaus, Michel. Edit distance-based kernel functions for structural pattern classification. / Michel Neuhaus, Horst Bunke // Pattern Recognition. – 2006 – V. 39, N 10. – P. 1852-1863.
3. Galea, Michelle. Evolutionary approaches to fuzzy modelling for classification / Michelle Galea, Qlang Shen, John Levine // The Knowledge Engineering Review. ¬– 2004. – Vol. 19, N 1. – P. 27-59 .
4. Hüllermeier, Eyke. Mining implication-based fuzzy association rules in databases / Eyke Hüllermeier, Jürgen Beringer // Intelligent Systems for Information Processing, – 2003.– P. 327-337.
5. Rico-Juan, Juan Ramón. Comparison of AESA and LAESA search algorithms using string and tree-edit-distances. / Juan Ramón Rico-Juan, Luisa Micó // Pattern Recognition Letters. – 2003 – V. 24, N 9. – P. 1417-1426.
6. Potamianos, Gerasimos A study of n-gram and decision tree letter language modeling methods / Gerasimos Potamianos, Frederick Jelinek // Speech Communication. – 1998 – V. 24, N 3. – P. 171-192.


4. Выводы
С развитием ИКТ значительно облегчился доступ к информации, за счет возможностей поисковых машин и наличия электронных версий статей. Эти возможности при правильном применении помогают быстрее и точнее узнать, что уже было сделано в мире по заданной тематике, что ускоряет научно-технический прогресс.
Библиотека СГАУ идет в ногу со временем и предоставляет своим студентам и сотрудникам развитую систему электронных ресурсов – от поиска книг по электронному каталогу до подписки на электронные полнотекстовые коллекции статей из ведущих мировых журналов по самой разной тематике.
К сожалению, ограничения на доступ к информации, связанные с авторскими правами не позволяют всем желающим получать нужную научную информацию. Думаю, что ограничения эти отчасти носят организационный характер, отчасти – сложившуюся в индустрии развлечений систему охраны авторских прав и со временем будет найден другой способ удовлетворения интересов авторов научных материалов.
Tags: fuzzy logic
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments