Light-industry-up.ru

Экосистема промышленности

Стоп-слова

05-10-2023

Стоп-слова или Шумовые слова  — термин из теории поиска информации по ключевым словам.

Стоп-слова могут делиться на общие и зависимые.

К общим можно отнести предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), так же они игнорируются при построении инвертированного индекса. Считается что каждое из общих стоп-слова есть почти во всех документах коллекции.

Зависимые стоп-слова зависят относительно поисковой фразы. Идея заключается в том, чтобы по разному учитывать отсутствие просто слов из запроса и зависимых стоп-слов из запроса в найденном документе.

Например, при поиске по запросу Пушкин Александр Сергеевич, есть смысл отобразить все документы содержащие:

  • Пушкин, Александр, Сергеевич
  • Пушкин, Александр
  • Пушкин, Сергеевич
  • Пушкин

Но вряд ли есть смысл отображать документы, содержащие только:

  • Александр, Сергеевич
  • Александр
  • Сергеевич

То есть в данном запросе шумовыми словами являются Александр и Сергеевич.

Зависимые стоп-слова отличаются тем, что в поисковом запросе их следует учитывать только при наличии в искомом документе значимых ключевых слов. К зависимым стоп-словам можно отнести Александр и Сергеевич из поискового запроса Пушкин Александр Сергеевич.

См. также

Стоп-слова.

© 2014–2023 light-industry-up.ru, Россия, Краснодар, ул. Листопадная 53, +7 (861) 501-67-06