Домой Добро пожаловать, Guest   | Вход   
  Поиск  
 
   
  Главная  | Правила  | Последние сообщения  | Список форумов  | Список пользователей  | Зарегистрироваться  | Поиск  | RSS feeds


Перейти: »
Статус темы: Нормальная
Количество сообщений по данной теме: 7
[Добавить в Избранное] [Подписаться на эту тему] [Создать новую тему]
Автор
Предыдущая тема Эта тема просматривалась 1030 раз и имеет 6 ответов Следующая тема
Муж. AntonMIEA


Россия
Зарегистрирован: 17.03.2017
Количество сообщений: 1
Статус: Offline

NormaCS PRO 2.5.27.222 поиск по pdf Ответить
Ответить с цитированием

Добрый день!

Проблема такая:

Прикрепляем к карточке распознанный PDF, ищем в поиске по тексту документа слово/число из документа - документ не находится.

Как заставить работать полнотекстовый поиск по PDF?
[17.03.2017 10:07:19] Показать версию для печати        Отправить личное сообщение    Спрятано для Guest [Ссылка] Сообщить о зловредном сообщении: залогинтесь, пожалуйста  Перейти наверх 
Муж. guest7
Ветеран
Аватар


Зарегистрирован: 18.04.2007
Количество сообщений: 337
Статус: Offline
Re: NormaCS PRO 2.5.27.222 поиск по pdf Ответить
Ответить с цитированием

Для того, чтобы документ индексировался в системе нужно не просто распознанный pdf, а отдельный файл с текстовым слоем, который загружается в систему.
Этот файл создается специальной утилитой, которая требует отдельного лицензирования (и покупки, соответственно).
Условия можно узнать в дилерском центре.

Другой способ, загрузить текстовый вид документа в базу.
[20.03.2017 6:56:48] Показать версию для печати        Отправить личное сообщение [Ссылка] Сообщить о зловредном сообщении: залогинтесь, пожалуйста  Перейти наверх 
Муж. znatok
Заслуженный участник



Зарегистрирован: 13.09.2011
Количество сообщений: 165
Статус: Offline

Re: NormaCS PRO 2.5.27.222 поиск по pdf Ответить
Ответить с цитированием

а почему бы вместо сканов (.tif) не заводить в базу .pdf (не сканы) ? ведь поиск по ним идет прекрасно...
[07.04.2017 5:36:44] Показать версию для печати        Отправить личное сообщение [Ссылка] Сообщить о зловредном сообщении: залогинтесь, пожалуйста  Перейти наверх 
Муж. snip
Гуру
Аватар

Россия
Зарегистрирован: 21.09.2005
Количество сообщений: 3129
Статус: Offline
Re: NormaCS PRO 2.5.27.222 поиск по pdf Ответить
Ответить с цитированием

znatok писал(a):
а почему бы вместо сканов (.tif) не заводить в базу .pdf (не сканы) ? ведь поиск по ним идет прекрасно...

На мой взгляд поиск по tif организован лучше - учитываются склонения/спряжения русского языка, а в pdf поиск будет только побуквенно наложением "маски" что явно недостаточно.
----------------------------------------
без подписи
[07.04.2017 5:48:01] Показать версию для печати        Отправить личное сообщение [Ссылка] Сообщить о зловредном сообщении: залогинтесь, пожалуйста  Перейти наверх 
Муж. guest7
Ветеран
Аватар


Зарегистрирован: 18.04.2007
Количество сообщений: 337
Статус: Offline
Re: NormaCS PRO 2.5.27.222 поиск по pdf Ответить
Ответить с цитированием

znatok писал(a):
а почему бы вместо сканов (.tif) не заводить в базу .pdf (не сканы) ? ведь поиск по ним идет прекрасно...

Не совсем так, поиск существенно зависит от того как сделан конкретный PDF. В принципе, даже наличие текстового слоя внутри не гарантирует ни способ кодировки, ни возможность его использования. Например, очень часто для экономии места при встраивании в PDF фонтов все перекодируется, чтобы оставить только фонты использованных букв, в результате, каждая буква получает новый код. Поиск внутри таких PDF невозможен.
Чтобы избежать зависимости от таких случаев в NormaCS используется свой собственный текстовый слой, который одинаково работает как с форматом TIFF, так и c PDF (даже со сканом внутри), и с DJVU.
[07.04.2017 5:57:37] Показать версию для печати        Отправить личное сообщение [Ссылка] Сообщить о зловредном сообщении: залогинтесь, пожалуйста  Перейти наверх 
Муж. znatok
Заслуженный участник



Зарегистрирован: 13.09.2011
Количество сообщений: 165
Статус: Offline

Re: NormaCS PRO 2.5.27.222 поиск по pdf Ответить
Ответить с цитированием

я имею в виду "обычные" pdf - сделанные либо из Word, либо "типографские" (PS)
поиск по ним всяко лучше, чем по tif
да и места они много меньше занимают... то есть все операции в базе будут с ними быстрее (распаковка и т.д.)
[14.04.2017 7:08:11] Показать версию для печати        Отправить личное сообщение [Ссылка] Сообщить о зловредном сообщении: залогинтесь, пожалуйста  Перейти наверх 
Муж. snip
Гуру
Аватар

Россия
Зарегистрирован: 21.09.2005
Количество сообщений: 3129
Статус: Offline
Re: NormaCS PRO 2.5.27.222 поиск по pdf Ответить
Ответить с цитированием

znatok писал(a):
я имею в виду "обычные" pdf - сделанные либо из Word, либо "типографские" (PS)
поиск по ним всяко лучше, чем по tif
да и места они много меньше занимают... то есть все операции в базе будут с ними быстрее (распаковка и т.д.)

Дублирую ранее сказанное:
На мой взгляд поиск по tif организован лучше - учитываются склонения/спряжения русского языка, а в pdf поиск будет только побуквенно наложением "маски" что явно недостаточно.
----------------------------------------
без подписи
[14.04.2017 7:15:07] Показать версию для печати        Отправить личное сообщение [Ссылка] Сообщить о зловредном сообщении: залогинтесь, пожалуйста  Перейти наверх 
[Показать версию для печати] [Создать новую тему]

  Rambler's Top100 ¥©â¨­£@Mail.ru