Донецкий техникум промышленной автоматики

"Чудова сімка" ABBYY

ЛІНГВІСТИЧНЕ ПО

FineReader 7.0 розпізнає символи на 25% краще, ніж його попередник

2 вересня компанія ABBYY Software House (www.abbyy.ru) представила ABBYY FineReader 7.0 - систему, що працює під управлінням ОС Windows 98 / Me / 2000 / XP / NT 4.0 (SP 6 або вище) і що дозволяє розпізнавати багатомовні тексти, написані на 177 мовах. Презентація була обставлена ​​за мотивами класичного вестерну "Чудова сімка". Нова система оптичного розпізнавання текстів (Optical Character Recognition, OCR) прийшла на зміну випущеним в минулому році пакету ABBYY FineReader 6.0 (див. PC Week / RE, N 13/2002, с. 14) і пропонується користувачам в двох варіантах: FineReader 7.0 Professional Edition (орієнтовна ціна - $ 129, апгрейд з попередньої версії - $ 89) і ABBYY FineReader 7.0 Corporate Edition ($ 259 і $ 179 відповідно).

0 Corporate Edition ($ 259 і $ 179 відповідно)

Вадим Терещенко пишається тим, що точність розпізнавання

систем FineReader зростає швидше, ніж падає їх продуктивність

У перший з них включені функції, перш доступні тільки в корпоративній версії продукту, наприклад розпізнавання штрих-кодів, повнотекстовий морфологічний пошук, інструменти для розбиття зображення.

Варіант ABBYY FineReader 7.0 Corporate Edition забезпечує всі можливості версії FineReader Professional Edition плюс ряд додаткових функцій:

· Автоматичну установку з сервера на робочі місця (з відстеженням кількості і стану ліцензій на ці програми);

· Розподілену обробку документів і колективну роботу зі словниками;

· Реалізацію різних сценаріїв роботи з мережевими багатофункціональними пристроями;

· Підтримку багатопроцесорних систем і т. Д.

За словами розробників, обидва варіанти (в порівнянні з їх попередниками) завдяки вдосконаленню використовуваних технологій * 1 розпізнають хороші і середні тексти (книги високої якості, листи, видрукувані на лазерних або струменевих принтерах, плоди роботи сучасних копіювальних апаратів і т. Д.) В середньому на 25% краще, а погані (наприклад, газети, надруковані в поганій друкарні і на поганому папері) - навіть на 35%. Що значить краще і по відношенню до чого вважаються ці відсотки? Генеральний директор ABBYY Software House Сергій Андрєєв пояснює, що якість розпізнавання тексту визначається числом символів, які після автоматичного розпізнавання треба підправити вручну. Так ось, якщо при використанні попередньої версії після автоматичного сканування і розпізнавання якоїсь книги доводилося вручну підправляти, покладемо, 100 символів, то з новою версією неправильно розпізнаних символів буде, по всій видимості, всього 75.

_____

* 1Технологіі, що лежать в основі роботи програм сімейства FineReader, відзначені більш ніж сотнею вітчизняних і зарубіжних нагород, в тому числі премією Уряду Російської Федерації (див. PC Week / RE, N 48/2002, с. 1).

Віце-президент по напрямку FineReader компанії ABBYY Software House Вадим Терещенко повідомив, що навчання нової OCR проводилося за допомогою корпоративної бази даних, що містить в цілому близько 7,5 млн. Символів, а при її тестуванні застосовувалася бібліотека хороших, середніх і поганих текстів, написаних на 177 мовах і містять в цілому близько 37 тис. сторінок. Цікаво відзначити, що набір "навчальних символів" і збори тестових сторінок не залишаються застиглими об'єктами, а постійно поповнюються новими елементами - тими буквами і сторінками, які з тих чи інших причин погано розпізнавалися поточною версією FineReader.

Чого ж вдалося досягти? Конкретні цифри назвати важко (адже багато що залежить не тільки від якості текстів, а й від функціональних можливостей використовуваних сканерів), проте розробники кажуть, що на хороших текстах FineReader 7.0 робить приблизно одну помилку на сторінку формату A4, на середніх - одну-дві, на поганих - дві-три.

Стверджується також, що нова версія системи в середньому на 45% краще розпізнає документи, що зберігаються в форматі PDF, і на 33% краще - документи складної верстки (текст на тлі картинок, документи з низькою контрастністю, кольоровий текст на кольоровому тлі і т. Д .), які до сих пір є серйозним випробуванням для будь-якої OCR-системи. Крім того, в систему додані юридичний і медичний словники для англійської та німецької мов, завдяки чому точність розпізнавання спеціалізованих текстів (за тематикою цих словників) збільшилася на 30-40%.

Зрозуміло, ніщо не дається даром: в будь-якому сімействі OCR чим вище точність розпізнавання, тим нижче продуктивність відповідного пакета (число розпізнаних сторінок в одиницю часу). Причому в світовій практиці темпи падіння продуктивності (якщо не звертати уваги на знаки похідних) випереджають темпи зростання точності розпізнавання, т. Е. Твір "точність х продуктивність" з часом зменшується. У продуктах же FineReader воно не тільки не зменшується, але навіть злегка збільшується. Розробники стверджують, що якщо точність розпізнавання їх дітища збільшилася в середньому на 25%, то швидкість роботи впала лише десь на 20%. Однак не треба забувати, що за рік, який минув з анонсування FineReader 6.0, швидкодія "типової моделі ПК" зросла багаторазово.

Ще однією відмінністю нової системи є те, що вона дозволяє зберігати розпізнані документи не тільки в PDF і різних текстових форматах, а також в форматах Microsoft Word 2003 / XP / 2000/97/95 і Microsoft Excel 2003 / XP / 2000/97/95 , але і в форматах Microsoft Word 2003 XML і Microsoft PowerPoint 2003 / XP. Для роботи FineReader 7.0 (на жорсткому диску ця система займає 220 Мб) необхідний процесор з тактовою частотою не менш 200 МГц.

Версія для друку

Що значить краще і по відношенню до чого вважаються ці відсотки?
Чого ж вдалося досягти?