tesseract_integration by Dariiiii · Pull Request #656 · moevm/document_insight_system

Dariiiii · 2025-03-20T23:20:00Z

No description provided.

HadronCollider · 2025-04-10T12:59:44Z

@Dariiiii точно ли тут должен удаляться этот файл (т.е. фактически результат #647)?

HadronCollider

Влейте сюда изменения по комментариям из #647

HadronCollider · 2025-04-10T14:30:25Z

+        while time.time() - start_time < self.max_wait_time:
+            task_result = AsyncResult(task_id)
+            if task_result.state == 'SUCCESS':
+                recognized_text = task_result.result
+                recognized_text = re.sub(r'\s+', ' ', recognized_text)
+                image.text = recognized_text
+                add_image_text(task_id, recognized_text)
+                return recognized_text.strip()
+            time.sleep(1)


кажется, подобный подход ожидания не самый лучший (мы по факту блокируем всю проверку / очередь) - можно ли сделать "заглушку" (по типу фидбека "проверяется" в этой проверке), а в celery-задаче с тессерактом после распознавания и обработки - обновлять данные в БД проверки? но стоит добавить какую-то проверку, не слишком ли долго тессеракт обрабатывает картинку или вообще её не выполнил (чтобы обновить фидбек/результат критерия в соответствии со сложившейся ситуацией)

HadronCollider · 2025-04-22T21:27:40Z

        'is_failed': False,
-        'params_for_passback': current_user.params_for_passback
+        'params_for_passback': current_user.params_for_passback,
+        'tesseract_result': -1


Чтобы не "обременять" модель проверки результатом тессеракта (он вероятно может быть большим и конкретно к проверке может не относиться - это больше характеристика файла) - вынесите в отдельную коллекцию - в неё же будет писать celery-задача и смотреть задачи по проверке - так же уйдут заполнения поля -1 и получением данных из бд на этапе формирования check
связь по check id

HadronCollider · 2025-04-22T22:00:43Z

+}
+
+@celery.task(name="tesseract_recognize", queue='tesseract-queue', bind=True, max_retries=MAX_RETRIES, soft_time_limit=TASK_SOFT_TIME_LIMIT)
+def tesseract_recognize(self, check_id):


при подобном запуске теряется возможность устанавливать параметры из критерия - остаются только захардкоженые from main.checks.report_checks.image_text_check import SYMBOLS_SET, MAX_SYMBOLS_PERCENTAGE, MAX_TEXT_DENSITY

может быть можно запускать эту задачу из критерия, а не при извлечении изображений / загрузке файла, либо собирать только информацию по анализу изображений, а формировать полноценный фидбек в самом критерии?
(при втором варианте появляется зависимость от скорости работы тессеракта - "успеет ли он обработать изображения до начала проверки по критерию" плюс не совместим с текущим асинхронным подходом к обработке тессеракта -- поэтому насчет него не уверен)

HadronCollider · 2025-04-22T22:03:46Z

+                if self.laplacian_score < self.min_laplacian:
+                    deny_list.append(f"Изображение с подписью '{img.caption}' имеет низкий показатель лапласиана: {self.laplacian_score} (минимум {self.min_laplacian}).<br>")
+
+                if self.entropy_score < self.min_entropy:
+                    deny_list.append(f"Изображение с подписью '{img.caption}' имеет низкую энтропию: {self.entropy_score} (минимум {self.min_entropy}).<br>")


ограничьте точность величин до сотых, чтобы избежать подобного

HadronCollider

Пока оставил комментарии только по модели - остальной код по мере обновлений / необходимости

Одна из мыслей - расширить данные о файле (сейчас она почти не используется и поверхностная), добавив туда агрегированные данные по всем изображениям в нем ()

HadronCollider · 2025-12-01T14:16:34Z

        is_failed = none_to_false(self.is_failed)  # None for old checks => False, True->True, False->False
        return {'is_ended': is_ended, 'is_failed': is_failed}
+
+class Image(PackableWithId):


Мы планируем уйти от PackableWithId в сторону "нормальной" mongo document model (с указанием типов полей и прочего), поэтому предлагаю новые модели делать с помощью них (поддержав нужны операции)

HadronCollider · 2025-12-01T14:18:51Z

+    def __init__(self, dictionary=None):
+        super().__init__(dictionary)
+        dictionary = dictionary or {}
+        self.check_id = dictionary.get('check_id')  # Привязка к check_id


Возможно тут стоит сохранять и id документа - 99% уверенности, что у него сейчас ID одинаковый с проверкой, но в будущем возможны изменения (и тогда документ будет, например, один, а проверок с ним несколько), сохранить изображения хватит один раз именно для документа

HadronCollider · 2025-12-01T14:20:30Z

+        dictionary = dictionary or {}
+        self.check_id = dictionary.get('check_id')  # Привязка к check_id
+        self.caption = dictionary.get('caption', '')  # Подпись к изображению
+        self.image_data = dictionary.get('image_data')  # Файл изображения в формате bindata


Полезный момент на будущее - добавить checksum на случай дубликатов (чтобы одна одинаковая фотка в 100 отправок / отчетах нам не занимала лишнее место и ресурсы на обработку)

HadronCollider · 2025-12-01T14:30:54Z

+        self.caption = dictionary.get('caption', '')  # Подпись к изображению
+        self.image_data = dictionary.get('image_data')  # Файл изображения в формате bindata
+        self.image_size = dictionary.get('image_size')  # Размер изображения в сантимерах
+        self.text = dictionary.get('text', None)


Возможно, обсуждали это ранее - есть мысли, что требующиеся нам метрики изображений (читаемость, плотность текста, пр) стоит сделать сразу при распознавании и хранить либо в документе изображения (как и сам полученный текст), либо в отдельной коллекции

…ment_insight_system into tesseract-integration

HadronCollider · 2026-04-29T10:24:59Z

        is_failed = none_to_false(self.is_failed)  # None for old checks => False, True->True, False->False
        return {'is_ended': is_ended, 'is_failed': is_failed}
+
+class Image:


Напоминаю о том, что новые модели БД надо делать через https://pymodm.readthedocs.io/en/latest/api/#pymodm.MongoModel

HadronCollider · 2026-04-29T10:27:45Z

+                    if "graphic" in run._element.xml:
+                        image_streams = run._element.findall('.//a:blip', namespaces={
+                            'a': 'http://schemas.openxmlformats.org/drawingml/2006/main'})
+                        for image_stream in image_streams:
+                            embed_id = image_stream.get(
+                                '{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed')
+                            if embed_id:
+                                image_found = True
+                                image_part = self.file.part.related_parts[embed_id]
+                                image_data = image_part.blob
+                                extent = run._element.find('.//wp:extent', namespaces={
+                                'wp': 'http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing'})
+                                width_cm = height_cm = None
+                                if extent is not None:
+                                    width_cm = int(extent.get('cx')) / emu_to_cm
+                                    height_cm = int(extent.get('cy')) / emu_to_cm


Вынесите логику поиска в отдельную функцию (возвращающую нужный вам Namespace с полями) + строки-схемы в константы (хотя бы на уровне данного модуля), чтобы их было проще контролировать

HadronCollider · 2026-04-29T11:20:11Z

+        super().__init__(dictionary)
+        dictionary = dictionary or {}
+        self.filename = dictionary.get('filename', '')
+        self.parsed_chapters = dictionary.get('parsed_chapters', [])


Чтобы заранее определить структуру "parsed_chapters" (а не вспоминать потом, как она выглядит и что в ней лежит) используйте pymodm.EmbeddedMongoModel (не будет создавать отдельную коллекцию, но позволит описать структуру одного раздела / списка разделов) - об этом тоже ранее говорил

HadronCollider · 2026-04-29T11:21:26Z

Исправьте название модуля (папки) app/main/reports/pasre_file/parse_file.py

HadronCollider · 2026-04-29T11:22:31Z

+        if "СОДЕРЖАНИЕ" in text:
+            continue


Вынесите в константу (на уровне модуля) + сделайте кортежем, т.к. в будущем может понадобится пропускать и другие разделы

HadronCollider · 2026-04-29T11:23:46Z

+    chapters = []
+    for chapter in docx.chapters:
+        head = chapter["styled_text"]["text"]
+        if "ПРИЛОЖЕНИЕ" in head:


Аналогично комментарию выше про содержание

HadronCollider · 2026-04-29T11:25:00Z

+    return chapters
+
+
+def parse_chapters(docx):


насколько отличается от DocxUploader.make_chapters, можно ли привести всё к одному формату разделов (или преобразовать результат одной функции в нужный формат)?

Опасение простое - чем больше мест, где мы парсим файлы (по-разному или одинаково), тем сложнее потом их менять

HadronCollider · 2026-04-29T11:27:23Z

Создайте app/celery_tasks и перенесите туда все модули с celery-задачами (т.к. их становится всё больше - лучше держать обособленно)

HadronCollider · 2026-04-29T11:28:07Z

+TASK_RETRY_COUNTDOWN = 30
+SOFT_TIME_LIMIT_FOR_CALLBACK = 30
+MAX_RETRIES = 1
+TASK_SOFT_TIME_LIMIT = 120


Можно ли вынести в отдельный celery-конфиг для этого модуля? + возможно туда же настройки про тессеракт

HadronCollider · 2026-04-29T11:29:11Z

    cpuset: ${CONTAINER_CPU:-0-1}
+
+  tesseract_worker:
+    image: document_insight_system_image


замените на dis:worker-image-${IMAGE_VERSION} (логика образов была немного обновлена) - из-за этого пока CI будет падать

HadronCollider · 2026-04-29T13:55:38Z

Для новых моделей БД и методов организуйте всё согласованно с #585 (в отдельных модулях модели, в отдельных методы) - по возможности, вмержите ветку из PR к себе (там немного конфликтов, но они затрагивают вашу новую логику - не стал трогать)

ardnaxelas and others added 8 commits September 28, 2024 00:45

v1

d6b163c

v1.1

88f199c

v2: edit cases

5ecde02

prototype: images readability check

52d1afe

fix image_quality_check

e783ed9

v1 image_quality_check

5cc96ec

tesseract prototype

c15f5ab

TODO: Implement Tesseract-based text check

f645a68

github-actions Bot added the has conflicts if new merge has conflicts label Mar 23, 2025

Dariiiii added 2 commits April 2, 2025 23:33

tesseract check v1

40cfc2d

add TASK_SOFT_TIME_LIMIT

b7acfcd

HadronCollider force-pushed the master branch from 9c1a610 to eb5d8e6 Compare April 8, 2025 18:58

Merge branch 'master' into image_check

456e238

HadronCollider reviewed Apr 10, 2025

View reviewed changes

HadronCollider requested changes Apr 10, 2025

View reviewed changes

HadronCollider mentioned this pull request Apr 11, 2025

Парсинг картинок из презентаций #25

Closed

Dariiiii and others added 7 commits April 14, 2025 22:25

first fix

89ee03b

trial version

c59c475

correction of tesseract

3f25405

Merge branch 'master' into tesseract-integration

7906f70

fix update_tesseract_criteria_result

7c195c8

update 469_extend_data_storage_model

40f51be

Merge branch 'image_check' into tesseract-integration

5fa3014

HadronCollider mentioned this pull request Apr 22, 2025

image_quality_check #647

Closed

update docker base tag

24eb092

HadronCollider requested changes Apr 22, 2025

View reviewed changes

HadronCollider added 2 commits April 23, 2025 01:26

Merge remote-tracking branch 'origin/master' into tesseract-integration

fc8e0c1

Merge branch 'master' into tesseract-integration

d05230a

github-actions Bot removed the has conflicts if new merge has conflicts label Apr 22, 2025

correction of comments

57bee01

Dariiiii and others added 4 commits April 24, 2025 22:23

remove the typo

3b18e36

fix bug

050163a

Merge branch 'master' into tesseract-integration

3f3ef52

update tesseract_worker volume

5796e5f

HadronCollider reviewed Dec 1, 2025

View reviewed changes

github-actions Bot added the has conflicts if new merge has conflicts label Dec 6, 2025

Dariiiii added 3 commits March 3, 2026 21:53

Merge remote-tracking branch 'origin/master' into tesseract-integration

227031d

Merge remote-tracking branch 'origin/master' into tesseract-integration

721059b

Merge branch 'tesseract-integration' of https://github.com/moevm/docu…

a2033eb

…ment_insight_system into tesseract-integration

github-actions Bot removed the has conflicts if new merge has conflicts label Mar 10, 2026

correction of comments

87337fc

Dariiiii added the need_review label Mar 13, 2026

github-actions Bot added the has conflicts if new merge has conflicts label Mar 16, 2026

Merge branch 'master' into tesseract-integration

de68188

github-actions Bot removed the has conflicts if new merge has conflicts label Apr 28, 2026

fix description attribute name

5dc1430

github-actions Bot added the has conflicts if new merge has conflicts label Apr 29, 2026

Merge branch 'master' into tesseract-integration

f6258b6

github-actions Bot removed the has conflicts if new merge has conflicts label Apr 29, 2026

HadronCollider requested changes Apr 29, 2026

View reviewed changes

HadronCollider added Changes requested and removed need_review labels May 1, 2026

github-actions Bot added the has conflicts if new merge has conflicts label May 4, 2026

Conversation

Dariiiii commented Mar 20, 2025

Uh oh!

Choose a reason for hiding this comment

Uh oh!

HadronCollider left a comment

Choose a reason for hiding this comment

Uh oh!

HadronCollider Apr 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

HadronCollider Apr 22, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

HadronCollider left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

HadronCollider Apr 29, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

HadronCollider commented Apr 29, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

HadronCollider Apr 10, 2025 •

edited

Loading

HadronCollider Apr 22, 2025 •

edited

Loading

HadronCollider Apr 29, 2026 •

edited

Loading

HadronCollider commented Apr 29, 2026 •

edited

Loading