Жизнь без бумаги

2024-04-02

Несмотря на то, что с каждым годом все больше объектов материального мира приобретают цифровую форму, нас всё равно окружает большое количество бумаги: документы, чеки, отчёты, договора и т.д. Для хранения этих бумаг нужно найти место дома, потом организовать удобное хранение, чтобы можно было найти нужную бумагу, не забыть выбросить когда бумага станет не нужна и т.д. Я попробовал сократить количество бумажных документов и вот, что из этого получилось.

История изменений

2024-04-07: Добавил про PDF/A, варианты инструментов под Linux
2024-04-02: Первая версия

Стоит ли овчинка выделки?

Я не раздуваю ли я проблему, которую описал вначале? Я залез в домашний архив, который представляет их себя несколько канцелярских папок, в попытке понять откуда все эти бумаги приходят, какая у них ценность и как можно сократить количество этой бумаги.

Медицинские назначения и выписки

В большинстве случаев врач ведет документацию в электронной медицинской карте (ЭМК), но назначение на лечение, выписку распечатывает на бумаге. В электронном виде вся документация доступна в личном кабинете той клиники, где я обычно лечусь. От большей части медицинской документации можно избавиться и не хранить ее в бумажном виде.

К тому же в России набирает обороты ЭМК, которая в перспективе будет общей для врачей в разных клиниках:

протоколы осмотров врачей (с 2017 года)
результаты лабораторных исследований (с 2019 года)
результаты тестов на covid-19 (с 20 апреля 2020 года)
информация о вакцинации ребенка (детей) (при условии получения доступа к его (их) ЭМК)
информация о госпитализациях в стационарные медицинские организации (с 01 сентября 2023 года)
результаты инструментальных исследований (с 2019 года, но некоторые виды исследований доступны и за более ранние периоды)
информация выписных эпикризов стационарных отделений (с 2019 года)
дневники здоровья

Звучит очень круто. Можно будет сократить количество бумаги за счет введения электронной медкарты. Для москвичей доступ к электронной медкарте можно оформить на mos.ru и воспользоваться ей в lk.emias.mos.ru. В Т-Ж была хорошая статья про эл. медкарты.

Так как электронная медкарта содержит не всю меддокументацию, то приходится часть бумаг все равно хранить дома в бумажном виде. Редко, но все же бывают случаи, когда нужно к ней обратиться.

Трудовые документы

У меня с каждого места работы накопились трудовые договора и допники к ним. Выкинуть нельзя, потому что это юридические документы и они могут пригодиться. Не знаю ни одного случая когда бы мне пригодилась информация из этих договоров. В основном все необходимое есть в трудовой книжке.

Товарные чеки и документы на покупки

Отдельная канцелярская папка у меня выделена под бумаги из этой категории. И непонятно что с ними делать: если электроника сломается, то надо везти ее в сервис-центр, который спросит гарантийный талон. Без него чинить прийдется за свои деньги. Истекшие гарантийные талоны можно выбросить, но для этого надо знать какие и сколько надо хранить. Чаще всего эти бумаги не пригождаются, но иногда надо быстро узнать осталась гарантийка на электронику или нет без копания в бумагах.

Еще есть кассовые чеки, которые лучше хранить. Несколько раз меня такие сохраненные чеки выручали, когда услугу отказывались предоставить при полной оплате и надо было оформить судебный иск. Места для хранения такие чеки занимают мало, но искать в них что-либо неудобно. С 2022 года ФНС поддерживает сайт lkdr.nalog.ru, где хранятся чеки онлайн. Можно добавить чеки, которые не добавились автоматически, если сфотографировать QR-код на бумажном чеке. Выглядит удобно, но насчёт юридической силы такого электронного чека ничего не знаю.

Получается, что частично можно избавиться от бумаги, но все равно часть останется и было бы удобно иметь к ней оперативный доступ.

Книги

Раз уж я пишу про бумагу, то мимо книг пройти нельзя. Я пока не готов полностью отказаться от книг. У меня есть бумажная библиотека и есть электронная библиотека. В электронном варианте удобно искать, а читать все-таки удобнее бумажный вариант. Некоторые люди полностью или частично отказываются от бумажных книг и заменяют их электронными копиями. Это не про меня.

Перевод бумаги в цифровую форму

Очевидный вариант - сканирование бумажных документов. Популярный вариант у тех, кто решил сократить количество бумаги в своей жизни (см. в конце статьи ссылки на истории других людей). Планшетный сканер покупать необязательно, можно обойтись компактным вариантом: Doxie Go, Fujitsu ScanSnap S1500, Ricoh ScanSnap S1300i, S1500M или iX1300, Brother ADS-1700W, ScanSnap iX100 LED Mobile Scanner или аналогичные модели.

ScanSnap iX100 LED Mobile Scanner

Еще один вариант это сканирование с помощью телефона. Есть много приложений, которые позволяют сфотографировать документ и скорректировать все огрехи. Я не стал покупать сканер и выбрал вариант с оцифровкой с помощью телефона. Популярные варианты приложений: Adobe Scan, JotNot, Google Drive, Microsoft Lens и другие. Мне понравился Google Drive, тем более что он предустановлен на мой телефон, но он позволяет сохранить только в Гугл Диск и не позволяет экспортировать в другие приложения. Поэтому пока использую Adobe Scan.

Отдельно стоит сказать про формат электронных документов. Самый популярный формат для этой цели - PDF. Но лучше хранить в формате PDF/A, это специальная версия PDF для архивов и длительного хранения электронных документов. В Linux использование формата PDF/A не редкость - из тех, что я нашёл его поддерживают ocrmypdf, LibreOffice, pdfinfo (пакет poppler-utils), gs (пакет ghostscript).

Уничтожение бумажной копии документа

Если электронный вариант полностью заменяет бумажный, то от бумажной копии можно избавиться. В таком случае удобно дома обзавестись шредером, чтобы не рвать каждый документ вручную. Личного опыта нет, я перед выбрасыванием каждую бумажку рву на клочки.

OCR

Чтобы по отсканированным документам можно было искать текст надо распознать текст (OCR) в этих документах и связать оригинальный документ с распознанным текстом.

Каждый оцифрованный документ у меня загружается на личный компьютер с помощью Syncthing, который я использую для синхронизации файлов. Дальше каждый документ оцифровывается с помощью tesseract.

Для распознавания текста в Linux самым популярным считается tesseract Помимо него есть еще CuneiForm, OCRopus, но насколько я знаю, они проигрывают по качеству tesseract. В tesseract есть поддержка большого количества языков и в том числе русского, тем не менее по моему опыту качество OCR сильно хромает. Как вариант можно использовать отечественный проприетарный ABBYY FineReader, который очень хорошо распознаёт текст. Ещё есть dotCR, который использует машинное обучение, но я его не успел попробовать.

Перед распознованием текста отсканированные изображения рекомендуется обрабатывать для получения лучшего результата. Это можно сделать с помощью ExactImage и unpaper, помимо них есть еще GUI альтернативы. Например normcap.

Популярным форматом файлов, который генерирует OCR в результате работы, это hOCR. Это XML файл, в котором описаны координаты всех областей оригинального документа и текст, который в этой области содержится. Файл hOCR можно добавить отдельным слоем в оригинальный PDF файл с помощью hocr2pdf и тогда по этому файлу можно будет искать.

Весь процесс сканирования, препроцессинга, распознавания текст документа и постпроцессинга в терминале может выглядеть так:

$ scanimage --mode gray --resolution 300 > scan.pnm   # сканирование
$ unpaper -b 0.5 -w 0.8 -l single scan.pnm scan1.pnm  # автоматический препроцессинг
$ convert scan1.pnm scan.tif                          # tesseract принимает файлы в формате TIFF
$ tesseract scan.tif scan.hocr -l ru hocr             # распознавание русского текста
$ spell scan.txt                                      # исправление опечаток
$ hocr2pdf -i scan.tiff -o scan.pdf < scan.hocr       # добавление распознанного текста отдельным слоем в PDF

OCRmyPDF автоматизирует весь этот процесс.

Поиск в оцифрованных копиях

На компьютере я использую recoll, который и запустит распознавание найденных документов и проиндексирует распознанный текст и поможет найти нужный документ. Пока не все идеально - текст не всегда хорошо распознается (см. выше про tesseract), надо попробовать dotCR или другие варианты.

Резервные копии

Так как для некоторые бумажные артефакты теперь существуют только в электронной копии, то создание резервных копий просто небходимо.

Мне дополнительно ничего не пришлось для этого делать, потому что я давно использую restic для создания бэкапов и пару раз меня эти бэкапы уже выручали. Так как все оцифрованные документы остаются у меня на личном компьютере, то все они попадают в резервные копии автоматически.

Выводы

У меня получилось снизить объём хранимой бумаги, т.е. стать немного paperless, так ещё и сделать это без использования специального софта для этого (т.е. serverless). Но вообще для перехода на организации персонального электронного документооборота можно использовать специализированный софт: Docspell, Paperless-NG, papermerge.

Опыт других людей

Теги: me