Balabolka (Text Extract Utility), version 1.95 Copyright (c) 2013-2020 Ilya Morozov All Rights Reserved WWW: http://balabolka.site/it/btext.htm E-mail: crossa@list.ru Licenza: gratuita Sistema operativo: Microsoft Windows XP/Vista/7/8/10 Il programma permette di estrarre il testo da vari tipi di file. Il testo estratto può essere riunito in un singolo file e/o suddiviso in vari file. Al testo possono essere applicate le regole dei dizionari di correzione della pronuncia del programma Balabolka. Formati supportati per i file di ingresso: AZW, AZW3, CHM, DjVu (DjVu+OCR), DOC, DOCX, EPUB, FB2 (FB2.ZIP, FBZ), FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX. L'interfaccia IFilter verrà utilizzata per i file con estensione sconosciuta. *** Riga di comando *** blb2txt [opzioni ...] *** Opzioni della riga di comando *** -f Nome del file o specificazione del gruppo di file da cui si estrae il testo. La riga di comando può contenere varie opzioni [-f]. -v Nome della cartella in cui salvare il file con il testo estratto. -p Schema del nome di file con il testo estratto (ad esempio "Documento"). In sua assenza viene usato il nome del file in ingresso. Usare la variabile %FileName% per inserire il nome del file in ingresso nel nome del file in uscita. Usare la variabile %FirstLine% per inserire la prima riga di testo nel nome del file di uscita. Usare la variabile %Header% per inserire il titolo del capitolo. Usare la variabile %Number% per cambiare la posizione del numero di sequenza entro il nome del file di uscita. Attenzione! È necessario raddoppiare ogni carattere di percentuale (%) in uno script batch. Ad esempio: -p %%FirstLine%% -out Imposta il nome completo per il file di uscita. L'opzione è raccomandata solo quando l'utility viene usata come parte di un altro software. Se l'utility viene usata per personalizzare l'importazione di documenti, il programma esterno avvia l'utility da una riga di comando e fornisce il nome completo di un file di testo da generare. -s Cerca nelle sottocartelle i file in ingresso. -i Legge il testo dal flusso in ingresso (STDIN). Se si specifica questa opzione, l'opzione [-f] è ignorata. -o Scrive il testo estratto nel flusso di uscita (STDOUT). Se si specifica questa opzione, le opzioni [-v] e [-p] sono ignorate. -u Riunisce il testo di vari file in un file singolo. -b Aggiunge un numero progressivo all'inizio del nome del file di uscita. -a Aggiunge un numero progressivo alla fine del nome del file di uscita. -n Imposta il numero iniziale della sequenza dei file di uscita. Il valore predefinito è 1. -e Codifica dei file con il testo estratto ("ansi", "utf8" o "unicode"). Il valore predefinito è "ansi". -t Divide il testo destinazione specificando la grandezza delle parti (as a number of characters). -k Divide il testo in ingresso sulla particolare parola chiave. L'opzione distingue maiuscole/minuscole. La riga di comando può contenere varie opzioni [-k]. -r Divide il testo in ingresso sulla parola chiave e la rimuove. L'opzione distingue maiuscole/minuscole. La riga di comando può contenere varie opzioni [-r]. -w Divide il testo su due righe vuote consecutive. -l Divide il testo sulle righe in cui tutte le lettere sono maiuscole. -c Divide il testo secondo un indice. L'applicazione estrae le posizioni di inizio capitolo dal testo in ingresso (se il file contiene tale informazione). -toc Genera un sommario e divide il testo. L'applicazione divide il testo estratto per parole chiave (come "capitolo"). Se l'opzione viene usata insieme con l'opzione [-c], l'applicazione tenterà di estrarre un sommario dal documento; se fallisce, verrà generato un nuovo sommario. -m Imposta la grandezza minima delle parti di testo per la divisione, espressa come numero di caratteri. -j Ignora l'inizio di capitolo se la grandezza del capitolo precedente è minore del valore specificato (in caratteri). L'opzione si usa insieme con l'opzione [-c] e [-toc]. -hh Inserisce il testo davanti alle intestazioni. (ad esempio: ## Capitolo 1). -d Usa un dizionario per la correzione della pronuncia (*.BXD, *.DIC o *.REX). La riga di comando può contenere varie opzioni [-d]. -if Usa l'interfaccia IFilter per estrarre il testo. Se non funziona, il metodo predefinito verrà usato dall'applicazione. -g Imposta il nome della cartella di uscita per il salvataggio delle immagini da un documento. -cvr Imposta il nome della cartella di uscita per il salvataggio dell'immagine di copertina di un libro. -x Imposta il tipo di file in ingresso. Permette di definire un formato per i documenti in ingresso aventi nome di file con estensione sconosciuta. Ad esempio: -x doc -pwd Specifica la password per estrarre il testo da un file PDF cifrato. -? o -h Mostra l'elenco delle opzioni disponibili nella riga di comando. --remove-spaces o -rs Elimina gli spazi superflui (due o più spazi bianchi consecutivi, spazi indivisibili). --remove-hyphens o -rh Elimina i trattini di sillabazione alla fine delle righe del testo. --remove-linebreaks o -rl Elimina le interruzioni di riga entro i paragrafi. --remove-empty-lines o -rm Elimina le righe vuote. --replace-empty-lines o -rp Sostituisce più righe vuote con una singola riga vuota. --remove-square-brackets o -rsb Elimina il testo racchiuso fra [parentesi quadre]. --remove-curly-brackets o -rcb Elimina il testo racchiuso fra {parentesi graffe}. --remove-angle-brackets o -rab Elimina il testo racchiuso fra . --remove-round-brackets o -rrb Elimina il testo racchiuso fra (parentesi tonde). --remove-comments o -rc Elimina i commenti. I commenti su riga singola iniziano con // e continuano fino alla fine della riga. I commenti su più righe iniziano con /* e terminano con */. --remove-page-numbers o -rpn Elimina i numeri di pagina (può essere utile per file di tipo DjVu/PDF). --fix-ocr-errors o -ocr Corregge gli errori dovuti all'OCR (solo per lingue con alfabeto cirillico). --fix-letter-spacing o -ls Corregge la spaziatura fra lettere nelle parole (ad esempio: s p a c e, _w_o_r_d). --add-period o -ap Aggiunge un punto se non c'è alcun segno di punteggiatura dopo l'ultima parola del paragrafo. --extract-summary o -es Estrae un sommario (chiamato anche "Annotation") dai file FB2/FB3 e lo inserisce all'inizio del testo. Valori possibili per il parametro intero: 0 omette il sommario (questo valore è usato per impostazione predefinita); 1..5 estrae un sommario (il valore determina l'ordine in cui elencare il nome dell'autore e il titolo del libro). --skip-notes o -sn Salta le note, quando l'applicazione estrae il testo dai file DOCX/FB2/FB3/MD/ODT. --include-notes o -in Include le note entro il testo, quando l'applicazione estrae il testo da file di tipo DOCX/FB2/FB3/MD/ODT. Valori possibili per il parametro numero_intero: 0 elimina dal testo i richiami alle note; 1 mantiene le normali posizioni delle note entro il testo (questo valore è usato per impostazione predefinita); 2 pone le note alla fine delle frasi; 3 pone le note alla fine dei paragrafi. --insert-note-begin o -inb Inserisce parole all'inizio delle note, quando le note sono incluse entro il testo (ad esempio: Nota dell'editore.). L'opzione è usata per file di tipo DOCX/FB2/FB3/MD/ODT. --insert-note-end o -ine Inserisce parole alla fine delle note, quando le note sono incluse entro il testo (ad esempio: Fine della nota.). L'opzione è usata per file di tipo DOCX/FB2/FB3/MD/ODT. --csv-comma Le colonne sono separate da una virgola, quando l'applicazione estrae i dati dai file XLS/XLSX/ODS (delimitatore predefinito per i file CSV). --csv-semicolon Le colonne sono separate da un punto e virgola, quando l'applicazione estrae i dati da file XLS/XLSX/ODS. --csv-space Le colonne sono separate da uno spazio vuoto, quando l'applicazione estrae i dati da file XLS/XLSX/ODS. --csv-tab Le colonne sono separate da un carattere tab, quando l'applicazione estrae i dati da file XLS/XLSX/ODS. --csv-double-quote Usa virgolette doppie, se un campo deve essere virgolettato (esportazione dai file XLS/XLSX/ODS). --csv-single-quote Usa virgolette singole, se un campo deve essere virgolettato (esportazione dai file XLS/XLSX/ODS). --eml-save Estrae gli allegati dai file di tipo EML e li salva nella cartella specificata. --eml-att Estrae l'elenco degli allegati dai file di tipo EML (nomi dei file allegati al messaggio). --eml-cc Estrae il campo "Cc" dall'intestazione dei file di tipo EML ("carbon copy"; esso specifica destinatari aggiuntivi del messaggio). --eml-date Estrae il campo "Date" dall'intestazione dei file di tipo EML (data e ora locale di composizione e invio del messaggio). Il formato della data è definito mediante specificatori (quali "d", "m", "y", eccetera.). For example: "dd.mm.yyyy hh:nn:ss". --eml-from Estrae il campo "From" dall'intestazione dei file di tipo EML (l'indirizzo email e facoltativamente il nome dell'autore). --eml-org Estrae il campo "Organization" dall'intestazione dei file di tipo EML (il nome dell'organizzazione tramite cui il mittente del messaggio ha accesso alla rete). --eml-rt Estrae il campo "Reply-To" dall'intestazione dei file di tipo EML (l'indirizzo cui sono destinate le risposte). --eml-subj Estrae il campo "Subject" dall'intestazione dei file di tipo EML (l'oggetto del messaggio). --eml-to Estrae il campo "To" dall'intestazione dei file di tipo EML (l'indirizzo email e facoltativamente il nome deldestinatario del messaggio). *** Esempi *** blb2txt -f "d:\Docs\Libro.doc" -v "d:\Text\" blb2txt -f "d:\Docs\Libro.doc" -out "d:\Text\Libro.txt" blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Document" -u blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Document" -a -n 20 -t 100000 blb2txt -f "d:\Book\libro.fb2" -v "d:\Text\" -p "Libro" -k "CAPITOLO" -k "SOMMARIO" blb2txt -f "d:\Book\libro.epub" -v "d:\Text\" -p "Libro" -r "###" blb2txt -f "d:\Book\libro.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -j 1024 blb2txt -f "d:\Docs\libro.doc" -v "d:\Text\" -d "d:\rex\regole.rex" -d "d:\dic\regole.dic" --remove-spaces --remove-linebreaks blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines *** File di configurazione *** Le opzioni della riga di comando possono essere registrate nel file "blb2txt.cfg" nella stessa cartella del programma. Esempio di file di configurazione: ===================== -f d:\Docs\*.rtf -f d:\Books\*.epub -f d:\Books\*.fb2 -v d:\Text -b -n 1 -t 25 -e utf8 -d d:\Dict\regole.bxd --remove-spaces --remove-linebreaks --replace-empty-lines ===================== Il programma può combinare le opzioni del file di configurazione con quelle della riga di comando. *** Operazioni *** Il programma compie le operazioni nell'ordine seguente: 1. Estrarre il testo dal/dai file in ingresso. 2. Formattare il testo: eliminare spazi superflui, interruzioni di riga, etc. (se le opzioni sono specificate). 3. Riunire più file in un singolo file (se l'opzione è specificata). 4. Dividere il testo (se le opzioni sono specificate). 5. Applicare le regole per la correzione della pronuncia (se l'opzione è specificata). 6. Registrare il/i file su disco. *** Licenza *** Diritto di utilizzo non commerciale del programma: - per le persone fisiche: senza alcuna restrizione; - per le persone giuridiche: soggetto alle restrizioni riportate nel contratto di licenza del software Balabolka. L'utilizzo commerciale richiede la previa autorizzazione del titolare del copyright. ###