Seqsum CLI Usage

Activate virtual environment

# Using virtualenvwrapper here but can also be done with Conda 
conda activate pyBioTools

(pyBioTools)

Merge

Get help

pyBioTools Seqsum Merge -h

usage: pyBioTools Seqsum Merge [-h] -i [INPUT_FN [INPUT_FN ...]] -o OUTPUT_FN
                               [--old_filename_synthax] [-v] [-q] [--progress]

optional arguments:
  -h, --help            show this help message and exit
  -i [INPUT_FN [INPUT_FN ...]], --input_fn [INPUT_FN [INPUT_FN ...]]
                        Sequencing summary file path or directory containing
                        Sequencing summary file or list of files, or regex or
                        list of regex. It is quite flexible. Files can also be
                        gzipped (required) [str]
  -o OUTPUT_FN, --output_fn OUTPUT_FN
                        Destination sequencing summary file. Automatically
                        gzipped if the .gz extension is found (required) [str]
  --old_filename_synthax
                        Replace the `filename_fast5` field by `filename` as in
                        older versions. Useful for nanopolish index
                        compatibility (default: False) [None]
  -v, --verbose         Increase verbosity (default: False)
  -q, --quiet           Reduce verbosity (default: False)
  --progress            Display a progress bar
(pyBioTools)

Basic usage

pyBioTools Seqsum Merge -i ./data/seqsum_new1.tsv ./data/seqsum_new2.tsv -o ./output/seqsum_merged_1.tsv.gz --verbose

## Running Seqsum Merge ##
    Parsing reads
    [DEBUG]: Reading file ./data/seqsum_new1.tsv
    [DEBUG]: End of file ./data/seqsum_new1.tsv
    [DEBUG]: Reading file ./data/seqsum_new2.tsv
    [DEBUG]: End of file ./data/seqsum_new2.tsv
    Read counts summary
     Files found: 2
     Valid files: 2
(pyBioTools)

Using a regex instead

pyBioTools Seqsum Merge -i ./data/seqsum_* -o ./output/seqsum_merged_2.tsv.gz --verbose

## Running Seqsum Merge ##
    Parsing reads
    [DEBUG]: Reading file ./data/seqsum_new1.tsv
    [DEBUG]: End of file ./data/seqsum_new1.tsv
    [DEBUG]: Reading file ./data/seqsum_new2.tsv
    [DEBUG]: End of file ./data/seqsum_new2.tsv
    Read counts summary
     Files found: 2
     Valid files: 2
(pyBioTools)

Files with non-matching header are skipped

pyBioTools Seqsum Merge -i ./data/* -o ./output/seqsum_merged_3.tsv.gz --verbose

## Running Seqsum Merge ##
    Parsing reads
    [DEBUG]: Reading file ./data/Guppy-2.1.3_basecall-1D-DNA_sequencing_summary.txt.gz
    [DEBUG]: End of file ./data/Guppy-2.1.3_basecall-1D-DNA_sequencing_summary.txt.gz
    [DEBUG]: Reading file ./data/Guppy-2.1.3_basecall-1D-RNA_sequencing_summary.txt.gz
    [DEBUG]: End of file ./data/Guppy-2.1.3_basecall-1D-RNA_sequencing_summary.txt.gz
    [DEBUG]: Reading file ./data/Guppy-2.2.4-basecall-1D-DNA_sequencing_summary+barcode.txt.gz
ERROR: Header of file `./data/Guppy-2.2.4-basecall-1D-DNA_sequencing_summary+barcode.txt.gz` is not consistant
    [DEBUG]: Skipping file ./data/Guppy-2.2.4-basecall-1D-DNA_sequencing_summary+barcode.txt.gz
    [DEBUG]: Reading file ./data/Guppy-basecall-1D-DNA_sequencing_summary.txt.gz
    [DEBUG]: End of file ./data/Guppy-basecall-1D-DNA_sequencing_summary.txt.gz
    [DEBUG]: Reading file ./data/seqsum_new1.tsv
ERROR: Header of file `./data/seqsum_new1.tsv` is not consistant
    [DEBUG]: Skipping file ./data/seqsum_new1.tsv
    [DEBUG]: Reading file ./data/seqsum_new2.tsv
ERROR: Header of file `./data/seqsum_new2.tsv` is not consistant
    [DEBUG]: Skipping file ./data/seqsum_new2.tsv
    Read counts summary
     Files found: 6
     Valid files: 3
     Invalid files: 3
(pyBioTools)