#!/bin/sh

echo Reducing the size of the CSV files to make testing faster

test -f ./WADI_attackdataLABLE.csv.orig || ( 
   echo cannot find WADI_attackdataLABLE.csv.orig 
   exit 
)

test -f ./WADI_14days_new.csv.orig || ( 
   echo cannot find WADI_14days_new.csv.orig
   exit 
)

# Parse out 1 out of every 100 lines (ie 1% of the dataset)
head -n 1       WADI_attackdataLABLE.csv.orig   > WADI_attackdataLABLE_subset1.csv
awk 'NR%100==0' WADI_attackdataLABLE.csv.orig  >> WADI_attackdataLABLE_subset1.csv
#
head -n 1       WADI_14days_new.csv.orig   > WADI_14days_new_subset1.csv
awk 'NR%100==0' WADI_14days_new.csv.orig  >> WADI_14days_new_subset1.csv

# Parse out 1 out of every 10 lines (ie 10% of the dataset)
head -n 1       WADI_attackdataLABLE.csv.orig   > WADI_attackdataLABLE_subset10.csv
awk 'NR%10==0'  WADI_attackdataLABLE.csv.orig  >> WADI_attackdataLABLE_subset10.csv
#
head -n 1       WADI_14days_new.csv.orig   > WADI_14days_new_subset10.csv
awk 'NR%10==0'  WADI_14days_new.csv.orig  >> WADI_14days_new_subset10.csv