Makefile


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100

# TODO
# efsa smiles errors (encodings?)
# efsa script via csv
# remove headers from csv files
# add header at merged csv
# remove \u003e/00
# remove log messages in result

data  = data/kazius.csv data/efsa.csv data/hansen.csv

summaries = summaries/weighted_majority_merged_sim0.1.json summaries/weighted_majority_kazius_sim0.1.json summaries/weighted_majority_merged_sim0.5.json summaries/weighted_majority_kazius_sim0.5.json summaries/pa_mutagenicity_neighbor_sets.json summaries/pa_carcinogenicity_neighbor_sets.json

all: $(summaries)

summaries/pa_carcinogenicity_neighbor_sets.json: experiments/pa_carcinogenicity_prediction.json
	scripts/pa_neighbor_sets.rb $< > $@

summaries/pa_mutagenicity_neighbor_sets.json: experiments/pa_mutagenicity_prediction.json
	scripts/pa_neighbor_sets.rb $< > $@

summaries/weighted_majority_kazius_sim0.5.json: experiments/weighted_majority_kazius_sim0.5.id
	scripts/repeated_crossvalidation_summary.rb $< > $@

experiments/weighted_majority_kazius_sim0.5.id: data/kazius.csv
	scripts/repeated_crossvalidation.rb $< > $@

summaries/weighted_majority_merged_sim0.5.json: experiments/weighted_majority_merged_sim0.5.id
	scripts/repeated_crossvalidation_summary.rb $< > $@

experiments/weighted_majority_merged_sim0.5.id: data/merged.csv
	scripts/repeated_crossvalidation.rb $< > $@

summaries/weighted_majority_kazius_sim0.1.json: experiments/weighted_majority_kazius_sim0.1.id
	scripts/repeated_crossvalidation_summary.rb $< > $@

experiments/weighted_majority_kazius_sim0.1.id: data/kazius.csv
	scripts/repeated_crossvalidation.rb $< > $@

summaries/weighted_majority_merged_sim0.1.json: experiments/weighted_majority_merged_sim0.1.id
	scripts/repeated_crossvalidation_summary.rb $< > $@

experiments/weighted_majority_merged_sim0.1.id: data/merged.csv
	scripts/repeated_crossvalidation.rb $< > $@

experiments/pa_carcinogenicity_prediction.json: data/carcinogenicity.csv data/PA_complete_SMILES_fixed.csv
	scripts/predict.rb $^ > $@

experiments/pa_mutagenicity_prediction.json: data/merged.csv data/PA_complete_SMILES_fixed.csv
	scripts/predict.rb $^ > $@

# test data

data/PA_complete_SMILES_fixed.csv: data/PA_complete_SMILES.csv
	cat $< | scripts/convert_pa.rb > $@
	
# training data

data/merged.csv: $(data)
	echo "SMILES,Activity" > $@ && cat $(data) | sort -u | sed '/SMILES/d' >> $@

data/carcinogenicity.csv: data/aid1205.csv
	scripts/carcinogenicity2csv.rb $< > $@

# carcinogenicity

data/aid1205.csv:
	cd data && curl https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/1205/CSV -o $@

# kazius

data/kazius.csv: data/cas_4337.sdf
	scripts/kazius2csv.rb  $< > $@

data/cas_4337.sdf: data/cas_4337.zip
	cd data && unzip cas_4337.zip

data/cas_4337.zip:
	cd data && wget "http://cheminformatics.org/datasets/bursi/cas_4337.zip"

# efsa

data/efsa.csv: data/GENOTOX_data_and_dictionary.csv
	scripts/efsa2csv.rb  $< > $@

data/GENOTOX_data_and_dictionary.csv: data/GENOTOX_data_and_dictionary.xls
	xls2csv  $< > $@

data/GENOTOX_data_and_dictionary.xls:
	cd data && wget "https://data.europa.eu/euodp/data/storage/f/2017-07-19T142131/GENOTOX%20data%20and%20dictionary.xls" -o $@

# hansen

data/hansen.csv: data/Mutagenicity_N6512.csv
	scripts/hansen2csv.rb $< > $@

data/Mutagenicity_N6512.csv:
  cd data && wget "http://doc.ml.tu-berlin.de/toxbenchmark/Mutagenicity_N6512.csv"

clean:
	rm data/hansen.csv