validation tests pass

author: Christoph Helma <helma@in-silico.ch> 2016-03-15 17:40:40 +0100
committer: Christoph Helma <helma@in-silico.ch> 2016-03-15 17:40:40 +0100
commit: 7c3bd90c26dfeea2db3cf74a1cefc23d8dece7c0 (patch)
tree: 045d18b43e30ef3bf9a548230e45986b591535a6 /test
parent: 0c5d2e678908a2d4aea43efbedbedc2c0439be30 (diff)
10 files changed, 17 insertions, 241 deletions
diff --git a/test/all.rb b/test/all.rb
index 2bb1c4f..eddf4e6 100644
--- a/test/all.rb
+++ b/test/all.rb
@@ -1,5 +1,5 @@
-exclude = ["./setup.rb","./all.rb"]
+# "./default_environment.rb" has to be executed separately
+exclude = ["./setup.rb","./all.rb", "./default_environment.rb"]
 (Dir[File.join(File.dirname(__FILE__),"*.rb")]-exclude).each do |test|
-  p test 
   require_relative test
 end
diff --git a/test/lazar-classification.rb b/test/classification.rb
index e8b2181..bedbe14 100644
--- a/test/lazar-classification.rb
+++ b/test/classification.rb
@@ -4,8 +4,7 @@ class LazarClassificationTest < MiniTest::Test
 
   def test_lazar_classification
     training_dataset = Dataset.from_csv_file File.join(DATA_DIR,"hamster_carcinogenicity.csv")
-    model = Model::LazarClassification.create training_dataset#, feature_dataset
-    #assert_equal 'C-C-C=C', feature_dataset.features.first.smarts
+    model = Model::LazarClassification.create training_dataset
 
     [ {
       :compound => OpenTox::Compound.from_inchi("InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H"),
@@ -34,8 +33,8 @@ class LazarClassificationTest < MiniTest::Test
     prediction = model.predict compound_dataset
     assert_equal compound_dataset.compounds, prediction.compounds
 
-    assert_equal "Cound not find similar compounds.", prediction.data_entries[7][2]
-    assert_equal "measured", prediction.data_entries[14][1]
+    assert_equal "Could not find similar compounds with experimental data in the training dataset.", prediction.data_entries[7][3]
+    assert_equal "1 compounds have been removed from neighbors, because they have the same structure as the query compound.", prediction.data_entries[14][3]
     # cleanup
     [training_dataset,model,compound_dataset].each{|o| o.delete}
   end
diff --git a/test/dataset.rb b/test/dataset.rb
index 2f75703..297251e 100644
--- a/test/dataset.rb
+++ b/test/dataset.rb
@@ -8,7 +8,7 @@ class DatasetTest < MiniTest::Test
     d1 = Dataset.new 
     d1.save
     datasets = Dataset.all 
-    assert_equal Dataset, datasets.first.class
+    assert datasets.first.is_a?(Dataset), "#{datasets.first} is not a Dataset."
     d1.delete
   end
 
@@ -203,16 +203,6 @@ class DatasetTest < MiniTest::Test
     assert_equal 0.00323, d2.data_entries[5][0]
   end
 
-  def test_scaled_dataset
-    original_dataset = Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.mini.csv")
-    scaled_dataset = original_dataset.scale
-    scaled_dataset.data_entries.each_with_index do |row,i|
-      row.each_with_index do |value,j|
-        assert_equal original_dataset.data_entries[i][j].round(4), scaled_dataset.original_value(value,j).round(4) if value # ignore nils
-      end
-    end
-  end
-
   def test_folds
     dataset = Dataset.from_csv_file File.join(DATA_DIR,"loael.csv")
     dataset.folds(10).each do |fold|
diff --git a/test/descriptor-long.rb b/test/descriptor-long.rb
deleted file mode 100644
index 7a4c00f..0000000
--- a/test/descriptor-long.rb
+++ /dev/null
@@ -1,26 +0,0 @@
-require_relative "setup.rb"
-class DescriptorLongTest < MiniTest::Test
-
-  def test_dataset_all
-    # TODO: improve CDK descriptor calculation speed or add timeout
-    skip "CDK descriptor calculation takes too long for some compounds"
-    dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"hamster_carcinogenicity.mini.csv")
-    d = OpenTox::Algorithm::Descriptor.physchem dataset
-    assert_equal dataset.compounds, d.compounds
-    assert_equal 332, d.features.size
-    assert_equal 332, d.data_entries.first.size
-    d.delete
-  end
-
-  def test_dataset_openbabel
-    # TODO: improve CDK descriptor calculation speed or add timeout
-    dataset = Dataset.from_csv_file File.join(DATA_DIR,"hamster_carcinogenicity.mini.csv")
-    d = Algorithm::Descriptor.physchem dataset, Algorithm::Descriptor::OBDESCRIPTORS.keys
-    assert_equal dataset.compounds, d.compounds
-    size = Algorithm::Descriptor::OBDESCRIPTORS.keys.size
-    assert_equal size, d.features.size
-    assert_equal size, d.data_entries.first.size
-    d.delete
-  end
-
-end
diff --git a/test/fminer-long.rb b/test/fminer-long.rb
deleted file mode 100644
index 845ed71..0000000
--- a/test/fminer-long.rb
+++ /dev/null
@@ -1,41 +0,0 @@
-require_relative "setup.rb"
-
-class FminerTest < MiniTest::Test
-
-  def test_fminer_multicell
-    skip
-    #skip "multicell segfaults"
-    # TODO aborts, probably fminer
-    # or OpenBabel segfault
-    dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"multi_cell_call.csv")
-    feature_dataset = OpenTox::Algorithm::Fminer.bbrc(dataset)#, :min_frequency => 15)
-    p feature_dataset.training_parameters
-    assert_equal dataset.compound_ids, feature_dataset.compound_ids
-    dataset.delete
-    feature_dataset.delete
-  end
-
-  def test_fminer_isscan
-    skip
-    dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"ISSCAN-multi.csv")
-    feature_dataset = OpenTox::Algorithm::Fminer.bbrc(dataset)#, :min_frequency => 15)
-    assert_equal feature_dataset.compounds.size, dataset.compounds.size
-    p feature_dataset.features.size
-    p feature_dataset.training_parameters
-    dataset.delete
-    feature_dataset.delete
-  end
-
-  def test_fminer_kazius
-    skip
-    dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"kazius.csv")
-    # TODO reactivate default settings
-    feature_dataset = OpenTox::Algorithm::Fminer.bbrc(dataset, :min_frequency => 20)
-    assert_equal feature_dataset.compounds.size, dataset.compounds.size
-    feature_dataset = Dataset.find feature_dataset.id
-    assert feature_dataset.data_entries.size, dataset.compounds.size
-    dataset.delete
-    feature_dataset.delete
-  end
-
-end
diff --git a/test/fminer.rb b/test/fminer.rb
deleted file mode 100644
index 16e1f9e..0000000
--- a/test/fminer.rb
+++ /dev/null
@@ -1,52 +0,0 @@
-require_relative "setup.rb"
-
-class FminerTest < MiniTest::Test
-
-  def test_fminer_bbrc
-    dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"hamster_carcinogenicity.csv")
-    refute_nil dataset.id
-    feature_dataset = OpenTox::Algorithm::Fminer.bbrc dataset
-    feature_dataset = Dataset.find feature_dataset.id
-    assert_equal dataset.compounds.size, feature_dataset.compounds.size
-    # TODO: fminer calculates 62 instead of 54 features
-    # it is unclear which commit changed the numbers (occurs with old libraries/mongodb branch too
-    # modification of Compound to use smiles instead of inchis seems to have no effect
-    #assert_equal 54, feature_dataset.features.size
-    #assert_equal "C-C-C=C", feature_dataset.features.first.smarts
-    compounds = feature_dataset.compounds
-    smarts = feature_dataset.features
-    smarts.each do |smart|
-      assert smart.p_value.round(2) >= 0.95
-    end
-    match = OpenTox::Algorithm::Descriptor.smarts_match compounds, smarts
-    feature_dataset.data_entries.each_with_index do |fingerprint,i|
-      assert_equal match[i], fingerprint
-    end
-
-    dataset.delete
-    feature_dataset.delete
-  end
-
-  def test_fminer_last
-    skip "last features have to be activated"
-    dataset = OpenTox::Dataset.new
-    dataset.upload File.join(DATA_DIR,"hamster_carcinogenicity.csv")
-    feature_dataset = OpenTox::Algorithm::Fminer.last :dataset => dataset
-    assert_equal dataset.compounds.size, feature_dataset.compounds.size
-    assert_equal 21, feature_dataset.features.size
-    assert_equal '[#6&A]-[#6&a]:[#6&a]:[#6&a]:[#6&a]:[#6&a]', feature_dataset.features.first.smarts
-
-    compounds = feature_dataset.compounds
-    smarts = feature_dataset.features.collect{|f| f.smarts}
-    match = OpenTox::Algorithm::Descriptor.smarts_match compounds, smarts
-    compounds.each_with_index do |c,i|
-      smarts.each_with_index do |s,j|
-        assert_equal match[i][j], feature_dataset.data_entries[i][j].to_i
-      end
-    end
-
-    dataset.delete
-    feature_dataset.delete
-  end
-
-end
diff --git a/test/lazar-fminer.rb b/test/lazar-fminer.rb
deleted file mode 100644
index 9e024a1..0000000
--- a/test/lazar-fminer.rb
+++ /dev/null
@@ -1,51 +0,0 @@
-require_relative "setup.rb"
-
-class LazarFminerTest < MiniTest::Test
-
-  def test_lazar_fminer
-    skip
-    training_dataset = Dataset.from_csv_file File.join(DATA_DIR,"hamster_carcinogenicity.csv")
-    model = Model::LazarFminerClassification.create training_dataset#, feature_dataset
-    feature_dataset = Dataset.find model.neighbor_algorithm_parameters[:feature_dataset_id]
-    assert_equal training_dataset.compounds.size, feature_dataset.compounds.size
-    #TODO check fminer features, see fminer.rb
-    #assert_equal 54, feature_dataset.features.size
-    feature_dataset.data_entries.each do |e|
-      assert_equal e.size, feature_dataset.features.size
-    end
-    #assert_equal 'C-C-C=C', feature_dataset.features.first.smarts
-
-    [ {
-      :compound => OpenTox::Compound.from_inchi("InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H"),
-      :prediction => "false",
-      :confidence => 0.25281385281385277,
-      :nr_neighbors => 11
-    },{
-      :compound => OpenTox::Compound.from_smiles("c1ccccc1NN"),
-      :prediction => "false",
-      :confidence => 0.3639589577089577,
-      :nr_neighbors => 14
-    }, {
-      :compound => Compound.from_smiles('OCCCCCCCC\C=C/CCCCCCCC'),
-      :prediction => "false",
-      :confidence => 0.5555555555555556,
-      :nr_neighbors => 1
-    }].each do |example|
-      prediction = model.predict example[:compound]
-
-      assert_equal example[:prediction], prediction[:value]
-      #assert_equal example[:confidence], prediction[:confidence]
-      #assert_equal example[:nr_neighbors], prediction[:neighbors].size
-    end
-
-    # make a dataset prediction
-    compound_dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.mini.csv")
-    prediction = model.predict compound_dataset
-    assert_equal compound_dataset.compounds, prediction.compounds
-
-    assert_equal "Cound not find similar compounds.", prediction.data_entries[7][2]
-    assert_equal "measured", prediction.data_entries[14][1]
-    # cleanup
-    [training_dataset,model,feature_dataset,compound_dataset].each{|o| o.delete}
-  end
-end
diff --git a/test/prediction_models.rb b/test/prediction_models.rb
index 49a2472..a2e5fe2 100644
--- a/test/prediction_models.rb
+++ b/test/prediction_models.rb
@@ -10,6 +10,7 @@ class PredictionModelTest < MiniTest::Test
     assert pm.classification?
     refute pm.regression?
     pm.crossvalidations.each do |cv|
+      p cv
       assert cv.accuracy > 0.74, "Crossvalidation accuracy (#{cv.accuracy}) should be larger than 0.75. This may happen due to an unfavorable training/test set split."
     end
     prediction = pm.predict Compound.from_smiles("CCCC(NN)C")
diff --git a/test/regression.rb b/test/regression.rb
index c25ed2b..6936eb6 100644
--- a/test/regression.rb
+++ b/test/regression.rb
@@ -4,7 +4,7 @@ class LazarRegressionTest < MiniTest::Test
 
   def test_weighted_average
     training_dataset = Dataset.from_csv_file "#{DATA_DIR}/EPAFHM.medi.csv"
-    model = Model::LazarRegression.create training_dataset, {:neighbor_algorithm_parameters => {:min_sim => 0}, :prediction_algorithm => "OpenTox::Algorithm::Regression.weighted_average"}
+    model = Model::LazarRegression.create training_dataset, {:neighbor_algorithm_parameters => {:min_sim => 0}, :prediction_algorithm => "OpenTox::Algorithm::Regression.local_weighted_average"}
     compound = Compound.from_smiles "CC(C)(C)CN"
     prediction = model.predict compound
     assert_equal 7.2, prediction[:value].round(1)
diff --git a/test/validation.rb b/test/validation.rb
index d8aae87..c803c92 100644
--- a/test/validation.rb
+++ b/test/validation.rb
@@ -2,56 +2,25 @@ require_relative "setup.rb"
 
 class ValidationTest < MiniTest::Test
 
-  def test_fminer_crossvalidation
-    skip
+  def test_default_classification_crossvalidation
     dataset = Dataset.from_csv_file "#{DATA_DIR}/hamster_carcinogenicity.csv"
-    model = Model::LazarFminerClassification.create dataset
-    cv = ClassificationCrossValidation.create model
-    refute_empty cv.validation_ids
-    assert cv.accuracy > 0.8, "Crossvalidation accuracy lower than 0.8"
-    assert cv.weighted_accuracy > cv.accuracy, "Weighted accuracy (#{cv.weighted_accuracy}) larger than unweighted accuracy(#{cv.accuracy}) "
-  end
-
-  def test_classification_crossvalidation
-    dataset = Dataset.from_csv_file "#{DATA_DIR}/hamster_carcinogenicity.csv"
-    model = Model::LazarClassification.create dataset#, features
+    model = Model::LazarClassification.create dataset
     cv = ClassificationCrossValidation.create model
-    #p cv
     assert cv.accuracy > 0.7, "Accuracy (#{cv.accuracy}) should be larger than 0.7"
-    #File.open("tmp.svg","w+"){|f| f.puts cv.confidence_plot}
-    #`inkview tmp.svg`
-    p cv.nr_unpredicted
-    p cv.accuracy
-    assert cv.weighted_accuracy > cv.accuracy, "Weighted accuracy (#{cv.weighted_accuracy}) should be larger than unweighted accuracy (#{cv.accuracy}) ."
   end
 
   def test_default_regression_crossvalidation
     dataset = Dataset.from_csv_file "#{DATA_DIR}/EPAFHM.medi.csv"
     model = Model::LazarRegression.create dataset
     cv = RegressionCrossValidation.create model
-    #cv = RegressionCrossValidation.find '561503262b72ed54fd000001'
-    p cv
-    #File.open("tmp.svg","w+"){|f| f.puts cv.correlation_plot}
-    #`inkview tmp.svg`
-    #File.open("tmp.svg","w+"){|f| f.puts cv.confidence_plot}
-    #`inkview tmp.svg`
-    
-    #puts cv.misclassifications.to_yaml
-    p cv.rmse
-    p cv.weighted_rmse 
     assert cv.rmse < 1.5, "RMSE > 1.5"
-    #assert cv.weighted_rmse < cv.rmse, "Weighted RMSE (#{cv.weighted_rmse}) larger than unweighted RMSE(#{cv.rmse}) "
-    p cv.mae 
-    p cv.weighted_mae 
     assert cv.mae < 1
-    #assert cv.weighted_mae < cv.mae
   end
 
   def test_regression_crossvalidation
     dataset = Dataset.from_csv_file "#{DATA_DIR}/EPAFHM.medi.csv"
-    #dataset = Dataset.from_csv_file "#{DATA_DIR}/EPAFHM.csv"
     params = {
-      :prediction_algorithm => "OpenTox::Algorithm::Regression.weighted_average",
+      :prediction_algorithm => "OpenTox::Algorithm::Regression.local_weighted_average",
       :neighbor_algorithm => "fingerprint_neighbors",
       :neighbor_algorithm_parameters => {
         :type => "MACCS",
@@ -67,17 +36,15 @@ class ValidationTest < MiniTest::Test
       refute_equal params[:neighbor_algorithm_parameters][:training_dataset_id], model[:neighbor_algorithm_parameters][:training_dataset_id]
     end
 
-    assert cv.rmse < 1.5, "RMSE > 30"
-    assert cv.mae < 1
+    refute_nil cv.rmse
+    refute_nil cv.mae 
   end
 
   def test_pls_regression_crossvalidation
     dataset = Dataset.from_csv_file "#{DATA_DIR}/EPAFHM.medi.csv"
-    params = { :prediction_algorithm => "OpenTox::Algorithm::Regression.local_pls_regression", }
+    params = { :prediction_algorithm => "OpenTox::Algorithm::Regression.local_fingerprint_regression", }
     model = Model::LazarRegression.create dataset, params
     cv = RegressionCrossValidation.create model
-    p cv.nr_instances
-    p cv.nr_unpredicted
     assert cv.rmse < 1.5, "RMSE > 1.5"
     assert cv.mae < 1
   end
@@ -88,13 +55,13 @@ class ValidationTest < MiniTest::Test
     repeated_cv = RepeatedCrossValidation.create model
     repeated_cv.crossvalidations.each do |cv|
       assert_operator cv.accuracy, :>, 0.7, "model accuracy < 0.7, this may happen by chance due to an unfavorable training/test set split"
-      assert_operator cv.weighted_accuracy, :>, cv.accuracy
     end
   end
 
   def test_crossvalidation_parameters
     dataset = Dataset.from_csv_file "#{DATA_DIR}/hamster_carcinogenicity.csv"
     params = {
+        :training_dataset_id => dataset.id,
       :neighbor_algorithm_parameters => {
         :min_sim => 0.3,
         :type => "FP3"
@@ -116,13 +83,11 @@ class ValidationTest < MiniTest::Test
 
   def test_physchem_regression_crossvalidation
 
-    # UPLOAD DATA
     training_dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.medi.csv")
     model = Model::LazarRegression.create(training_dataset, :prediction_algorithm => "OpenTox::Algorithm::Regression.local_physchem_regression")
     cv = RegressionCrossValidation.create model
-    p cv
-    p cv.id
-    p cv.statistics
+    refute_nil cv.rmse
+    refute_nil cv.mae 
   end
 
   def test_classification_loo_validation
@@ -132,22 +97,13 @@ class ValidationTest < MiniTest::Test
     assert_equal 14, loo.nr_unpredicted
     refute_empty loo.confusion_matrix
     assert loo.accuracy > 0.77
-    assert loo.weighted_accuracy > 0.85
-    assert loo.accuracy < loo.weighted_accuracy
   end
 
   def test_regression_loo_validation
     dataset = OpenTox::Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.medi.csv")
     model = Model::LazarRegression.create dataset
     loo = RegressionLeaveOneOutValidation.create model
-    assert_equal 11, loo.nr_unpredicted
-    assert loo.weighted_mae < loo.mae
     assert loo.r_squared > 0.34
-    #assert_equal 14, loo.nr_unpredicted
-    #p loo.confusion_matrix
-    #p loo.accuracy
-    #File.open("tmp.svg","w+"){|f| f.puts loo.correlation_plot}
-    #`inkview tmp.svg`
   end
 
 end
author	Christoph Helma <helma@in-silico.ch>	2016-03-15 17:40:40 +0100
committer	Christoph Helma <helma@in-silico.ch>	2016-03-15 17:40:40 +0100
commit	7c3bd90c26dfeea2db3cf74a1cefc23d8dece7c0 (patch)
tree	045d18b43e30ef3bf9a548230e45986b591535a6 /test
parent	0c5d2e678908a2d4aea43efbedbedc2c0439be30 (diff)