sph/docs/StatisticTests_8cpp_source.html

 #include "post/StatisticTests.h"

 #include <algorithm>

 #include <numeric>


 NAMESPACE_SPH_BEGIN


 Float Post::correlationCoefficient(ArrayView<const PlotPoint> points) {

     SPH_ASSERT(points.size() >= 2);

     // find the mean

     PlotPoint mean(0._f, 0._f);

     for (PlotPoint p : points) {

         mean += p;

     }

     mean /= points.size();


     Float corr = 0._f;

     Float normX = 0._f;

     Float normY = 0._f;

     for (PlotPoint p : points) {

         corr += (p.x - mean.x) * (p.y - mean.y);

         normX += sqr(p.x - mean.x);

         normY += sqr(p.y - mean.y);

     }

     // may be slightly over/below 1/-1 due to round-off errors

     return corr / (sqrt(normX * normY));

 }


 Float Post::chiSquareDistribution(const Float chiSqr, const Float dof) {

     return 1._f / (pow(2._f, 0.5_f * dof) * std::tgamma(0.5_f * dof)) * pow(chiSqr, 0.5_f * dof - 1._f) *

            exp(-0.5_f * chiSqr);

 }


 Float Post::chiSquareTest(ArrayView<const Float> measured, ArrayView<const Float> expected) {

     SPH_ASSERT(measured.size() == expected.size());

     Float chiSqr = 0._f;

     for (Size i = 0; i < measured.size(); ++i) {

         SPH_ASSERT(measured[i] >= 0._f && expected[i] >= 0._f);

         if (expected[i] == 0._f) {

             if (measured[i] == 0._f) {

                 continue;

             } else {

                 // measured nonzero, but expected is zero -> measured cannot be from the expected

                 // distribution

                 return INFINITY;

             }

         }

         chiSqr += sqr(measured[i] - expected[i]) / expected[i];

     }

     return chiSqr;

 }


 // Numerical recipes 624

 Float Post::kolmogorovSmirnovDistribution(const Float x) {

     constexpr Float eps1 = 1.e-3_f;

     constexpr Float eps2 = 1.e-8_f;


     Float Q = 0._f;

     Float prevTerm = 0._f;

     for (Size j = 1; j < 100; ++j) {

         const Float term = (int(isOdd(j)) * 2 - 1) * exp(-2._f * sqr(j) * sqr(x));

         Q += term;

         if (abs(term) <= eps1 * prevTerm || abs(term) <= eps2 * Q) {

             return 2._f * Q;

         }

         prevTerm = abs(term);

     }

     return 1._f;

 }


 static Array<Float> sortData(ArrayView<const Float> data) {

     Array<Float> sortedData;

     sortedData.pushAll(data.begin(), data.end());

     std::sort(sortedData.begin(), sortedData.end(), [](Float p1, Float p2) { return p1 < p2; });

     return sortedData;

 }


 static Array<PlotPoint> makeCdf(ArrayView<const Float> pdf) {

     Array<Float> sortedPdf = sortData(pdf);

     Array<PlotPoint> cdf(pdf.size());

     const Float step = 1._f / (pdf.size() - 1);

     for (Size i = 0; i < pdf.size(); ++i) {

         cdf[i] = { sortedPdf[i], i * step };

     }

     SPH_ASSERT(cdf.front().y == 0 && cdf.back().y == 1);

     return cdf;

 }


 static Float ksProb(const Float sqrtN, const Float D) {

     return Post::kolmogorovSmirnovDistribution((sqrtN + 0.12_f + 0.11_f / sqrtN) * D);

 }


 Post::KsResult Post::kolmogorovSmirnovTest(ArrayView<const Float> data,

     const Function<Float(Float)>& expectedCdf) {

     SPH_ASSERT(data.size() >= 2);

     Array<PlotPoint> cdf = makeCdf(data);


     // find the maximum difference (Kolmogorov-Smirnov D)

     Float D = 0._f;

     Float prevY = 0._f;

     for (PlotPoint p : cdf) {

         const Float expectedY = expectedCdf(p.x);

         D = max(D, abs(p.y - expectedY), abs(prevY - expectedY));

         prevY = p.y;

     }

     const Float sqrtN = sqrt(Float(data.size()));

     Float prob = ksProb(sqrtN, D);

     SPH_ASSERT(prob >= 0._f && prob <= 1._f);

     return { D, prob };

 }


 Post::KsResult Post::kolmogorovSmirnovTest(ArrayView<const Float> data1, ArrayView<const Float> data2) {

     Array<PlotPoint> cdf1 = makeCdf(data1);

     Array<PlotPoint> cdf2 = makeCdf(data2);


     Float D = 0._f;

     for (Size i = 0, j = 0; i < cdf1.size() && j < cdf2.size();) {

         if (cdf1[i].x <= cdf2[j].x) {

             ++i;

         }

         if (cdf1[i].x >= cdf2[j].x) {

             ++j;

         }

         D = max(D, abs(cdf1[i].y - cdf2[j].y));

     }


     const Float sqrtNe = sqrt(Float(data1.size() * data2.size()) / (data1.size() + data2.size()));

     Float prob = ksProb(sqrtNe, D);

     SPH_ASSERT(prob >= 0._f && prob <= 1._f);

     return { D, prob };

 }


 static StaticArray<Float, 4> countQuadrants(const PlotPoint origin, ArrayView<const PlotPoint> data) {

     StaticArray<Float, 4> quadrants;

     quadrants.fill(0._f);

     for (PlotPoint p : data) {

         if (p.y > origin.y) {

             p.x > origin.x ? quadrants[0]++ : quadrants[1]++;

         } else {

             p.x > origin.x ? quadrants[3]++ : quadrants[2]++;

         }

     }

     for (Float& q : quadrants) {

         q /= data.size();

     }

     return quadrants;

 }


 Post::KsResult Post::kolmogorovSmirnovTest(ArrayView<const PlotPoint> data, const KsFunction& expected) {

     Float D = 0._f;

     for (PlotPoint p : data) {

         StaticArray<Float, 4> measuredQuadrants = countQuadrants(p, data);

         StaticArray<Float, 4> expectedQuadrants = expected(p);

         for (Size i = 0; i < 4; ++i) {

             D = max(D, measuredQuadrants[i] - expectedQuadrants[i]);

         }

     }


     const Float sqrtNe = sqrt(Float(data.size()));

     const Float r = correlationCoefficient(data);

     const Float prob =

         kolmogorovSmirnovDistribution(sqrtNe * D / (1._f + sqrt(1._f - sqr(r)) * (0.25_f - 0.75_f / sqrtNe)));

     SPH_ASSERT(prob >= 0._f && prob <= 1._f);

     return { D, prob };

 }


 Post::KsFunction Post::getUniformKsFunction(const Interval rangeX, const Interval rangeY) {

     return [rangeX, rangeY](PlotPoint p) -> StaticArray<Float, 4> {

         const Float x = clamp((p.x - rangeX.lower()) / rangeX.size(), 0._f, 1._f);

         const Float y = clamp((p.y - rangeY.lower()) / rangeY.size(), 0._f, 1._f);

         return { (1._f - x) * (1._f - y), x * (1._f - y), x * y, (1._f - x) * y };

     };

 }


 NAMESPACE_SPH_END

SPH_ASSERT
#define SPH_ASSERT(x,...)
Definition: Assert.h:94

NAMESPACE_SPH_BEGIN
NAMESPACE_SPH_BEGIN
Definition: BarnesHut.cpp:13

Size
uint32_t Size
Integral type used to index arrays (by default).
Definition: Globals.h:16

Float
double Float
Precision used withing the code. Use Float instead of float or double where precision is important.
Definition: Globals.h:13

max
constexpr INLINE T max(const T &f1, const T &f2)
Definition: MathBasic.h:20

isOdd
constexpr INLINE bool isOdd(const T &f)
Definition: MathBasic.h:40

clamp
constexpr INLINE T clamp(const T &f, const T &f1, const T &f2)
Definition: MathBasic.h:35

sqr
constexpr INLINE T sqr(const T &f) noexcept
Return a squared value.
Definition: MathUtils.h:67

sqrt
INLINE T sqrt(const T f)
Return a squared root of a value.
Definition: MathUtils.h:78

pow
constexpr INLINE Float pow(const Float v)
Power for floats.

exp
INLINE T exp(const T f)
Definition: MathUtils.h:269

abs
INLINE auto abs(const T &f)
Definition: MathUtils.h:276

NAMESPACE_SPH_END
#define NAMESPACE_SPH_END
Definition: Object.h:12

StatisticTests.h

ArrayView
Object providing safe access to continuous memory of data.
Definition: ArrayView.h:17

ArrayView::size
INLINE TCounter size() const
Definition: ArrayView.h:101

ArrayView::begin
INLINE Iterator< StorageType > begin()
Definition: ArrayView.h:55

ArrayView::end
INLINE Iterator< StorageType > end()
Definition: ArrayView.h:63

Array< Float >

Array::end
INLINE Iterator< StorageType > end() noexcept
Definition: Array.h:462

Array::size
INLINE TCounter size() const noexcept
Definition: Array.h:193

Array::begin
INLINE Iterator< StorageType > begin() noexcept
Definition: Array.h:450

Array::pushAll
void pushAll(const TIter first, const TIter last)
Definition: Array.h:312

Function
Definition: ForwardDecl.h:14

Interval
Object representing a 1D interval of real numbers.
Definition: Interval.h:17

Interval::lower
INLINE Float lower() const
Returns lower bound of the interval.
Definition: Interval.h:74

Interval::size
INLINE Float size() const
Returns the size of the interval.
Definition: Interval.h:89

StaticArray
Array with fixed number of allocated elements.
Definition: StaticArray.h:19

StaticArray::fill
void fill(const T &value)
Assigns a value to all constructed elements of the array.
Definition: StaticArray.h:121

StaticArray::size
INLINE TCounter size() const
Returns the current size of the array (number of constructed elements).
Definition: StaticArray.h:147

Post::kolmogorovSmirnovDistribution
Float kolmogorovSmirnovDistribution(const Float x)
Definition: StatisticTests.cpp:53

Post::chiSquareDistribution
Float chiSquareDistribution(const Float chiSqr, const Float dof)
Definition: StatisticTests.cpp:28

Post::correlationCoefficient
Float correlationCoefficient(ArrayView< const PlotPoint > points)
Definition: StatisticTests.cpp:7

Post::getUniformKsFunction
KsFunction getUniformKsFunction(Interval rangeX, Interval rangeY)
Definition: StatisticTests.cpp:167

Post::chiSquareTest
Float chiSquareTest(ArrayView< const Float > measured, ArrayView< const Float > expected)
Definition: StatisticTests.cpp:33

Post::kolmogorovSmirnovTest
KsResult kolmogorovSmirnovTest(ArrayView< const Float > data, const Function< Float(Float)> &expectedCdf)
One-dimensional Kolmogorov-Smirnov test with given CDF of expected probability distribution.
Definition: StatisticTests.cpp:92

PlotPoint
Point in 2D plot.
Definition: Point.h:16

PlotPoint::y
Float y
Definition: Point.h:17

PlotPoint::x
Float x
Definition: Point.h:17

Post::KsResult
Definition: StatisticTests.h:20