mirror of
https://github.com/guezoloic/t3dsr.git
synced 2026-01-25 10:34:23 +00:00
fix(vec4): force 16 Bytes aligned
This commit is contained in:
@@ -26,14 +26,6 @@ Vec4f_t vec4f_from_array(float *__restrict val)
|
|||||||
return vec;
|
return vec;
|
||||||
}
|
}
|
||||||
|
|
||||||
// clone entire vec4f_t
|
|
||||||
Vec4f_t vec4f_clone(Vec4f_t *__restrict v)
|
|
||||||
{
|
|
||||||
Vec4f_t vec;
|
|
||||||
memcpy(&vec, v, sizeof(Vec4f_t));
|
|
||||||
return vec;
|
|
||||||
}
|
|
||||||
|
|
||||||
Vec4f_t vec4f_scalar(float f)
|
Vec4f_t vec4f_scalar(float f)
|
||||||
{
|
{
|
||||||
Vec4f_t vec4;
|
Vec4f_t vec4;
|
||||||
@@ -57,7 +49,7 @@ Vec4f_t vec4f_scalar(float f)
|
|||||||
return vec4;
|
return vec4;
|
||||||
}
|
}
|
||||||
|
|
||||||
Vec4f_t Vec4f_zero(void)
|
Vec4f_t vec4f_zero(void)
|
||||||
{
|
{
|
||||||
return vec4f_scalar(0.f);
|
return vec4f_scalar(0.f);
|
||||||
}
|
}
|
||||||
@@ -68,7 +60,7 @@ Vec4f_t vec4f_add_r(Vec4f_t *__restrict out, Vec4f_t a)
|
|||||||
__m128 va = _mm_load_ps(a.data);
|
__m128 va = _mm_load_ps(a.data);
|
||||||
__m128 vb = _mm_load_ps(out->data);
|
__m128 vb = _mm_load_ps(out->data);
|
||||||
__m128 vres = _mm_add_ps(va, vb);
|
__m128 vres = _mm_add_ps(va, vb);
|
||||||
_mm_store_ps(out->data, vres);
|
_mm_storeu_ps(out->data, vres);
|
||||||
|
|
||||||
#elif defined (SIMD_ARCH)
|
#elif defined (SIMD_ARCH)
|
||||||
float32x4_t va = vld1q_f32(a.data);
|
float32x4_t va = vld1q_f32(a.data);
|
||||||
@@ -93,10 +85,10 @@ Vec4f_t vec4f_add(Vec4f_t a, Vec4f_t b)
|
|||||||
Vec4f_t vec4f_sub_r(Vec4f_t *__restrict out, Vec4f_t a)
|
Vec4f_t vec4f_sub_r(Vec4f_t *__restrict out, Vec4f_t a)
|
||||||
{
|
{
|
||||||
#if defined (SIMD_X86)
|
#if defined (SIMD_X86)
|
||||||
__m128 va = _mm_load_ps(a.data);
|
__m128 va = _mm_load_ps(out->data);
|
||||||
__m128 vb = _mm_load_ps(out->data);
|
__m128 vb = _mm_load_ps(a.data);
|
||||||
__m128 vres = _mm_sub_ps(va, vb);
|
__m128 vres = _mm_sub_ps(va, vb);
|
||||||
_mm_store_ps(out->data, vres);
|
_mm_storeu_ps(out->data, vres);
|
||||||
|
|
||||||
#elif defined (SIMD_ARCH)
|
#elif defined (SIMD_ARCH)
|
||||||
float32x4_t va = vld1q_f32(a.data);
|
float32x4_t va = vld1q_f32(a.data);
|
||||||
@@ -125,7 +117,7 @@ Vec4f_t vec4f_scale_r(Vec4f_t *__restrict out, float scalar)
|
|||||||
__m128 va = _mm_load_ps(out->data);
|
__m128 va = _mm_load_ps(out->data);
|
||||||
__m128 vb = _mm_set1_ps(scalar);
|
__m128 vb = _mm_set1_ps(scalar);
|
||||||
__m128 vres = _mm_mul_ps(va, vb);
|
__m128 vres = _mm_mul_ps(va, vb);
|
||||||
_mm_store_ps(out->data, vres);
|
_mm_storeu_ps(out->data, vres);
|
||||||
|
|
||||||
#elif defined (SIMD_ARCH)
|
#elif defined (SIMD_ARCH)
|
||||||
float32x4_t va = vld1q_f32(out->data);
|
float32x4_t va = vld1q_f32(out->data);
|
||||||
@@ -147,6 +139,21 @@ Vec4f_t vec4f_scale(Vec4f_t a, float scalar)
|
|||||||
return vec;
|
return vec;
|
||||||
}
|
}
|
||||||
|
|
||||||
|
//float vec4f_dot(Vec4f_t a, Vec4f_t b)
|
||||||
|
//{
|
||||||
|
//#if defined (SIMD_X86)
|
||||||
|
// __m128 va = _mm_load_ps(a.data);
|
||||||
|
// __m128 vb = _mm_load_ps(b.data);
|
||||||
|
// __m128 vres = _mm_mul_ps(va, vb);
|
||||||
|
// return
|
||||||
|
//
|
||||||
|
//#elif defined (SIMD_ARCH)
|
||||||
|
//
|
||||||
|
//#else
|
||||||
|
//
|
||||||
|
//#endif
|
||||||
|
//}
|
||||||
|
|
||||||
// float vec4_dot(Vec4_t a, Vec4_t b)
|
// float vec4_dot(Vec4_t a, Vec4_t b)
|
||||||
// {
|
// {
|
||||||
// return a.x * b.x + a.y * b.y + a.z * b.z + a.w * b.w;
|
// return a.x * b.x + a.y * b.y + a.z * b.z + a.w * b.w;
|
||||||
|
|||||||
@@ -14,11 +14,12 @@
|
|||||||
#else
|
#else
|
||||||
#endif
|
#endif
|
||||||
|
|
||||||
typedef union
|
// must be aligned by 16 Bytes (less instruction executed for SSE)
|
||||||
|
typedef union
|
||||||
{
|
{
|
||||||
struct { float x, y, z, w; };
|
struct { float x, y, z, w; };
|
||||||
float data[4];
|
float data[4];
|
||||||
} Vec4f_t;
|
}__attribute__((aligned(16))) Vec4f_t;
|
||||||
|
|
||||||
Vec4f_t vec4f_from_array(float *__restrict val);
|
Vec4f_t vec4f_from_array(float *__restrict val);
|
||||||
Vec4f_t vec4(float x, float y, float z, float w);
|
Vec4f_t vec4(float x, float y, float z, float w);
|
||||||
@@ -26,8 +27,11 @@ Vec4f_t vec4(float x, float y, float z, float w);
|
|||||||
Vec4f_t vec4f_scalar(float f);
|
Vec4f_t vec4f_scalar(float f);
|
||||||
// (0, 0, 0, 0)
|
// (0, 0, 0, 0)
|
||||||
Vec4f_t vec4f_zero(void);
|
Vec4f_t vec4f_zero(void);
|
||||||
Vec4f_t vec4f_clone(Vec4f_t *__restrict v);
|
|
||||||
|
|
||||||
|
inline static Vec4f_t vec4f_clone(Vec4f_t *__restrict v)
|
||||||
|
{
|
||||||
|
return *v;
|
||||||
|
}
|
||||||
Vec4f_t vec4f_add_r(Vec4f_t *__restrict out, Vec4f_t a);
|
Vec4f_t vec4f_add_r(Vec4f_t *__restrict out, Vec4f_t a);
|
||||||
Vec4f_t vec4f_add(Vec4f_t a, Vec4f_t b);
|
Vec4f_t vec4f_add(Vec4f_t a, Vec4f_t b);
|
||||||
|
|
||||||
@@ -37,20 +41,20 @@ Vec4f_t vec4f_sub(Vec4f_t a, Vec4f_t b);
|
|||||||
Vec4f_t vec4f_scale_r(Vec4f_t *__restrict out, float scale);
|
Vec4f_t vec4f_scale_r(Vec4f_t *__restrict out, float scale);
|
||||||
Vec4f_t vec4f_scale(Vec4f_t a, float scale);
|
Vec4f_t vec4f_scale(Vec4f_t a, float scale);
|
||||||
|
|
||||||
// float vec4_dot(Vec4_t a, Vec4_t b);
|
float vec4_dot(Vec4f_t a, Vec4f_t b);
|
||||||
|
|
||||||
// float vec4_len(Vec4_t v);
|
float vec4_len(Vec4f_t v);
|
||||||
|
|
||||||
// Vec4_t vec4_norm(Vec4_t v);
|
Vec4f_t vec4_norm(Vec4f_t v);
|
||||||
|
|
||||||
// Vec4_t vec4_lerp(Vec4_t a, Vec4_t b, float t);
|
Vec4f_t vec4_lerp(Vec4f_t a, Vec4f_t b, float t);
|
||||||
|
|
||||||
// float vec4_angle(Vec4_t a, Vec4_t b);
|
float vec4_angle(Vec4f_t a, Vec4f_t b);
|
||||||
|
|
||||||
// Vec4_t vec4_proj(Vec4_t a, Vec4_t b);
|
Vec4f_t vec4_proj(Vec4f_t a, Vec4f_t b);
|
||||||
|
|
||||||
// Vec4_t vec4_refl(Vec4_t v, Vec4_t normal);
|
Vec4f_t vec4_refl(Vec4f_t v, Vec4f_t normal);
|
||||||
|
|
||||||
// float vec4_dist(Vec4_t a, Vec4_t b);
|
float vec4_dist(Vec4f_t a, Vec4f_t b);
|
||||||
|
|
||||||
#endif // VECTOR4_H
|
#endif // VECTOR4_H
|
||||||
|
|||||||
Reference in New Issue
Block a user