opencv

Форк
0
/
cpu_neon_bf16.cpp 
46 строк · 1.3 Кб
1
#if (defined __GNUC__ && (defined __arm__ || defined __aarch64__)) || (defined _MSC_VER && defined _M_ARM64)
2
#include <stdio.h>
3
#include "arm_neon.h"
4

5
/*#if defined __clang__
6
#pragma clang attribute push (__attribute__((target("bf16"))), apply_to=function)
7
#elif defined GCC
8
#pragma GCC push_options
9
#pragma GCC target("armv8.2-a", "bf16")
10
#endif*/
11
bfloat16x8_t vld1q_as_bf16(const float* src)
12
{
13
    float32x4_t s0 = vld1q_f32(src), s1 = vld1q_f32(src + 4);
14
    return vcombine_bf16(vcvt_bf16_f32(s0), vcvt_bf16_f32(s1));
15
}
16

17
void vprintreg(const char* name, const float32x4_t& r)
18
{
19
    float data[4];
20
    vst1q_f32(data, r);
21
    printf("%s: (%.2f, %.2f, %.2f, %.2f)\n",
22
        name, data[0], data[1], data[2], data[3]);
23
}
24

25
void test()
26
{
27
    const float src1[] = { 1.f, 2.f, 3.f, 4.f, 5.f, 6.f, 7.f, 8.f };
28
    const float src2[] = { 1.f, 3.f, 6.f, 10.f, 15.f, 21.f, 28.f, 36.f };
29
    bfloat16x8_t s1 = vld1q_as_bf16(src1), s2 = vld1q_as_bf16(src2);
30
    float32x4_t d = vbfdotq_f32(vdupq_n_f32(0.f), s1, s2);
31
    vprintreg("(s1[0]*s2[0] + s1[1]*s2[1], ... s1[6]*s2[6] + s1[7]*s2[7])", d);
32
}
33
/*#if defined __clang__
34
#pragma clang attribute pop
35
#elif defined GCC
36
#pragma GCC pop_options
37
#endif*/
38
#else
39
#error "BF16 is not supported"
40
#endif
41

42
int main()
43
{
44
    test();
45
    return 0;
46
}
47

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.