V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
sunzhenyucn
V2EX  ›  程序员

最近正准备转型大数据方向,很好奇大数据码农们的日常工作都是干什么的?

  •  2
     
  •   sunzhenyucn ·
    yai-dev · 2018-06-26 10:24:43 +08:00 · 8422 次点击
    这是一个创建于 2377 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不太了解,对大数据方向挺感兴趣的,
    求各位在大数据领域进行讨生活的各位大佬给解解惑

    37 条回复    2018-06-27 08:56:22 +08:00
    dif
        1
    dif  
       2018-06-26 10:39:59 +08:00   ❤️ 1
    刷 v2ex,看知乎,出去吹牛皮。。
    sunzhenyucn
        2
    sunzhenyucn  
    OP
       2018-06-26 10:40:56 +08:00
    @dif lol,不会吧,这么闲的吗??
    loryyang
        3
    loryyang  
       2018-06-26 10:43:47 +08:00   ❤️ 1
    工程方向就是维护下一些框架,做些升级,然后偏业务的就是开发业务相关逻辑,出个报表,出个数据什么的
    或者给机器学习跑点数据和特征
    sunzhenyucn
        4
    sunzhenyucn  
    OP
       2018-06-26 10:47:12 +08:00
    @loryyang 万分感谢🙏
    tingyunsay
        5
    tingyunsay  
       2018-06-26 10:54:37 +08:00   ❤️ 1
    写他么的 hql(;´༎ຶД༎ຶ`)
    mkstring
        6
    mkstring  
       2018-06-26 10:59:46 +08:00   ❤️ 2
    写大量的 SQL,偶尔写 MR
    VoidChen
        7
    VoidChen  
       2018-06-26 11:00:22 +08:00
    我只说我做的。。。搞下集群,部署搭建和问题检查什么的,然后跟某重本合作拿来一些业务类型的算法去做实现,优化校准,还有就是偶尔遇到一些问题(内存不够或者计算不够快或者统计数量大),去看开源拆算法搞来用,杂七杂八的。其实跟写 java 差不多啦,可能是因为毕业半年多,学的用的还比较浅(不过用的全,常用的基本都用过了)
    wwek
        8
    wwek  
       2018-06-26 11:08:52 +08:00
    数据清洗 结构化 ETL 写 HQL
    sunzhenyucn
        9
    sunzhenyucn  
    OP
       2018-06-26 11:38:39 +08:00
    @tingyunsay
    @mkstring
    @VoidChen
    @wwek
    谢谢各位大佬
    liyer
        10
    liyer  
       2018-06-26 11:45:03 +08:00
    爬数据,入库,去噪,打标签,分析
    deepreader
        11
    deepreader  
       2018-06-26 12:33:05 +08:00
    数据清理,做 PPT。
    wtf94666
        12
    wtf94666  
       2018-06-26 13:03:20 +08:00 via Android
    我是设计 我感觉我公司的工程师们都在刷蔚蓝航线
    sudoz
        13
    sudoz  
       2018-06-26 13:05:46 +08:00
    总而言之就是没什么意思
    grewer
        14
    grewer  
       2018-06-26 13:48:47 +08:00
    @wtf94666 舰 B 么
    SuperMild
        15
    SuperMild  
       2018-06-26 13:53:34 +08:00
    据说就是洗数据……不管哪个领域,都是站在高位置的人才有差别,底下全是搬砖,体力活。
    zynlp
        16
    zynlp  
       2018-06-26 13:53:45 +08:00 via iPhone
    纳尼?只有我这么忙吗,只能蹲坑的时候刷下 v2😭
    搞了一个礼拜的 cuda 了,整个人都粗大了
    WXG999
        17
    WXG999  
       2018-06-26 14:00:28 +08:00
    @VoidChen 敢问大佬是本科还是硕士毕业?
    VoidChen
        18
    VoidChen  
       2018-06-26 14:12:20 +08:00
    @WXG999 不是大佬,二本毕业。。让你失望了😭
    VoidChen
        19
    VoidChen  
       2018-06-26 14:25:17 +08:00
    回复的时候看了下,怎么好像基本都是数据清洗?我主要做的是 storm 流处理,基础的数据清洗就只是在源头那里架一个 bolt 过滤掉就好了(包括一些修正),怎么好像不太一样?朋友里面没有做大数据的,所以不是很清楚情况,借个楼问下。。。万一以后跳槽别人一问不知道就不好了😭
    WXG999
        20
    WXG999  
       2018-06-26 14:25:33 +08:00
    @VoidChen 好好工作以后都是大佬😭
    chi1st
        21
    chi1st  
       2018-06-26 14:27:44 +08:00
    写后端。。。
    lastpass
        22
    lastpass  
       2018-06-26 14:29:19 +08:00 via Android
    清洗数据,造轮子。
    ren2881971
        23
    ren2881971  
       2018-06-26 14:29:23 +08:00   ❤️ 1
    坐我旁边的就是搞数据的,各种 ETL 抽取、清洗 、转换 出报表。
    自从有了他,报表错误的锅再也不是我背了。。。
    jasonchen168
        24
    jasonchen168  
       2018-06-26 14:33:30 +08:00
    怎么转的啊?必备基本技能是什么
    applehater
        25
    applehater  
       2018-06-26 15:54:22 +08:00 via iPhone
    比一般业务少了“改”只有“增删查”。
    zhusimaji
        26
    zhusimaji  
       2018-06-26 15:56:53 +08:00
    sql 清洗数据---构造模型---spark 计算
    lius931115
        27
    lius931115  
       2018-06-26 16:05:53 +08:00
    写 spark SQL 和 spark Streaming 的多吗? 各位大佬们!
    hackpro
        28
    hackpro  
       2018-06-26 16:38:18 +08:00
    60%以上的时间在 Data Cleaning 俗称 Data Augument
    bk201
        29
    bk201  
       2018-06-26 17:06:05 +08:00   ❤️ 1
    @applehater 你这理解有问题,和 CURD 无关,大多数都是统计计算,非要关联的话就是查
    superbiger
        30
    superbiger  
       2018-06-26 17:34:43 +08:00
    大量 sql,很多正则,说是计算全是过滤
    arctanx
        31
    arctanx  
       2018-06-26 17:36:33 +08:00
    爬虫->mongodb->elasticsearch->网站后端

    ...我都不知道我算不算大数据码农
    defunct9
        32
    defunct9  
       2018-06-26 17:41:53 +08:00
    吃饭,睡觉,打豆豆
    southsala
        33
    southsala  
       2018-06-26 18:03:46 +08:00
    @wtf94666 你们什么公司啊 我在我们公司推广碧蓝航线推不出去
    WinMain
        34
    WinMain  
       2018-06-26 18:07:15 +08:00
    我们组那位大数据童鞋用 spark 等工具处理 kafka 等地方的数据,出报表,比如 app 相关的点击率,转化率,时常统计等,还有给推荐算法搜索算法童鞋做点数据前期处理的工作。
    renzongxian
        35
    renzongxian  
       2018-06-26 18:24:10 +08:00 via iPhone
    用 HQL、MR 处理数据,ETL,找 bug,改 bug
    fuyufjh
        36
    fuyufjh  
       2018-06-26 21:49:39 +08:00 via Android
    大部分是 ETL 工程师,少部分是写框架的
    z3jjlzt
        37
    z3jjlzt  
       2018-06-27 08:56:22 +08:00
    sql curd 只有 r。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2799 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 13:37 · PVG 21:37 · LAX 05:37 · JFK 08:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.