V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
nower
V2EX  ›  程序员

技能互换,求 Hadoop/MapReduce 小伙伴

  •  
  •   nower ·
    UsingtcNower · 2015-09-11 13:27:40 +08:00 · 3478 次点击
    这是一个创建于 3396 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有没有做过 Hadoop/MapReduce 实际应用的 v 友呢?跪求小伙伴传授入门经验。我是做体感人机交互、虚拟现实的,如果你也对此感兴趣,那就更好不过了。

    16 条回复    2015-09-12 05:34:05 +08:00
    Geoion
        1
    Geoion  
       2015-09-11 14:05:35 +08:00
    先 mark
    xsjguagua
        2
    xsjguagua  
       2015-09-11 17:30:41 +08:00
    天天撸这个。。但很好奇,这 hadoop 和 lz 的虚拟现实方式有什么交集呢?
    xunyu
        3
    xunyu  
       2015-09-11 17:34:51 +08:00 via Android
    mark, 楼主瓶颈在哪里
    loryyang
        4
    loryyang  
       2015-09-11 17:55:57 +08:00
    hadoop 这种成熟的技术,自学就行了,多看看书,有时间的话看看源码,写几个 MR 。
    说实话,实际场景遇到的问题,大部分自己是没法遇到的,因为你根本搭不起那么大的集群,这种经验只能去看别人写的文章或者去公司里面工作才能遇到
    defunct9
        5
    defunct9  
       2015-09-11 18:48:28 +08:00 via Android
    管理过 600 节点(实体机)的 hadoop 集群,貌似开发人员用的多数是 hive 和 r
    nower
        6
    nower  
    OP
       2015-09-11 20:09:04 +08:00
    @xsjguagua ,机器视觉
    nower
        7
    nower  
    OP
       2015-09-11 20:10:25 +08:00
    @defunct9 能否说一下业务场景呢?
    vietor
        8
    vietor  
       2015-09-11 20:42:14 +08:00 via Android
    spark 呀
    defunct9
        9
    defunct9  
       2015-09-11 20:58:56 +08:00 via iPad
    @nower 我是运维.负责搭环境.貌似各种奇怪的玩意都装, storm , spark , facebook 的。但他门用的最多是 hive 。跑定时任务,好像是出数
    xsjguagua
        10
    xsjguagua  
       2015-09-11 21:20:47 +08:00
    @nower 你是想搞分布式的图像识别模型训练么,这技术本身难度就不小。但即使不谈技术,你想快速的出模型,进行使用的话,集群资源也是问题啊
    nower
        11
    nower  
    OP
       2015-09-11 21:34:58 +08:00
    @xsjguagua 目标图像较单一,是深度图,降低了技术难度。模型是随机森林
    laozhao0
        12
    laozhao0  
       2015-09-11 21:36:15 +08:00
    我是搞 hadoop 的,也是在数百台的集群上跑,好像每台机器内存 64G ,每天有数十 TB 的数据产生。
    实际中如 @defunct9 所说,大多数时候用 hive , hadoop MR 一般写好一次就不管了,最多换一下配置文件。 MR 输出的文件 location 到 hive 表目录下,使用 hive 进行统计查询。 hive 的话,只要会写 SQL 语句,就没有入门的门槛。
    所以,其实作为一般分析人员,没什么难度的,最多用 java 写一个 UDF ,或者用 python 写一个 streaming 。
    更深的,我也不太懂。
    现在可以学 spark 啊,简单又方便。
    xsjguagua
        13
    xsjguagua  
       2015-09-11 22:02:48 +08:00
    @nower 如果图像简单的话,那单机训练出模型就可以了啊,使用的时候过模型的速度是很快的,即使要 online learning 的速度也是可以的。 mr 那套是离线处理,速度不够的
    1000copy
        14
    1000copy  
       2015-09-11 23:25:26 +08:00
    互换技术,多新颖的想法。
    xunyu
        15
    xunyu  
       2015-09-11 23:30:42 +08:00 via Android
    用 mesos spark 可能更符合你的需要, hadoop 落盘计算效率堪忧
    AgentK
        16
    AgentK  
       2015-09-12 05:34:05 +08:00
    怎么换? 像武侠片一样把功力传给我吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2390 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 15:59 · PVG 23:59 · LAX 07:59 · JFK 10:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.